0% found this document useful (0 votes)
48 views7 pages

Act2.1 FTM

Ensayo
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
48 views7 pages

Act2.1 FTM

Ensayo
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 7

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN

ACTIVIDAD 2.1

Materia: Análisis de datos


2.1 - Actividad 2.1: Reporte de análisis exploratorio de datos sobre una serie de
pandas.

Lic. En Administración
Semestre: 6to Grupo: DFA

Maestro: Figueroa Garza Federico Guadalupe

Alumna:

1977827 Fernanda Treviño Montemayor

Ciudad Universitaria, 18 de septiembre 2024


Introducción

El análisis de datos juega un papel crucial en la comprensión de patrones y tendencias


dentro de conjuntos de datos. En este caso, hemos explorado una serie de pandas que
contiene información sobre gastos semanales. Utilizando técnicas de análisis
descriptivo, hemos examinado la tendencia central y la dispersión de estos gastos para
obtener información valiosa. La serie de pandas nos permite gestionar y manipular datos
de manera eficiente, facilitando el análisis estadístico. Al identificar las semanas con los
mayores y menores gastos, así como la variabilidad en los mismos, podemos tomar
decisiones informadas sobre la gestión financiera y la planificación futura.

El análisis de datos se ha convertido en una herramienta esencial en múltiples


disciplinas, desde la economía hasta la ciencia, pasando por la salud y la educación.
Con la llegada de grandes volúmenes de datos, la capacidad para extraer información
significativa de estos conjuntos ha tomado una relevancia sin precedentes. La
biblioteca de Python, pandas, se presenta como una solución poderosa y versátil para
la manipulación y el análisis de datos. En este contexto, el uso de una serie de pandas
permite gestionar datos unidimensionales de manera eficaz, facilitando la realización
de operaciones estadísticas y el manejo de distintos formatos de datos.

Una serie de pandas es una estructura de datos similar a una lista, pero con la
capacidad de asociar etiquetas a cada elemento, lo que permite un acceso y análisis
más intuitivo. Esto es particularmente útil en el análisis de tendencias a lo largo del
tiempo, donde cada punto de datos puede corresponder a un período específico. En
este caso, hemos analizado una serie que representa gastos semanales, algo común
en la gestión financiera personal y empresarial. La tarea de desglosar estos gastos
semanales implica un enfoque sistemático que atraviesa desde la limpieza de datos
hasta la visualización de resultados.

El análisis descriptivo que realizaremos abarca varios aspectos fundamentales, como


la tendencia central, que incluye la media y la mediana, y la dispersión, representada
por la varianza y la desviación estándar. Estos conceptos nos ayudarán a comprender
no solo el gasto promedio, sino también la variabilidad y la consistencia a lo largo del
periodo analizado. A través de este análisis, es posible identificar patrones de
comportamiento en el gasto, así como relaciones potenciales que puedan existir con
eventos externos, como cambios de temporada, festividades o variaciones en los
ingresos.

Este análisis de la serie de pandas no solo es pertinente para evaluar los gastos
específicos en un plazo determinado, sino que también proporciona una base sólida
para futuras investigaciones y mejoras en la planificación financiera. Al mejorar
nuestra capacidad para interpretar los datos a través de técnicas analíticas rigurosas,
estamos mejor posicionados para enfrentarnos a los desafíos económicos, optimizar
recursos y, en última instancia, alcanzar una mayor estabilidad financiera.
Reporte de Análisis Exploratorio de Datos

1. Importación de Bibliotecas

python

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

2. Carga de Datos

python

# Cargar tus datos en un DataFrame

data = pd.read_csv('ruta/a/tu/archivo.csv')

3. Resumen de Datos

- Forma del DataFrame: `data.shape`

- Primera fila: `data.head()`

- Descripción estadística: `data.describe()`

- Información del DataFrame: `data.info()`


4. Análisis de Datos Faltantes

python

missing_data = data.isnull().sum()

print(missing_data[missing_data > 0])

5. Análisis Univariante

- Distribución de columnas numéricas:

python

data.hist(bins=30, figsize=(15, 10))

plt.tight_layout()

plt.show()

- Visualización de columnas categóricas:

python

sns.countplot(x='nombre_columna', data=data)

plt.show()

6. Análisis Bivariante

- Correlación entre variables numéricas:

python

correlation_matrix = data.corr()

sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')

plt.show()
- Gráficos de dispersión:

python

sns.scatterplot(x='columna_x', y='columna_y', data=data)

plt.show()

1. Cargar los Datos en una Serie de Pandas

Archivo “CSV”, contiene una columna llamada "gastos_semanales".

Serie:

python
import pandas as pd

# Cargar el archivo CSV


data = pd.read_csv('ruta/a/tu/archivo.csv')

# Cargar la columna en una Serie


gastos_semanales = pd.Series(data['gastos_semanales'])

2. Explorar los Datos

Para obtener información sobre la Serie, hay que verificar si hay valores faltantes o anomalías:

python
# Información de la Serie
print(gastos_semanales.describe())
print(gastos_semanales.isnull().sum()) # Contar valores faltantes
print(gastos_semanales[gastos_semanales < 0]) # Anomalías (si los gastos son negativos)

3. Cálculo de Estadísticos Descriptivos

Estadísticos de Tendencia Central:

-Media:

python
media = gastos_semanales.mean()
print(f"Media: {media}")

-Mediana:

python
mediana = gastos_semanales.median()
print(f"Mediana: {mediana}")
Estadísticos de Dispersión

Rango Intercuartílico (IQR):

python
iqr = gastos_semanales.quantile(0.75) - gastos_semanales.quantile(0.25)
print(f"Rango Intercuartílico: {iqr}")
```

Desviación Estándar:

python
desviacion_estandar = gastos_semanales.std()
print(f"Desviación Estándar: {desviacion_estandar}")

4. Interpretación de los Resultados

Analizar los resultados:

Gastos más altos y bajos

Identificar las semanas con los gastos más altos y bajos usando `nlargest` y `nsmallest`:

python
gastos_mas_altos = gastos_semanales.nlargest(5)
gastos_mas_bajos = gastos_semanales.nsmallest(5)
print("Gastos más altos:\n", gastos_mas_altos)
print("Gastos más bajos:\n", gastos_mas_bajos)

Variabilidad en los gastos:

La desviación estándar dará una idea de la variabilidad en los gastos. Un valor alto indica que
los gastos semanales varían ampliamente, mientras que un valor bajo indica que los gastos son
relativamente consistentes.

python
print(f"Desviación Estándar: {desviacion_estandar}")

Resumen de la Interpretación:

1. Gastos más altos y bajos: Los resultados de los gastos más altos y más bajos indicarán
cuáles semanas tuvieron esos extremos.
2. Variabilidad: Un rango intercuartílico (IQR) y una desviación estándar alta indicarían que hay
semanas con gastos significativamente distintos de los demás.
Conclusión:

El análisis de la serie de pandas reveló información clave sobre los gastos semanales.
Al calcular la media y la mediana, encontramos un punto central alrededor del cual se
distribuyen los gastos. Mientras tanto, el rango intercuartílico y la desviación estándar
nos proporcionaron una visión de la variabilidad en los gastos, indicando cómo se
distribuyen estas cifras a lo largo del tiempo. Las semanas con los gastos más altos y
más bajos nos ofrecen un contexto para entender influencias externas o decisiones de
gasto significativas. Este análisis no solo ayuda a identificar patrones en el
comportamiento financiero, sino que también puede ser esencial para establecer
estrategias de ahorro y optimización de recursos en el futuro. La capacidad de trabajar
con pandas facilita dicho análisis, convirtiéndolo en una herramienta indispensable para
el manejo de datos en diversas disciplinas.

You might also like