UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN                   FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN
ACTIVIDAD 2.1
                                 Materia: Análisis de datos
2.1 - Actividad 2.1: Reporte de análisis exploratorio de datos sobre una serie de
                                     pandas.
                                   Lic. En Administración
                                 Semestre: 6to Grupo: DFA
                    Maestro: Figueroa Garza Federico Guadalupe
                                 Alumna:
                                 1977827 Fernanda Treviño Montemayor
                          Ciudad Universitaria, 18 de septiembre 2024
Introducción
El análisis de datos juega un papel crucial en la comprensión de patrones y tendencias
dentro de conjuntos de datos. En este caso, hemos explorado una serie de pandas que
contiene información sobre gastos semanales. Utilizando técnicas de análisis
descriptivo, hemos examinado la tendencia central y la dispersión de estos gastos para
obtener información valiosa. La serie de pandas nos permite gestionar y manipular datos
de manera eficiente, facilitando el análisis estadístico. Al identificar las semanas con los
mayores y menores gastos, así como la variabilidad en los mismos, podemos tomar
decisiones informadas sobre la gestión financiera y la planificación futura.
El análisis de datos se ha convertido en una herramienta esencial en múltiples
disciplinas, desde la economía hasta la ciencia, pasando por la salud y la educación.
Con la llegada de grandes volúmenes de datos, la capacidad para extraer información
significativa de estos conjuntos ha tomado una relevancia sin precedentes. La
biblioteca de Python, pandas, se presenta como una solución poderosa y versátil para
la manipulación y el análisis de datos. En este contexto, el uso de una serie de pandas
permite gestionar datos unidimensionales de manera eficaz, facilitando la realización
de operaciones estadísticas y el manejo de distintos formatos de datos.
Una serie de pandas es una estructura de datos similar a una lista, pero con la
capacidad de asociar etiquetas a cada elemento, lo que permite un acceso y análisis
más intuitivo. Esto es particularmente útil en el análisis de tendencias a lo largo del
tiempo, donde cada punto de datos puede corresponder a un período específico. En
este caso, hemos analizado una serie que representa gastos semanales, algo común
en la gestión financiera personal y empresarial. La tarea de desglosar estos gastos
semanales implica un enfoque sistemático que atraviesa desde la limpieza de datos
hasta la visualización de resultados.
El análisis descriptivo que realizaremos abarca varios aspectos fundamentales, como
la tendencia central, que incluye la media y la mediana, y la dispersión, representada
por la varianza y la desviación estándar. Estos conceptos nos ayudarán a comprender
no solo el gasto promedio, sino también la variabilidad y la consistencia a lo largo del
periodo analizado. A través de este análisis, es posible identificar patrones de
comportamiento en el gasto, así como relaciones potenciales que puedan existir con
eventos externos, como cambios de temporada, festividades o variaciones en los
ingresos.
Este análisis de la serie de pandas no solo es pertinente para evaluar los gastos
específicos en un plazo determinado, sino que también proporciona una base sólida
para futuras investigaciones y mejoras en la planificación financiera. Al mejorar
nuestra capacidad para interpretar los datos a través de técnicas analíticas rigurosas,
estamos mejor posicionados para enfrentarnos a los desafíos económicos, optimizar
recursos y, en última instancia, alcanzar una mayor estabilidad financiera.
Reporte de Análisis Exploratorio de Datos
1. Importación de Bibliotecas
python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
2. Carga de Datos
python
# Cargar tus datos en un DataFrame
data = pd.read_csv('ruta/a/tu/archivo.csv')
3. Resumen de Datos
- Forma del DataFrame: `data.shape`
- Primera fila: `data.head()`
- Descripción estadística: `data.describe()`
- Información del DataFrame: `data.info()`
4. Análisis de Datos Faltantes
python
missing_data = data.isnull().sum()
print(missing_data[missing_data > 0])
5. Análisis Univariante
- Distribución de columnas numéricas:
 python
 data.hist(bins=30, figsize=(15, 10))
 plt.tight_layout()
 plt.show()
- Visualización de columnas categóricas:
 python
 sns.countplot(x='nombre_columna', data=data)
 plt.show()
6. Análisis Bivariante
- Correlación entre variables numéricas:
 python
 correlation_matrix = data.corr()
 sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
 plt.show()
- Gráficos de dispersión:
 python
 sns.scatterplot(x='columna_x', y='columna_y', data=data)
 plt.show()
1. Cargar los Datos en una Serie de Pandas
Archivo “CSV”, contiene una columna llamada "gastos_semanales".
Serie:
python
import pandas as pd
# Cargar el archivo CSV
data = pd.read_csv('ruta/a/tu/archivo.csv')
# Cargar la columna en una Serie
gastos_semanales = pd.Series(data['gastos_semanales'])
2. Explorar los Datos
Para obtener información sobre la Serie, hay que verificar si hay valores faltantes o anomalías:
python
# Información de la Serie
print(gastos_semanales.describe())
print(gastos_semanales.isnull().sum()) # Contar valores faltantes
print(gastos_semanales[gastos_semanales < 0]) # Anomalías (si los gastos son negativos)
3. Cálculo de Estadísticos Descriptivos
Estadísticos de Tendencia Central:
-Media:
python
media = gastos_semanales.mean()
print(f"Media: {media}")
-Mediana:
python
mediana = gastos_semanales.median()
print(f"Mediana: {mediana}")
Estadísticos de Dispersión
Rango Intercuartílico (IQR):
python
iqr = gastos_semanales.quantile(0.75) - gastos_semanales.quantile(0.25)
print(f"Rango Intercuartílico: {iqr}")
```
Desviación Estándar:
python
desviacion_estandar = gastos_semanales.std()
print(f"Desviación Estándar: {desviacion_estandar}")
4. Interpretación de los Resultados
Analizar los resultados:
Gastos más altos y bajos
Identificar las semanas con los gastos más altos y bajos usando `nlargest` y `nsmallest`:
python
gastos_mas_altos = gastos_semanales.nlargest(5)
gastos_mas_bajos = gastos_semanales.nsmallest(5)
print("Gastos más altos:\n", gastos_mas_altos)
print("Gastos más bajos:\n", gastos_mas_bajos)
Variabilidad en los gastos:
La desviación estándar dará una idea de la variabilidad en los gastos. Un valor alto indica que
los gastos semanales varían ampliamente, mientras que un valor bajo indica que los gastos son
relativamente consistentes.
python
print(f"Desviación Estándar: {desviacion_estandar}")
Resumen de la Interpretación:
1. Gastos más altos y bajos: Los resultados de los gastos más altos y más bajos indicarán
cuáles semanas tuvieron esos extremos.
2. Variabilidad: Un rango intercuartílico (IQR) y una desviación estándar alta indicarían que hay
semanas con gastos significativamente distintos de los demás.
Conclusión:
El análisis de la serie de pandas reveló información clave sobre los gastos semanales.
Al calcular la media y la mediana, encontramos un punto central alrededor del cual se
distribuyen los gastos. Mientras tanto, el rango intercuartílico y la desviación estándar
nos proporcionaron una visión de la variabilidad en los gastos, indicando cómo se
distribuyen estas cifras a lo largo del tiempo. Las semanas con los gastos más altos y
más bajos nos ofrecen un contexto para entender influencias externas o decisiones de
gasto significativas. Este análisis no solo ayuda a identificar patrones en el
comportamiento financiero, sino que también puede ser esencial para establecer
estrategias de ahorro y optimización de recursos en el futuro. La capacidad de trabajar
con pandas facilita dicho análisis, convirtiéndolo en una herramienta indispensable para
el manejo de datos en diversas disciplinas.