Minería de datos_Unidad III_PCA
Minería de datos_Unidad III_PCA
Minería de datos_Unidad III_PCA
𝑝
𝐶𝑃2 = 𝑓12 𝑋1 + 𝑓22 𝑋2 + ⋯ + 𝑓𝑝2 𝑋𝑝
𝑓𝑖𝑗 2 = 1 Para j de 1 a k
𝑖=1
𝐶𝑃𝑘 = 𝑓1𝑘 𝑋1 + 𝑓2𝑘 𝑋2 + ⋯ + 𝑓𝑝𝑘 𝑋𝑝
Los términos fij reciben el nombre de loadings o pesos y son los que definen a la
componente. Pueden interpretarse como el peso/importancia que tiene cada variable en
cada componente y, por lo tanto, ayudan a conocer qué tipo de información recoge cada
una de ellas.
Componentes Principales
Interpretación geométrica
Supóngase un conjunto de observaciones para las que se dispone de dos variables (X1,
X2). El vector que define la primera componente principal sigue la dirección en la que
las observaciones varían más (línea roja). La proyección de cada observación sobre esa
dirección equivale al valor de la primera componente para dicha observación.
Componentes Principales
Interpretación geométrica
La segunda componente sigue la segunda dirección en la que los datos muestran mayor
varianza y que no está correlacionada con la primera componente. La condición de no
correlación entre componentes principales equivale a decir que sus direcciones son
perpendiculares/ortogonales.
Componentes Principales
Eigenvectors o autovectores
✓ Los autovectores de una matriz son todos aquellos vectores que, al multiplicarlos por
dicha matriz, resultan en el mismo vector o en un múltiplo entero del mismo.
✓ Tienen una serie de propiedades matemáticas específicas:
• Los autovectores solo existen para matrices cuadradas. En el caso de que una
matriz n x n tenga autovectores, el número de ellos es n.
• Si se escala un autovector antes de multiplicarlo por la matriz, se obtiene un
múltiplo del mismo autovector. Dada esta propiedad, es frecuente escalarlos de tal
forma que su longitud sea 1.
•Todos los autovectores de una matriz son perpendiculares (ortogonales) entre ellos.
Componentes Principales
Eigenvalues o autovalores
✓ Cuando se multiplica una matriz por alguno de sus autovectores se obtiene un
múltiplo del vector original, es decir, el resultado es ese mismo vector multiplicado
por un número. Al valor por el que se multiplica el autovector resultante se le conoce
como autovalor.
Análisis de Componentes Principales (Principal Component Analysis, PCA) y t-SNE by Joaquín Amat Rodrigo, available at
https://www.cienciadedatos.net/documentos/35_principal_component_analysis
Componentes Principales
Definición matricial
• El escalar λ es autovalor de A si existe v <> 0 tal que Av = λv .
• El vector v es autovector de A asociado a λ si Av = λv .
det(A-λI) = 0
Componentes Principales
Aplicando la función de
estandarización a cada variable
se obtiene el siguiente dataset
Componentes Principales
Ventajas y desventajas
Ventajas
✓ Facilita la visualización de datos en datasets con muchas variables.
✓ De gran utilidad en la reducción de la dimensionalidad, para un posterior uso en
la construcción de otro modelo.
Desventajas
✓ Método solo para variables cuantitativas.
✓ Al trabajar con varianzas, el método PCA es altamente sensible a outliers, por lo
que es recomendable estudiar si los hay.
✓ Su efectividad es mayor cuanto mayor correlación exista entre las variables.
Componentes Principales
sklearn.decomposition.PCA
✓ n_components: int o float, default=None. Número de components a retener.
• Se puede definir la cantidad de componentes Ej: pca=PCA(n_components=3)
• Otra opción es generar PCA nuevas hasta obtener un mínimo "explicado" ej.: pca=PCA(.85)
https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html
Componentes Principales
Ejemplo
Datos Wine
Estos datos son el resultado de un análisis químico de vinos cultivados en la misma
región de Italia pero derivados de tres cultivares diferentes. El análisis determinó las
cantidades de 13 constituyentes que se encuentran en cada uno de los tres tipos de
vinos. Los campos son:
1) Alcohol 8) Nonflavanoid phenols (fenoles no flavonoides)
2) Malic acid (ácido málico) 9) Proanthocyanins (proantocianinas)
3) Ash (ceniza) 10)Color intensity (intensidad del color)
4) Alcalinity of ash (alcalinidad de la ceniza) 11)Hue (matiz o color)
5) Magnesium (magnesio) 12)OD280/OD315 of diluted wines
6) Total phenols (fenoles totales) 13)Proline (prolina)
7) Flavanoids (Flavonoide) 14) Tipo de vino (cultivar)
Componentes Principales
Práctica 6
Datos Menues Mc Donalds
El data set “Menues Mc Donalds.csv” proporciona un análisis nutricional de cada
elemento del menú de McDonald's, incluido el desayuno, las hamburguesas, las
papas fritas, las ensaladas, las gaseosas, el café, el té, los batidos y los postres.
Las variables son:
✓ Categoría del Menú ✓ Grasa trans
✓ Nombre del Menú ✓ Colesterol
✓ Tamaño de la porción ✓ Carbohidratos
✓ Calorías ✓ Azúcares
✓ Proteínas ✓ Azúcares agregadas
✓ Grasa total ✓ Sodio
✓ Grasa saturada
Componentes Principales
Práctica 6
1. Importar el archivo "Menues Mc Donalds.csv“.
2. Separar las 3 primeras variables del resto.
3. Ver las distribuciones de las variables cuantitativas.
4. Analizar correlaciones.
5. Estandarizar los datos.
6. Reducir la dimensionalidad de los datos aplicando PCA. ¿Qué cantidad de
componentes selecciona? ¿Por qué?
7. Analizar las características de las componentes.
8. Graficar las dos primeras componentes con la Categoría.
¿Qué se observa?
Componentes Principales
Práctica 7
Datos Clasificación de vidrios
Práctica 7
1. Importar el archivo “glass.csv“.
2. Separar la columna “Type”.
3. Ver las distribuciones de las variables cuantitativas y analizar correlaciones.
4. Estandarizar los datos.
5. Obtener 4 componentes principales. ¿Qué porcentaje de la variabilidad total
explican?
6. Analizar las características de las componentes.
7. Graficar las dos primeras componentes con el tipo de vidrio. ¿Qué se observa?
8. Agrupar los tipos de vidrio y volver a graficar.
Componentes Principales
Práctica 8
Datos Tipo de Vehículo
Se cuenta con el dataset “Types of Vehicle”, creado con el objetivo de clasificar un
vehículo determinado como uno de los tres tipos de vehículos (car, van o bus),
utilizando un conjunto de 18 características extraídas de la silueta. El vehículo se
puede ver desde uno de muchos ángulos diferentes.
Las variables son:
1. compactness 10. max.length_rectangularity
2. circularity 11. scaled_variance
3. distance_circularity 12. scaled_variance.1
4. radius_ratio 13. scaled_radius_of_gyration
5. pr.axis_aspect_ratio 14. scaled_radius_of_gyration.1
6. max.length_aspect_ratio 15. skewness_about
7. scatter_ratio 16. skewness_about.1
8. elongatedness 17. skewness_about.2
9. pr.axis_rectangularity 18. hollows_ratio
Componentes Principales
Práctica 8
1. Importar el archivo "Types of Vehicle.csv“.
2. Separar la variable Class del resto.
3. ¿Hay valores perdidos? En caso de que haya, reemplazarlos por la media.
4. Ver las distribuciones de las variables.
5. Visualizar las correlaciones entre campos.
6. Estandarizar los datos.
7. Reducir la dimensionalidad de los datos aplicando PCA. Determinar las
componentes necesarias para explicar el 85% de los datos.
8. Analizar las características de las componentes.
9. Graficar las dos primeras componentes con la Clase.
¿Qué se observa?