Minería de datos_Unidad III_PCA

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 32

MINERÍA DE DATOS

Facultad de Ciencias Exactas, Ingeniería y


Agrimensura - UNR

Lic. María Eugenia Fernández de Luco


2024
Temario

Unidad III. Aprendizaje no supervisado. Modelos Descriptivos.


1. Reglas de Asociación. Definiciones. Construcción de las reglas. Algoritmo A priori.
2. Reducción de dimensionalidad: Análisis de componentes principales (PCA).
3. Métodos de Aglomeramiento (Clustering): Métodos jerárquicos y no jerárquicos. Distancias.
Dendrogramas. Algoritmo K-means.
Métodos no supervisados
ANÁLISIS DE COMPONENTES
PRINCIPALES
Componentes Principales (PCA)
✓ El Análisis de Componentes Principales es un método
estadístico para la reducción de dimensionalidad.
✓ Es un procedimiento que utiliza una transformación
ortogonal para convertir un conjunto de
observaciones de variables posiblemente
correlacionadas, en un conjunto de valores de
variables linealmente no correlacionadas, llamadas
componentes principales.
✓ Se aplica a variables cuantitativas.
Componentes Principales (PCA)
Usos:
✓ Puede ser utilizado para identificar patrones en
datasets complejos, y para identificar cuáles son las
variables más importantes.
✓ VISUALIZACIÓN: También puede ser utilizado para
simplificar las visualizaciones de datasets con
muchas variables.
✓ REDUCCIÓN DE DIMENSIONALIDAD: El
método permite “condensar” la información aportada
por múltiples variables en solo unas pocas
componentes. Esto lo convierte en un método muy útil
de aplicar previa utilización de otras técnicas
estadísticas tales como regresión (eliminación de
multicolinealidad) o clustering.
Componentes Principales (PCA)
• Permite simplificar la complejidad de datasets con muchas variables, a la
vez que conserva su información.
• Supóngase que existe una muestra con n individuos cada uno con p
variables (X1, X2, …, Xp).
• PCA permite encontrar un número de factores subyacentes (k<p), que
explican aproximadamente lo mismo que las p variables originales. Donde
antes se necesitaban p valores para caracterizar a cada individuo, ahora
bastan k valores.
• Cada Componente principal representa un porcentaje de la variación total
de los datos.
• La primera componente es la que tiene mayor variabilidad. Cada
componente principal subsiguiente es ortogonal al anterior y tiene una
variación menor.
Componentes Principales (PCA)
Cada componente principal se obtiene por combinación lineal de las variables originales.
Se pueden entender como nuevas variables obtenidas al combinar de una determinada
forma las variables originales.

𝐶𝑃1 = 𝑓11 𝑋1 + 𝑓21 𝑋2 + ⋯ + 𝑓𝑝1 𝑋𝑝

𝑝
𝐶𝑃2 = 𝑓12 𝑋1 + 𝑓22 𝑋2 + ⋯ + 𝑓𝑝2 𝑋𝑝
෍ 𝑓𝑖𝑗 2 = 1 Para j de 1 a k
𝑖=1
𝐶𝑃𝑘 = 𝑓1𝑘 𝑋1 + 𝑓2𝑘 𝑋2 + ⋯ + 𝑓𝑝𝑘 𝑋𝑝

Los términos fij reciben el nombre de loadings o pesos y son los que definen a la
componente. Pueden interpretarse como el peso/importancia que tiene cada variable en
cada componente y, por lo tanto, ayudan a conocer qué tipo de información recoge cada
una de ellas.
Componentes Principales

Interpretación geométrica
Supóngase un conjunto de observaciones para las que se dispone de dos variables (X1,
X2). El vector que define la primera componente principal sigue la dirección en la que
las observaciones varían más (línea roja). La proyección de cada observación sobre esa
dirección equivale al valor de la primera componente para dicha observación.
Componentes Principales

Interpretación geométrica
La segunda componente sigue la segunda dirección en la que los datos muestran mayor
varianza y que no está correlacionada con la primera componente. La condición de no
correlación entre componentes principales equivale a decir que sus direcciones son
perpendiculares/ortogonales.
Componentes Principales

Proporción de varianza explicada


¿Cuánta información presente en el set de datos original se pierde al proyectar las
observaciones en un espacio de menor dimensión?
¿Cuanta información es capaz de capturar cada una de las componentes principales
obtenidas?
Diagrama Scree o de sedimentación
𝑝 𝑝

෍ 𝑉𝑎𝑟 𝑋𝑖 = ෍ 𝑉𝑎𝑟 𝐶𝑃𝑗


𝑖=1 𝑗=1

σ𝑘𝑗=1 𝑉𝑎𝑟 𝐶𝑃𝑗


𝑉𝑎𝑟𝑘 =
σ𝑝𝑖=1 𝑉𝑎𝑟 𝑋𝑖
Componentes Principales

Eigenvectors o autovectores

✓ Los autovectores de una matriz son todos aquellos vectores que, al multiplicarlos por
dicha matriz, resultan en el mismo vector o en un múltiplo entero del mismo.
✓ Tienen una serie de propiedades matemáticas específicas:
• Los autovectores solo existen para matrices cuadradas. En el caso de que una
matriz n x n tenga autovectores, el número de ellos es n.
• Si se escala un autovector antes de multiplicarlo por la matriz, se obtiene un
múltiplo del mismo autovector. Dada esta propiedad, es frecuente escalarlos de tal
forma que su longitud sea 1.
•Todos los autovectores de una matriz son perpendiculares (ortogonales) entre ellos.
Componentes Principales

Eigenvalues o autovalores
✓ Cuando se multiplica una matriz por alguno de sus autovectores se obtiene un
múltiplo del vector original, es decir, el resultado es ese mismo vector multiplicado
por un número. Al valor por el que se multiplica el autovector resultante se le conoce
como autovalor.

✓ A todo autovector le corresponde un autovalor y viceversa.

✓ En el método PCA, cada una de las componentes se corresponde con un autovector,


y el orden de componente se establece por orden decreciente de autovalor. Por lo
tanto, la primera componente es el autovector con el autovalor asociado más alto.

Análisis de Componentes Principales (Principal Component Analysis, PCA) y t-SNE by Joaquín Amat Rodrigo, available at
https://www.cienciadedatos.net/documentos/35_principal_component_analysis
Componentes Principales

Definición matricial
• El escalar λ es autovalor de A si existe v <> 0 tal que Av = λv .
• El vector v es autovector de A asociado a λ si Av = λv .

A es una matriz cuadrada, v un vector y λ un escalar que satisfice Aν = λν,


entonces λ se llama autovalor asociado al vector v de A.

Reordenando la ecuación: Aν-λν =0 ; (A-λI)ν = 0

Como v es distinto de 0, la ecuación se cumple solo si

det(A-λI) = 0
Componentes Principales

Pasos del Método


1) Estandarizar el dataset.

2) Calcular la matriz de covarianzas para las variables del dataset.

3) Calcular los auto-valores (eigenvalues) y los auto-vectores (eigenvectors)


para la matriz de covarianzas.

4) Ordenar los auto-valores en los correspondientes auto-vectores.

5) Tomar los k auto-vectores y armar la matriz de auto-vectores.

6) Transformar a matriz original.


Componentes Principales

Paso 1 – Estandarizar el dataset


Se cuenta con el siguiente dataset con 5 registros (individuos) y 4 variables.

Aplicando la función de
estandarización a cada variable
se obtiene el siguiente dataset
Componentes Principales

Paso 2 – Cálculo de la Matriz de Covarianzas


Esta matriz se debe calcular para el dataset completo.

Aplicando el procedimiento a todas las variables, se obtiene la siguiente matriz.


Componentes Principales

Paso 3 – Cálculo de autovalores y autovectores


De las definiciones se tiene que A-λI=0

El cálculo del determinante devolverá un polinomio de grado 4, el cual se factoriza para


obtener los valores de λ

λ = 2.51579324 , 1.0652885 , 0.39388704 , 0.02503121


Componentes Principales

Paso 3 – Cálculo de autovalores y autovectores


Se resuelve la ecuación (A-λI)ν = 0 y se calculan los autovectores para cada valor de λ.

Se obtiene la siguiente matriz


Componentes Principales

Paso 4 – Ordenar autovalores y sus autovectores


En nuestro caso ya estaban ordenados

λ = 2.51579324 , 1.0652885 , 0.39388704 , 0.02503121


Componentes Principales

Paso 5 – Elección de k autovectores


Se seleccionan los dos primeros ya que es la dimensionalidad que se desea obtener
Componentes Principales - Método

Paso 6 – Transformación de la matriz original

Matriz de variables estandarizadas * Matriz de autovectores = Datos Transformados

Se ha reducido el dataset de una dimensionalidad de 4 a 2.


Componentes Principales

Ventajas y desventajas
Ventajas
✓ Facilita la visualización de datos en datasets con muchas variables.
✓ De gran utilidad en la reducción de la dimensionalidad, para un posterior uso en
la construcción de otro modelo.

Desventajas
✓ Método solo para variables cuantitativas.
✓ Al trabajar con varianzas, el método PCA es altamente sensible a outliers, por lo
que es recomendable estudiar si los hay.
✓ Su efectividad es mayor cuanto mayor correlación exista entre las variables.
Componentes Principales

PCA con Python


Componentes Principales

PCA con Python

sklearn.decomposition.PCA
✓ n_components: int o float, default=None. Número de components a retener.
• Se puede definir la cantidad de componentes Ej: pca=PCA(n_components=3)
• Otra opción es generar PCA nuevas hasta obtener un mínimo "explicado" ej.: pca=PCA(.85)

https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html
Componentes Principales

Ejemplo
Datos Wine
Estos datos son el resultado de un análisis químico de vinos cultivados en la misma
región de Italia pero derivados de tres cultivares diferentes. El análisis determinó las
cantidades de 13 constituyentes que se encuentran en cada uno de los tres tipos de
vinos. Los campos son:
1) Alcohol 8) Nonflavanoid phenols (fenoles no flavonoides)
2) Malic acid (ácido málico) 9) Proanthocyanins (proantocianinas)
3) Ash (ceniza) 10)Color intensity (intensidad del color)
4) Alcalinity of ash (alcalinidad de la ceniza) 11)Hue (matiz o color)
5) Magnesium (magnesio) 12)OD280/OD315 of diluted wines
6) Total phenols (fenoles totales) 13)Proline (prolina)
7) Flavanoids (Flavonoide) 14) Tipo de vino (cultivar)
Componentes Principales

Práctica 6
Datos Menues Mc Donalds
El data set “Menues Mc Donalds.csv” proporciona un análisis nutricional de cada
elemento del menú de McDonald's, incluido el desayuno, las hamburguesas, las
papas fritas, las ensaladas, las gaseosas, el café, el té, los batidos y los postres.
Las variables son:
✓ Categoría del Menú ✓ Grasa trans
✓ Nombre del Menú ✓ Colesterol
✓ Tamaño de la porción ✓ Carbohidratos
✓ Calorías ✓ Azúcares
✓ Proteínas ✓ Azúcares agregadas
✓ Grasa total ✓ Sodio
✓ Grasa saturada
Componentes Principales

Práctica 6
1. Importar el archivo "Menues Mc Donalds.csv“.
2. Separar las 3 primeras variables del resto.
3. Ver las distribuciones de las variables cuantitativas.
4. Analizar correlaciones.
5. Estandarizar los datos.
6. Reducir la dimensionalidad de los datos aplicando PCA. ¿Qué cantidad de
componentes selecciona? ¿Por qué?
7. Analizar las características de las componentes.
8. Graficar las dos primeras componentes con la Categoría.
¿Qué se observa?
Componentes Principales

Práctica 7
Datos Clasificación de vidrios

El data set “glass.csv” contiene información de distintos tipos de vidrios.


Las variables son:
✓ RI: índice de refracción ✓ Type: tipo de vidrio
✓ Na: Sodio 1. Ventana de edificio procesada por flotación
✓ Mg: Magnesio 2. Ventana de edificio procesada sin flotación
✓ Aluminio: Aluminio 3. Ventanilla de vehículo procesada por flotación
4. Ventanilla de vehículo procesada sin flotación
✓ Si: Silicio
5. Contenedores
✓ K: potasio 6. Vajilla
✓ Ca: Calcio 7. Faros
✓ Ba: Bario
✓ Fe: Hierro
Componentes Principales

Práctica 7
1. Importar el archivo “glass.csv“.
2. Separar la columna “Type”.
3. Ver las distribuciones de las variables cuantitativas y analizar correlaciones.
4. Estandarizar los datos.
5. Obtener 4 componentes principales. ¿Qué porcentaje de la variabilidad total
explican?
6. Analizar las características de las componentes.
7. Graficar las dos primeras componentes con el tipo de vidrio. ¿Qué se observa?
8. Agrupar los tipos de vidrio y volver a graficar.
Componentes Principales

Práctica 8
Datos Tipo de Vehículo
Se cuenta con el dataset “Types of Vehicle”, creado con el objetivo de clasificar un
vehículo determinado como uno de los tres tipos de vehículos (car, van o bus),
utilizando un conjunto de 18 características extraídas de la silueta. El vehículo se
puede ver desde uno de muchos ángulos diferentes.
Las variables son:
1. compactness 10. max.length_rectangularity
2. circularity 11. scaled_variance
3. distance_circularity 12. scaled_variance.1
4. radius_ratio 13. scaled_radius_of_gyration
5. pr.axis_aspect_ratio 14. scaled_radius_of_gyration.1
6. max.length_aspect_ratio 15. skewness_about
7. scatter_ratio 16. skewness_about.1
8. elongatedness 17. skewness_about.2
9. pr.axis_rectangularity 18. hollows_ratio
Componentes Principales

Práctica 8
1. Importar el archivo "Types of Vehicle.csv“.
2. Separar la variable Class del resto.
3. ¿Hay valores perdidos? En caso de que haya, reemplazarlos por la media.
4. Ver las distribuciones de las variables.
5. Visualizar las correlaciones entre campos.
6. Estandarizar los datos.
7. Reducir la dimensionalidad de los datos aplicando PCA. Determinar las
componentes necesarias para explicar el 85% de los datos.
8. Analizar las características de las componentes.
9. Graficar las dos primeras componentes con la Clase.
¿Qué se observa?

También podría gustarte