Introducción a los métodos de reducción de dimensionalidad y elementos de álgebra lineal (Parte 2)
Autor: Matteo Alberti
Traductor: Paula Vidal
Sumario
Métodos lineales para la reducción:: 2
Identificación a través de la individualización de los subespacios. 2
Aproximación de las matrices usando el método de reducción. 10
Casos de aplicación básicos: Descomposición en valores singulares (SVD). 11
Reglas de matrices. 11
Reglas de vectores. 13
Reglas de inducción. 13
Casos de aplicación básicos: análisis de Cluster. 16
Definición de una métrica. 16
Distancias Minkowski (Manhattan, Euclidea, Lagrange). 16
El objetivo de este primer tutorial es introducir las nociones básicas de reducción de la dimensionalidad desde el punto de vista matemático (espacios, subespacios, mapas lineales) y recuperar los elementos necesarios de álgebra lineal (normas, isometría, isomorfismo …) para cada uno de los algoritmos de aprendizaje automático.
Reglas de matrices
En este punto, hemos establecido el problema de reducir la dimensionalidad de los datos como un problema de aproximación entre matrices, ahora debemos evaluar y luego calcular la distancia entre la matriz de los datos originales y los aproximados a través del estudio de las diferentes normas:
Hay tres tipos principales de reglas:
- Reglas de vectores
- Reglas inducidas
- Reglas Schatten
Cuando en el campo del análisis de datos nos referimos esencialmente, en algunas excepciones, a la norma Frobenius (distancia euclidiana)
Elemento de algebra:
Norma
Un norma(comúnmente viene marcada con ‖ ‖) es una función del espacio vectorial de matriz si:
Reglas vectoriales
La familia de reglas vectoriales trata la matriz como un vector de componentes donde podemos definir la norma usando cualquiera de las siguientes reglas:
Nota:
Configurando p = 2 estamos conectados a la norma euclidiana
Reglas de inducción
Regla de Schatten
La norma Schatten, de orden p, de una matriz X simplemente está dada por:
Donde tiene valores singulares
Regla de Frobenius
La norma Frobenius de nuestra matriz inicial está dada por:
Vamos a calcular, explicando el producto de matriz que obtenemos:
Corresponde que la norma de Frobenius es igual a la raíz cuadrada de la suma al cuadrado de los elementos osea es una norma euclidiana vista como un vector que concuerda con la regla de vector de X de orden 2.
Elementos de algebra:
pista:
El operador de seguimiento, indicado por Tr (∙), se define como la suma de los elementos diagonales de la matriz de argumentos
Casos de aplicación básicos: análisis de Cluster
El análisis de Cluster es una técnica de análisis multivariado mediante la cual es posible agrupar unidades estadísticas, a fin de minimizar la “distancia lógica” interna de cada grupo y maximizar la que existe entre los grupos.
Es una de las técnicas de aprendizaje no supervisadas.
Por lo tanto, es espontáneo tener que definir qué se entiende por distancia lógica y en función de qué métrica.
Definición de métrica
Si, por el contrario, presenta las tres primeras propiedades, podemos definirlo como un índice de distancia
Distancias Minkowski (Manhattan, Euclidea, Lagrange)
En este punto vamos a analizar los principales casos de distancias pertenecientes a la familia de distancias Minkowski donde:
Destacamos los siguientes casos:
Distancia de Manhattan
-
Distancia euclidiana
Distancia Lagrangiana (Čebyšëv)
Como por ejemplo:
Por lo tanto, comenzando con el ejemplo de Cluster Analysis, es esencial definir el tipo de distancia con la que queremos trbajar en nuestro análisis.
Principalmente en los paquetes ya implementados se encuentran las tres variantes de las distancias de Minkowski (para variables cuantitativas)
Importar desde sklearn:
AgglomerativeClustering(n_clusters=2, affinity=’euclidean’, memory=None, connectivity=None, compute_full_tree=’auto’, linkage=’ward’