Introducción a los métodos de reducción de dimensionalidad y elementos de álgebra lineal

Autor: Matteo Alberti

 

Traductor : Paula Vidal

 

Sumario

Métodos lineales para la reducción:: 2

Identificación a través de la individualización de los subespacios. 2

Aproximaciones de las matrices usando el método de reducción. 10

Casos de aplicación básicos: Descomposición en valores singulares (SVD). 11

Reglas de matrices. 11

Reglas de vectores. 13

Reglas de inducción. 13

Reglas de Schatten. 13

Reglas de Frobenius. 13

Casos de aplicación básicos: análisis de Cluster. 16

Definición de una métrica. 16

Distancias Minkowski (Manhattan, Euclidea, Lagrange). 16

 

 

El objetivo de este primer tutorial es introducir las nociones básicas de reducción de la dimensionalidad desde el punto de vista matemático (espacios, subespacios, mapas lineales) y recuperar los elementos necesarios de álgebra lineal (normas, isometría, isomorfismo …) para cada uno de los algoritmos de aprendizaje automático.

 

 

Métodos lineales para la reducción:

Por lo tanto, vamos a presentar con términos generales la lógica de los procesos de reducción lineal e dimensionalidad yendo en la primera fase para identificar subespacios “óptimos”.

 

 

pic 1

ecuation 1

 

Elementos de algebra:

Espacio vectorial

Definimos un espacio vectorial en R en un conjunto V, cuyos elementos se denominan vectores y presentan las siguientes propiedades vector.

                                                                                 

xiste en V una operación definida suma vectorial que se asocia en x,y \in V vector x+y \in V

  • La suma del vector es conmutativa, asociativa
  • Hay un vector en V, indicado con 0 y definido como origen
  • Cada vector X \in V   tiene su simbolo opuesto, indicado con –x t.c. x+(-x)= 0

Existe en V una operación definida multiplicación para los escalares que asocian en  con cada  X \in V  y a cada   I a \in V el vector   ax \in V en tal modo que:

  • La multiplicación entre escalares es asociativa
  • 1x = X, \forall X \in V

También vale para:

  • La multiplicación escalar es distributiva con respecto a la adición de vectores

Subespacio de vectores

S es un conjunto no vacío del subespacio de V si para cada  X-X=O \in      y cada uno de su combinación lineal    ax+\beta y =\in S

 

 

Nucleo e imagen

Sean V y W dos espacios vectoriales y que sean   L: V W una aplicación lineal

El núcleo de L es el conjunto de vectores de V cuya imagen es el vector nulo de W.

Este conjunto está indicado con ker L

pic 2

 

 La imagen de L es el conjunto de los vectores de W que son imágenes de algún vector que pertenece al dominio V, es decir:

 

pic 3

 

Mapa lineal

Un mapa lineal (o aplicación) f: V -> W entre espacios vectoriales reales es una función para la cual las propiedades son válidas:

ecuation4

por cada

pic 4

 

 

 

Vamos a definir solo los casos de relevancia principal:

Sean f: V -> W un mapa lineal. Entonces f es:

  • un monomorfismo si es inyectivo
  • un epimorfismo si es sobreyectiva
  • un isomorfismo si es biyectivo (inyectivo + sobreyectiva)
  • un endomorfismo si V = W
  • un automorfismo si V = W y es biyectiva.
  • de rango r si r = dim f(V).

 

Supongamos a este punto que hemos identificado un subespacio ( que especificaremos más adelante) V_p   que resulte suficientemente “aproximado” y que sea  V_1,..V_P  una base de V_P  (Nota: la base esta formata por vectores k-dimensionales porque    V_P es el subespacio de   R^k)

El mapa lineal \varphi\left ( . \right )  asociamos la entrada x_i  al elemento \varphi\left ( x_i \right ) de V_p , obtenemos la seguiente formula:

 

ecuation 5

a_i_j elejidos apropidamente

 

pic 5

 

 

A través de nuestro mapa, los vectores k-dimensionales de entrada se representan en vectores p-dimensionales que son elementos de  R^p .

 

En este punto podemos proceder a un análisis adicional de R^p

 

Así que investiguemos cómo esta reducción en la dimensionalidad sirve para mantener y perder como por ejemplo veamos el siguiente caso:

 

  • R^k \mapsto V_P
  • De V_p \mapsto R^P

 

 

R^k\mapsto V_p

 

 

 

Naturalmente pasar de k a p dimensiones con p <k implica una pérdida de información y una deformación de la geometría original del dato. De particular relevancia es que cualquier mapa lineal no puede ser un isomorfismo o una isometría.

 

Ciò comporta che tutte le norme, prodotti scalari e distanze non vengono preservate

Esto significa que todas las reglas, productos escalares y distancias no se conservan

Ejemplo:

pic 6

 

 

Elementos de algebra:

                               

Complemento octogonal:

Sea   S\subseteq V un subespacio de V, representamos un complemento ortogonale de D en V indicandolo con  S^\bot  el subconjunto de V los expresamos en la siguiente formula:

pic 7

 

 

Osea es un subconjunto de todos los vectores de V ortogonal a todos los vectores de S

 

 

 

 

 

V_P\mapsto R^P

 

 

El mapa lineal  \varphi (.) es un isomorfismo de los espacios vectoriales  V_p y R^p   , esto significa que no habrá pérdida de información.

 

 

pic 8

 

 

 

Elementos de algebra:

 

ortonormal:      

Una base se define como ortonormal cuando se compone de vectores uniformemente unitarios y ortogonales

 

 

 

Aproximaciones de las matrices usando el método de reducción

Queremos ofrecer una segunda visión sobre la reducción a la dimensionalidad basada en la aproximación matricial (esto es lo que se utilizará en la práctica en todos los lenguajes de programación)

Data:

 

pic 9

 

 

Entonces podemos escribirlo como:

 

ecuation 17

 

Las columnas de θ están dadas por las combinaciones lineales de las filas de B que provienen de nuestra base, con los coeficientes dados por las filas de A, las coordenadas de la base elegida.

Por lo tanto, nuestro problema de reducir la dimensionalidad corresponde a identificar un subespacio vectorial de dimensión p (p <k)  denuestra base elegida (B) y de las coordenadas relativas dadas por la matriz A.

 

En el análisis de los datos, donde nuestro punto de partida es la matriz de datos, las diferentes técnicas de reducción  se difirencian según el tipo de aproximación, descomposición y elección entre las muchas bases posibles.

 

 

Casos de aplicación básicos: Descomposición en valores singulares (SVD)

Implementemos en Python una simple descomposición en valores singulares (SVD), es decir, dividamos nuestra matriz de inicio X en las dos matrices A y B vistas anteriormente:

 

import numpy as np

X = np.array([3,2,4],[3,6,7],[2,1,4])

autoval, autovett = np.linalg.eig(X)

 

 

Reglas de matrices

En este punto, hemos establecido el problema de reducir la dimensionalidad de los datos como un problema de aproximación entre matrices, ahora debemos evaluar y luego calcular la distancia entre la matriz de los datos originales y los aproximados a través del estudio de las diferentes normas:

Hay tres tipos principales de reglas:

  • Reglas de vectores
  • Reglas inducidas
  • Reglas Schatten

 

Cuando en el campo del análisis de datos nos referimos esencialmente, en algunas excepciones, a la norma Frobenius (distancia euclidiana)

 

Elemento de algebra:

Norma

Un norma(comúnmente viene marcada con ‖ ‖) es una función del espacio vectorial de matriz si:

 

ecuation 18

 

 

 

Reglas vectoriales

La familia de reglas vectoriales trata la matriz   X_n_x_k  como un vector   de  componentes donde podemos definir la norma usando cualquiera de las siguientes reglas:

pic 10

 

Nota:

Configurando p = 2 estamos conectados a la norma euclidiana

 

 

Reglas de inducción

 

pic 11

 

Regla de Schatten

 

La norma Schatten, de orden p, de una matriz X simplemente está dada por:

ecuation 21

 

Donde w_i   tiene valores singulares

 

 

Regla de Frobenius  

La norma Frobenius de nuestra matriz   X_n_x_k  inicial está dada por:

ecuation 22

 

Vamos a calcular, explicando el producto de matriz que obtenemos:

 

ecuation 23

 

Corresponde que la norma de Frobenius es igual a la raíz cuadrada de la suma al cuadrado de los elementos osea es una norma euclidiana vista como un vector que concuerda con la regla de vector de X de orden 2.

 

Elementos de algebra:

pista:

El operador de seguimiento, indicado por Tr (∙), se define como la suma de los elementos diagonales de la matriz de argumentos

 

 

 

Casos de aplicación básicos: análisis de Cluster

 

El análisis de Cluster es una técnica de análisis multivariado mediante la cual es posible agrupar unidades estadísticas, a fin de minimizar la “distancia lógica” interna de cada grupo y maximizar la que existe entre los grupos.

Es una de las técnicas de aprendizaje no supervisadas.

Por lo tanto, es espontáneo tener que definir qué se entiende por distancia lógica y en función de qué métrica.

 

Definición de métrica

pic 13

 

Si, por el contrario, presenta las tres primeras propiedades, podemos definirlo como un índice de distancia

 

Distancias Minkowski (Manhattan, Euclidea, Lagrange)

En este punto vamos a analizar los principales casos de distancias pertenecientes a la familia de distancias Minkowski donde:

ecuation 25

 

 

Destacamos los siguientes casos:

  • k=1 Distancia de Manhattan
  •  k=2 Distancia euclidiana
  • k\mapsto \propto  Distancia Lagrangiana (Čebyšëv)

 

Como por ejemplo:

ecuation 26

 

Por lo tanto, comenzando con el ejemplo de Cluster Analysis, es esencial definir el tipo de distancia con la que queremos trbajar en nuestro análisis.

Principalmente en los paquetes ya implementados se encuentran las tres variantes de las distancias de Minkowski (para variables cuantitativas)

Importar desde sklearn:

AgglomerativeClustering(n_clusters=2, affinity=’euclidean’, memory=None, connectivity=None, compute_full_tree=’auto’, linkage=’ward’

 

 

ecuation 27

Mastering Chess and Shogi by Self Play with a General Reinforcement Learning Algorithm