Entradas

ALGEBRA LINEAL PARA TODOS[Parte 1]

Autor: Paolo Caressa

Traductor: Paula Vidal

 

Premisa

 Como en cualquier otro sector interdisciplinario en  el  aprendizaje automático y en el  aprendizaje profundo, necesariamente debemos utilizar nociones, conceptos y formalismos que provienen de diferentes fuentes y  en muchos casos, requieren que se comprendan diferentes tipos  de mentalidades. Por esta razón, es costumbre decir que el científico de datos debe ser un “mezcla” entre un científico de computación, un estadístico y un matemático, pero pocos se adentran en comprender  estas  tres materias y al mismo  las tres no resultaran igualmente fáciles, intuitivas y hermosas para una mente. En particular, las principales nociones matemáticas que son indispensables para un científico de datos, como para  también para aquellos que están interesados únicamente en comprender cómo funciona un sistema de aprendizaje automático para lograr administrarlo mejor, uno de la némesis es el álgebra lineal

Es sorprendente que para los matemáticos consideran que el álgebra lineal es una cosa muy fácil. Me atrevo a decirlo, citando la frase del matemático I.M. Herstein, ¡el álgebra lineal tiene solo tres características, es fácil, útil y hermoso! El propósito de este tutorial es explicar las nociones básicas de álgebra de una manera simple pero rigurosa, por lo que si ya sabe cómo calcular los vectores propios y los valores propios de una matriz o tal vez una descomposición en valores singulares (SVD) o un análisis de los componentes (PCA) si no sabe de lo que estoy hablando nos despedimos aquí. De lo contrario, ¡disfrute de su lectura!

El plano y el espacio cartesiano

Vamos atrás en el tiempo y recordémonos cuando íbamos a la  escuela secundaria: “geometría analítica (o cartesiana)” Inventado por Descartes y Fermat en el siglo XVII, la idea básica de la geometría cartesiana es proporcionar un modelo numérico para el plano y el espacio. En resumen, el descubrimiento consiste en identificar el conjunto de puntos del plano (es decir, mapeado de manera biunica para que no se pueda distinguir) con el conjunto de pares de numéricos (x, y) con x e  independientes. Primero, recordemos que los puntos de la línea se identifican con el conjunto de números reales (es decir, racional e irracional) ordenados por la relación habitual <. Fijamos un punto O en la línea recta y correspondiente a 0, fije un punto U (diferente de O) y haga que corresponda a 1; Todos los demás puntos están determinados por la posición relativa con respecto a estos:

 

recta

Por lo tanto, queda claro lo que significa la distancia entre dos puntos P y Q en la línea: si x e y son los números correspondientes, la distancia PQ es igual a | x – y | (valor absoluto de la diferencia):

 

Cattura 1 1

 

 

Así que basta que una resta línea se fijen los puntos  cero y uno, en un parte estarán  los números positivos (aquellos que están todos en un lado de O e incluyen U) y los números negativos (aquellos que están todos en un lado de O y no incluyen U).

Observemos este ejemplo:

La recta de geometría está completamente representada en el conjunto R de números reales un punto corresponde a uno y solo un número, donde cada número real que podemos imaginar como un número decimal que tiene un número finito de dígitos después de la coma, que tiene un número finito de dígitos después de la coma que se repiten indefinidamente, o que tiene un número infinito no dígitos periódicos después de la coma (estrictamente hablando, deben excluirse las secuencias que terminan con un 9 periódico).

Pasemos ahora al plano

Fijamos un punto O en el plano y toma una recta x que pase a través del punto y una segunda línea ortogonal a x, llamada y. Tanto como en  x e  y se elige la misma unidad de medida (es decir, un punto U distinto de O y se establece convencionalmente que la distancia OU es 1).De esta manera, es posible medir la distancia entre dos puntos que están en x con respecto a la unidad de medida establecida.La correspondencia entre un punto P del plano y un par (a, b) de números se produce de la siguiente manera:

  1. El punto P se proyecta en el eje x obteniendo un punto P’ y se pone a = a la distancia entre  P’ y  O.
  2. El punto P se proyecta en el eje y obteniendo un punto P ’’ y b = distancia entre P ’’ y O.

Entonces asociamos el punto  P con los puntos (a, b): para pasar de las coordenadas (a, b) a los puntos, será suficiente encontrar los puntos P ‘y P’ ‘en las líneas rectas x e y que están alejadas para a y b desde el origen O, trazamos los ejes perpendiculares para estos puntos y determinar P como su intersección.

Plano cartesiano

Figura 1. Tres puntos en un plano cartesiano, con sus coordinadas y con sus proyecciones en los ejes de la recta.Fuente: wikipedia

 

 

Entonces:

 

El plano de la geometría se identifica completamente con el conjunto R2 de los pares de números reales:  a un punto corresponde a uno y solo un par.

La notación R2 indica los pares ordenados de elementos de R. Si X es un conjunto, Xn es generalmente el conjunto de n-ple de elementos de X.

¿Cuál es la ventaja de considerar el plano como el conjunto de pares de números (a, b)?

  • En primer lugar, podemos decir qué es, un conjunto de parejas precisamente, no necesitamos axiomas ni nada más.
  • En segundo lugar, transformamos los problemas geométricos, que normalmente involucran construcciones complicadas y razonamientos muy largos, en cálculos.

La geometría cartesiana es, por lo tanto, la geometría ideal para hacer en la computadora: podemos reducir todo a números y cálculos. No es sorprendente que las bibliotecas 2D que se utilizan para dibujar en la pantalla de la computadora, o en una ventana de la aplicación, representen puntos como pares de números (las coordenadas) y un atributo que represente su color.

Por ejemplo: ¿cómo representas una curva en el plano cartesiano?

Hay dos maneras:

  • A través de una ecuación cartesiana, una relación única que enlaza las coordenadas de un punto genérico.
  • A través de una ecuación paramétrica, que muestra el punto genérico de la línea en función de un parámetro.

Por ejemplo, consideremos la ecuación x2 + y2 = 1 y la ecuación 2x + y = 0. La primera representa una circunferencia central del origen y el radio 1, la segunda es una línea recta que pasa por el origen.

Supongamos que queremos calcular las intersecciones: utilizando la geometría clásica deberíamos construir estas intersecciones de alguna manera, mientras que con la geometría cartesiana nos hacemos la siguiente pregunta: ¿cuáles son los puntos de coordenadas (x, y) sujetos simultáneamente a las relaciones x2 + y2 = 1 y 2x + y = 0?

La segunda ecuación es equivalente a  y = –2x, que se reemplazó en el primero y  es igual a x2 + (- 2x) 2 = 1, es decir x2 + 4×2 = 1 que es x2 = 1/5, que tiene dos soluciones x = 1 / √5 ex = –1 / √5, con el que encontramos las dos intersecciones requeridas: los puntos (1 / √5, –2 / √5) y (–1 / √5, 2 / √5). En este punto, identificamos el espacio cartesiano en tres dimensiones con el conjunto de triples (x, y, z) de números reales, es decir, con el conjunto R3. Por lo tanto, un punto en el espacio está determinado únicamente por sus tres coordenadas cartesianas, en las que podemos trabajar para resolver problemas geométricos, después de haberlos traducido en problemas algebraicos.

 

Distancia entre dos puntos

Hemos dicho que a lo largo de una recta, identificada con el conjunto de números reales, las distancias se calculan con el valor absoluto de la diferencia. ¿Cómo calculamos las distancias en un plano ? Lo interesante es que hay diferentes maneras de hacerlo, todas las cuales son generalizaciones de la distancia en la recta, mencionamos las tres principales, todas pertenecientes a la familia de distancias Minkonski:

  • la distancia euclidiana la distancia a manhattan
  • Distancia uniforme.

La distancia euclidiana entre dos puntos P = (x1, y1) y Q = (x2, y2) en el plano viene dada por la siguiente fórmula:

Cattura 2

Mientras tanto, vemos que si P y Q están en la misma línea, por ejemplo, el eje x, esta distancia se reduce al valor absoluto de la diferencia de coordenadas: de hecho, si suponemos que  P = (x1,0) e Q = (x2,0) ) La fórmula anterior nos ofrece (como es habitual cuando tomamos la raíz cuadrada de un número que consideramos positivo).

La distancia euclidiana en realidad se llamaría pitagórica, como se desprende del teorema de Pitágoras: supongamos que tenemos un triángulo rectángulo OPQ, con un vértice en el origen, un lado en el eje x   y el otro perpendicular al eje x.

cattura 3

(como es habitual cuando tomamos la raíz cuadrada de un número consideramos la positiva).

La distancia euclidiana en realidad se llamaría pitagórica, como se desprende del teorema de Pitágoras: supongamos que tenemos un triángulo rectángulo OPQ, con un vértice en el origen, un lado en el eje xy el otro perpendicular al eje x.

Así, las coordenadas de P serán del tipo (x, 0) y las de Q del tipo (x, y): la distancia entre O y P es x y la que entre Q y P es y, con lo cual, para el teorema de Pitágoras, d (O, Q) 2 = d (O, P) 2 + d (P, Q) 2 = x2 + y2. Así que en este caso, tomando la raíz cuadrada,

Cattura 4

y la fórmula se verifica. En el caso general, el razonamiento es análogo, pero también participan las coordenadas de O (que en nuestro caso llegar a ser cero). Así la distancia euclidiana se reduce a la distancia entre dos puntos en una línea recta y tiene un contenido geométrico obvio.

recta.opq

 

La distancia en el espacio se calcula de manera similar, teniendo en cuenta que los puntos tienen una coordenada adicional: si  P = (x1,y1,z1) e Q = (x2,y2,z2) Son puntos del espacio cartesiano, su distancia es:

Cattura 5 1

Para los más curiosos, en el resto de este párrafo explico otras dos formas de calcular la distancia en el plano, que dan lugar a diferentes valores de la distancia euclidiana pero que siguen siendo formas válidas de medir la distancia entre dos puntos.

Otra distancia que a veces se usa en el aprendizaje automático es la “distancia de Manhattan”, también conocida como “distancia de taxi”:

d_1\left ( P,Q \right )= \left \| X_1-X_2 \right \| + \left \| Y_1-Y_2 \right \|

Nuevamente, si P y Q están en el eje x, esta distancia coincide con el valor absoluto de la diferencia. La distancia del nombre de los taxis viene dada por el hecho de que la distancia entre P y Q no se mide con el teorema de Pitágoras, que busca un atajo diagonal entre P y Q, pero que comienza desde P y se mueve a lo largo del eje x hasta llegar arriba o debajo de Q, luego moviéndose a lo largo del eje y y alcanzando Q.

 

 

 

 

 

DITANZA EUCLIDEA TRIANGULO

Figura 2. Distancia euclidiana (verde) vs. distancia de taxi (rojo)

Es la maniobra que debe hacer un taxi para ir desde un punto en una cuadra hasta el punto opuesto: no puede pasar en la mitad de la cuadra, sino que debe ir por sus lados.

Otra distancia, que a veces se usa, es la “distancia uniforme”, que la escribimos en la siguiente formula \left \{ |x_1-x_2 | \right \}\left \{ |y_1-y_2 | \right \}

Es decir, esto se calcula tomando la longitud máxima del segmento obtenido al proyectar los dos puntos en los ejes x e y: nuevamente, es obvio que si los puntos se encuentran en el eje x, esto se reduce al valor absoluto de la diferencia entre dos puntos. Una notación de color: en el espacio, una “bola” se define como el conjunto de puntos que tienen una distancia menor que un número fijo, el radio, desde un punto fijo, el centro: es decir, si O es el centro y el radio, todos los puntos tales que d (P, O) <r constituyen la bola. Esta terminología es clara si usamos la distancia euclidiana.Pero, usando la distancia de los taxis, ¿qué figura geométrica sale considerando todos los puntos P de modo que d1 (P, O) <r? (pista: se dice que esta distancia tiene las bolas cuadradas …).

Introducción a los métodos de reducción de dimensionalidad y elementos de álgebra lineal (Parte 2)

Autor: Matteo Alberti

Traductor: Paula Vidal

 

Sumario

Métodos lineales para la reducción:: 2

Identificación a través de la individualización de los subespacios. 2

Aproximación de las matrices usando el método de reducción. 10

Casos de aplicación básicos: Descomposición en valores singulares (SVD). 11

Reglas de matrices. 11

Reglas de vectores. 13

Reglas de inducción. 13

Reglas de Schatten. 13

Reglas de Frobenius. 13

Casos de aplicación básicos: análisis de Cluster. 16

Definición de una métrica. 16

Distancias Minkowski (Manhattan, Euclidea, Lagrange). 16

 

 

El objetivo de este primer tutorial es introducir las nociones básicas de reducción de la dimensionalidad desde el punto de vista matemático (espacios, subespacios, mapas lineales) y recuperar los elementos necesarios de álgebra lineal (normas, isometría, isomorfismo …) para cada uno de los algoritmos de aprendizaje automático.

 

 

Reglas de matrices

En este punto, hemos establecido el problema de reducir la dimensionalidad de los datos como un problema de aproximación entre matrices, ahora debemos evaluar y luego calcular la distancia entre la matriz de los datos originales y los aproximados a través del estudio de las diferentes normas:

Hay tres tipos principales de reglas:

  • Reglas de vectores
  • Reglas inducidas
  • Reglas Schatten

 

Cuando en el campo del análisis de datos nos referimos esencialmente, en algunas excepciones, a la norma Frobenius (distancia euclidiana)

 

Elemento de algebra:

Norma

Un norma(comúnmente viene marcada con ‖ ‖) es una función del espacio vectorial de matriz si:

 

ecuation 18

 

 

 

Reglas vectoriales

La familia de reglas vectoriales trata la matriz   X_n_x_k  como un vector   de  componentes donde podemos definir la norma usando cualquiera de las siguientes reglas:

pic 10

 

Nota:

Configurando p = 2 estamos conectados a la norma euclidiana

 

 

Reglas de inducción

 

pic 11

 

Regla de Schatten

 

La norma Schatten, de orden p, de una matriz X simplemente está dada por:

ecuation 21

 

Donde w_i   tiene valores singulares

 

 

Regla de Frobenius  

La norma Frobenius de nuestra matriz   X_n_x_k  inicial está dada por:

ecuation 22

 

Vamos a calcular, explicando el producto de matriz que obtenemos:

 

ecuation 23

 

Corresponde que la norma de Frobenius es igual a la raíz cuadrada de la suma al cuadrado de los elementos osea es una norma euclidiana vista como un vector que concuerda con la regla de vector de X de orden 2.

 

Elementos de algebra:

pista:

El operador de seguimiento, indicado por Tr (∙), se define como la suma de los elementos diagonales de la matriz de argumentos

 

 

 

Casos de aplicación básicos: análisis de Cluster

 

El análisis de Cluster es una técnica de análisis multivariado mediante la cual es posible agrupar unidades estadísticas, a fin de minimizar la “distancia lógica” interna de cada grupo y maximizar la que existe entre los grupos.

Es una de las técnicas de aprendizaje no supervisadas.

Por lo tanto, es espontáneo tener que definir qué se entiende por distancia lógica y en función de qué métrica.

 

Definición de métrica

pic 13

 

Si, por el contrario, presenta las tres primeras propiedades, podemos definirlo como un índice de distancia

 

Distancias Minkowski (Manhattan, Euclidea, Lagrange)

En este punto vamos a analizar los principales casos de distancias pertenecientes a la familia de distancias Minkowski donde:

ecuation 25

 

 

Destacamos los siguientes casos:

  • k=1 Distancia de Manhattan
  •  k=2 Distancia euclidiana
  • k\mapsto \propto  Distancia Lagrangiana (Čebyšëv)

 

Como por ejemplo:

ecuation 26

 

Por lo tanto, comenzando con el ejemplo de Cluster Analysis, es esencial definir el tipo de distancia con la que queremos trbajar en nuestro análisis.

Principalmente en los paquetes ya implementados se encuentran las tres variantes de las distancias de Minkowski (para variables cuantitativas)

Importar desde sklearn:

AgglomerativeClustering(n_clusters=2, affinity=’euclidean’, memory=None, connectivity=None, compute_full_tree=’auto’, linkage=’ward’

 

 

ecuation 27