ALGEBRA LINEAR PERA TODOS [Parte 2]

Autor: Paolo Caressa     

Traductor: Paula Vidal

Puntos, vectores y su álgebra Hasta ahora hemos hablado de puntos como la totalidad de los puntos del plano que se identifican de una manera bidireccional con la totalidad de todos los pares posibles de números reales.En lo que respecta al aprendizaje automático, nos interesan los conjuntos de puntos finitos, ya que queremos representar objetos particulares para clasificar o fenómenos para relacionarlos como puntos en un espacio cartesiano. Para encontrar una regularidad o un “patrón” en estos puntos, a menudo nos interesa considerar líneas rectas, planos, así como figuras geométricas más complejas, como cónicas en el plano o cuadrículas en el espacio.Ya hemos visto, con un ejemplo, que algunas figuras geométricas se pueden representar individualmente o con sistemas de ecuaciones. Limitémonos al caso de las líneas rectas y de los planos para comprender en general cómo se representan, dado que a menudo estas representaciones se utilizan en el aprendizaje automático.   Una línea recta es intuitivamente un conjunto de puntos alineados: uno de los axiomas de Euclides establece que en dos puntos solo pasa una línea recta, es decir, que para determinar unívocamente una línea recta es suficiente para indicar dos puntos distintos. Para entender cómo se puede hacer esto en el plano cartesiano, consideremos dos puntos distintos P y Q de coordenadas P=(x1,y1) e Q=(x2,y2). Definimos el vector que va de P a Q como un par de números Cattura 6 Es decir, un vector es, por definición, una diferencia de puntos, donde el término diferencia significa la diferencia entre los componentes que tienen el mismo índice. Desde un punto de vista informático podemos pensar de esta manera: un punto es una matriz (o lista)que son números con dos elementos. Normalmente, una matriz A = [x, y] formadas desde 0, es decir, A [0] = x y A [1] = y. Luego, si A y B son matrices, el vector  \overline{AB}  se puede representar con la matriz [B [0] – A [0], B [1] – A [1]]. Queda por entender por qué llamamos “vector” a una diferencia de puntos: porque es un objeto dotado de dirección, verso e intensidad, como los vectores de la física. La dirección es simplemente la línea que pasa por P y Q; que va de P a Q (el vector opuesto sería \overline{PQ}  que va de Q a P: ¿cuáles son sus componentes?) La intensidad es la distancia entre los puntos P y Q. Por lo tanto, un vector determina una línea y en ella, una dirección: por supuesto, hay vectores infinitos que determinan la misma línea. Por ejemplo la recta que pasa por los puntos   P= (0,1)  y Q= (0,-2) entonces seria la recta \overline{PQ}= (-2,2) , pero también el vector (-1,1)  que tiene la misma dirección, pero tiene diferentes intensidades. En general, por cada numero  (-a,a) un no nulo representa esta línea. Decimos que dos vectores son paralelos si son un múltiplo del otro por un factor de escala distinto de cero. De hecho, otra forma de determinar una recta es identificar un punto P  y un vector \overline{v}  de modo que expresamos todos los puntos paralelos de la recta trasladados a los vectores paralelos de  \overline{v}  X= P+ \overline{av} Esto se denomina ecuación paramétrica de la recta, ya que expresa el punto genérico de la línea por medio de un parámetro que varía en todos los números reales. Tenga en cuenta que utilizamos la operación de suma entre un punto y un vector, definida de manera obvia: si P= (X,Y)  e  v= \overline{RS} entonces   P + \overline{RS} \left ( x+w-a,y+z -b\right ) , suponiendo  que las cordinadas de los puntos  R y  S sean  R=(a,b)  y S=(w,z) .  Osea sumamos las coordinadas  del punto y los componentes  del vector para obtener un nuevo punto. Cuando agregamos un vector a un punto, también decimos que aplicamos el vector en ese punto. Los vectores, además de permitir definir las líneas rectas y en dimensiones superiores, planos e hiperplanos, podemos observar que:

  1. Los vectores se pueden sumar y entre ellos obteniendo otros vectores:

\overline{PQ} + \overline{RS}= Q-P+S-R Entonces notamos que  \overline{PQ} + \overline{QP}=0  (el vector es 0) y  \overline{QP}   es el vector opuesto  \overline{PQ}. Además, esta operación de suma satisface las propiedades conmutativas y asociativas habituales. 2.  Los vectores se pueden multiplicar por un numero obteniendo otros vectores:  Además, esta operación del producto cumple con las propiedades conmutativas, asociativas y distributivas habituales. En particular el vector denominado nulo  \overline{0} se obtiene multiplicando por cero y  con un vector opuesto de un determinado vector  \overline{v}, es  decir aquel vector  \overline{w} tal que  \overline{v} + \overline{w}=0 , lo obtenemos   \overline{v}  multiplicamos  por -1.   El término espacio vectorial significa un conjunto de elementos con dos operaciones, de suma entre los elementos y de multiplicación de un elemento por un número, que satisface las mismas propiedades de las operaciones entre los vectores del plano.

vettore in un piano

Figura 3. El vector obtenido con la suma de dos vectores del plano se construye tomando la diagonal del paralelogramo identificado por los dos vectores si se aplica en el mismo punto.

En realidad, en el aprendizaje automático utilizamos invariablemente espacios vectoriales de dimensiones finitas cuyos vectores se expresan en coordenadas, en este caso los vectores son diferencias de puntos, como en el ejemplo que estamos discutiendo. De hecho, un elemento de confusión para los principiantes es que tanto los puntos como los vectores del espacio cartesiano se representan como pares de números.Queremos recordar que, incluso si están representados de la misma manera, son objetos conceptualmente distintos. Un punto identifica un solo punto en el espacio, un vector identifica un desplazamiento a lo largo de una dirección, hacia y cierta longitud donde es posible hacer que un punto corresponda con un vector y viceversa de la siguiente manera: al punto P podemos hacer que corresponda con el vector    \overline{OP}  este va desde el origen del plano cartesiano hasta el punto. P; si en cambio   \overline{v} ,  es un vector, podemos asociar el punto.  0+\overline{v} .   Esta distinción entre puntos y vectores a menudo se pasa por alto, pero mientras tanto es importante distinguir conceptos aparentemente idénticos, y luego porque ayuda a interpretar las aplicaciones de la teoría: por ejemplo, en la siguiente figura se representan, según un cierto algoritmo de aprendizaje automático, algunas palabras de un Cuerpo de documentos en inglés con los puntos del plano cartesiano:   italy   Como puedes ver los puntos representan palabras. ¿Qué representan los vectores en este caso? Tomemos el vector que va de “pizza” a “italia” y apliquemos a “sushi”: obtenemos indicativamente “japón”. Deducimos que ese vector representa la respuesta a una pregunta, que es “dado un plato típico, ¿cuál es su nación?”. En este caso, está claro que los puntos y vectores representan conceptos distintos. Longitud y ángulo entre vectores, similitud del coseno Para definir la longitud de un vector introducimos una notación ampliamente utilizada: el producto escalar (o dot-product). Sea  \overline{v} =(v_1,v_2) e  \overline{v} = (v_1,w_2) decimos que el productor escalar de   \overline{v}  y  \overline{w}   es el numero: ecuacion 1   Obtenemos la suma de los productos de los componentes del mismo índice de los dos vectores. En particular, el producto escalar de un vector por sí mismo es, por definición, el cuadrado de su longitud: ecuacion 2 La longitud de un vector también se llama norma: tenga en cuenta que la fórmula muestra claramente que la regla que hemos considerado es “euclidiana”, y la razón se debe al hecho de que si escribimos como diferencia de puntos, encontramos que nueva ecuacion 3 La longitud de un vector que hemos definido aquí es la que en física se llama su intensidad: además de la longitud, también podemos definir el ángulo entre dos vectores, implícitamente por medio de la fórmula: ecuacion 4 Usando la función coseno del arco es posible calcular este ángulo a partir del producto escalar de los dos vectores y sus longitudes: la razón por la cual esta fórmula define efectivamente el ángulo entre los vectores está relacionada con la trigonometría. Nostamos que   \theta  es un numero entre -1 y  1  tal que: imagen 3 Entonces, mientras la distancia compara la similitud entre dos puntos, que son tanto más similares cuanto más cerca está de cero, el coseno mide la similitud entre dos vectores, en el sentido de que cuanto más cerca está de 1 en valor absoluto y más los vectores determinan la misma recta. Esta medida se usa a menudo en el aprendizaje automático para clasificar objetos mapeados en espacios vectoriales. El espacio cartesiano en N dimensiones. En el tour del tal vez de la geometría cartesiana y vectorial que hemos seguido hasta ahora, nos hemos limitado al caso de la dimensión N = 2 para ayudarnos con los dibujos y desarrollar los conceptos en un entorno familiar: pero en las aplicaciones estamos tratando con espacios de dimensión. También muy alto. En este caso, debemos renunciar a la intuición, pero en realidad todas las fórmulas que hemos dado y todos los conceptos que hemos definido se transportan “en pie de igualdad” al caso de cualquier tamaño.De hecho, todas las fórmulas dependen de sumas y restas de las coordenadas de los puntos y los componentes de los vectores: si estos componentes son 2 o 20,000, no hay una diferencia real. Aún mejor, todo esto se implementa de manera muy eficiente en una computadora, donde podemos digerir puntos y vectores en espacios muy grandes sin problemas. Sin embargo, debemos explicar un concepto de hiperplano: en el caso del plan coincide con el concepto de línea y en el caso del espacio ordinario con el concepto de plano. Dada una dimensión N consideramos el espacio cartesiano R^n.   Una línea recta de este espacio está, como en el caso de la dimensión 2, determinada por un par de puntos o por un punto y por un vector: la ecuación paramétrica es la misma que en el caso bidimensional. Si N > 2 También podemos considerar ecuaciones paramétricas del tipo: ecuacion 5 En este caso tenemos dos parámetros que varían independientemente, por lo tanto, por intuición, el conjunto de puntos X que satisfacen esta ecuación en la variación de a y b en los números reales corresponde a los pares (a, b), es decir, al plano. En otras palabras, es un objeto bidimensional. En realidad pueden haber excepciones : por ejemplo    \overline{v}= \overline{w} la ecuación paramétrica anterior se reduce a ecuacion 6 Así que en realidad representa una recta. Entonces, si escribimos una ecuación paramétrica con múltiples parámetros, el tamaño del conjunto de puntos descrito por esta ecuación depende de las relaciones entre los vectores utilizados para escribirla: en el caso anterior, si los vectores son paralelos, la ecuación representa una línea recta y no un plano. Si en general, en un espacio de tamaño N, escribimos una ecuación paramétrica en los parámetros N – 1, tenemos: ecuacion 7 Si todos los vectores que aparecen en él son paralelos, ¡todavía tenemos una línea recta! Para asegurarnos de que tenemos un objeto de tamaño N-1, debemos encontrar un análogo de la condición de paralelismo entre dos vectores que se pueda expresar con más de dos. Digamos que n vectores: Cattura 1 son linealmente independientes si la única forma de satisfacer la ecuación ecuacion 8 Es que todos los coeficientes  a_1, a_2,a_n   son nulos! Es decir, la única solución a esta ecuación vectorial debe ser Cattura2 Ahora podemos definir un hiperplano de tamaño N – 1 en un espacio cartesiano de tamaño N como el conjunto de puntos definidos por la ecuación paramétrica ecuacion 9 Para variar en todas las formas posibles de los números: Cattura 3

y suponiendo que los portadores representados a continuación son linealmente independientes.

Cattura4 Un hiperplano también se puede describir mediante una ecuación cartesiana, es decir, mediante una relación lineal entre las coordenadas del punto genérico que le pertenece: ecuacion 10 donde b_i no todos son equivalentes a 0. Una forma de determinar esta ecuación es observar que la suma de los productos de los coeficientes y las coordenadas es el producto escalar entre el vector  \overline{b} = (b_1, b_2,..,b_n) y el vector \overline{x} = (x_1, x_2,..,x_n) de las coordenadas, para que podamos escribirlo. Cattura 5 Esto significa que el hiperplano está formado por vectores que son perpendiculares al vector que representa la dirección perpendicular al hiperplano, el que falta para llenar todo el espacio. Un hiperplano de tamaño N – 1 en un espacio de tamaño N separa el espacio en dos partes, exactamente como una línea recta separa el plano en dos y un plano separa el espacio tridimensional en dos: los puntos que pertenecen a una de las dos partes en las que el espacio está separado del hiperplano que tiene las coordenadas que satisfacen la desigualdad. ecuacion 13 Mientras que los puntos cuyas coordenadas satisfacen la desigualdad. ecuacion 14 Constituyen la otra parte del espacio delimitado por el hiperplano. Esta idea de usar un hiperplano para separar el espacio en dos partes es separable linealmente y se usa en algoritmos clásicos de aprendizaje automático, como árboles de decisión o máquinas de vectores de soporte. Las matrices y su álgebra. Una de las características del álgebra lineal es la facilidad y universalidad de sus métodos numéricos: en esencia, es suficiente haber implementado un algoritmo (o una variante de él), a saber, la eliminación de Gauss, para poder hacer básicamente cualquier cosa [una introducción a este algoritmo. Se encuentra por ejemplo en estas notas]. Estos algoritmos normalmente ya están implementados en todas las bibliotecas de cálculo numérico estándar, por ejemplo, numpy.linalg de Python. Para cerrar este tutorial (ahora demasiado largo) es apropiado introducir la noción clave que involucra a todos estos algoritmos, y que también es útil en todos los desarrollos conceptuales del álgebra lineal: el concepto de matriz. Una matriz es simplemente una tabla de números: o incluso definible como una matriz bidimensional. Por lo tanto, decimos que una matriz n × m es una tabla de números que denotamos mediante dos índices, iej, donde el primer índice identifica la fila y el segundo la columna: en la intersección de la fila i y la columna j encontramos el número identificado por estos índices (en matemáticas los índices comienzan en 1 y no en 0 como en informática) Cuando lo escribimos en su totalidad, una matriz se representa de la siguiente forma tabular: ecuacion15   Una matriz en la que n = m se llama matriz cuadrada. Desde un punto de vista práctico, una matriz parece simplemente un vector de longitud nm cuyos elementos están dispuestos en forma tabular en lugar de estar escritos en secuencia. Sin embargo, este cambio de notación es esencial para usar estos objetos. En particular, las matrices enriquecen el álgebra de los vectores con una operación de multiplicación propia: primero notamos que podemos sumarlos y multiplicarlos por un número, aún obteniendo matrices del mismo tipo Catturab6 Una matriz en la que n = m se llama matriz cuadrada. Desde un punto de vista práctico, una matriz parece simplemente un vector de longitud nm cuyos elementos están dispuestos en forma tabular en lugar de estar escritos en secuencia. Sin embargo, este cambio de notación es esencial para usar estos objetos. En particular, las matrices enriquecen el álgebra de los vectores con una operación de multiplicación propia: primero notamos que podemos sumarlos y multiplicarlos por un número, aún obteniendo matrices del mismo tipo Cattura66 Aparentemente no hay una diferencia sustancial, pero en realidad si interpretamos un vector como un tipo particular de matriz, el vector de fila es una matriz de 1 × 3 mientras que el vector de columna es una matriz de 3 × 1. Lo que se puede hacer es, de hecho, dada una matriz A del tipo n × my una matriz B del tipo n × r multiplicar A por B obteniendo una matriz n × r. El coeficiente de los índices i y j de la matriz AB se calcula como la siguiente suma: Cattura 12 Tenga en cuenta que este es el producto escalar del vector de fila dado por la i-ésima fila de A para el vector de columna dado por la j-ésima columna de B: esta es la razón por la cual el producto de las matrices de las llamadas filas de productos por columnas. Ejemplo: multiplicamos una matriz de 2 × 3 para una matriz de 2 × 3: image1 Ahora volvamos a nuestros vectores: podemos multiplicar el vector de fila por el vector de columna, y una matriz de 1 × 1 produce un número (el producto escalar). Pero también podemos multiplicar el vector de columna 3 × 1 por el vector de fila 1 × 3 obteniendo una matriz de 3 × 3: catura 12 Por lo tanto, observamos que al multiplicar dos vectores de un espacio de dimensión N obtenemos un vector de un espacio de otra dimensión: 1 o N × N. La matriz de identidad es la matriz cuadrada que contiene cero en todas partes excepto en la diagonal donde contiene 1 (los elementos diagonales de una matriz son aquellos cuyo índice de fila es igual al índice de columna :). Por ejemplo, en la dimensión 3 la matriz de identidad es   ecuacion 16   Como sugiere su nombre, multiplicar una matriz A por la matriz de identidad aún produce A. Además, el producto de la matriz es distributivo con respecto a la suma. Sin embargo, el álgebra matricial tiene una particularidad: el producto no es conmutativo, lo que significa que AB es diferente de BA (de hecho, BA podría no tener significado, por ejemplo, n ≠ m). Por ejemplo ultima ecuacion   Otra operación típica que se lleva a cabo es la multiplicación de una matriz n × m para un vector de columna de m componentes: resulta un vector de columna de n componentes.

ALGEBRA LINEAL PARA TODOS[Parte 1]

Autor: Paolo Caressa

Traductor: Paula Vidal

 

Premisa

 Como en cualquier otro sector interdisciplinario en  el  aprendizaje automático y en el  aprendizaje profundo, necesariamente debemos utilizar nociones, conceptos y formalismos que provienen de diferentes fuentes y  en muchos casos, requieren que se comprendan diferentes tipos  de mentalidades. Por esta razón, es costumbre decir que el científico de datos debe ser un “mezcla” entre un científico de computación, un estadístico y un matemático, pero pocos se adentran en comprender  estas  tres materias y al mismo  las tres no resultaran igualmente fáciles, intuitivas y hermosas para una mente. En particular, las principales nociones matemáticas que son indispensables para un científico de datos, como para  también para aquellos que están interesados únicamente en comprender cómo funciona un sistema de aprendizaje automático para lograr administrarlo mejor, uno de la némesis es el álgebra lineal

Es sorprendente que para los matemáticos consideran que el álgebra lineal es una cosa muy fácil. Me atrevo a decirlo, citando la frase del matemático I.M. Herstein, ¡el álgebra lineal tiene solo tres características, es fácil, útil y hermoso! El propósito de este tutorial es explicar las nociones básicas de álgebra de una manera simple pero rigurosa, por lo que si ya sabe cómo calcular los vectores propios y los valores propios de una matriz o tal vez una descomposición en valores singulares (SVD) o un análisis de los componentes (PCA) si no sabe de lo que estoy hablando nos despedimos aquí. De lo contrario, ¡disfrute de su lectura!

El plano y el espacio cartesiano

Vamos atrás en el tiempo y recordémonos cuando íbamos a la  escuela secundaria: “geometría analítica (o cartesiana)” Inventado por Descartes y Fermat en el siglo XVII, la idea básica de la geometría cartesiana es proporcionar un modelo numérico para el plano y el espacio. En resumen, el descubrimiento consiste en identificar el conjunto de puntos del plano (es decir, mapeado de manera biunica para que no se pueda distinguir) con el conjunto de pares de numéricos (x, y) con x e  independientes. Primero, recordemos que los puntos de la línea se identifican con el conjunto de números reales (es decir, racional e irracional) ordenados por la relación habitual <. Fijamos un punto O en la línea recta y correspondiente a 0, fije un punto U (diferente de O) y haga que corresponda a 1; Todos los demás puntos están determinados por la posición relativa con respecto a estos:

 

recta

Por lo tanto, queda claro lo que significa la distancia entre dos puntos P y Q en la línea: si x e y son los números correspondientes, la distancia PQ es igual a | x – y | (valor absoluto de la diferencia):

 

Cattura 1 1

 

 

Así que basta que una resta línea se fijen los puntos  cero y uno, en un parte estarán  los números positivos (aquellos que están todos en un lado de O e incluyen U) y los números negativos (aquellos que están todos en un lado de O y no incluyen U).

Observemos este ejemplo:

La recta de geometría está completamente representada en el conjunto R de números reales un punto corresponde a uno y solo un número, donde cada número real que podemos imaginar como un número decimal que tiene un número finito de dígitos después de la coma, que tiene un número finito de dígitos después de la coma que se repiten indefinidamente, o que tiene un número infinito no dígitos periódicos después de la coma (estrictamente hablando, deben excluirse las secuencias que terminan con un 9 periódico).

Pasemos ahora al plano

Fijamos un punto O en el plano y toma una recta x que pase a través del punto y una segunda línea ortogonal a x, llamada y. Tanto como en  x e  y se elige la misma unidad de medida (es decir, un punto U distinto de O y se establece convencionalmente que la distancia OU es 1).De esta manera, es posible medir la distancia entre dos puntos que están en x con respecto a la unidad de medida establecida.La correspondencia entre un punto P del plano y un par (a, b) de números se produce de la siguiente manera:

  1. El punto P se proyecta en el eje x obteniendo un punto P’ y se pone a = a la distancia entre  P’ y  O.
  2. El punto P se proyecta en el eje y obteniendo un punto P ’’ y b = distancia entre P ’’ y O.

Entonces asociamos el punto  P con los puntos (a, b): para pasar de las coordenadas (a, b) a los puntos, será suficiente encontrar los puntos P ‘y P’ ‘en las líneas rectas x e y que están alejadas para a y b desde el origen O, trazamos los ejes perpendiculares para estos puntos y determinar P como su intersección.

Plano cartesiano

Figura 1. Tres puntos en un plano cartesiano, con sus coordinadas y con sus proyecciones en los ejes de la recta.Fuente: wikipedia

 

 

Entonces:

 

El plano de la geometría se identifica completamente con el conjunto R2 de los pares de números reales:  a un punto corresponde a uno y solo un par.

La notación R2 indica los pares ordenados de elementos de R. Si X es un conjunto, Xn es generalmente el conjunto de n-ple de elementos de X.

¿Cuál es la ventaja de considerar el plano como el conjunto de pares de números (a, b)?

  • En primer lugar, podemos decir qué es, un conjunto de parejas precisamente, no necesitamos axiomas ni nada más.
  • En segundo lugar, transformamos los problemas geométricos, que normalmente involucran construcciones complicadas y razonamientos muy largos, en cálculos.

La geometría cartesiana es, por lo tanto, la geometría ideal para hacer en la computadora: podemos reducir todo a números y cálculos. No es sorprendente que las bibliotecas 2D que se utilizan para dibujar en la pantalla de la computadora, o en una ventana de la aplicación, representen puntos como pares de números (las coordenadas) y un atributo que represente su color.

Por ejemplo: ¿cómo representas una curva en el plano cartesiano?

Hay dos maneras:

  • A través de una ecuación cartesiana, una relación única que enlaza las coordenadas de un punto genérico.
  • A través de una ecuación paramétrica, que muestra el punto genérico de la línea en función de un parámetro.

Por ejemplo, consideremos la ecuación x2 + y2 = 1 y la ecuación 2x + y = 0. La primera representa una circunferencia central del origen y el radio 1, la segunda es una línea recta que pasa por el origen.

Supongamos que queremos calcular las intersecciones: utilizando la geometría clásica deberíamos construir estas intersecciones de alguna manera, mientras que con la geometría cartesiana nos hacemos la siguiente pregunta: ¿cuáles son los puntos de coordenadas (x, y) sujetos simultáneamente a las relaciones x2 + y2 = 1 y 2x + y = 0?

La segunda ecuación es equivalente a  y = –2x, que se reemplazó en el primero y  es igual a x2 + (- 2x) 2 = 1, es decir x2 + 4×2 = 1 que es x2 = 1/5, que tiene dos soluciones x = 1 / √5 ex = –1 / √5, con el que encontramos las dos intersecciones requeridas: los puntos (1 / √5, –2 / √5) y (–1 / √5, 2 / √5). En este punto, identificamos el espacio cartesiano en tres dimensiones con el conjunto de triples (x, y, z) de números reales, es decir, con el conjunto R3. Por lo tanto, un punto en el espacio está determinado únicamente por sus tres coordenadas cartesianas, en las que podemos trabajar para resolver problemas geométricos, después de haberlos traducido en problemas algebraicos.

 

Distancia entre dos puntos

Hemos dicho que a lo largo de una recta, identificada con el conjunto de números reales, las distancias se calculan con el valor absoluto de la diferencia. ¿Cómo calculamos las distancias en un plano ? Lo interesante es que hay diferentes maneras de hacerlo, todas las cuales son generalizaciones de la distancia en la recta, mencionamos las tres principales, todas pertenecientes a la familia de distancias Minkonski:

  • la distancia euclidiana la distancia a manhattan
  • Distancia uniforme.

La distancia euclidiana entre dos puntos P = (x1, y1) y Q = (x2, y2) en el plano viene dada por la siguiente fórmula:

Cattura 2

Mientras tanto, vemos que si P y Q están en la misma línea, por ejemplo, el eje x, esta distancia se reduce al valor absoluto de la diferencia de coordenadas: de hecho, si suponemos que  P = (x1,0) e Q = (x2,0) ) La fórmula anterior nos ofrece (como es habitual cuando tomamos la raíz cuadrada de un número que consideramos positivo).

La distancia euclidiana en realidad se llamaría pitagórica, como se desprende del teorema de Pitágoras: supongamos que tenemos un triángulo rectángulo OPQ, con un vértice en el origen, un lado en el eje x   y el otro perpendicular al eje x.

cattura 3

(como es habitual cuando tomamos la raíz cuadrada de un número consideramos la positiva).

La distancia euclidiana en realidad se llamaría pitagórica, como se desprende del teorema de Pitágoras: supongamos que tenemos un triángulo rectángulo OPQ, con un vértice en el origen, un lado en el eje xy el otro perpendicular al eje x.

Así, las coordenadas de P serán del tipo (x, 0) y las de Q del tipo (x, y): la distancia entre O y P es x y la que entre Q y P es y, con lo cual, para el teorema de Pitágoras, d (O, Q) 2 = d (O, P) 2 + d (P, Q) 2 = x2 + y2. Así que en este caso, tomando la raíz cuadrada,

Cattura 4

y la fórmula se verifica. En el caso general, el razonamiento es análogo, pero también participan las coordenadas de O (que en nuestro caso llegar a ser cero). Así la distancia euclidiana se reduce a la distancia entre dos puntos en una línea recta y tiene un contenido geométrico obvio.

recta.opq

 

La distancia en el espacio se calcula de manera similar, teniendo en cuenta que los puntos tienen una coordenada adicional: si  P = (x1,y1,z1) e Q = (x2,y2,z2) Son puntos del espacio cartesiano, su distancia es:

Cattura 5 1

Para los más curiosos, en el resto de este párrafo explico otras dos formas de calcular la distancia en el plano, que dan lugar a diferentes valores de la distancia euclidiana pero que siguen siendo formas válidas de medir la distancia entre dos puntos.

Otra distancia que a veces se usa en el aprendizaje automático es la “distancia de Manhattan”, también conocida como “distancia de taxi”:

d_1\left ( P,Q \right )= \left \| X_1-X_2 \right \| + \left \| Y_1-Y_2 \right \|

Nuevamente, si P y Q están en el eje x, esta distancia coincide con el valor absoluto de la diferencia. La distancia del nombre de los taxis viene dada por el hecho de que la distancia entre P y Q no se mide con el teorema de Pitágoras, que busca un atajo diagonal entre P y Q, pero que comienza desde P y se mueve a lo largo del eje x hasta llegar arriba o debajo de Q, luego moviéndose a lo largo del eje y y alcanzando Q.

 

 

 

 

 

DITANZA EUCLIDEA TRIANGULO

Figura 2. Distancia euclidiana (verde) vs. distancia de taxi (rojo)

Es la maniobra que debe hacer un taxi para ir desde un punto en una cuadra hasta el punto opuesto: no puede pasar en la mitad de la cuadra, sino que debe ir por sus lados.

Otra distancia, que a veces se usa, es la “distancia uniforme”, que la escribimos en la siguiente formula \left \{ |x_1-x_2 | \right \}\left \{ |y_1-y_2 | \right \}

Es decir, esto se calcula tomando la longitud máxima del segmento obtenido al proyectar los dos puntos en los ejes x e y: nuevamente, es obvio que si los puntos se encuentran en el eje x, esto se reduce al valor absoluto de la diferencia entre dos puntos. Una notación de color: en el espacio, una “bola” se define como el conjunto de puntos que tienen una distancia menor que un número fijo, el radio, desde un punto fijo, el centro: es decir, si O es el centro y el radio, todos los puntos tales que d (P, O) <r constituyen la bola. Esta terminología es clara si usamos la distancia euclidiana.Pero, usando la distancia de los taxis, ¿qué figura geométrica sale considerando todos los puntos P de modo que d1 (P, O) <r? (pista: se dice que esta distancia tiene las bolas cuadradas …).

Introducción a los métodos de reducción de dimensionalidad y elementos de álgebra lineal (Parte 2)

Autor: Matteo Alberti

Traductor: Paula Vidal

 

Sumario

Métodos lineales para la reducción:: 2

Identificación a través de la individualización de los subespacios. 2

Aproximación de las matrices usando el método de reducción. 10

Casos de aplicación básicos: Descomposición en valores singulares (SVD). 11

Reglas de matrices. 11

Reglas de vectores. 13

Reglas de inducción. 13

Reglas de Schatten. 13

Reglas de Frobenius. 13

Casos de aplicación básicos: análisis de Cluster. 16

Definición de una métrica. 16

Distancias Minkowski (Manhattan, Euclidea, Lagrange). 16

 

 

El objetivo de este primer tutorial es introducir las nociones básicas de reducción de la dimensionalidad desde el punto de vista matemático (espacios, subespacios, mapas lineales) y recuperar los elementos necesarios de álgebra lineal (normas, isometría, isomorfismo …) para cada uno de los algoritmos de aprendizaje automático.

 

 

Reglas de matrices

En este punto, hemos establecido el problema de reducir la dimensionalidad de los datos como un problema de aproximación entre matrices, ahora debemos evaluar y luego calcular la distancia entre la matriz de los datos originales y los aproximados a través del estudio de las diferentes normas:

Hay tres tipos principales de reglas:

  • Reglas de vectores
  • Reglas inducidas
  • Reglas Schatten

 

Cuando en el campo del análisis de datos nos referimos esencialmente, en algunas excepciones, a la norma Frobenius (distancia euclidiana)

 

Elemento de algebra:

Norma

Un norma(comúnmente viene marcada con ‖ ‖) es una función del espacio vectorial de matriz si:

 

ecuation 18

 

 

 

Reglas vectoriales

La familia de reglas vectoriales trata la matriz   X_n_x_k  como un vector   de  componentes donde podemos definir la norma usando cualquiera de las siguientes reglas:

pic 10

 

Nota:

Configurando p = 2 estamos conectados a la norma euclidiana

 

 

Reglas de inducción

 

pic 11

 

Regla de Schatten

 

La norma Schatten, de orden p, de una matriz X simplemente está dada por:

ecuation 21

 

Donde w_i   tiene valores singulares

 

 

Regla de Frobenius  

La norma Frobenius de nuestra matriz   X_n_x_k  inicial está dada por:

ecuation 22

 

Vamos a calcular, explicando el producto de matriz que obtenemos:

 

ecuation 23

 

Corresponde que la norma de Frobenius es igual a la raíz cuadrada de la suma al cuadrado de los elementos osea es una norma euclidiana vista como un vector que concuerda con la regla de vector de X de orden 2.

 

Elementos de algebra:

pista:

El operador de seguimiento, indicado por Tr (∙), se define como la suma de los elementos diagonales de la matriz de argumentos

 

 

 

Casos de aplicación básicos: análisis de Cluster

 

El análisis de Cluster es una técnica de análisis multivariado mediante la cual es posible agrupar unidades estadísticas, a fin de minimizar la “distancia lógica” interna de cada grupo y maximizar la que existe entre los grupos.

Es una de las técnicas de aprendizaje no supervisadas.

Por lo tanto, es espontáneo tener que definir qué se entiende por distancia lógica y en función de qué métrica.

 

Definición de métrica

pic 13

 

Si, por el contrario, presenta las tres primeras propiedades, podemos definirlo como un índice de distancia

 

Distancias Minkowski (Manhattan, Euclidea, Lagrange)

En este punto vamos a analizar los principales casos de distancias pertenecientes a la familia de distancias Minkowski donde:

ecuation 25

 

 

Destacamos los siguientes casos:

  • k=1 Distancia de Manhattan
  •  k=2 Distancia euclidiana
  • k\mapsto \propto  Distancia Lagrangiana (Čebyšëv)

 

Como por ejemplo:

ecuation 26

 

Por lo tanto, comenzando con el ejemplo de Cluster Analysis, es esencial definir el tipo de distancia con la que queremos trbajar en nuestro análisis.

Principalmente en los paquetes ya implementados se encuentran las tres variantes de las distancias de Minkowski (para variables cuantitativas)

Importar desde sklearn:

AgglomerativeClustering(n_clusters=2, affinity=’euclidean’, memory=None, connectivity=None, compute_full_tree=’auto’, linkage=’ward’

 

 

ecuation 27

Introducción a los métodos de reducción de dimensionalidad y elementos de álgebra lineal ( Parte 1)

Autor: Matteo Alberti

Traductor: Paula Vidal

 

Sumario

Métodos lineales para la reducción:: 2

Identificación a través de la individualización de los subespacios. 2

Aproximaciones de las matrices usando el método de reducción. 10

Casos de aplicación básicos: Descomposición en valores singulares (SVD). 11

Reglas de matrices. 11

Reglas de vectores. 13

Reglas de inducción. 13

Reglas de Schatten. 13

Reglas de Frobenius. 13

Casos de aplicación básicos: análisis de Cluster. 16

Definición de una métrica. 16

Distancias Minkowski (Manhattan, Euclidea, Lagrange). 16

 

 

El objetivo de este primer tutorial es introducir las nociones básicas de reducción de la dimensionalidad desde el punto de vista matemático (espacios, subespacios, mapas lineales) y recuperar los elementos necesarios de álgebra lineal (normas, isometría, isomorfismo …) para cada uno de los algoritmos de aprendizaje automático.

 

 

Métodos lineales para la reducción:

Por lo tanto, vamos a presentar con términos generales la lógica de los procesos de reducción lineal e dimensionalidad yendo en la primera fase para identificar subespacios “óptimos”.

 

 

pic 1

ecuation 1

 

Elementos de algebra:

Espacio vectorial

Definimos un espacio vectorial en R en un conjunto V, cuyos elementos se denominan vectores y presentan las siguientes propiedades vector.

                                                                                 

xiste en V una operación definida suma vectorial que se asocia en x,y \in V vector x+y \in V

  • La suma del vector es conmutativa, asociativa
  • Hay un vector en V, indicado con 0 y definido como origen
  • Cada vector X \in V   tiene su simbolo opuesto, indicado con –x t.c. x+(-x)= 0

Existe en V una operación definida multiplicación para los escalares que asocian en  con cada  X \in V  y a cada   I a \in V el vector   ax \in V en tal modo que:

  • La multiplicación entre escalares es asociativa
  • 1x = X, \forall X \in V

También vale para:

  • La multiplicación escalar es distributiva con respecto a la adición de vectores

Subespacio de vectores

S es un conjunto no vacío del subespacio de V si para cada  X-X=O \in      y cada uno de su combinación lineal    ax+\beta y =\in S

 

 

Nucleo e imagen

Sean V y W dos espacios vectoriales y que sean   L: V W una aplicación lineal

El núcleo de L es el conjunto de vectores de V cuya imagen es el vector nulo de W.

Este conjunto está indicado con ker L

pic 2

 

 La imagen de L es el conjunto de los vectores de W que son imágenes de algún vector que pertenece al dominio V, es decir:

 

pic 3

 

Mapa lineal

Un mapa lineal (o aplicación) f: V -> W entre espacios vectoriales reales es una función para la cual las propiedades son válidas:

ecuation4

por cada

pic 4

 

 

 

Vamos a definir solo los casos de relevancia principal:

Sean f: V -> W un mapa lineal. Entonces f es:

  • un monomorfismo si es inyectivo
  • un epimorfismo si es sobreyectiva
  • un isomorfismo si es biyectivo (inyectivo + sobreyectiva)
  • un endomorfismo si V = W
  • un automorfismo si V = W y es biyectiva.
  • de rango r si r = dim f(V).

 

Supongamos a este punto que hemos identificado un subespacio ( que especificaremos más adelante) V_p   que resulte suficientemente “aproximado” y que sea  V_1,..V_P  una base de V_P  (Nota: la base esta formata por vectores k-dimensionales porque    V_P es el subespacio de   R^k)

El mapa lineal \varphi\left ( . \right )  asociamos la entrada x_i  al elemento \varphi\left ( x_i \right ) de V_p , obtenemos la seguiente formula:

 

ecuation 5

a_i_j elejidos apropidamente

 

pic 5

 

 

A través de nuestro mapa, los vectores k-dimensionales de entrada se representan en vectores p-dimensionales que son elementos de  R^p .

 

En este punto podemos proceder a un análisis adicional de R^p

 

Así que investiguemos cómo esta reducción en la dimensionalidad sirve para mantener y perder como por ejemplo veamos el siguiente caso:

 

  • R^k \mapsto V_P
  • De V_p \mapsto R^P

 

 

R^k\mapsto V_p

 

 

 

Naturalmente pasar de k a p dimensiones con p <k implica una pérdida de información y una deformación de la geometría original del dato. De particular relevancia es que cualquier mapa lineal no puede ser un isomorfismo o una isometría.

 

Ciò comporta che tutte le norme, prodotti scalari e distanze non vengono preservate

Esto significa que todas las reglas, productos escalares y distancias no se conservan

Ejemplo:

pic 6

 

 

Elementos de algebra:

                               

Complemento octogonal:

Sea   S\subseteq V un subespacio de V, representamos un complemento ortogonale de D en V indicandolo con  S^\bot  el subconjunto de V los expresamos en la siguiente formula:

pic 7

 

 

Osea es un subconjunto de todos los vectores de V ortogonal a todos los vectores de S

 

 

 

 

 

V_P\mapsto R^P

 

 

El mapa lineal  \varphi (.) es un isomorfismo de los espacios vectoriales  V_p y R^p   , esto significa que no habrá pérdida de información.

 

 

pic 8

 

 

 

Elementos de algebra:

 

ortonormal:      

Una base se define como ortonormal cuando se compone de vectores uniformemente unitarios y ortogonales

 

 

 

Aproximaciones de las matrices usando el método de reducción

Queremos ofrecer una segunda visión sobre la reducción a la dimensionalidad basada en la aproximación matricial (esto es lo que se utilizará en la práctica en todos los lenguajes de programación)

Data:

 

pic 9

 

 

Entonces podemos escribirlo como:

 

ecuation 17

 

Las columnas de θ están dadas por las combinaciones lineales de las filas de B que provienen de nuestra base, con los coeficientes dados por las filas de A, las coordenadas de la base elegida.

Por lo tanto, nuestro problema de reducir la dimensionalidad corresponde a identificar un subespacio vectorial de dimensión p (p <k)  denuestra base elegida (B) y de las coordenadas relativas dadas por la matriz A.

 

En el análisis de los datos, donde nuestro punto de partida es la matriz de datos, las diferentes técnicas de reducción  se difirencian según el tipo de aproximación, descomposición y elección entre las muchas bases posibles.

 

 

Casos de aplicación básicos: Descomposición en valores singulares (SVD)

Implementemos en Python una simple descomposición en valores singulares (SVD), es decir, dividamos nuestra matriz de inicio X en las dos matrices A y B vistas anteriormente:

 

import numpy as np

X = np.array([3,2,4],[3,6,7],[2,1,4])

autoval, autovett = np.linalg.eig(X)

 

 

 

 

 

 

 

 

Derivada: una explicación intuitiva

Autor: Davide Coppola

Aunque a veces se pasa por alto, las matemáticas son una parte fundamental del aprendizaje automático (ML) y el aprendizaje profundo (DL). De hecho, es la base sobre la cual se basan ambas disciplinas: sin ninguna noción de álgebra o análisis, no podrían existir. Un elemento clave en ML, derivado del análisis matemático, es la noción de derivada. Pero no debes tenerle miedo; ¡es mucho más simple de lo que piensas!

 

Primero, definamos qué es una función: se puede pensar como una caja negra (Fig. 1): un número n de valores de entrada o variables independientes ingresan al cuadro, se procesan de acuerdo con un procedimiento específico determinado por la ecuación (o ecuaciones) que describen la función, y finalmente m nuevos valores de salida o variables dependientes salen de la caja.

Para el resto de este tutorial, nos enfocaremos en funciones unidimensionales, es decir, funciones que tienen solo una entrada y una salida. Ejemplos comunes de este tipo de funciones son:

y = mx + q

y = ax^2 + bx + c

y = ln(x()

Donde m, q, a, b y c son solo coeficientes numéricos, puede considerarlos como cualquier número constante. 1 es la ecuación de una recta, 2 describe una parábola y 3 es la función de logaritmo natural. Como puede ver, todas tienen una variable independiente (x) y una dependiente (y): una función que describe la relación entre las dos variables, por lo que determina la “forma” en el espacio.

Pero si una función ya describe una curva, entonces ¿por qué necesitamos derivadas?

En general, las funciones no son tan simples como los ejemplos anteriores y puede ser imposible o poco práctico probar todos los valores posibles de la variable independiente para comprender el comportamiento de la función. Por lo tanto, la derivada de una función proporciona información adicional sobre la curva que se estudia.

 

¿Qué es una derivada entonces? La derivada de una función f es otra función f ‘(x), tomada de la original, que describe la variabilidad de f, es decir, cómo se comporta la tasa de cambio de la función con respecto a la variable independiente. La derivada evaluada en un punto x describe cómo está cambiando la función entorno a  x. Por ejemplo, si la derivada es positiva, podemos esperar que los puntos que siguen x tengan valores mayores que y. Esto significa que la función está creciendo de acuerdo con el aumento de x. Del mismo modo, si la derivada es negativa en x, el valor de la función disminuye a medida que x aumenta. Por lo tanto, la derivada en cualquier punto indica la inclinación de la línea de tangente a la curva en ese punto, como se puede ver en la Fig. 2.

 

 

 

La inclinación (o coeficiente angular) define la relación entre la altura y la longitud horizontal, por ejemplo, de un plano inclinado o de un triángulo rectángulo; Seguramente habrás conocido este concepto en las señales de tráfico (Fig. 3). En general, la inclinación viene dada por la ecuación

Fig. 3:

La definición estricta de una derivada, de hecho, es el límite de la relación incremental:

Este informe describe la inclinación de una línea secante a la curva  que pasa por los punto. De hecho, el numerador  se puede ver como la altura de un plano inclinado, cuya longitud horizontal es simplemente  . El límite dice que debe ser un número infinitamente cercano a cero, lo que significa que la distancia entre dos punto es prácticamente inexistente. De hecho, lo que inicialmente era una secante se convierte en una tangente a la curva,como podemos observar en la Fig 4

Fig 4

Antes de mirar un ejemplo simple, recapitulamos los conceptos  claves de una derivada

 

  • … representa la variabilidad de la función primitiva con respecto a la variable independiente;
  • … de una función y otra una función a su vez;
  • … evaluando un punto dado, representa la inclinación de la tangente a la curva en ese punto.

Fig. 5: Una parábola y su derivada. Las líneas verde y azul son tangentes a la curva en los puntos x = -2 y x = 2, respectivamente.

 

En el ejemplo (Fig. 5) tenemos los gráficos de una función () y su derivada () : la primera es una parábola, mientras que la segunda es una línea recta. Las funciones y sus derivados se representan generalmente con sus respectivos gráficos  uno encima del otro; esto se debe a que la variable independiente es la misma y esta disposición facilita la comprensión de su relación.

 

Observando   ,podemos ver que la derivada es positiva, lo que significa que la función crece con  , es decir, la inclinación de cualquier recta tangente  para  es positiva. Sin embargo, el valor de la derivada está disminuyendo con una tasa constante, esto significa que incluso la “velocidad” de crecimiento del valor de f está disminuyendo. Como consecuencia, las líneas tangentes de la curva tienden cada vez más a una línea horizontal.

 

La situación extrema ocurre para  , que corresponde al vértice de la parábola y al punto donde la derivada es  . Los puntos que tienen la derivada igual a  se llaman puntos críticos o puntos estacionarios. Juegan un papel fundamental en el análisis matemático y de ML, ya que representan puntos que corresponden a los puntos máximos, mínimos y de silla de una función. Muchos algoritmos de aprendizaje automático giran en torno a la búsqueda de los mínimos de una función, por lo que es importante tener un conocimiento mínimo de los derivados y su significado.

 

Con ,  la derivada es negativa y su valor absoluto continúa creciendo. Esto significa que la función primitiva disminuirá en valor con x que la “velocidad” con la que esto sucede crecerá con cada paso. De hecho, esto es exactamente lo que le sucede a la parábola.

 

El propósito de este tutorial fue brindarle una comprensión general de cómo funciona una derivada y su significado, sin utilizar demasiadas ecuaciones. Obviamente, es necesario un análisis más profundo y riguroso del tema si comprendemos completamente los problemas más complejos que surgen en el aprendizaje automático. Pero no tengas miedo, ¡no es tan complicado!

 

 

Las Figuras 3 y 4 fueron tomadas de Wikipedia.