Long-term memory neural network 1 – Introducción
Ninguna investigación ha revelado completamente los secretos del cerebro humano, sin embargo no comprendiendo completamente el funcionamiento de nuestra inteligencia, el desarrollo de estos últimos años a sido gracias al Deep Learning (que tiene sus orígenes enraizados en la biología de las redes neuronales) nos permite acercarnos a este modelo de inteligencia, que aprende a reconocer señales codificadas en imágenes y sonidos, clasificarlas, construir representaciones internas para organizar estos pilares de datos, recuperar rápidamente la información que se almacena de forma distribuida en todos los nodos de la red (por lo tanto, en cada neurona, y no en direcciones de memoria precisas), todo en modo automático, sin instrucciones algorítmicas secuenciales.
En los años previos al advenimiento del Deep Learning la velocidad del cálculo era muy limitada, y no hace falta decir que, si los procesos son lentos, lleva mucho tiempo procesarlos y memorizarlos. Es obvio pero no trivial, porque nadie había intentado experimentar con un modelo de red la cual habría requerido años para ser utilizada, pero la clave para descubrir este mundo ya existía. Dado que el modelo de aprendizaje que todavía se utiliza en la actualidad es Backpropagation, junto con Gradient Descent para lograr que no haya ningún error, se requirió muchos pasos de actualización de los pesos de la red, y muchos datos como ejemplos para el cual poder aprender. Todo esto hace que el proceso de aprendizaje sea muy difícil con los cálculos.
Cuando un modelo de aprendizaje profundo nos sorprende con su capacidad para reconocer objetos en imágenes, o para comprender las palabras que estamos pronunciando, o para responder de manera sensata a una pregunta escrita, significa que el modelo ha capturado la información necesaria para resolver ese problema en particular, a partir de los datos a los que se han enviado. No memorizó todos los datos en una base de datos clásica, pero los filtró, resumiendo un “concepto”, de una manera que se acerca a la manera en que pensamos nosotros los conceptos.
Esto es posible gracias a la estructura “deep” de los modelos actuales, que permite, de una manera que todavía no se entiende del todo, almacenar más información y conceptos en la red, en comparación con los modelos anteriores.
En cuanto a los modelos lingüísticos para las traducciones, la conversación y todas las aplicaciones NLP y NLU, ha habido un marcado aumento en el rendimiento gracias a Deep Learning.
Estas actuaciones se pueden medir estadísticamente, pero también es intuitivo comprender cómo un cierto modelo puede realizar un chatbot decente o una buena traducción. Si lo hace, significa que la red neuronal tiene una memoria capaz de hacer que las conexiones semánticas sean más complejas que una simple tabla de referencia. Esto requiere una memoria a largo plazo, que pueda vincular palabras o frases o referencias semánticas que tengan sentido, y así generar una representación interna de un contexto, en lugar de crear estadísticas simples de palabras en n-gramas tales como sucedia años atras.
En el siguiente análisis veremos un modelo muy interesante, las redes (DMN) Dynamic Memory Network, que están formadas en elementos compuestos de frases de entrada, preguntas y respuestas, cuyo potencial radica en la llamada memoria Episodica, capaz de realizar un procesamiento de múltiples pasos de las frases de entrada, a partir de las cuales elabora un contexto e intenta extraer la información solicitada.
Bibliografía
https://blogs.cisco.com/gov/internet-traffic-continues-to-explode-no-end-in-sight
https://thoughtsahead.com/2017/01/27/machine-learning-series-introduction-to-machine-learning-linear-regression-and-gradient-descent/
https://www.quora.com/What-is-the-difference-between-deep-and-shallow-neural-networks
https://research.googleblog.com/2017/05/using-machine-learning-to-explore.html
https://yerevann.github.io/2016/02/05/implementing-dynamic-memory-networks/