Long-term memory neural network 1 – Introducción

Autor: Daniele D’armiento
Las habilidades cognitivas como el reconocimiento, la predicción, la elección de respuestas y las acciones implican la recuperación de información previamente almacenada.
El desafío para desarrollo de la inteligencia artificial es crear un modelo que pueda almacenar mucha información y que pueda rescatarse rápidamente.
Pero no es una novedad que las computadoras ya puedan almacenar grandes cantidades de datos (se estima que todos los datos almacenados hasta la fecha superan los ZettaByte, o 1021 bytes) incluso estos datos están indexados en un database de varios tipos, disponibles y recuperables con lenguajes potentes como SQL.
Además, el cerebro humano tiene una memoria que no estable como aquella del silicio, pero en esta “brecha” reside el potecial de procesar datos como intuitivamente sabemos, asi poder vencer la maldición de la llamada dimensionalidad.

 

Ninguna investigación ha revelado completamente los secretos del cerebro humano, sin embargo no comprendiendo completamente el funcionamiento de nuestra inteligencia, el desarrollo de estos últimos años  a sido gracias al  Deep Learning (que tiene sus orígenes enraizados en la biología de las redes neuronales) nos permite acercarnos a este modelo de inteligencia, que aprende a reconocer señales codificadas en imágenes y sonidos, clasificarlas, construir representaciones internas para organizar estos pilares de datos, recuperar rápidamente la información que se almacena de forma distribuida en todos los nodos de la red (por lo tanto, en cada neurona, y no en direcciones de memoria precisas), todo en modo automático, sin instrucciones algorítmicas secuenciales.

En los años previos al advenimiento del Deep Learning la velocidad del cálculo era muy limitada, y no hace falta decir que, si los procesos son lentos, lleva mucho tiempo procesarlos y memorizarlos. Es obvio pero no trivial, porque nadie había intentado experimentar con un modelo de red la cual habría requerido años para ser utilizada, pero la clave para descubrir este mundo ya existía. Dado que el modelo de aprendizaje que todavía se utiliza en la actualidad es Backpropagation, junto con Gradient Descent para lograr que no haya ningún error, se requirió muchos pasos de actualización de los pesos de la red, y muchos datos como ejemplos para el cual poder aprender. Todo esto hace que el proceso de aprendizaje sea muy difícil con los cálculos.

Como resultado, los viejos modelos tenían que ser livianos, y no explotaban la enorme cantidad de datos necesarios, se limitaban a arquitecturas “shallow” es decir, no profundas o con menos parámetros de entrenamiento, uno o dos niveles de neuronas feed-forward. Pero para abstraer una representación válida de la realidad observada, es decir, memorizar datos en estructuras complejas capaces de preservar el mayor número de características observadas, y al mismo tiempo generalizar, es decir, reconocer esas características incluso en objetos nuevos nunca antes observados, se necesita un modelo más complejo.
Necesitas memorizar más datos, memorizar pero no “como máquina”, (dicen todos aquellos nacidos antes del advenimiento de la singularidad, (si alguna vez pasara … ¡cuando la realidad supera  toda ciencia ficción!), Eso no es como cuando aprendemos un poema de memoria, pero al contrario, es como cuando enciendes una lámpara y entiendes una estructura de cosas que unifica varias facetas de una sola entidad que anteriormente parecía no estar relacionada con ningún enlace.

Cuando un modelo de aprendizaje profundo nos sorprende con su capacidad para reconocer objetos en imágenes, o para comprender las palabras que estamos pronunciando, o para responder de manera sensata a una pregunta escrita, significa que el modelo ha capturado la información necesaria para resolver ese problema en particular, a partir de los datos a los que se han enviado. No memorizó todos los datos en una base de datos clásica, pero los filtró, resumiendo un “concepto”, de una manera que se acerca a la manera en que pensamos nosotros los conceptos.

Esto es posible gracias a la estructura “deep” de los modelos actuales, que permite, de una manera que todavía no se entiende del todo, almacenar más información y conceptos en la red, en comparación con los modelos anteriores.

En cuanto a los modelos lingüísticos para las traducciones, la conversación y todas las aplicaciones NLP y NLU, ha habido un marcado aumento en el rendimiento gracias a Deep Learning.

Estas actuaciones se pueden medir estadísticamente, pero también es intuitivo comprender cómo un cierto modelo puede realizar un chatbot decente o una buena traducción. Si lo hace, significa que la red neuronal tiene una memoria capaz de hacer que las conexiones semánticas sean más complejas que una simple tabla de referencia. Esto requiere una memoria a largo plazo, que pueda vincular palabras o frases o referencias semánticas que tengan sentido, y así generar una representación interna de un contexto, en lugar de crear estadísticas simples de palabras en n-gramas tales como sucedia años atras.

En el siguiente análisis veremos un modelo muy interesante, las redes (DMN) Dynamic Memory Network, que están formadas en elementos compuestos de frases de entrada, preguntas y respuestas, cuyo potencial radica en la llamada memoria Episodica, capaz de realizar un procesamiento de múltiples pasos de las frases de entrada, a partir de las cuales elabora un contexto e intenta extraer la información solicitada.

 

Bibliografía

https://blogs.cisco.com/gov/internet-traffic-continues-to-explode-no-end-in-sight

https://thoughtsahead.com/2017/01/27/machine-learning-series-introduction-to-machine-learning-linear-regression-and-gradient-descent/

https://www.quora.com/What-is-the-difference-between-deep-and-shallow-neural-networks

https://research.googleblog.com/2017/05/using-machine-learning-to-explore.html

https://yerevann.github.io/2016/02/05/implementing-dynamic-memory-networks/

0 comentarios

Dejar un comentario

¿Quieres unirte a la conversación?
Siéntete libre de contribuir

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *