Icone color1 09

Utilizar el Deep Learning para mejorar la gráfica de FIFA 18

Autor: Chintan Trivedi

Linkedin: https://www.linkedin.com/in/chintan-trivedi-78665774/

Tradutor: Paula Vidal

 

1

 

Comparación entre las dos caras de Ronaldo: a la izquierda la de FIFA 18, a la derecha la generada por una  red neuronal profunda.

Game Studios ha gastado millones de dólares y cientos de horas de investigación y desarrollo en el diseño de los gráficos del juego, en un intento de hacerlo lo más veraz y natural posible. Aunque las caras de los jugadores son decididamente realistas, aún es posible distinguirlas de las reales. Sin embargo, ¿ han aprovechado los desarrollos  obtenidos en el procesamiento de imágenes utilizando redes neuronales profundas para mejorar los gráficos y, al mismo tiempo, reducir el esfuerzo requerido para hacerlo?

Entonces trataremos de responder usando FIFA 18

Para comprender si los desarrollos recientes pueden ayudarnos a responder esta pregunta,nos concentraremos en mejorar los gráficos faciales de los jugadores que utilizan el algoritmo DeepFakes,  es una red neuronal profunda que puede entrenarse para aprender y generar rostros humanos de una manera extremadamente realista. Este artículo se encargará, por lo tanto, de recrear las caras de los jugadores, sacándolos del juego y luego mejorarlos para que sean idénticos a los reales.

 Nota: aquí encontrará una buena explicación sobre cómo funciona el algoritmo DeepFake, este puede reemplazar una cara con la de cualquier otra persona que use autoencoder y redes neuronales convolucionales.

Recopilar datos de entrenamiento

A diferencia de los desarrolladores del juego, podemos obtener los datos que necesitamos simplemente búscando en Google, sin tener que molestar a Ronaldo y perdile que use los trajes que para registrar sus movimientos.

Comencemos obsenvando su cara digital, una de las mejores obtenidas del juego. Para que recopile  información el algoritmo deepfakes, simplemente necesitamos grabar la cara del jugador a través de la función  instant replay del juego. Ahora podemos reemplazarlo con la verdadera cara de Ronaldo y, para este propósito, descargamos algunas de sus imágenes de la búsqueda de Google que lo muestran desde diferentes ángulos. Estos pocos elementos son todo lo que necesitamos para comenzar el proceso de capacitacion del modelo.

Arquitectura modelo y entrenamiento

El algoritmo deepfakes se refiere al entrenamiento de redes neuronales profundas llamadas autoencoder. Estas redes para el entrenamiento no supervisado se componen de un encoder que comprime la entrada en un espacio de variables latentes denominado “encoding”, y un decoder que utiliza este espacio para reconstruir la entrada. Esta arquitectura obliga a la red a extrapolar información sobre la distribución de los datos de entrada, en lugar de dejar que se limite a la simple tarea de copiar la entrada en la salida. Utilizaremos aquí una red convolucional como un encoder y una red neuronal desconvolucional como decoder. Esta arquitectura está entrenada para minimizar el error de reconstrucción en el aprendizaje no supervisado

En nuestro caso, también formaremos simultáneamente dos autoencoders: el primero aprenderá a recrear la cara de Ronaldo a partir de los gráficos de FIFA 18, mientras que el segundo lo hará utilizando las imágenes reales previamente descargadas. En deepfakes, ambas redes comparten el mismo codificador pero están capacitadas con diferentes decoder.

2.jpg 5

2.jpg 5

  1. Operación del primer autoencoder que aprende de los gráficos del juego

3 2

2. Operación del segundo autoencoder que aprende a través de imágenes reales

Usando un modelo previamente entrenado en otras caras, la pérdida total va de 0.06 a 0.02, aproximadamente, en cuatro horas de entrenamiento usando una GTX 1070. En este caso, la capacitación continuó en el mismo modelo, CageNet, utilizado previamente para generar la cara de Nicolas Cage

Usar el modelo entrenado para intercambiar caras

 

Ahora llegamos a la parte más interesante. El algoritmo puede intercambiar rostros mediante la adopción de un truco inteligente: en el segundo autoencoder se inserta la entrada del primero . De esta forma, el encoder compartido puede usar el encoding obtenido de las caras digitales de FIFA 18 y permitir que el decoder B reconstruya, sobre la base de la imagen digital, la cara real. Al hacerlo, las caras de la FIFA se convierten directamente en la imagen realista de Ronaldo

4 2

El segundo codificador convierte la cara de FIFA en la real de Ronaldo

Resultados

El GIF muestra una vista previa rápida de los resultados obtenidos al permitir que el algoritmo funcione en las caras de otros jugadores. Podemos ver un mejoramiento notable.

 

5 1

5 1

6

6

Comparación antes y después del uso de deepfakes, de las caras de Ronaldo, Morate y Ozil

Se pueden encontrar más resultados en este video.

¿Podemos usar el algoritmo para colocarnos a nosotros mismos en el juego?

La respuesta es sí: todo lo que necesita es un video de un minuto de nosotros mismos y la descarga. El modelo se capacitó en unas pocas horas. Podemos, de esta manera, encontrarnos en el juego en la modalidad  “Viaje”.

Puntos de fuerza y debilidades

La mejor ventaja que hemos obtenido de este enfoque es sin duda el hiperrealismo de los rostros y los gráficos, difícilmente distinguibles de la realidad. Este resultado se puede lograr en unas pocas horas de entrenamiento, a diferencia de lo que ocurre con los desarrolladores del juego que, con el enfoque de hoy, toman años en hacer su trabajo. Esto significa que los productores podrían potencialmente hacer nuevos títulos en plazos mucho más cortos y que las compañías de producción podrían ahorrar una gran cantidad de dinero.

La limitación más obvia hasta ahora es que estas caras se han generado despues, como CGI (imágenes generadas por computadora) en películas, mientras que el juego requiere una realización en tiempo real. No obstante, una gran diferencia es que este enfoque no requiere intervención humana para generar resultados efectivos después de que el modelo ha sido entrenado. Además, la unica limitacion es el tiempo que toma la red neuronal para generar la imagen de salida. Probablemente no tome mucho tiempo para poder tener modelos generativos que no sean demasiado profundos y pesados, que puedan funcionar muy rápidamente sin comprometer la calidad de la producción. Al igual que ocurre con YOLO, SSD y MobileNets para la detección de objetos en tiempo real, lo que antes no era posible con modelos como RCNN.

0 comentarios

Dejar un comentario

¿Quieres unirte a la conversación?
Siéntete libre de contribuir

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *