Deep Learning para extraer patrones de imágenes y texto en conjunto

Resumen:

Los modelos computacionales propuestos en la actualidad, para el entendimiento de imágenes y texto, contienen muchas propiedades similares en sus arquitecturas a pesar de la gran diferencia en la naturaleza de estas dos modalidades. En esta charla, se presentará algunas de las coincidencias con respecto al uso de redes neuronales con múltiples capas con módulos de multi-headed self-attention: Transformers. También, se discutirá algunas de las innovaciones del grupo de investigación de Vicente, relacionadas al uso de transfomers para: a) Representar texto y lenguaje en el mismo espacio de representación, b) Mejorar la búsqueda de imágenes a través de auto-atención a través de dos o múltiples imágenes, y c) mejorar la eficiencia de métodos de aprendizaje contrastual (contrastive learning) para entrenar modelos de representación conjunta de visión y lenguaje.

Expositor:

Vicente es Profesor Asociado en la Facultad de Ciencias de la Computación en Rice University – USA, y académico visitante en Amazon Alexa AI. Anteriormente se desempeñó como docente en la Universidad de Virginia y como investigador y profesor visitante en el Instituto Allen de Inteligencia Artificial y Adobe Research. Obtuvo su Ph.D. en la Universidad de Carolina del Norte en Chapel Hill, una maestría en Stony Brook University y se graduó como ingeniero en FIEC-ESPOL. Sus intereses de investigación se encuentran en la intersección de visión artificial, procesamiento del lenguaje natural y aprendizaje autónomo, con énfasis en modelos de reconocimiento visual eficientes que puedan realizar tareas que aprovechen tanto las imágenes como el texto. Vicente ha recibido premios como, NSF CAREER Award y financiamiento de empresas como, Facebook, Google, Amazon, eBay, Salesforce, SAP y Adobe.

Publicación del evento: 19 de enero del 2022