OpenAI DALL-E y CLIP: el primer salto serio en modelos texto-a-imagen
El pasado 5 de enero, OpenAI publicó dos anuncios el mismo día que pasarán a la historia como punto de inflexión. DALL-E, un modelo de 12 mil millones de parámetros derivado de GPT-3, capaz de generar imágenes originales a partir de descripciones en texto. Y CLIP, un modelo entrenado con cientos de millones de pares imagen-texto extraídos de internet, que aprende a relacionar lenguaje y contenido visual de manera robusta.
Por separado son dos artefactos técnicos impresionantes. Juntos marcan el inicio de una era donde la frontera entre texto e imagen se vuelve cada vez más porosa. En ALCA llevamos los últimos días digiriendo qué significa esto para una empresa mexicana mediana que está pensando en su estrategia tecnológica de 2021.
Qué hace exactamente DALL-E
La idea es engañosamente simple. Le escribes una descripción ("un sillón con forma de aguacate", "un caracol hecho de arpa") y el modelo genera una imagen original que corresponde a esa descripción. No la busca en una base de datos, no la compone con piezas existentes: la sintetiza desde cero, pixel por pixel, basándose en patrones aprendidos durante el entrenamiento.
Lo notable no es solo la calidad visual, sino la composición. DALL-E entiende preposiciones espaciales, atributos cruzados, contextos imposibles. Puede combinar conceptos que nunca aparecieron juntos en sus datos de entrenamiento. Es lo más cercano que hemos visto a un modelo que "imagina" en sentido literal.
Por ahora no está disponible públicamente. OpenAI mostró un blog post con ejemplos curados y prometió ampliar acceso poco a poco. Sospechamos que la versión que terminará siendo masiva en algunos años no será este DALL-E exacto, sino una evolución. Pero la categoría queda inaugurada.
Qué hace CLIP, y por qué importa más de lo que parece
CLIP es menos llamativo a primera vista, pero quizás más relevante para usos empresariales en el corto plazo. Es un modelo que aprendió a calificar qué tan bien una descripción de texto corresponde con una imagen. Lo entrenaron con 400 millones de pares (imagen, texto) tomados de internet, sin etiquetas humanas explícitas.
Eso le da una capacidad poderosa: puede clasificar imágenes en categorías que nunca vio durante entrenamiento, simplemente recibiendo descripciones de esas categorías en lenguaje natural. Si quieres clasificar fotos de inventario en "producto en buen estado" vs "producto dañado", no necesitas reentrenar nada; le pasas las descripciones y CLIP responde.
Para una empresa mediana eso baja drásticamente el costo de entrar a casos de uso de visión por computadora. Antes había que armar datasets etiquetados de miles de imágenes y entrenar redes específicas. Con CLIP, muchos casos se resuelven con prompt engineering visual.
Cómo lo entrenaron, en términos prácticos
DALL-E se entrenó usando una arquitectura tipo GPT pero adaptada para tokens visuales. Las imágenes se discretizan en una secuencia de tokens (similar a píxeles agrupados) y el modelo predice el siguiente token, igual que GPT-3 predice la siguiente palabra. La diferencia es que el vocabulario incluye texto e imagen mezclados.
CLIP usa un enfoque distinto, llamado pre-entrenamiento contrastivo. Toma muchos pares imagen-texto y aprende a acercar en un espacio compartido las parejas correctas y alejar las incorrectas. El resultado es un espacio donde la cercanía geométrica corresponde a relevancia semántica.
La conclusión técnica es que ambos enfoques apuntan en la misma dirección: modelos multimodales generales, no especialistas estrechos.
Qué pueden hacer hoy las empresas mexicanas con esto
Tres niveles de respuesta, según apetito de riesgo.
Nivel 1: observar y aprender. Si tu empresa no tiene equipo de ciencia de datos, lo que recomendamos es asignar a alguien para leer los papers, probar las demos públicas y entender qué se vuelve posible. No hay urgencia comercial todavía, pero entender la curva permite tomar mejores decisiones más adelante.
Nivel 2: pilotar CLIP en casos acotados. Si tienes catálogos visuales (e-commerce, inventario, archivos de documentos escaneados), CLIP permite búsquedas en lenguaje natural sobre esos catálogos sin entrenar modelos específicos. Es un piloto de bajo costo y alto aprendizaje.
Nivel 3: experimentar con generación. Aún no recomendamos generación a nivel producción, porque la calidad y el control son inconsistentes. Pero para equipos creativos, marketing y prototipado interno, vale la pena empezar a explorar las herramientas que vayan apareciendo en los próximos meses.
Riesgos y consideraciones que no podemos ignorar
Estos modelos heredan los sesgos de los datos con los que fueron entrenados, que en su mayoría son texto e imágenes en inglés, mayoritariamente de internet occidental. Si la generación va a representar a clientes mexicanos, productos locales o contextos hispanohablantes, los resultados pueden ser pobres o incluso problemáticos.
Tampoco está resuelto el tema de derechos de autor sobre imágenes generadas. La industria, los reguladores y los tribunales apenas están empezando a discutir cómo se aplica la ley a este tipo de contenido. Para usos comerciales serios, va a tomar tiempo tener claridad legal.
Y un último punto: los costos de cómputo siguen siendo significativos. Correr inferencia sobre estos modelos no es trivial. Para casos masivos, hay que esperar a que aparezcan APIs administradas o a que aparezcan versiones más pequeñas y eficientes.
La lectura para 2021
DALL-E y CLIP no son productos listos para empresas medianas mexicanas todavía. Son señales claras de hacia dónde va la industria. La empresa que en 2021 se familiariza con esta categoría va a tener tres años de ventaja sobre la que la descubre cuando ya sea masiva.
No hay que precipitarse, pero sí poner antenas. La era visual de la IA acaba de empezar.
¿Quieres anticipar la era visual IA? Conversemos. En ALCA ayudamos a equipos directivos a entender qué tendencias de IA conviene observar, cuáles pilotar y cuáles ignorar este año. Agenda una sesión técnica sin costo.