Midjourney V1 y la nueva ola de imágenes generativas: cómo se ve el futuro creativo

Midjourney V1 y la nueva ola de imágenes generativas: cómo se ve el futuro creativo

En febrero de 2022 entró en alpha cerrada Midjourney V1, un sistema de generación de imágenes a partir de texto que opera vía Discord y produce arte abstracto y conceptual con un estilo característico. Casi al mismo tiempo, DALL-E 1 de OpenAI (que se presentó en enero de 2021) ya tenía un año circulando en demos y la comunidad de investigación habla de DALL-E 2 en desarrollo. VQGAN+CLIP, una técnica abierta que combina dos modelos para generar imágenes desde texto, lleva meses produciendo resultados que en 2020 hubieran parecido magia.

La señal es clara: 2022 va a ser el año donde la generación de imágenes con IA sale del laboratorio y empieza a llegar a manos de gente normal. Para empresas mexicanas medianas, vale la pena empezar a entender el espacio ahora, antes de que la agencia de publicidad llegue con propuestas o el equipo de marketing pregunte si pueden usarlo en la próxima campaña.

Qué hay hoy en el mercado

Estamos en un momento extraño: las herramientas existen, funcionan razonablemente bien, pero todavía requieren tolerancia a resultados imperfectos y curva técnica para usarlas. Lo principal:

DALL-E 1 (OpenAI)

Modelo presentado en enero de 2021. Capaz de generar imágenes de objetos y escenas a partir de descripciones de texto. Muy limitado en realismo y resolución, pero funcional para conceptos y mood boards. No tiene API pública abierta; OpenAI lo mantiene en demos cerradas.

Midjourney V1

Recién salido en alpha cerrada. Operación vía Discord (escribes /imagine y un prompt, te responde con cuatro variaciones). Estilo distintivo, más artístico que fotorrealista. Comunidad en crecimiento.

VQGAN+CLIP y derivados

Técnica abierta que combina un generador (VQGAN) con un evaluador semántico (CLIP). Funciona en Google Colab gratis. Estética muy "soñada", más cerca de arte abstracto que de fotografía. Útil para experimentar y entender cómo funciona la técnica por debajo.

Stable Diffusion (rumores, todavía no público)

Stability AI y colaboradores académicos están trabajando en un modelo de código abierto que va a apuntar a calidad similar a DALL-E. Todavía no es realidad pública, pero la trayectoria sugiere que en H2 2022 vamos a ver algo importante.

Casos de uso realistas para empresa mediana en 2022

Vamos a ser honestos: en febrero de 2022, estas herramientas no producen aún assets finales para campañas serias. Pero sí producen valor real en otros lados:

1. Mood boards y exploración de concepto

Para un proyecto de branding, packaging o campaña, generar 20-30 imágenes conceptuales en una tarde acelera enormemente la conversación con cliente o con dirección. Aún cuando el output final lo vaya a hacer un diseñador humano, la fase de exploración se vuelve más rica.

2. Prototipos de UI / ilustraciones internas

Documentos internos, presentaciones, slides de equipo, mocks de producto. Cosas donde la calidad "buena" basta y no se necesita "excelente".

3. Inspiración para fotografía de producto

Antes de hacer la sesión fotográfica cara, generar variaciones del producto en distintos contextos para decidir el setup que se va a producir. Ahorra tiempo y dinero al fotógrafo.

4. Educación y experimentación interna

Que el equipo creativo (y el equipo técnico) entienda las herramientas, sus límites, sus posibilidades. Es inversión en aprendizaje que va a rendir cuando las herramientas estén listas para producción.

Riesgos que ya hay que manejar

Aunque todavía es momento exploratorio, hay tres riesgos que conviene entender antes de meterlos en la operación:

1. Copyright e indemnización

Quién es dueño de una imagen generada por IA es una pregunta legalmente sin resolver. Algunas jurisdicciones (incluyendo EE.UU.) han empezado a decir que obras generadas exclusivamente por IA no son sujetas a copyright. Si tu empresa va a usar imágenes generadas en material comercial, pregúntate:

  • ¿Puedo proteger mi trabajo si lo copia alguien más?
  • ¿La empresa que entrenó el modelo tiene derecho sobre lo que produce?
  • ¿Estoy seguro de que no se entrenó con material protegido por copyright que pueda salir literal en mi imagen?

A día de hoy, lo prudente es no usar imágenes generadas por IA en material crítico de marca o en piezas que requieran protección legal fuerte.

2. Calidad inconsistente

Un mismo prompt puede dar resultados muy buenos y muy malos. Hay que generar mucho para llegar a algo usable, lo que en producción se traduce en tiempo. Para mood boards, está bien. Para banner final, todavía no.

3. Sesgos y representación

Como todos los modelos entrenados con datos de internet, estas herramientas tienen sesgos importantes (de género, de raza, culturales). Generar "ejecutivo exitoso" o "doctora" puede dar resultados problemáticos. Para empresa mexicana, particularmente importante: estas herramientas no representan bien a personas y contextos latinoamericanos.

Cómo empezar a explorar este Q1 sin gastar mucho

Tres pasos prácticos para una empresa mediana:

1. Designar un explorador

Una persona del equipo creativo o de marketing dedica 2-4 horas por semana a probar las herramientas que existen. No es tarea de comité, es de alguien curioso con tiempo protegido.

2. Probar tres herramientas

  • VQGAN+CLIP en Google Colab (gratis, requiere algo de paciencia técnica).
  • Solicitar acceso a Midjourney alpha (lista de espera).
  • Si tienes acceso a DALL-E vía contactos, también.

Comparar resultados con prompts equivalentes. Documentar qué tipo de imagen sirve para cada uso.

3. Sesión con equipo creativo

A finales de Q1, sesión de 90 minutos donde el explorador comparte aprendizajes con el equipo creativo y de marketing. Decisión colectiva: ¿qué casos de uso vamos a empujar más en Q2?

Lo que viene en 2022

Sin promesas (esto se mueve rápido), las apuestas razonables para el resto del año:

  • DALL-E 2 o equivalente con calidad significativamente superior, probablemente en H1.
  • Stable Diffusion o algún modelo abierto comparable que cambie la accesibilidad.
  • Integración a herramientas mainstream (Photoshop, Figma) en H2 o 2023.
  • Modelos especializados (logos, mockups de producto, ilustración estilizada) emergiendo.

Si hoy estamos en alfa, fin de año estamos en beta accesible y 2023 en herramienta mainstream.

La lectura

Las imágenes generativas todavía no son herramienta de producción para empresa mexicana mediana. Pero la trayectoria es clara y rápida: lo que hoy parece curiosidad, en 12-18 meses va a ser herramienta diaria del equipo creativo. Las empresas que dediquen este Q1 a explorar (sin presión de resultados) llegan a fin de año con criterio formado y con ventaja de contexto cuando llegue la decisión de adoptar en serio.


¿Quieres explorar IA generativa en marketing? Te ayudamos. En ALCA acompañamos a equipos creativos y de marketing a estructurar exploración técnica con foco en casos de uso reales. Conversemos sin costo.

Artículos relacionados