Midjourney entra en open beta: 1M usuarios en semanas y la nueva forma de crear imágenes
Midjourney lanzó su versión 2 en abril de este año y, a fines de junio, está a días de abrir su beta pública vía Discord (12 de julio). La comunidad explotó: lo que empezó como un servidor de Discord donde los primeros usuarios experimentaban con prompts y compartían resultados va camino a convertirse en una de las plataformas de IA generativa de imágenes con más usuarios activos del mundo. Las cifras tempranas hablan de un millón de usuarios en cuestión de semanas tras el lanzamiento general.
Hace dos meses cubrimos DALL-E 2 de OpenAI. Lo que Midjourney trae a la conversación es distinto en formato (Discord, no API ni web propia), distinto en estética (más pictórica, menos fotorrealista por defecto) y distinto en filosofía (comunidad pública por defecto, no acceso privado). Para empresas mexicanas en marketing y diseño, la combinación de estas dos herramientas, más Stable Diffusion que está por aparecer en open source, marca el inicio de un nuevo capítulo del pipeline creativo.
Qué es Midjourney y por qué es distinto
Midjourney es un servicio de generación de imágenes desde texto. La diferencia más visible: no se usa por web ni por API. Se usa dentro de Discord, escribiendo el comando /imagine seguido del prompt en un canal donde está el bot. La generación tarda alrededor de un minuto, devuelve una grilla de cuatro variaciones, y se puede pedir upscale (mayor resolución) o variaciones adicionales sobre cualquiera de los resultados.
La estética por defecto tiende a lo pictórico, ilustración, conceptual: paisajes evocativos, retratos estilizados, escenarios fantásticos. Funciona muy bien para mood boards, conceptos creativos, ideas de campaña, exploración visual. Funciona menos bien (en su versión actual) para fotografía realista de producto o representación literal de objetos cotidianos.
A la fecha (junio 2022), el modelo activo es V3 con experimentación sobre versiones beta. La calidad ha mejorado significativamente respecto a las primeras versiones.
El factor Discord
El que la herramienta viva en Discord no es detalle menor; es decisión de producto que tiene implicaciones:
- Adopción viral. Cualquier persona puede entrar al servidor, ver lo que otros están generando, copiar prompts, aprender por imitación. La curva de aprendizaje es muy plana.
- Comunidad como diferenciador. Mientras DALL-E 2 sigue siendo experiencia individual, Midjourney es experiencia colectiva. Para equipos creativos eso resulta interesante.
- Privacidad limitada por defecto. Las imágenes que genera tu equipo en el servidor público son visibles para los demás miembros. Para uso corporativo serio, hay que pagar plan de pago con modo privado o crear servidor Discord propio.
Esta última nota es crítica para empresas: experimentación rápida en el servidor público sí, generación de creativos para campañas confidenciales no, sin antes activar el plan apropiado.
Casos enterprise que sí aplican hoy
Igual que con DALL-E 2, no todo lo que se ve en redes esta semana es trasladable a una operación corporativa. Algunos usos que sí pueden empezar a explorarse:
- Mood boards y exploración visual rápida. Lo más fuerte de Midjourney. Generar 30-50 direcciones visuales para una campaña en una tarde de trabajo, con calidad evocativa alta.
- Conceptos de producto y empaque. Iteración rápida de ideas para discusión con stakeholders, antes de invertir en diseño formal.
- Contenido para redes sociales. Para algunas categorías (lifestyle, decoración, fantasía, eventos), las imágenes generadas pueden funcionar como contenido de soporte.
- Material para presentaciones internas. Sustituir banco de imágenes genérico con imágenes que sí coinciden con lo que quieres comunicar.
- Prototipos editoriales. Para artículos, blog o newsletter, ilustraciones generadas pueden complementar contenido sin pasar por banco o ilustrador.
Lo que aún no recomendamos: imágenes finales para campañas masivas sin curaduría humana, fotografía de producto literal, contenido editorial de tono periodístico serio sin disclaimer claro.
Patrones de prompting que funcionan
La calidad de la imagen es función directa de la calidad del prompt. Algunos patrones que vemos consistentes:
- Sujeto + estilo + detalles + cámara. Estructura tipo "retrato de mujer joven, estilo art déco, paleta cálida, iluminación dramática, lente 85mm" funciona mejor que "mujer art déco bonita".
- Referenciar artistas, fotógrafos o estilos. "En estilo de Studio Ghibli" o "fotografía estilo National Geographic" da pistas claras al modelo.
- Modificadores técnicos. Términos como "ultra detallado", "8k", "iluminación cinematográfica" suelen mejorar resultado.
- Iteración con
--ar,--styley otros parámetros. Aspect ratio, peso de estilo y otros parámetros permiten ajustar dirección sin reescribir todo el prompt. - No empezar de cero cada vez. Si una variación se acerca, usarla como base para variaciones adicionales en lugar de relanzar prompt.
La habilidad de prompting es competencia que conviene desarrollar en el equipo. La diferencia entre alguien que sabe y alguien que está aprendiendo se nota en horas de trabajo y en calidad final.
Comparativa rápida con DALL-E 2
| Aspecto | DALL-E 2 (OpenAI) | Midjourney V3 |
|---|---|---|
| Acceso | Waitlist, web propia | Discord, beta abierta inminente |
| Estética por defecto | Más fotorrealista | Más pictórica/ilustración |
| Edición de imagen existente | Inpainting/outpainting | Limitada |
| Comunidad pública | No | Sí, central |
| Privacidad por defecto | Sí | No, requiere plan pago |
| Caso fuerte | Edición y ajustes precisos | Exploración visual rápida |
Para muchos equipos, la respuesta no es elegir una sola; es entender qué herramienta sirve para qué etapa del flujo creativo y combinarlas.
Riesgos y consideraciones
- Privacidad y confidencialidad. Como con DALL-E 2, los prompts y las imágenes pasan por servidores de la empresa que opera el servicio. Para campañas confidenciales, plan de pago con modo privado es mínimo.
- Copyright e IP. El panorama legal sigue siendo incierto. Para entregables a cliente, conviene cláusula explícita.
- Estilos referenciados a artistas vivos. Generar imágenes "en estilo de [artista vivo]" es práctica que ya está generando debate ético y legal. Conviene evitarlo en uso comercial.
- Consistencia entre piezas. Generar la misma persona o personaje en múltiples imágenes es complicado. Para campañas con consistencia visual obligatoria, esto sigue siendo limitación.
Cómo aterrizarlo en las próximas seis semanas
Recomendamos un esquema de tres pasos:
- Asignar un explorador. Una persona del equipo creativo que dedica 4-6 horas semanales a aprender Midjourney y DALL-E 2 a fondo durante las próximas seis semanas.
- Identificar tres etapas del pipeline donde sustituir o complementar. Mood boards, conceptualización, variaciones para testing, contenido para redes sociales son candidatos claros.
- Definir política mínima. Qué tipo de proyectos sí, cuáles no. Cómo se documenta el uso. Cómo se maneja IP en entregables a cliente. No tiene que ser política perfecta; tiene que ser política existente.
Las empresas que entren ahora, con disciplina y curiosidad, van a tener seis a doce meses de ventaja sobre las que esperen a que la herramienta sea de uso masivo.
¿Quieres aterrizar Midjourney en tu pipeline? Te ayudamos. Agenda una llamada de 30 minutos y revisamos contigo dónde tiene más sentido empezar y qué política mínima necesitas.