Google anuncia Gemini 1.0: la respuesta a GPT-4 con polémica y demo editado
El miércoles 6 de diciembre, Google presentó Gemini 1.0, la primera familia de modelos diseñada como respuesta directa a GPT-4. Tras un año entero en posición reactiva frente a OpenAI, el anuncio busca recuperar narrativa: tres tamaños, multimodal nativo, integración con Bard de inmediato y una promesa de Ultra para inicios de 2024.
La parte menos cómoda llegó en horas: el video demo se reveló como editado. Las respuestas mostradas eran reales pero no en tiempo real ni con interacción de voz, sino con prompts cuidadosamente seleccionados y latencias acortadas. La polémica empañó el lanzamiento técnico.
Para una empresa mexicana evaluando opciones de IA, conviene separar el ruido del fondo. Aquí va.
Los tres tamaños y para qué sirve cada uno
Gemini se presenta en tres versiones, una arquitectura común con distintos perfiles de despliegue.
Gemini Nano. Diseñado para correr en dispositivo. Inicialmente disponible en el Pixel 8 Pro para tareas como resumen de grabaciones y respuestas inteligentes en chat. Importante porque marca el primer movimiento serio hacia inferencia local en hardware de consumo.
Gemini Pro. Modelo intermedio, disponible desde el día del anuncio vía Bard (que pasa a llamarse "Bard powered by Gemini Pro") y, semanas después, vía API en Google AI Studio y Vertex AI. Es el modelo comparable a GPT-3.5 Turbo en costo y tamaño práctico.
Gemini Ultra. El modelo de frontera, comparable a GPT-4. No disponible al lanzamiento. Llega en 2024 con un nuevo producto llamado Bard Advanced. Aquí está la mayor parte de la promesa de capacidad.
Esta segmentación responde a una crítica antigua a Google: producto fragmentado y mensaje confuso. La estructura por tamaño se entiende, aunque el calendario de Ultra es el punto débil.
Multimodalidad nativa: la diferencia técnica de fondo
El argumento técnico más fuerte de Gemini es que fue entrenado desde cero como modelo multimodal, no como un modelo de texto al que se le agregó visión después. En teoría, eso permite mejor razonamiento sobre combinaciones de modalidades (texto, imagen, audio, video).
En la práctica, en los benchmarks publicados:
- Gemini Ultra supera a GPT-4 en MMLU (medida amplia de conocimiento) por márgenes pequeños.
- Empata o supera en varias tareas multimodales (MMMU, video understanding).
- Pierde o empata en tareas de razonamiento textual puro frente a GPT-4 Turbo.
Es decir: es competitivo, no abrumadoramente superior. Los benchmarks publicados también tuvieron observaciones técnicas legítimas (uso de prompting distinto entre modelos, comparaciones con versiones específicas de GPT-4). El balance honesto es que Gemini Ultra está al nivel y, en multimodal, parece tener ventaja.
La polémica del demo
El video que circuló mostraba a alguien dibujando frente a una cámara mientras Gemini comentaba en voz natural lo que veía, con bromas y respuestas casi instantáneas. Era impresionante. Era también, como Google reconoció después, un montaje.
Las respuestas eran reales, pero el modelo recibía imágenes estáticas y prompts de texto, no video en tiempo real ni voz. El demo fue editado para fluidez. La aclaración llegó tarde y dañó credibilidad.
La lección para una empresa mexicana evaluando proveedores: no se compra desde el demo. Se compra desde la prueba propia, con datos propios, en condiciones realistas. Esto vale para Gemini, para GPT-4 y para cualquiera que venga.
Cuándo Gemini Pro hoy, cuándo no
Vale la pena darle a Gemini Pro un lugar concreto en el mapa de decisiones.
Conviene probar Gemini Pro cuando:
- La empresa ya vive en Google Workspace y quiere integración cercana con Docs, Sheets, Gmail (vía Duet AI, que migra a Gemini).
- Hay cargas en Vertex AI o BigQuery donde Gemini se integra de forma nativa.
- El caso es multimodal (imagen y texto) y la estructura de costos de Gemini Pro Vision es atractiva.
- Se busca diversificación de proveedor frente a OpenAI por gobernanza.
No conviene migrar a Gemini Pro cuando:
- Ya hay una integración madura con GPT-3.5 o GPT-4 Turbo y el caso de uso funciona bien.
- Se necesita el ecosistema de tooling alrededor de OpenAI (LangChain, LlamaIndex, Assistants API), que está mucho más maduro.
- El caso requiere capacidades específicas que Pro no alcanza y que Ultra todavía no está disponible.
Como con cualquier proveedor, la decisión debería respaldarse con una prueba A/B en datos reales del cliente, no con benchmarks publicados.
Integración con Workspace y plan empresarial
Para empresas mexicanas con Google Workspace como base de productividad, lo más importante de mediano plazo no es el modelo en sí, sino su integración:
- Duet AI / Gemini for Workspace. Asistente integrado en Docs, Slides, Sheets, Gmail, Meet. Pasa progresivamente a estar potenciado por Gemini.
- Vertex AI. Plataforma para construir aplicaciones empresariales con Gemini, con controles de gobierno (data residency, audit logs, IAM granular).
- AI Studio. Entorno de prototipado para desarrolladores, gratuito en pruebas iniciales.
Para una empresa que ya está en Workspace y considera asistentes de productividad, esta integración baja fricción significativamente frente a soluciones externas.
Riesgos y consideraciones
Tres puntos a no ignorar en la evaluación:
- Disponibilidad regional. Vertex AI tiene buena cobertura, pero hay regiones donde Gemini Pro tarda más en estar disponible que GPT vía Azure. Conviene confirmar antes de comprometer carga.
- Compromiso de roadmap. Google tiene historial de descontinuar productos (Bard mismo es un rebrand reciente). Cualquier integración profunda merece cláusulas de transición.
- Privacidad de datos. En Vertex AI, los datos del cliente no se usan para entrenamiento. En Bard de consumo, las reglas son distintas. Cualquier uso empresarial debe ir por la vía empresarial.
Qué hacer esta semana
Si su equipo todavía no ha probado Gemini, una agenda de 2 semanas es razonable.
- Crear cuenta en Google AI Studio y probar Gemini Pro con prompts representativos de un caso real, idealmente uno que ya esté funcionando con otro modelo.
- Comparar lado a lado contra GPT-3.5 Turbo o GPT-4 Turbo en calidad, latencia y costo por mil ejecuciones.
- Probar capacidades multimodales con imágenes propias de un caso operativo (factura escaneada, foto de campo, captura de pantalla).
- Evaluar integración con Workspace si ya es la base de productividad de la empresa.
- Documentar el resultado y archivarlo. Cuando llegue Gemini Ultra en 2024, esa evaluación será punto de referencia útil.
La lectura de fondo
Gemini 1.0 confirma que la competencia en modelos de frontera es real y que ningún proveedor va a tener monopolio en 2024. Para una empresa mexicana, eso es buena noticia: más opciones, mejores precios, mayor margen de negociación.
La trampa es entrar en el juego del benchmark. Lo que importa no es qué modelo es 2 puntos mejor en MMLU; es qué modelo resuelve mejor los casos específicos que mueven el negocio, con qué latencia y a qué costo. Esa pregunta solo se contesta con prueba propia.
En ALCA hacemos comparativas estructuradas de modelos (GPT-4, Claude, Gemini, Mixtral) con datos del cliente. ¿Quieres probar Gemini en un caso real? Te ayudamos. Agenda una conversación.