OpenAI Operator y la era de los agentes: qué pueden automatizar hoy y qué todavía no
A finales de enero, OpenAI lanzó Operator, un agente que controla un navegador real para ejecutar tareas a nombre del usuario: navegar sitios, llenar formularios, hacer reservas, comparar precios, completar compras. Por primera vez, una herramienta comercial de IA pasa de "responder preguntas" a mover el mouse y hacer clicks.
El cambio conceptual es enorme. Y para empresas mexicanas medianas, la pregunta práctica no es "¿es impresionante el video demo?" (lo es) sino ¿qué procesos puedo realmente automatizar hoy con esta tecnología, y cuáles todavía debo dejar a humanos?
Qué es Operator, sin marketing
Operator está construido sobre CUA (Computer-Using Agent), un modelo entrenado por OpenAI específicamente para entender capturas de pantalla y decidir el siguiente click, scroll o entrada de texto. No es magia: el agente ve lo que vería un humano (la página renderizada) y elige acciones. Si hay un botón visible que dice "Comprar", lo encuentra. Si la página cambia de layout, se adapta. Si aparece un captcha, se detiene.
Está disponible para usuarios Pro de ChatGPT en EE.UU. (acceso limitado en LATAM, normalmente vía VPN o cuentas configuradas) por $200 USD al mes. Anthropic lanzó algo conceptualmente similar, Computer Use, en octubre de 2024. Google está cerca con su propio agente. La carrera está abierta.
Lo que ya funciona bien
Después de varias semanas probando Operator y agentes equivalentes en escenarios reales, estas son las categorías donde vemos resultados consistentes:
Reservas y agendamientos repetitivos. Reservar mesa en restaurantes, agendar citas en calendarios públicos, completar formularios de inscripción. Si el flujo es estándar y la información necesaria está disponible, funciona.
Investigación con extracción estructurada. "Busca los 10 hoteles en Mérida con mejor calificación, extrae precio para fechas X, ponlo en una tabla". Operator navega TripAdvisor, Booking, Expedia y entrega un comparativo. Lo que antes tomaba a un asistente 45 minutos, lo hace en 5.
Formularios largos repetitivos. Llenar el mismo tipo de formato en distintos portales (registros gubernamentales públicos, alta de proveedores en marketplaces, postulaciones a concursos). Una vez le das los datos base, el agente itera por los sitios.
Scraping autorizado y monitoreo de precios. Revisar diariamente precios de productos competidores, capturar ofertas, alertar cambios. Casos donde antes había que pagar herramientas SaaS específicas, ahora se resuelven con un agente genérico.
Dónde se rompe (y va a seguir rompiéndose un rato)
Tan importante como saber qué pueden los agentes es saber qué no pueden, para no diseñar procesos que dependan de capacidades que todavía no existen:
Login con MFA real. Cualquier sitio que requiera autenticación de dos factores (token SMS, app authenticator, llave física) bloquea al agente. Y eso incluye la mayoría de bancos, sistemas SAT, ERPs, herramientas críticas de empresa. Operator pide al humano completar el login y luego continúa, pero la promesa de "automatización end-to-end sin supervisión" se cae ahí.
Sitios con anti-bot agresivo. Cloudflare avanzado, Akamai Bot Manager, captchas de imágenes, verificación de comportamiento del mouse. Muchas plataformas modernas detectan al agente y lo bloquean. Esto no es un bug del agente; es una guerra que va a continuar.
Decisiones críticas con consecuencias financieras. No queremos un agente confirmando órdenes de compra de seis cifras sin validación humana. Aún cuando técnicamente puede, el riesgo operativo y legal no lo justifica todavía. Mantén humano en el loop para cualquier decisión irreversible.
Trabajo creativo o ambiguo. Si la tarea requiere juicio sobre algo no definido (negociar términos, redactar respuesta personalizada a un cliente molesto, decidir si un producto encaja con la marca), el agente flaquea. No porque no pueda generar texto, sino porque el contexto de negocio rara vez está en la pantalla.
Operator vs Anthropic Computer Use vs agentes propios
Las tres opciones existen y compiten. Una comparación rápida:
- Operator (OpenAI): mejor experiencia de producto, navegador integrado, ideal para usuario final. Caja negra: no controlas el modelo ni el entorno.
- Computer Use (Anthropic): API directa, controlas tu propio entorno (Docker, VM), más flexible para integrar a sistemas internos. Requiere más trabajo de developer.
- Agentes propios con frameworks como LangGraph, CrewAI o AutoGen sobre cualquier LLM: máximo control, posibilidad de combinar herramientas específicas (APIs, bases de datos, code execution). Mejor para procesos internos donde no necesitas controlar navegador sino orquestar acciones.
Recomendación general: para experimentar con tareas en el navegador público, Operator. Para automatizar procesos internos donde tienes APIs, agentes propios sobre LangGraph o similar. Computer Use cuando necesitas algo en medio.
Los procesos en empresa mediana que valen la pena automatizar primero
No todos los procesos son buenos candidatos para agentes. Los criterios que usamos para priorizar:
- Repetitivo y de alto volumen. Si lo haces tres veces al mes, no vale el esfuerzo. Si lo haces 50 veces al día, sí.
- Reglas claras, poca ambigüedad. El agente brilla donde hay un proceso definido, no donde hay que improvisar.
- Errores reversibles o tolerables. Si un fallo del agente cuesta caro, no vale la pena automatizarlo aún.
- Información disponible en interfaces accesibles. Si requiere acceso a sistemas con MFA estricto, déjalo para después.
Con esos filtros, las áreas donde vemos retorno claro hoy en empresas mexicanas medianas:
- Investigación competitiva continua: monitoreo de precios, novedades de competidores, análisis de marketplaces.
- Procesamiento de leads inbound: enriquecer información de prospectos buscando en sitios públicos (LinkedIn público, sitio web, registros oficiales).
- Onboarding administrativo de proveedores: alta en distintos portales, llenado de formularios estándar.
- Reportería de portales gubernamentales públicos: descarga periódica de información del SAT, IMSS público, registros estatales.
- QA de flujos web: simular journeys de cliente en tu propio sitio para detectar errores antes que el usuario.
La lectura para CTOs y COOs
Los agentes están donde estaban los chatbots en 2017: prometen mucho, hacen menos de lo que prometen, pero la trayectoria es clara. En 18 meses van a poder más cosas, costar menos y ser más confiables. El error sería esperar a que estén perfectos para empezar a aprender; el otro error sería automatizar procesos críticos hoy.
El equilibrio: identifica 2-3 procesos de bajo riesgo y alto volumen, prueba un agente, mide retorno. Construye experiencia interna. Cuando la tecnología madure el próximo año, vas a estar listo para los casos de uso grandes en lugar de empezando a aprender.
En ALCA diseñamos pilotos de agentes pensados para procesos reales, no demos. ¿Curioso de probar un agente para un proceso específico? Conversemos sin compromiso.