Claude 3.5 Sonnet (New) + Computer Use: agentes que controlan tu pantalla (y por qué importa para empresas)
El 22 de octubre Anthropic liberó tres cosas el mismo día: una versión actualizada de Claude 3.5 Sonnet (referida internamente como "New" o "v2"), el nuevo Claude 3.5 Haiku (más barato, más rápido), y en beta pública Computer Use: la capacidad para que el modelo vea una pantalla, mueva el cursor, haga clic, escriba con teclado y opere aplicaciones de escritorio como lo haría una persona.
Esta es la primera vez que un modelo de frontera ofrece esta capacidad como producto, no como demo. En ALCA lo probamos durante el fin de semana en escenarios realistas. Aquí va lo que vimos, lo que ya funciona y dónde todavía falla.
Qué es exactamente Computer Use
Computer Use no es un navegador embebido ni una herramienta de scraping. Es un loop simple pero potente:
- El modelo recibe una captura de pantalla del entorno actual.
- Decide la siguiente acción: mover cursor a coordenada X,Y, hacer clic, escribir texto, presionar tecla, tomar otra captura.
- Ejecuta la acción y recibe la captura nueva.
- Repite hasta cumplir el objetivo o reportar bloqueo.
La implementación que Anthropic publica como referencia corre en un contenedor Docker con Linux + escritorio virtual y exposición HTTP. El modelo opera ese escritorio. La separación entre tu máquina y el entorno del agente es clave por seguridad.
Bajo el cofre, el modelo combina visión (entender qué hay en pantalla), razonamiento (qué hacer) y precisión espacial (a qué coordenada mover el cursor). Lo que falla en cada uno de los tres es de donde vienen las limitaciones actuales.
Casos enterprise donde ya rinde
Después de probarlo en escenarios reales, los casos donde vimos valor de inmediato son:
1. Automatización de aplicaciones internas sin API
Tienen un sistema heredado (un CRM antiguo, un ERP de los 2010, un SaaS sin API decente) y procesos repetitivos que viven ahí. Hasta hoy, automatizar implicaba RPA tipo UiPath/Automation Anywhere, con costo de licencia, expertise específico y fragilidad ante cualquier cambio de UI.
Computer Use no necesita selectores ni configuración previa: ve la pantalla y opera. Cuando el sistema cambia de versión, si la UI sigue siendo legible, el agente sigue funcionando. Esa resiliencia es el cambio cualitativo.
2. Testing exploratorio de UI
QA exploratorio: dale al agente la tarea "regístrate en este flujo, intenta llegar al checkout, reporta cualquier comportamiento raro". Es lento pero descubre clases de bug que pruebas automatizadas con Playwright/Cypress no descubren porque siguen scripts predefinidos.
3. Asistente personal para SaaS sin integración
Reservar una sala, llenar un formulario de viáticos en un sistema que no expone API, generar un reporte semanal en una herramienta interna. Tareas que cada empleado hace 20 minutos al día. Un agente con Computer Use puede recibir la instrucción en lenguaje natural y ejecutarla.
4. Investigación web acotada
Buscar 30 productos en distintos catálogos de proveedores y armar tabla comparativa. El agente abre cada sitio, navega, copia datos. No reemplaza scrapers de producción, pero para tareas one-off de investigación o due diligence vale la pena.
Donde todavía falla
Honestidad técnica: no es producción para procesos críticos en octubre 2024. Las limitaciones que vimos:
- Lentitud. Cada paso requiere screenshot + razonamiento + acción. Una tarea que un humano hace en 2 minutos puede tomar 8-12 minutos al agente. Para tareas asíncronas no importa; para asistentes interactivos sí.
- Costo por tarea. Cada screenshot consume tokens de visión. Tareas largas pueden acumular varios dólares de inferencia. Hoy es una capacidad cara para volumen alto.
- Errores de coordenadas. El modelo ocasionalmente hace clic 30 píxeles arriba del botón objetivo. Funciona la mayoría del tiempo, no siempre.
- Pérdida en flujos largos. En tareas que requieren más de 15-20 pasos, vimos que el modelo se pierde, repite acciones o cambia de objetivo.
- Riesgo de seguridad real. Un agente que controla cursor y teclado puede hacer cosas no deseadas si el contexto se confunde (prompt injection vía contenido de pantalla, por ejemplo). Nunca correr fuera de un sandbox aislado.
Anthropic es explícita: es beta, no para procesos donde el error tenga costo grave (transacciones financieras, decisiones legales, infraestructura crítica).
Cómo armar un sandbox seguro para evaluar
Si quieren probarlo en su empresa esta semana, el setup mínimo seguro:
- Contenedor Docker con escritorio Linux virtual. Anthropic publica un repo de referencia (anthropic-quickstarts/computer-use-demo). Arranca en 10 minutos.
- Sin acceso a credenciales productivas. Cuentas de prueba, datos sintéticos, ambiente totalmente separado.
- Sin acceso a internet salvo whitelist. Si el agente solo necesita visitar 3 sitios, restrinjan a esos 3 sitios. Reduce superficie de ataque.
- Logging exhaustivo. Captura cada acción y cada screenshot. Necesitan poder auditar después.
- Kill switch humano. Botón para parar al agente en cualquier momento.
- Presupuesto de tokens. Tope duro para que un loop infinito no genere factura inesperada.
Claude 3.5 Haiku: el caballo de batalla nuevo
Aparte del foco en Computer Use, Claude 3.5 Haiku llegó con calidad cercana al Sonnet original a precio de Haiku. Para clasificación, extracción y tareas repetitivas con volumen, es el modelo a evaluar este Q4. Recomendamos correr el benchmark interno antes de migrar producción.
Lo que cambia para la conversación de agentes
Antes de octubre, "agente" era una palabra inflada que designaba bots con función limitada. Computer Use sube el listón: si funciona como anuncia, cualquier proceso humano-en-la-pantalla es candidato a automatización con un loop de razonamiento+visión+control. Esa es la pieza que faltaba para que la categoría agente realmente despegue.
En 2025 va a ser interesante ver tres cosas: primera, si OpenAI y Google responden con su propia versión (probablemente sí, probablemente pronto); segunda, si la latencia y costo bajan al nivel de operación masiva; tercera, qué nueva capa de seguridad y governance se vuelve estándar para correr agentes en empresa.
Recomendación operativa
Para una empresa mediana mexicana, en octubre 2024:
- Asignen una semana de un AI engineer para levantar el sandbox y probar 3 casos internos. Costo: una semana de tiempo + ~$300 USD de tokens.
- No firmen aún proyectos de implementación productiva basados en esta tecnología. Esperen GA y al menos 2 trimestres de uso comunitario.
- Identifiquen los 5 procesos repetitivos sin API que más horas-persona consumen. Esos son los candidatos para 2025 cuando esto madure.
Computer Use es un anticipo claro del 2025. Quien empiece a entender ahora dónde y cómo aplicarlo va a tener ventaja cuando el costo y la fiabilidad permitan operación en serio.
¿Tienes un proceso manual repetitivo? Probemos un agente. En ALCA armamos pilotos de 2 semanas para validar si Computer Use o agentes equivalentes resuelven tu caso. Conversemos aquí.