51 despliegues de IA: qué separa a los que funcionan

Un supermercado regional con dos docenas de tiendas dejó de comprar a mano. Antes, un comprador humano decidía qué pedir guiándose por su olfato, sus proveedores de siempre y los datos que lograba recopilar a tiempo. Nadie puede afinar miles de referencias repartidas en 25 tiendas con una hoja de cálculo. Así que pusieron un agente a hacerlo: predice la demanda tienda por tienda y producto por producto, mira el inventario, calcula plazos de proveedor y decide solo qué comprar, cuándo y a quién. Mermas un 40 % abajo. Roturas de stock un 80 % abajo. El margen EBITDA, doblado [1]. La cadena no tiene poder de negociación frente a los gigantes del sector. Le da igual: no desperdicia.

Ese caso está recogido en “The Enterprise AI Playbook”, el informe que el Stanford Digital Economy Lab publicó en 2026 después de estudiar a fondo 51 despliegues de IA que crearon valor medible en empresas reales [1]. Lo escriben Elisa Pereira, Alvin Wang Graylin y Erik Brynjolfsson. Y entre sus once capítulos hay uno que llevo semanas dándole vueltas, porque desmonta la conversación de comité sobre “qué modelo usar”.

Los números no dejan lugar a dudas

Los despliegues agénticos (agentes que ejecutan tareas de varios pasos de principio a fin) dieron una mejora de productividad mediana del 71 %. La alta automatización con revisión por excepción se quedó en el 40 % [1]. Casi el doble.

Y sin embargo solo el 20 % de los casos del estudio eran agénticos [1]. ¿Por qué tan pocos, si rinden tanto? Por calendario, no por capacidad: los frameworks de agentes para empresa (lo que permite hacer ese despliegue agéntico) apenas asomaron al imaginario común en 2025. La maquinaria llegó tarde a la fiesta, no es que no funcione.

Conviene mirar hacia dónde apunta la flecha. METR, un laboratorio independiente de evaluación de capacidades de IA, mide la duración de las tareas de software que un modelo frontera completa solo de forma fiable. Ese horizonte temporal de las tareas que una IA es capaz de ejecutar se duplicaba (2x) cada 7 meses aproximadamente; últimamente se ha acelerado, y a principios de 2026 ronda las quince horas de trabajo de un experto humano [1]. Lo que hoy es un agente que cierra un ticket mañana es un agente que cierra un proyecto. El conjunto de tareas que se pueden atacar con un agente con cierto grado de autonomía se hace más grande cada trimestre.

Qué comparten los casos que aguantan en producción

Una demo agéntica potencialmente se puede montar en una tarde. Una implementación agéntica que sobrevive seis meses en producción comparte 4 rasgos, según el informe: alto volumen, un criterio de éxito objetivo, errores recuperables y acceso a datos repartidos por varios sistemas [1]. La escritura esta bien hecha o no lo está. La llamada gestionada por un agente de voz se resuelve satisfactoriamente para el cliente o se escala a un humano. El agente puede juzgar su propio trabajo contra una vara de medir, y cuando se equivoca, alguien lo “caza” después.

Falta el ingrediente que casi nadie quiere oír: rediseñar el flujo de trabajo antes de soltar el agente. Un fabricante de semiconductores tenía la información de cada incidencia de cliente dispersa en cinco o seis repositorios, cada uno propiedad de un equipo distinto. El acuerdo de nivel de servicio solo para reunir esos datos era de cuarenta horas. Montaron un framework multi-agente que va a buscar a todas esas fuentes solo. Cuarenta horas pasaron a menos de una [1]. Pero el primer intento de ese mismo equipo había fracasado, como en el 61 % de los proyectos exitosos del estudio [1]: ingeniería construía soluciones aisladas, sin estándares ni responsable de adopción. Un agente sobre un proceso roto solo se rompe más rápido.

Lo resumió el responsable de operaciones de una empresa tecnológica del informe: “No apliques IA sin más a tus procesos actuales. Eso es un error. Estamos rediseñando nuestro flujo de trabajo, y eso es lo que nos hace tener éxito” [1].

El valor está en la orquestación

Aquí está la parte que escuece para quien lleva un año en reuniones eligiendo proveedor. Para el 42 % de los despliegues estudiados, el modelo era completamente intercambiable [1]. Commodity. En tareas rutinarias, el 71 % de los equipos lo trataba como una pieza fungible y ninguno lo veía como diferenciador [1].

Si el modelo no es dónde está el valor, ¿dónde está? En la capa que orquesta los modelos. Una empresa de soporte al cliente construyó un gateway multi-LLM que enruta cada consulta según cuatro variables (coste, latencia, relevancia, precisión) y decide al vuelo si basta un modelo pequeño o hace falta uno potente. Logró un 82 % de deflexión de tickets, un 71 % de resolución y una mejora del 40 % en la productividad de los agentes [1]. Una empresa de reparto de comida montó su chatbot sobre OpenAI, Gemini y Claude a la vez; esa capa de abstracción le permitió llegar al 90-95 % de automatización en atención al cliente sin depender de ningún proveedor [1].

Su filosofía es la misma: los modelos mejoran rápido y de forma impredecible, así que en vez de apostar por uno se construye la infraestructura que absorbe la mejora, venga de donde venga. El informe lo dice sin tapujos en su conclusión: la ventaja duradera está en la capa de orquestación, no en el modelo fundacional [1]. Y debajo de esa capa hay una segunda fuente de valor que el competidor tampoco puede copiar: tus datos propios, acumulados durante años, que ningún laboratorio frontera ha visto.

Lo que esto significa si trabajas en una notaría

Aquí no escribo desde la barrera. En sectores como el notarial, el dato es propio por naturaleza, el criterio de éxito está acotado y el error es caro pero recuperable bajo revisión humana. Es casi la definición de terreno fértil para agentes de IA, con una condición: la orquestación tiene que respetar las reglas. Agentes especializados por tarea, ruteo entre modelos, las plantillas de cada despacho como sustrato, y el cumplimiento (RGPD, políticas de retención cero de datos, alojamiento en la UE) construido en la capa que controlas, no comprado a un proveedor que cambiarás dentro de un año. Esa es, de hecho, la apuesta de producto que hacemos en OficialLM.

Los autores estiman que el 20 % de casos agénticos de hoy será mayoría en tres años [1]. La ventaja se construye cumulativamente con cada iteración de producto: quien ya tiene la arquitectura multimodelo, los datos conectados y el músculo de rediseñar procesos no está un poco por delante, está separándose.

Elegir el mejor modelo es la decisión que se toma una vez y caduca en seis meses. Construir la capa que elige el modelo por ti es la que se queda.

Referencias

[1] Elisa Pereira, Alvin Wang Graylin y Erik Brynjolfsson — The Enterprise AI Playbook: Lessons from 51 Successful Deployments, Stanford Digital Economy Lab, abril 2026 — https://digitaleconomy.stanford.edu/app/uploads/2026/03/EnterpriseAIPlaybook_PereiraGraylinBrynjolfsson.pdf

La Ventaja en IA Agéntica Vive en la Capa de Orquestación

Los números no dejan lugar a dudas

Qué comparten los casos que aguantan en producción

El valor está en la orquestación

Lo que esto significa si trabajas en una notaría

Referencias