Agentes de IA: la disciplina vale más que la velocidad

La primera vez que vi a un agente explorar un sistema que nadie le había explicado, me acordé de un becario en su primer día. No “el listo”. “El otro” (por ser benévolos). El que abre cajones para ver qué hay, husmea en carpetas a ver qué pasa y aprende el sitio a base de “chocarse con las paredes”. En un servidor de pruebas eso es interesante, curioso, permite aprender la manera en la que los agentes con más autonomía funcionan. En el flujo de trabajo de una notaría, las mismas cualidades que lo hacen interesante en un entorno de pruebas hacen que en el otro contexto de escalofríos desplegar un agente así.

Esa tensión es el verdadero tema de la llamada “tesis del agente universal”, una idea que Cobus Greyling lleva meses afinando: que el agente que necesita un conector prefabricado, un esquema de datos curado y una integración escrita a mano para cada sistema que toca no es universal, sino un especialista atado a lo que otra persona (un ingeniero de IA) ya configuró [1]. El agente universal aterriza en cualquier entorno, mira qué hay, se construye las herramientas que le faltan sobre la marcha (en base a su propia percepción del entorno y el objetivo que su usuario le ha dado), dibuja el mapa de lo que puede y no puede hacer, y ejecuta dentro de esos límites. Sin preconfiguración. Sin registros de herramientas hechos a mano.

La tesis parece correcta a nivel tecnológico. Pero entendiendo el contexto particular de una notaría, conviene mirarla con lupa antes de ponerse a implementar una solución así.

La capa de integración se está disolviendo, y eso no es opinión de Greyling

El argumento técnico es sólido, y va de quitar capas. Durante años, conectar un modelo de IA a otro servicio de software significaba media docena de capas: clientes REST, middleware de autenticación, pasarelas de API, plataformas de integración... Greyling lo resume como un “colapso”: ese andamiaje lo sustituye un modelo que razona sobre la intención y genera el comando [1]. Jensen Huang (Fundador y CEO de Nvidia) lo describe desde la otra punta del stack tecnológico (los chips físicos) como “el salto del software pregrabado” al procesamiento en tiempo real de información sin estructura [2]. La integración deja de definirse de antemano. Emerge del razonamiento del agente en el momento en que hace falta.

¿La prueba de que esto es entrenable y no “un truco de demo”? Nemotron-Terminal, modelo de IA de NVIDIA. Su modelo de 32B obtiene un 27,4 % en Terminal-Bench 2.0 y supera a un Qwen3-Coder de 480B, 15x mayor, solo a base de ingeniería de datos [3]. Operar la terminal de un ordenador (leer ficheros de ayuda, encadenar comandos, recuperarse de un error) resultó ser una habilidad que se enseña y que escala muy bien con el tipo de razonamiento que tienen los agentes. La terminal se está convirtiendo en la capa de integración universal porque el modelo ya fue entrenado con billones de scripts de shell y páginas de manual de código. Ya sabe usarla.

Hasta aquí, la euforia. Un agente que se mueve por cualquier sistema con las herramientas que ya existen suena a sueño de productividad para cualquier despacho ahogado en trámites repetitivos.

El hallazgo que de verdad importa al derecho no es la velocidad

Aquí es donde la conversación suele torcerse hacia el sitio equivocado. Casi todo el ruido sobre agentes va de potencia: cuánto hacen, cuán rápido, cuántos pasos encadenan sin pedir permiso. Para un sector regulado, el dato más interesante de toda la literatura reciente apunta justo al contrario.

El paper de OSExpert lo midió. Los agentes que exploran un entorno antes de ejecutar logran en torno a un 20 % más de tareas resueltas y recortan cerca del 80 % de la brecha de eficiencia frente a un experto humano [4]. El mecanismo es de una sencillez desarmante. El agente sondea el entorno y toma nota: esto funciona, esto otro falla. Las secuencias que fallan se convierten en marcas de frontera. Cuando llega una tarea que coincide con un fallo ya conocido, el agente se detiene de inmediato. No lo intenta. No quema tokens, ni tiempo, ni llamadas en algo que ya sabe que no va a salir.

OSExpert observó que un agente sin esa disciplina llega a tardar entre cinco y cincuenta veces más que un humano, y casi todo ese tiempo se va en intentos condenados de antemano [4].

Tradúzcalo al lenguaje del despacho. Un agente que redacta un borrador a una velocidad pasmosa pero no sabe cuándo está fuera de su terreno es un pasivo. Uno más lento que se planta y avisa “esto no sé hacerlo con garantías” es un activo. Lo que vuelve útil a un agente en un entorno serio es que conozca sus propios límites. Sin eso, la potencia solo sirve para fallar más rápido. Un agente con disciplina vale más que uno veloz, y por primera vez tenemos números que lo respaldan.

El límite que importa no lo descubre el agente probando

Y llegamos a la grieta. En la arquitectura del agente universal, la gobernanza vive en el entorno: el sistema de ficheros, los permisos, el sandbox. Greyling lo cierra con una frase elegante: el propio sandbox es la guardarraíl [1]. El agente opera libre dentro de las restricciones que descubre explorando.

Para un sector regulado, esa frase es una verdad a medias, y la mitad que falta es la cara. Un agente puede descubrir, probando, lo que el sistema le permite hacer. No puede descubrir lo que la ley le autoriza a hacer. Son dos fronteras distintas, y la segunda no aparece en ningún fichero de ayuda.

El Derecho ya tiene su criterio sobre esto. El Reglamento europeo de IA (RIA), en su artículo 14, exige que los sistemas se diseñen para una supervisión humana efectiva, y su aplicación plena llega en agosto de 2026 [5]. El principio que se está asentando es tajante: desplegar un agente no transfiere la responsabilidad al agente, la concentra en quien lo despliega [6]. Si algo sale mal, ningún tribunal va a interrogar al modelo de IA. Va a preguntar quién lo puso a trabajar.

Eso cambia qué arquitectura tiene sentido en un despacho. El agente que explora y se “auto descubre” los límites es la mitad correcta. La otra mitad (dónde tiene prohibido entrar, qué decisión nunca toma solo, en qué punto exacto para y pasa el testigo a un humano) no se puede dejar a la exploración. Hay que diseñarla antes del despliegue en despacho. El sandbox marca lo técnicamente posible; el límite jurídico hay que implementarlo e imponerlo desde arriba en el diseño del sistema.

Esto no contradice la tesis de Greyling. La completa. La autonomía acotada que él describe (el agente que opera con libertad dentro de fronteras descubiertas) sigue siendo el modelo correcto a nivel técnico. Solo que en un sector regulado parte de esas fronteras no se descubren. Se pre-configuran de antemano.

El final del recorrido

Greyling termina con una idea que comparto: la autonomía digital plena es la consecuencia natural de agentes que exploran, construyen y conocen sus propios límites. En el mundo legal yo añadiría una nota al pie.

El agente que merece estar en un despacho no es el que lo hace todo. Es el que sabe dónde no debe meterse. Esa contención (saber pararse a tiempo) es lo que en software llamamos límites por diseño, y en herramientas como OficialLM es la diferencia entre acelerar a un oficial o crearle un problema al despacho. Construir un agente potente, hoy, es casi un problema de datos. Construir uno con disciplina sigue siendo el trabajo difícil.

Referencias

[1] Cobus Greyling — Universal Agent Thesis — https://substack.com/home/post/p-202171788

[2] Jensen Huang / NVIDIA — The AI 5-Layer Cake (Davos 2026) — https://blogs.nvidia.com/blog/ai-5-layer-cake/

[3] NVIDIA — Nemotron-Terminal: Data Engineering for Scaling LLM Terminal Capabilities — https://arxiv.org/abs/2602.21193 · https://huggingface.co/nvidia/Nemotron-Terminal-32B

[4] OSExpert: Computer-Use Agents Learning Professional Skills via Exploration — https://arxiv.org/abs/2603.07978

[5] Reglamento (UE) de IA, artículo 14 (supervisión humana); aplicación de obligaciones de alto riesgo en agosto de 2026

[6] ICAEW — Can AI agents create regulatory compliance risks? (2026) — https://www.icaew.com/insights/viewpoints-on-the-news/2026/apr-2026/can-ai-agents-create-regulatory-compliance-risks

La Teoría del Agente Universal Llega al Despacho

La capa de integración se está disolviendo, y eso no es opinión de Greyling

El hallazgo que de verdad importa al derecho no es la velocidad

El límite que importa no lo descubre el agente probando

El final del recorrido

Referencias