OficialLM

Lo que 400.000 sesiones de Claude Code enseñan sobre el uso de agentes de IA a una notaría

EEEquipo editorial · 17 de junio de 202622 min de lectura

Anthropic ha medido cómo usa la gente sus agentes de programación. El hallazgo central se transpone directamente al ámbito jurídico: en la colaboración con un agente manda quien entiende el problema, y eso vale igual para un contrato que para una línea de código.

Ayer Anthropic publicó un estudio que, a primera vista, pudiera parecer no ir con nosotros, que nos dedicamos a la IA para notarías. Se titula “Agentic coding and persistent returns to expertise” y analiza unas 400.000 sesiones de Claude Code (su agente de programación de código) entre octubre de 2025 y abril de 2026 [1]. Programadores escribiendo código. Nada que ver con un despacho.

Conviene leerlo igual. Claude Code es uno de los pocos sitios donde hoy se puede observar, a escala y con datos, qué pasa de verdad cuando un profesional delega trabajo complejo en un agente autónomo. Y lo que pasa con el código de aquí a poco pasará con las escrituras y los expedientes. El estudio es, en la práctica, un adelanto de cómo se reparte el trabajo entre un experto y su agente.


El humano fija el rumbo, el agente rema en esa dirección

Lo primero que mide el estudio es quién decide qué. Anthropic separó las decisiones de cada sesión en dos tipos: las de planificación (qué hacer, qué enfoque tomar, qué cuenta como trabajo terminado satisfactoriamente) y las de ejecución (qué ficheros tocar, qué comando lanzar, qué escribir en concreto). En la sesión típica, la persona toma alrededor del 70% de las decisiones de planificación y el agente se queda con cerca del 80% de las de ejecución [1].

Ese reparto le resultará familiar a cualquiera que dirija un equipo. La diferencia es de velocidad. Cada instrucción del usuario desencadena en Claude una media de diez acciones encadenadas, y a veces más de cien [1]. El profesional marca el rumbo en una frase y el agente trabaja un buen rato antes de volver a preguntar.

Para el trabajo jurídico esto tiene una lectura inmediata. El valor se desplaza hacia quien sabe formular el encargo con criterio: qué cláusula importa, qué riesgo hay que cubrir, qué resultado es aceptable y cuál no. La ejecución (en el ámbito de notarías, la redacción de la escritura pertinente) se abarata. Definir bien el problema y el objetivo es lo que tiene valor.


La pericia que rinde es la del dominio

Aquí está el hallazgo que debería interesar a cualquier despacho. Anthropic puntuó la pericia que demuestra el usuario en cada sesión, de novato a experto, mirando tres señales: 1) con cuánta precisión formula sus instrucciones, 2)  qué pide verificar y 3) si tiende a corregir a Claude o es Claude quien le corrige a él [1].

La pericia, ojo, es específica de la tarea. Un ingeniero senior haciendo su primera consulta en un lenguaje de programación nuevo puntúa como principiante. Y el ejemplo que usa el propio estudio es el que debería hacernos levantar la vista: un contable que no ha programado en Python en su vida, pero que le dice a Claude exactamente qué reglas de conciliación debe aplicar el script y caza el caso límite que la máquina falla en el cierre de mes, puntúa como experto [1]. Lo que dirige al agente es lo que ese contable sabe de conciliación, un conocimiento que nada tiene que ver con saber programar. Lo mismo aplica para un oficial que usa OficialLM. 

Los números acompañan. Cuanto más experto es el usuario, más éxito tiene la sesión. Una sesión de nivel novato alcanza el criterio más estricto de “éxito verificado” tan solo el 15% de las veces; una de nivel intermedio o superior, entre el 28% y el 33% [1]. Y casi toda la mejora se concentra en el salto de novato a intermedio: entre intermedio y experto la curva se aplana [1]. Basta una competencia sólida en el dominio para capturar casi todo el beneficio.

Dándole la vuelta: en las sesiones que producen código, todas las grandes ocupaciones aciertan a pocos puntos de los ingenieros de software, y el estudio concluye que tener formación de programador es cada vez menos relevante para programar con éxito [1]. Lo que separa a quien obtiene un buen resultado de quien no lo obtiene es cuánto entiende el problema que trae entre manos.


Cuando la cosa se tuerce, el experto reconduce al agente

El dato que más me interesa para nuestro sector aparece en las sesiones de trabajo que se complican. Anthropic mira qué pasa cuando una sesión “se mete en líos”: un error, una prueba fallida, varios intentos de lo mismo, el usuario frustrado.

El experto aguanta y reconduce. El novato abandona. En concreto, el 19% de las sesiones de usuarios novatos acaban abandonadas (juzgadas como fracaso y sin una sola línea escrita), frente al 5%-7% de todos los demás [1]. Buena parte del valor de la pericia consiste precisamente en saber empujar al agente en la dirección correcta cuando se ha desviado.

En el contexto de una notaría, un agente que redacta una escritura va a equivocarse en algún momento: omitirá una cláusula, malinterpretará una instrucción, aplicará una plantilla a un caso que no le toca. El oficial, que conoce la materia, detecta el fallo, sabe qué pedir para corregirlo y mantiene el control del resultado. Quien delega sin dominar el fondo se queda mirando un resultado plausible que no sabe auditar. En un sector donde un error arrastra consecuencias registrales, fiscales y de responsabilidad, esa capacidad de reconducir es la condición misma para usar la herramienta con cabeza. OficialLM es una herramienta de productividad muy potente, pero no deja de ser el oficial quien está al mando de la herramienta.


Qué puede aprender un despacho de todo esto

El trabajo que rodea al código ha cambiado mucho desde Noviembre 2025, cuando se empezó a llevar a cabo este estudio. La proporción de sesiones dedicadas a arreglar código roto cayó del 33% al 19% (casi un 50% de reducción de errores), mientras crecían las de crear software desde cero o analizar datos [1]. Y el valor económico estimado de la tarea media subió alrededor de un 27%, medido por comparación con lo que costaría ese trabajo en un mercado de programadores freelance (lo que implica que el tipo de tareas que los sistemas de IA agéntica son capaces de gestionar son cada vez más y más complejas, por ello más caras en el mercado laboral real) [1]. Los agentes se van comiendo el trabajo de implementación y empujan a las personas hacia las tareas de más arriba: decidir, supervisar, juzgar.

Si esos patrones se sostienen fuera de la programación (y el estudio los presenta justamente como un adelanto de hacia dónde va el trabajo de oficina), la lectura para una notaría es bastante clara. La adopción de IA recompensa sobre todo a quien entiende a fondo la materia y sabe encargar con precisión. La destreza ofimática y la formación técnica pesan cada vez menos en el resultado.

Conviene no leer esto como una promesa de magia. El propio Anthropic avisa de los límites del estudio: no observan el resultado real en el mundo (si el trabajo de una sesión acaba usándose o se descarta), todas las clasificaciones dependen de que un modelo lea la transcripción, y dejan fuera el uso programático (que una automatización se ejecute sola a una determinada hora), que es una parte sustancial de la actividad [1]. Es una foto temprana de hacia donde parece que van las cosas, pero todavía queda mucho por saber. 

Aun con esas cautelas, la dirección apunta a algo que, los que trabajamos implementando IA en el sector notarial, llevamos tiempo observando. La herramienta amplifica al que sabe. Por eso, cuando en OficialLM diseñamos agentes para notarías que trabajan sobre las plantillas de cada notario y bajo la supervisión del oficial, partimos de la misma premisa que arroja este estudio: el agente acelera la ejecución, y el criterio del profesional sigue decidiendo si el resultado vale.

La evidencia de 400.000 sesiones de código sugiere que, hoy, la pericia como oficial es justo el activo que más rendimiento extrae de estas herramientas. El propio Anthropic deja abierta la pregunta que toca vigilar: si algún día el éxito de una sesión deja de depender de la pericia del usuario, será señal de que el modelo ya aporta el criterio que ahora pone la persona, y el reparto del trabajo habrá vuelto a moverse. Hasta entonces, el mejor modo de prepararse para los agentes en el despacho es seguir profundizando en lo que cada uno sabe de su materia.


Referencias

[1] Hitzig, Z.; Massenkoff, M.; Lyubich, E.; Heller, R.; McCrory, P. «Agentic coding and persistent returns to expertise», Anthropic, 16 de junio de 2026 — https://www.anthropic.com/research/claude-code-expertise

400.000 sesiones de IA: gana quien domina la materia | OficialLM