IA en notarías: ¿por qué un modelo general no es suficiente?

Sobre por qué, en una notaría, el modelo más potente del mercado no es necesariamente la herramienta adecuada.

Hay que decirlo claro: Claude es extraordinario. Anthropic ha construido uno de los mejores modelos de lenguaje del mundo, y en redacción jurídica general se nota (por eso los modelos de Anthropic son algunos de los que actúan como motor del arnés de OficialLM). Si la pregunta fuera “¿qué modelo escribe mejor castellano notarial?”, la respuesta podría ser perfectamente Claude Opus 4.8.

Pero esa no es la pregunta que un notario debe hacerse cuando evalúa cómo meter IA en su despacho.

Un equipo de la Universidad de Stanford midió con qué frecuencia los grandes modelos generales alucinan cuando se les hacen preguntas legales concretas y verificables. El resultado: entre un 58% y un 88% de respuestas con errores, según el modelo, sobre casos reales [1]. Citas falsas, hechos jurídicos inventados, seguridad absoluta sobre cosas que no ocurrieron. Otro estudio sitúa la tasa de error de los mejores modelos en información legal en un 6,4%, frente al 0,8% (8x más tasa de error) en conocimiento general [2]. El derecho es justo el terreno donde un modelo horizontal pisa peor.

¿Por qué? Por como funciona un modelo LLM general a nivel fundamental: está entrenado sobre un cuerpo de textos variados masivo, y es capaz de dar respuestas muy buenas para casuísticas que entran dentro de la distribución normal (son modelos probabilísticos). Esto hace que sea muy bueno “en general” (pero no suficientemente bueno en lo particular). La escritura notarial vive en lo poco común (lo particular): la cláusula concreta de esta entidad, la fórmula que el Registro acepta, la referencia que tiene que cuadrar con la nota simple que tienes delante. Pídele eso a un gran modelo entrenado en medio internet y te devolverá lo más probable (porque es para lo que se le ha entrenado), que no es lo mismo que lo correcto.

En un sector regulado, el cumplimiento es el producto

Aquí es donde la comparación deja de ser técnica y se vuelve de responsabilidad.

Anthropic ha mejorado mucho. No usa los datos de sus clientes “Enterprise” para entrenar y ofrece un modo de retención cero (zero-data-retention) que borra los registros tras la comprobación antiabuso. [3]. Está bien. Pero ese modo de retención cero vive en el tier Enterprise, hay que configurarlo, y por sí solo no te da nada de lo que un despacho notarial necesita además del borrado: el alojamiento garantizado en la UE, el control de accesos por rol, el rastro de auditoría, la gobernanza del propio trámite. Te entrega un motor más o menos limpio. El coche lo montas tú, y respondes tú si se sale de la vía.

Esa es la diferencia entre comprar capacidad y comprar cumplimiento. OficialLM se construye sobre modelos de esta familia (entre muchos otros), sí, pero con la capa que un sector como el notarial exige encima: cumplimiento RGPD, retención cero por defecto, alojamiento en la UE y control de accesos por rol, sin que el notario tenga que montar nada de eso a mano (ni que tenga que pagar más para acceder a ello, los 3 tipos de licencia de OficialLM incluyen estos niveles de seguridad por defecto).

El trabajo no empieza en una página en blanco

Hay un detalle que se ve solo cuando observas a un oficial trabajar de verdad.

Un modelo general arranca de cero en cada conversación. Le pegas la nota simple, le explicas el caso, le recuerdas cómo redacta cláusulas tu notaría, corriges su versión genérica, y mañana repites el ritual entero. La inteligencia está; la memoria del despacho, no. Cada escritura es una negociación nueva con un asistente brillante y amnésico.

Una herramienta vertical como OficialLM entra al revés. Conoce las plantillas de ese notario porque está personalizada con ellas. Sabe que las cancelaciones de esa entidad llevan esa fórmula. No te pide que le expliques el flujo. El oficial deja de tener que repetirse ad eternum para conseguir que la IA haga las cosas bien.

Ahí Claude, por potente que sea, juega en otra liga porque juega a otro juego. Es un cerebro de propósito general. Lo que una notaría necesita es ese cerebro encajado en su sitio, con sus límites y sus garantías puestas de fábrica.

Qué se compra de verdad

La tentación, viendo lo que hace Claude en 3 minutos, es pensar que el modelo más capaz gana siempre. En ciertos contextos, gana. Pero el ámbito notarial es una excepción terca (como otros muchos sectores y roles en particular): aquí gana la herramienta vertical, montada desde dentro del sector desde el día 1, buscando alinear la herramienta con los objetivos de la notaría y la forma de trabajar de un oficial de notarías en particular.

Claude es un gran punto de partida, y desde luego mucho mejor que no usar IA. Pero un punto de partida no es una herramienta de trabajo en un despacho donde lo que se firma tiene fe pública. La distancia entre los dos (el cumplimiento, la memoria del despacho, el diseño desde cero adaptado a la forma de trabajar del oficial, la integración con sistemas de uso diario como el correo, el Registro o el Catastro) es exactamente el espacio donde existe OficialLM.

Referencias

[1] Dahl, Magesh, Suzgun, Ho — Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models, Journal of Legal Analysis (Stanford RegLab), 2024 — https://academic.oup.com/jla/article/16/1/64/7699227

[2] LLM Hallucination Statistics 2026 (recopilación de tasas de error por dominio) — https://sqmagazine.co.uk/llm-hallucination-statistics/

[3] Claude: data retention policies, storage rules, and compliance overview — https://www.datastudios.org/post/claude-data-retention-policies-storage-rules-and-compliance-overview

Claude vs OficialLM

En un sector regulado, el cumplimiento es el producto

El trabajo no empieza en una página en blanco

Qué se compra de verdad

Referencias