IA y Derecho: lo cristalizado y lo que sigue siendo humano

Lo que un paper sobre las curvas de la IA dice del trabajo jurídico, aunque no lo mencione ni una vez

Hace unos días me paré a analizar una escritura de compraventa de 2019. Catorce páginas. Me dio por contar cuánto texto era de verdad nuevo: los nombres, la descripción de la finca, el precio, una cláusula algo rara sobre una servidumbre de paso. Todo lo demás (la comparecencia, las advertencias legales, las fórmulas de otorgamiento, las reservas fiscales) ya existía en una plantilla del despacho antes de que los compradores pidieran cita. El contenido genuinamente nuevo cabía en una página. Quizá en media.

Me recordó a conceptos que leí en “Compounding Intelligence”, un estudio que Nabeel Qureshi publicó en 2024 para el Mercatus Center de la George Mason University [1]. El paper va de otra cosa: de las curvas de cómputo, datos y eficiencia algorítmica que empujan la IA, y de qué debería hacer la política americana al respecto. Pero casi al final, donde ya pocos llegan, Qureshi rescata una distinción de la psicología cognitiva que explica el futuro del trabajo jurídico mejor que cualquier informe sectorial que yo haya leído. La distinción entre inteligencia fluida e inteligencia cristalizada.

Merece la pena pararse ahí.

Las dos inteligencias

La inteligencia cristalizada es el saber concreto acumulado: vocabulario, conocimiento general, conocimiento especializado patrones que ya has visto mil veces y reconoces a la primera. La inteligencia fluida (lo que en psicometría se mide como factor g) es lo contrario del archivo: razonar ante un problema nuevo que no se parece a nada de lo que tienes guardado. Resolver sin precedente.

Los modelos de lenguaje actuales son un caso extremo de esa asimetría. En inteligencia cristalizada están a un nivel que ningún humano alcanzará jamás: GPT-4 se entrenó con 13 billones de tokens [1], una biblioteca que nadie podría leer en mil vidas. En inteligencia fluida, en cambio, siguen flojos. El benchmark ARC de François Chollet, diseñado precisamente para medir razonamiento sobre problemas que no están en ningún corpus de entrenamiento, se les sigue atragantando, a pesar de que cada vez obtienen mejores resultados [2]. Yann LeCun (el responsable de investigación de IA en Meta hasta hace meses) lo formula con un punto de sorna: un gato doméstico planifica, recuerda y entiende el mundo físico mejor que el mayor de los LLM [6]. Meta lo comprobó en sus propios laboratorios: al evaluar si sus modelos de visión entendían el espacio que los rodeaba con preguntas como “¿qué habitación queda justo detrás de mí?”, y concluyó que respondían al azar, “casi ciegos”, tirando del texto memorizado en vez de mirar [7].

¿Y aun así juegan al ajedrez? Sí, y bien: GPT-4 juega mejor que el 90 % de los jugadores con ranking, incluso en posiciones que nunca ha visto [1]. Pero el ajedrez es el deporte por excelencia de la inteligencia cristalizada: millones de partidas anotadas, siglos de teoría, un universo cerrado de reglas fijas. Donde hay corpus, el modelo brilla. Donde no lo hay, tantea.

Un LLM es, en definitiva, un opositor con memoria prodigiosa en su primer día en el despacho. Se sabe el temario entero, recita la doctrina sin despeinarse, y todavía no ha visto nunca a un cliente mentir (no necesariamente su inteligencia cristalizada se transpone a saber lidiar adecuadamente con la realidad).

El Derecho, visto desde esa perspectiva

Ahora la pregunta incómoda: ¿cuánto del trabajo jurídico cotidiano es inteligencia fluida y cuánto es cristalizada?

Sé que la respuesta políticamente correcta es “el Derecho es juicio, criterio, interpretación”. Y es verdad. Pero cabe hacer la distinción entre dónde reside el verdadero valor del trabajo jurídico, y todos los trabajos/subtareas/materiales que soportan esa entrega de valor. Vuelvo a mi escritura de catorce páginas: trece ya estaban escritas. Muchos de los “materiales” en que se plasma ese juicio, criterio e interpretación, sí son de naturaleza más “cristalizada”. El derecho continental es, por diseño, un sistema cristalizado. Generaciones de juristas llevan dos siglos destilando la casuística en fórmulas reutilizables, precisamente para que cada caso nuevo se parezca lo máximo posible a uno viejo. “Enmarcar” la casuística concreta actual con el corpus histórico.

Qureshi cita una idea que circula entre los ingenieros de OpenAI: el comportamiento de un modelo lo determina su dataset (el conjunto de datos que ha “visto” durante su entrenamiento), todo lo demás es fontanería [1]. Los LLM han aprendido bien la estructura profunda del lenguaje (por eso escriben prosa sin errores) y la han aprendido porque el lenguaje tiene una estructura profunda que encontrar. El lenguaje jurídico la tiene por partida doble: gramática + sistema. Pocas materias están tan ordenadas, tan documentadas (escritas, registradas) y tan llenas de patrones como el Derecho (a pesar de la relevancia del matiz).

Hay un matiz que se pierde si uno se queda en “la IA redacta documentos” (que es verdad). La plantilla de una notaría tiene capas. La capa visible es el formato estándar, el que viene en cualquier manual. Debajo hay otra: las decisiones acumuladas de cada despacho en concreto, cómo redacta este notario las advertencias urbanísticas, qué cláusula añade desde aquel expediente que se torció en 2017. Ese segundo estrato también es inteligencia cristalizada, y es la especialmente valiosa, porque condensa criterio en texto reutilizable. Un modelo adaptado a ese corpus concreto asimila años de oficio destilado. Uno genérico, por listo que sea, redacta el formato “estándar”.

Esto explica una paradoja que el propio paper señala sin querer. En ciencia, los grandes modelos de lenguaje han resultado menos útiles que las aplicaciones especialistas (AlphaFold importa más que ningún chatbot) y de momento sirven sobre todo para que los investigadores redacten solicitudes de subvención más rápido [1]. En el trabajo jurídico documental ocurre lo contrario: redactar el documento es (la materialización) del trabajo. Lo que en un laboratorio es la tarea auxiliar, en una notaría es la “unidad de facturación” (la escritura).

¿Significa eso que el modelo “sabe Derecho”? Cuidado. Qureshi dedica una sección entera a la ley de Goodhart: cuando una métrica se convierte en objetivo, deja de servir como métrica para medir bien [1]. Que un modelo apruebe un examen tipo test sobre Derecho dice de su competencia jurídica lo mismo que el examen teórico del carné de conducir dice de tu conducción en hielo. El paper recoge un caso que debería estar enmarcado en la pared de todo el que despliegue IA de cara al público: un concesionario Chevrolet puso un chatbot de atención al cliente y, en horas, un usuario lo convenció para venderle un coche por un dólar [9]. El modelo era elocuente. Nadie había comprobado si era fiable. Siempre debe haber una persona al mano, auditando y guiando al modelo en base a su criterio; además de que los proveedores especializados de estos sistemas deben implementar “guardarraíles” a las IAs para que no puedan llevar a cabo determinadas acciones.

Por qué esto no se desinfla

Conozco la objeción: “esto es una burbuja, esperemos a que pase”. Es la parte del paper que más me costaría rebatir, porque está hecha de aritmética.

La tesis central de Qureshi es que el progreso de la IA es inusualmente previsible, porque sus factores de producción crecen a ritmos medibles. La capacidad de cómputo dedicada a entrenar modelos se duplica cada nueve o diez meses [3]. La eficiencia corre aún más: el cómputo necesario para alcanzar un nivel de rendimiento dado se reduce a la mitad cada ocho meses [4]. Y los precios (aunque esto no es cierto de los tokens de frontera, que son cada vez más caros) caen en la misma dirección: cuando se publicó el estudio, servir un millón de tokens del modelo abierto Mixtral costaba 50 céntimos, una centésima parte que un año antes [1].

Cada curva por separado puede torcerse. Lo que impresiona es el relevo. La ley de Moore lleva sesenta años cumpliéndose sin que ninguna fuente de mejora individual haya durado tanto: cuando el escalado de Dennard se agotó hacia 2005, lo sustituyeron los chips más grandes; cuando estos toquen techo, vienen los nanomateriales [1]. Qureshi observa algo fino aquí: la ley de Moore nunca fue solo una predicción, sino una meta aspiracional que disciplinó a toda una industria. Con las leyes de escalado de la IA (scaling laws) pasa igual. La curva es también una promesa que miles de ingenieros se levantan cada día a cumplir.

¿El cuello de botella? Los datos, curiosamente. El stock mundial de texto de calidad ronda los nueve billones de palabras (unos diez millones de veces las obras completas de Shakespeare) y crece apenas un 4 o 5 % al año; Epoch AI estimó que se agotaría entre 2023 y 2027 [5] y parece que ya estamos ahí a mitad de 2026 (las grandes empresas de “anotación de datos”, que son los proveedores de datos humanos a las grandes empresas de IA, están pagando miles de euros/hora para la obtención de datos de especialistas como doctorados en microbiología - poco más queda por “darle de comer” a los modelos de IA). Los datos sintéticos cubren parte del hueco, pero el propio Qureshi duda de que basten por sí solos para ir mucho más allá de la generación GPT-5 [1]. Así que el estado de las cosas es que el cómputo abunda y los datos escasean (aunque es también argumentable que el cómputo escasea, sencillamente es más fácil seguir produciéndolo y producir más de él). Quien posea corpus de calidad bien organizado (y pocos sectores acumulan texto tan depurado como un despacho notarial) tiene la parte escasa de la ecuación.

El paper se publicó hace casi 2 años, en julio de 2024. Lo he releído ahora, dos años después, buscando la predicción envejecida que permitiera archivarlo. No la encontré. Shane Legg predijo en 2009, extrapolando la curva del cómputo, que la IA alcanzaría capacidades humanas entre 2025 y 2028 [1]. Diecisiete años después, esa ventana ya no parece una excentricidad: la estamos habitando. Richard Sutton resumió la historia entera de la disciplina en lo que se llama “La Lección Amarga” (The Bitter Lesson): tras setenta años de investigación en IA, los métodos generales que aprovechan el cómputo ganan siempre, y por goleada (esta es la razón fundamental por la que Nvidia está valorada en $4.97 trillones (americanos) en Bolsa [8]. Apostar contra esa lección ha sido, hasta hoy, la manera más fiable de equivocarse.

Lo que queda: la realidad

Si las curvas siguen y la materia cristalizada cae del lado de la máquina, ¿qué queda exactamente del lado humano?

Queda la inteligencia fluida. Y conviene ser preciso sobre dónde vive, porque vive en sitios poco glamurosos. Vive en advertir que el anciano que viene a hipotecar su casa a favor de un sobrino contesta con monosílabos y mira al sobrino antes de cada respuesta. En notar que esta compraventa es la tercera del mismo administrador en un mes. En el expediente cuyo encaje no resuelve ningún formulario, porque nadie ha hecho antes exactamente esto. El juicio sobre la capacidad, el consentimiento y la legalidad del caso concreto, ejercido en presencia de personas concretas: eso es razonar sin precedente aplicable.

Qureshi recuerda la definición de IA que José Hernández-Orallo rescata de John McCarthy: hacer que las máquinas resuelvan tareas que nunca han visto y para las que no fueron preparadas [1]. Con ese listón, los LLM todavía no son IA en sentido pleno; son la mejor memoria que hemos construido jamás. Y ojo, que ni los escépticos conceden mucho margen: el propio LeCun (uno de los investigadores más reputados en el ámbito del aprendizaje profundo, y ahora fundador de la empresa AMI Labs, valorada en 5.000 millones de dólares), preguntado por cuándo superará la IA a la inteligencia humana, responde «probablemente más de diez años, quizá dentro de veinte» [6]. El mayor crítico de los LLM sitúa este desenlace dentro de la carrera profesional de cualquiera que hoy tenga menos de 45 años.

¿Qué se hace con todo esto un despacho o una notaría? Tres cosas, creo.

Primera: dejar de discutir si la IA “entiende” el Derecho. Para redactar el 90 % cristalizado de un documento a partir de las plantillas del despacho, la pregunta filosófica es irrelevante; para juzgar el 10 % fluido, la respuesta es claramente “no”. Las dos conclusiones caben a la vez y las dos son útiles.

Segunda: evaluar después de desplegar, aprender a trabajar conjuntamente con la IA; entender qué es delegable y qué no. La lección del Chevrolet a un dólar es de manual: la elocuencia de un modelo dice poco de su fiabilidad, y en un sector donde los documentos producen efectos jurídicos, el control de calidad y la supervisión profesional son la condición de entrada, con verificación humana de lo que la máquina propone [9]. Es la premisa con la que se diseñan las herramientas serias del sector (es la que seguimos en OficialLM con los agentes que redactan sobre las plantillas de cada notario): la máquina propone el texto cristalizado, el oficial guía, pone el criterio y controla la calidad del documento generado.

Tercera: reinvertir el tiempo liberado donde la máquina cojea. Si la redacción mecánica se desploma de precio, el valor del profesional se concentra en lo que ningún corpus contiene: el asesoramiento cara a cara, la supervisión, el criterio, el caso raro... Cuanto mejor sea la IA en lo cristalizado, más puramente humano se vuelve el oficio.

Referencias

[1] Nabeel S. Qureshi, «Compounding Intelligence: Adapting to the AI Revolution», Mercatus Special Study, Mercatus Center at George Mason University, julio 2024 — https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4946332

[2] François Chollet, «On the Measure of Intelligence», arXiv, 2019 — https://arxiv.org/abs/1911.01547

[3] Jaime Sevilla et al., «Compute Trends across Three Eras of Machine Learning», 2022 — https://arxiv.org/abs/2202.05924

[4] David Patterson et al., «Carbon Emissions and Large Neural Network Training», arXiv, 2021 — https://arxiv.org/abs/2104.10350

[5] Pablo Villalobos et al. (Epoch AI), «Will We Run Out of Data? Limits of LLM Scaling Based on Human-Generated Data», arXiv, 2024 — https://arxiv.org/abs/2211.04325

[6] Sissi Cao, «Meta's A.I. Chief Yann LeCun Explains Why a House Cat Is Smarter Than the Best A.I.», Observer, febrero 2024 — https://observer.com/2024/02/metas-a-i-chief-yann-lecun-explains-why-a-house-cat-is-smarter-than-the-best-a-i

[7] Meta AI, «OpenEQA: From Word Models to World Models», abril 2024 — https://ai.meta.com/blog/openeqa-embodied-question-answering-robotics-ar-glasses/

[8] Richard Sutton, «The Bitter Lesson», marzo 2019 — http://www.incompleteideas.net/IncIdeas/BitterLesson.html

[9] Frank Landymore, «Car Dealership Disturbed When Its AI Is Caught Offering Chevys for $1 Each», The Byte/Futurism, diciembre 2023 — https://futurism.com/the-byte/car-dealership-ai

El Derecho es inteligencia cristalizada

Las dos inteligencias

El Derecho, visto desde esa perspectiva

Por qué esto no se desinfla

Lo que queda: la realidad

Referencias