OficialLM

Gana el jinete

EEEquipo editorial · 11 de junio de 202618 min de lectura

Hace unas semanas un despacho me enseñó, orgulloso, su nueva suscripción “al mejor modelo de IA del momento”, Claude. Habían pagado la versión cara (la que, de hecho, ni siquiera tiene precio público). Le pidió que redactara una escritura de compraventa. El modelo escribió algo plausible, bien puntuado, con aire de documento serio. Pero estaba mal. Faltaba un dato registral, sobraba una cláusula y nadie sabía de dónde había salido un nombre que no estaba en ningún sitio. El notario cerró el portátil con la cara de quien compra un caballo de carreras y descubre que no venía con silla.


Esa escena se repite en cada sector (no solo en notarías) estos meses. La conclusión incómoda: el modelo, por sí solo (o en sí mismo), no es un producto. Es sin duda muy útil, pero no está adaptado a un tipo de trabajo concreto. 


Tomasz Tunguz (ingeniero de software e inversor en IA de primer nivel) lo plasma en una imagen que se queda: Un modelo de lenguaje es como un Mustang: potente y salvaje. Sirve de poco hasta que lo domesticas. La domesticación es el arnés, el conjunto de capas que rodean al modelo y lo vuelven fiable. Y ahí está el giro que pocos todavía han atisbado: el modelo es solo una pieza de lo que hace que un sistema de IA sea útil para un tipo de trabajo concreto. El resto de partes que forman el conjunto que hace a la IA útil es dónde está la mayoría del trabajo, y a eso es a los que trabajamos en la industria de IA se le llama “el arnés” (por su nomenclatura anglófona “harness”).

El motor se parece entre marcas, y por ello se está abaratando

Durante los últimos dos años, tener acceso al modelo más potente ha sido una ventaja de verdad. Pero esta ventaja se está evaporando a una velocidad vertiginosa.


El precio de la inferencia cae alrededor de diez veces al año [2]. Alcanzar la calidad del GPT-4 original costaba unos 20 dólares por millón de tokens a finales de 2022; hoy ronda los 0,40$ [2]. Para ciertas tareas, el coste de igualar a aquel GPT-4 se ha hundido 40x por año [3]. Cuando DeepSeek entró en el mercado en enero del 2025, lo hizo con tarifas casi un 90% por debajo de sus rivales [4], y nadie se hundió: los demás bajaron también (aunque no tanto como los proveedores chinos de modelos, que siguen liderando el binomio inteligencia/coste). 


La distancia en calidad se reduce a la vez. Los modelos abiertos (open-source, open-weights), que en 2023 iban un par de años por detrás de los cerrados (una diferencia altamente notable a nivel de utilidad), hoy están más cerca, aproximadamente seis meses por detrás [5]. En programación y razonamiento general, la brecha casi ha desaparecido [5]. Cualquiera puede descargar un modelo abierto y obtener resultados que hace dieciocho meses costaban una fortuna en tokens de OpenAI y compañía. 


Traducción para quien dirige un negocio: dentro de poco, tu competidor y tú “correréis” con el mismo motor (con la misma potencia a nivel de caballos, por ser más preciso). ¿Dónde queda entonces la diferencia?

El arnés es el producto

La diferencia queda en todo lo que el modelo no hace solo. Tunguz lo desglosa en 7 piezas [1]. 


Está el contexto y la memoria: el sistema que le pone delante al modelo la información exacta que necesita, ni más ni menos. El que sirve a un radiólogo no vale para un oficial de notarías. Y, junto a la búsqueda, una base de contexto que guarda cómo trabaja de verdad cada negocio: esos procedimientos que cada profesional lleva en la cabeza y aplica “sin pensar”, porque ya se han convertido en hábito. Capturarlos y mantenerlos al día es la mitad del trabajo. 


Están las herramientas (tools): lo que permite a un agente de IA hacer cosas en tu ordenador en lugar de limitarse a hablar de él en formato chat. Un registro de herramientas, validación de lo que el modelo pide, una “verja” de permisos humanos para lo delicado (como por ejemplo, permitir a un agente extraer documentos adjuntos a un correo). 


Está el bucle, ese (1) pensar, (2) actuar, (3) observar y (4) repetir, que separa a un agente de un chat. Está la persistencia, para que cuando el proceso se caiga en el paso 5 de 7, retome en el 4 y no desde 0. Está el sandbox, el cajón aislado donde el agente actúa sin tocar lo que no debe, ni filtrar lo que no puede salir. Está la observabilidad: el registro de cada paso, cada llamada a una herramienta, y sentar a un humano a auditar esos registros para iterar el sistema hacia algo que satisfaga los criterios específicos de un tipo de usuario. 


Y la séptima: el criterio arquitectónico. Qué parte del sistema conviene que sea determinista y cuál puede tener más autonomía. Qué modelo toca en cada paso. Qué conocimiento vive en una plantilla y cuál en la memoria persistente del sistema. Decisiones de ingeniería que no se ven y deciden si el sistema aguanta en producción y está bien diseñado para un tipo de usuario y unos flujos de trabajo específicos.


Ninguna de esas 7 piezas “viene con” el modelo. Las construye alguien, una a una. Ahí está el trabajo, y ahí está la ventaja de los productos de IA específicamente diseñados para alguien (y para las tareas que ese alguien lleva a cabo en su trabajo).

En contextos más sensibles/regulados, el arnés se traduce en confianza

Cuanto más restrictivo/regulado/sensible es el ámbito donde se va a introducir el sistema de IA, más relevancia tiene el arnés y menos tiene el motor.


Un notario no puede entregar una escritura «plausible». Necesita una escritura bien hecha: con el CRU exacto, las cláusulas que tocan, su propio formato… Eso no viene de base comprando una suscripción a Claude. Lo da un sistema específicamente diseñado para ese ámbito en concreto - un sistema que ha construido el arnés, con el contexto, la gobernanza, los requisitos de seguridad de datos, las herramientas e integraciones útiles en el ámbito de un despacho. 


Cambiar el modelo por debajo, en ese mundo, se parece a cambiar el motor de un coche. El conductor no debería notarlo (solo debería notar que funciona y que propele el coche). El chasis, los frenos y el volante son los que mantienen el coche en la carretera, y son los que cuestan años ir afinando.


Es la lógica con la que llevamos un año desarrollando OficialLM. El modelo es intercambiable (de hecho está diseñado para ser multi-modelo desde su nacimiento); el arnés que hemos construido para que el sistema sea útil y adaptable a la casuística concreta de cada notaría (su forma de redactar, sus controles, su cumplimiento) no lo es. Cuando aparezca un modelo mejor, lo enchufamos por detrás y seguimos. El arnés se queda (y se sigue evolucionando).

El jinete

Tunguz remata con una pregunta que sirve para cualquier sector [1]: ¿qué ocurre cuando todas las empresas tienen el mismo modelo? Que el beneficio que cada participante de ese sector pretendía derivar de la adopción de esa nueva tecnología, no se traduce en una ventaja a nivel operativo y de negocio.


Ocurre lo mismo que en las carreras de caballos. Cuando todos los caballos corren igual de rápido, la carrera la gana el mejor jinete.


Referencias

[1] Tomasz Tunguz — «Software After AI» — https://tomtunguz.com/harnessing-ai/

[2] DeepLearning.AI (The Batch) — «Falling LLM Token Prices and What They Mean for AI Companies» — https://www.deeplearning.ai/the-batch/falling-llm-token-prices-and-what-they-mean-for-ai-companies

[3] Epoch AI — «LLM inference prices have fallen rapidly but unequally across tasks» — https://epoch.ai/data-insights/llm-inference-price-trends

[4] IntuitionLabs — «LLM API Pricing Comparison (2025)» — https://intuitionlabs.ai/articles/llm-api-pricing-comparison-2025

[5] International AI Safety Report 2026 — https://arxiv.org/abs/2602.21012