Metodología

El pipeline que diferencia
Legia de un chatbot jurídico.

Cualquier modelo de IA puede generar texto que suena legal. Solo uno que verifica cada cita contra la fuente original puede garantizar que lo que dice es real. Así funciona Legia.

Métricas en producción

Precisión de citas verificadas 98,4%

Consultas procesadas < 2 min 99,1%

Escalado a humano < 12%

Tasa de éxito IA 24h 97,3%

Datos de las últimas 30 días en producción.

El problema

ChatGPT alucina artículos que no existen.

En una prueba interna con 50 preguntas laborales, ChatGPT-4 citó el «Estatuto Básico del Empleado Público» como si regulara el despido en empresas privadas — ese artículo no existe. Otro modelo de IA citó el artículo «ET 89.2» para justificar un finiquito; dicho artículo regula la negociación colectiva, no las indemnizaciones.

El problema no es la intención. Es la arquitectura: los LLMs generan texto estadísticamente plausible, no buscan en la ley real. Si el texto que describe un artículo inventado es coherente con el contexto, lo producen.

Legia no genera artículos. Los busca primero, los indexa y luego verifica que aplican al caso antes de citarlos.

La diferencia

Legia tiene su propia base legal. La IA solo la interpreta.

La base de legislación de Legia se construye descargando directamente del BOE los textos consolidados de las 67 leyes principales del derecho español. Cada artículo se indexa, se etiqueta por área y se hace disponible para búsqueda semántica.

Cuando llega una consulta, el sistema primero busca los artículos relevantes en esa base. Solo entonces, con los textos legales reales en contexto, la IA redacta la respuesta. Después, un segundo modelo verifica que cada cita usada efectivamente existe y se aplica al caso.

Si la verificación falla o la confianza cae del 70%, la respuesta no sale: se escala a revisión humana.

El pipeline

Seis pasos. Cero improvisación.

Cada consulta sigue el mismo recorrido verificable. Ningún paso puede saltarse.

01

Triage

Clasificación del caso

qwen-turbo

~0,3s

El modelo clasifica el área jurídica (laboral, civil, familia, consumo, penal, mercantil), el nivel de urgencia (alta/media/baja) y si el caso requiere derivación inmediata a abogado colegiado. Este paso usa el modelo más eficiente: la clasificación es más predecible que la generación jurídica.

Output: área_jurídica, urgencia, requiere_abogado

02

Recuperación

Búsqueda en la base legal BOE

SQLite FTS5

< 1ms

Full-text search sobre los 8.904 artículos indexados del BOE. La búsqueda usa el área clasificada en el paso anterior para limitar el espacio de búsqueda y el relevance scoring para ordenar los artículos candidatos por pertinencia semántica. Se recuperan los 5-10 artículos más relevantes con su texto íntegro.

Output: artículos_candidatos[] con texto completo y score

03

Recuperación

Búsqueda en jurisprudencia CENDOJ

SQLite FTS5

< 1ms

Búsqueda paralela en las 2.127 sentencias del Tribunal Supremo y TJUE indexadas desde el CENDOJ. Se priorizan sentencias del área jurídica clasificada, con énfasis en doctrina jurisprudencial reciente (últimos 5 años) y sentencias de unificación de doctrina.

Output: sentencias_candidatas[] con extractos clave

04

Generación

Generación de respuesta con contexto legal

qwen-plus

~5-15s

El modelo principal recibe: (a) la pregunta del usuario, (b) los artículos recuperados del BOE con su texto íntegro, (c) las sentencias relevantes, (d) instrucciones explícitas para citar solo artículos del contexto proporcionado. La respuesta incluye: orientación concreta, artículos exactos citados, plazos legales aplicables y paso siguiente recomendado.

Output: respuesta_draft con citas_usadas[]

05

Verificación

Verificación automática de citas

qwen-plus

~3-8s

Un segundo modelo independiente recibe la respuesta generada y verifica cita por cita: ¿existe ese artículo en la base legal? ¿Se aplica al caso descrito? ¿El texto citado es coherente con el artículo real? Cada cita recibe un score de confianza 0-100. Si cualquier cita cae por debajo de 70, el caso se marca para escalado.

Output: citas_verificadas[] con confidence_score, flag_escalado

06

Control

Escalado o entrega

Lógica determinista

< 0,1s

Si todas las citas superan el umbral de confianza, la respuesta se entrega al usuario. Si alguna cita falla la verificación, si el caso fue marcado como "requiere abogado" en el paso 1, o si el área es penal con riesgo de privación de libertad, el caso se escala automáticamente a revisión por abogados colegiados antes de mostrar nada.

Output: respuesta_final al usuario o ticket_escalado a abogado

Umbral de confianza

70% o escala. Sin excepciones.

El umbral del 70% no es arbitrario. Es el resultado de calibrar el verificador contra un conjunto de 500 preguntas con respuestas jurídicas conocidas. Por encima del 70% de confianza, la tasa de error de citas en producción cae por debajo del 2%. Por debajo, sube exponencialmente.

La filosofía es conservadora a propósito: preferimos escalar 1 caso de cada 8 a humanos que dejar pasar una cita incorrecta. Un abogado que recibe un análisis con citas erróneas pierde tiempo. Un ciudadano que actúa sobre una cita errónea puede perder su caso.

90–100%

Confianza alta

→ Respuesta directa al usuario

70–89%

Confianza suficiente

→ Respuesta con aviso de orientación preliminar

50–69%

Confianza baja

→ Escalado automático a abogado colegiado

< 50%

Confianza insuficiente

→ Escalado + notificación de revisión urgente

Stack técnico

Cada capa, explicada.

Capa de datos legales

BOE: scraper diario a las 08:00 — descarga sumario, detecta nuevas disposiciones, actualiza artículos modificados
CENDOJ: 2.127 sentencias del Tribunal Supremo y TJUE importadas con metadatos (número, fecha, sala, doctrina)
SQLite con FTS5: full-text search con tokenizador Unicode, stemmer en español, relevance scoring BM25
Artículos "estrella": score manual de relevancia por área para priorizar normas de aplicación frecuente

Capa de modelos IA

qwen-plus (principal): generación jurídica + verificación. Mayor precisión en razonamiento estructurado sobre textos legales.
qwen-turbo: clasificación (triage). 10× más barato, suficiente para clasificación de intención.
Anthropic Claude: fallback automático si Qwen no responde en < 20s
OpenAI GPT-4o: segundo fallback. Activado automáticamente si los dos anteriores fallan.

Capa de control y seguridad

Verificación determinista: lógica de umbrales fuera de la IA — no puede ser "convencida" de bajar el umbral
Escalado forzado en penal: cualquier caso con riesgo de privación de libertad escala siempre, independientemente del confidence score
Trazabilidad completa: cada respuesta guarda los artículos candidatos, el modelo usado, el score de verificación y el tiempo de procesamiento
Coste por operación auditado en tiempo real: ninguna IA puede disparar costes sin notificación al sistema

Benchmark

Legia vs. IA genérica en 50 preguntas laborales.

Prueba interna con preguntas reales de ciudadanos. Las respuestas de IA genérica se evaluaron contra el BOE artículo por artículo.

Criterio	Legia.es	ChatGPT-4o	IA jurídica genérica
Citas de artículos correctas	98,4%	71%	68%
Artículos inexistentes citados	0%	18%	24%
Referencia a legislación actualizada	100%	61%	55%
Identificación correcta urgencia	94%	78%	71%
Derivación adecuada a profesional	92%	43%	38%
Cita de jurisprudencia aplicable	81%	22%	15%

Prueba interna realizada en abril 2026. 50 preguntas laborales reales validadas contra el BOE y CENDOJ. "IA jurídica genérica" promedia dos herramientas de legaltech europeas sin identificar.

Honestidad técnica

Lo que Legia no puede hacer.

No es asesoramiento jurídico vinculante

Legia proporciona orientación preliminar basada en legislación pública. No reemplaza a un abogado colegiado para actos con consecuencias jurídicas directas (firma de contratos, recursos, demandas).

No cubre toda la legislación española

Actualmente indexamos 67 leyes principales. Legislación autonómica específica, normativa sectorial y reglamentos de desarrollo están fuera de la base actual. Se amplía progresivamente.

La jurisprudencia no es exhaustiva

Incluimos 2.127 sentencias clave del TS y TJUE. No indexamos juzgados provinciales ni jurisprudencia de Audiencias Provinciales, lo que limita la cobertura en derecho civil de primera instancia.

El tiempo de respuesta varía

El pipeline completo tarda entre 8 y 30 segundos dependiendo de la complejidad del caso y la carga de los proveedores de IA. En casos escalados, la respuesta puede tardar horas (revisión humana).

Compruébalo con tu caso real.

Primera consulta gratuita. Sin registro. Ver la metodología en acción sobre tu situación concreta.

Consultar gratis Ver casos de uso

El pipeline que diferenciaLegia de un chatbot jurídico.