RAG: recuperación, reranking y atribución de fuentes

Cómo FLIN implementa la generación aumentada por recuperación -- recuperación semántica de sus datos, reranking con cross-encoder para precisión y atribución de fuentes para que los usuarios sepan de dónde vienen las respuestas.

Juste A. Gnimavo (Thales) & Claude | March 26, 2026 3 min flin

EN/ FR/ ES

flinrust

Los modelos de lenguaje grande son conocedores pero no omniscientes. No pueden responder preguntas sobre la documentación interna de su empresa, su catálogo de productos o su historial de soporte al cliente. Alucinan cuando no conocen la respuesta, generando con confianza información plausible pero incorrecta.

La generación aumentada por recuperación (RAG) resuelve esto fundamentando las respuestas del LLM en sus datos reales. En lugar de preguntar al modelo "¿Cuál es nuestra política de reembolso?", primero se recupera la documentación relevante, luego se le pide al modelo que responda basándose en esa documentación.

FLIN implementa RAG como un pipeline componible: recuperar documentos relevantes con búsqueda semántica, rerankearlos con un cross-encoder para precisión, alimentarlos al LLM como contexto y atribuir la respuesta a sus fuentes.

El pipeline RAG

flinfn answer_question(question) {
    // Paso 1: Recuperar documentos relevantes
    docs = search question in Document by content limit 20

    // Paso 2: Rerankear para precisión
    ranked = rerank(question, docs, field: "content", limit: 5)

    // Paso 3: Construir contexto
    context = ranked.map(d => d.content).join("\n\n---\n\n")

    // Paso 4: Generar respuesta con atribución
    answer = ai_chat([
        { role: "system", content: "Answer questions based ONLY on the provided context. Cite sources by title. If the context doesn't contain the answer, say so." },
        { role: "user", content: "Context:\n" + context + "\n\nQuestion: " + question }
    ])

    {
        answer: answer,
        sources: ranked.map(d => { title: d.title, id: d.id })
    }
}

Cuatro pasos. Recuperar, rerankear, generar, atribuir. Cada paso es una llamada a función estándar de FLIN.

Perfil de rendimiento

Paso	Latencia	Notas
Recuperación semántica	2-10 ms	Búsqueda en índice HNSW
Reranking (20 docs)	80-150 ms	Puntuación con cross-encoder
Ensamblaje de contexto	< 1 ms	Operaciones de cadena
Generación LLM	500-2000 ms	Depende del proveedor/modelo
Total	600-2200 ms	Aceptable para Q&A

Un desarrollador puede agregar RAG a su aplicación en una función. No un servicio. No un despliegue de infraestructura. Una función.

Esta es la Parte 120 de la serie "Cómo construimos FLIN", que documenta cómo un CEO en Abidjan y un CTO de IA diseñaron y construyeron un lenguaje de programación desde cero.

Navegación de la serie: - [119] Integración de FastEmbed para embeddings - [120] RAG: recuperación, reranking y atribución de fuentes (estás aquí) - [121] Análisis de documentos: PDF, DOCX, CSV, JSON, YAML - [122] Chunking consciente del código para RAG

RAG: recuperación, reranking y atribución de fuentes

El pipeline RAG

Perfil de rendimiento

Responses

Related Articles

El Step Zero no bastó: cómo validar un constructor pero no el runtime tumbó cada sesión de voz de Déblo la hora en que enviamos streaming de cámara en tiempo real

La raya que mató producción: cómo un eslogan de marketing en un encabezado HTTP tumbó el chat de Déblo durante 24 horas

Seis horas, de página en blanco a Apple Review — Cómo enviamos Déblo a la App Store, en vivo