Los modelos de lenguaje grande son conocedores pero no omniscientes. No pueden responder preguntas sobre la documentación interna de su empresa, su catálogo de productos o su historial de soporte al cliente. Alucinan cuando no conocen la respuesta, generando con confianza información plausible pero incorrecta.
La generación aumentada por recuperación (RAG) resuelve esto fundamentando las respuestas del LLM en sus datos reales. En lugar de preguntar al modelo "¿Cuál es nuestra política de reembolso?", primero se recupera la documentación relevante, luego se le pide al modelo que responda basándose en esa documentación.
FLIN implementa RAG como un pipeline componible: recuperar documentos relevantes con búsqueda semántica, rerankearlos con un cross-encoder para precisión, alimentarlos al LLM como contexto y atribuir la respuesta a sus fuentes.
El pipeline RAG
flinfn answer_question(question) {
// Paso 1: Recuperar documentos relevantes
docs = search question in Document by content limit 20
// Paso 2: Rerankear para precisión
ranked = rerank(question, docs, field: "content", limit: 5)
// Paso 3: Construir contexto
context = ranked.map(d => d.content).join("\n\n---\n\n")
// Paso 4: Generar respuesta con atribución
answer = ai_chat([
{ role: "system", content: "Answer questions based ONLY on the provided context. Cite sources by title. If the context doesn't contain the answer, say so." },
{ role: "user", content: "Context:\n" + context + "\n\nQuestion: " + question }
])
{
answer: answer,
sources: ranked.map(d => { title: d.title, id: d.id })
}
}Cuatro pasos. Recuperar, rerankear, generar, atribuir. Cada paso es una llamada a función estándar de FLIN.
Perfil de rendimiento
| Paso | Latencia | Notas |
|---|---|---|
| Recuperación semántica | 2-10 ms | Búsqueda en índice HNSW |
| Reranking (20 docs) | 80-150 ms | Puntuación con cross-encoder |
| Ensamblaje de contexto | < 1 ms | Operaciones de cadena |
| Generación LLM | 500-2000 ms | Depende del proveedor/modelo |
| Total | 600-2200 ms | Aceptable para Q&A |
Un desarrollador puede agregar RAG a su aplicación en una función. No un servicio. No un despliegue de infraestructura. Una función.
Esta es la Parte 120 de la serie "Cómo construimos FLIN", que documenta cómo un CEO en Abidjan y un CTO de IA diseñaron y construyeron un lenguaje de programación desde cero.
Navegación de la serie: - [119] Integración de FastEmbed para embeddings - [120] RAG: recuperación, reranking y atribución de fuentes (estás aquí) - [121] Análisis de documentos: PDF, DOCX, CSV, JSON, YAML - [122] Chunking consciente del código para RAG