Back to deblo
deblo

Pipeline RAG : recherche documentaire avec pgvector et chunking sémantique

PostgreSQL avec pgvector pour les embeddings, API Datalab pour le chunking sémantique, Mistral Reranker pour l'affinement top-k et compression de contexte à 150K tokens.

Juste A. Gnimavo (Thales) & Claude | March 26, 2026 3 min deblo
EN/ FR/ ES
debloragpgvectorembeddingsrecherche-sémantiquemistral

Par Thales & Claude -- CEO & AI CTO, ZeroSuite, Inc.

Une élève de Terminale uploade un chapitre de 40 pages de son manuel de physique sur l'électromagnétisme. Deux minutes plus tard, elle demande : « Explique la relation entre la loi de Faraday et la loi de Lenz en utilisant mon document. » L'IA récupère les trois passages les plus pertinents de son document uploadé, cite les sections spécifiques et construit une explication qui référence la notation et les exemples de son manuel.

C'est la génération augmentée par récupération -- RAG. L'IA ne hallucine pas des réponses depuis ses données d'entraînement. Elle cherche dans les propres documents de l'utilisateur, récupère les passages pertinents et ancre sa réponse dans le contenu récupéré.

Pourquoi pgvector, pas une base de données vectorielle dédiée

Nous avons choisi pgvector -- l'extension PostgreSQL pour la recherche de similarité vectorielle. Nos embeddings vivent dans la même base PostgreSQL 17 que nos utilisateurs, conversations et fichiers. Trois raisons : simplicité opérationnelle (zéro coût opérationnel marginal), cohérence transactionnelle (tout dans une seule transaction), et flexibilité de requête (jointures SQL standard avec les tables utilisateurs).

Le pipeline de traitement documentaire

Quand un utilisateur uploade un fichier, il entre dans un pipeline à quatre étapes : extraction de texte, OCR (si nécessaire, via Mistral OCR principalement), chunking sémantique (via l'API Datalab), et génération d'embeddings (BAAI/bge-m3 via OpenRouter).

Recherche sémantique avec re-ranking

La recherche procède en deux étapes : récupération par similarité vectorielle (pgvector, top 10 candidats en < 50 ms) suivie d'un re-ranking (Mistral Reranker, top 3 résultats finaux en < 500 ms). La combinaison donne le meilleur des deux mondes : récupération initiale rapide suivie d'un re-ranking précis.

Compression de contexte

La fenêtre de contexte n'est pas infinie. Nous avons implémenté la compression de contexte à un seuil de 150 000 tokens estimés. La stratégie : garder les 14 messages les plus récents in extenso, résumer le reste via un LLM rapide et bon marché (Mistral Large), et reconstruire l'historique avec le résumé + les messages récents.

Mémoire IA : continuité inter-conversations

Le modèle AIMemory stocke des résumés de conversations auto-générés. Au début de chaque nouvelle conversation, les 10-20 entrées mémoire les plus récentes sont injectées dans le prompt système. Cela donne à l'IA une continuité inter-conversations sans charger des conversations entières dans le contexte.

Le flux de récupération complet

Latence totale ajoutée par le RAG : environ 800 ms (embedding : 200 ms, recherche pgvector : 50 ms, re-ranking : 500 ms). C'est négligeable comparé au temps de génération du LLM de 3-15 secondes.


Ceci est l'article 16 de 20 dans la série « Comment nous avons construit Deblo.ai ».

Share this article:

Responses

Write a response
0/2000
Loading responses...

Related Articles

Thales & Claude thales

Treize agents, quarante-trois minutes : la première session Workflow de Claude Fable 5, et ce qu'un script d'orchestration déterministe change aux builds multi-agents

Un prompt, treize agents, quarante-trois minutes : la première session de production avec Claude Fable 5 et l'outil Workflow de Claude Code a livré un site web de production complet de sept pages plus un endpoint backend de capture de leads, en un seul commit. Le carnet de bord : le script d'orchestration déterministe, le patron d'injection de contrat entre les phases, l'économie par agent du fan-out parallèle, et le suspense de la limite de session que le journal de reprise a transformé en non-événement.

23 min Jun 12, 2026
claude-fable-5claude-codeworkflow-toolmulti-agent +10
Thales & Claude casp

La porte a détecté sa propre dérive : une journée dans CASP avec Claude Fable 5

Nous avons confié au modèle Claude le plus autonome à ce jour les clés de CASP — le CLI open source qui garde les agents de code IA honnêtes face à git — avec l'autorité de rejeter notre propre roadmap. Il a rejeté cinq choses, trouvé deux vrais bugs dans le validateur en le dogfoodant, les a corrigés sous une porte à deux auditeurs, et a laissé casp check entièrement vert sur son propre dépôt pour la première fois. CASP 0.3.0 en est le résultat.

16 min Jun 10, 2026
caspzerosuiteworkflowai-cto +9
Thales & Claude zerosuite

La transplantation du CASP : comment la discipline des six fichiers est passée de Conductor à un ERP transport anti-fraude, ce que la compétence /next ajoute quand l'opérateur tape juste « next », et pourquoi le coût d'une dérive du CASP grimpe quand le projet, c'est l'argent des autres

La discipline du CASP qui a piloté trente-cinq sessions de Conductor est agnostique au produit. Le carnet de bord de sa transplantation sur KASSIA, un ERP transport anti-fraude pour un exploitant de flotte en Côte d'Ivoire : ce qui a migré, ce qui n'a pas migré (le validateur sur mesure — et ce que son absence coûte), ce que la compétence /next ajoute quand l'opérateur tape un seul mot, et là où le CASP s'arrête — le bug de déploiement qu'il ne pouvait pas voir parce qu'il enregistre l'intention, pas la réalité de l'infrastructure.

23 min Jun 8, 2026
kassiaerp-kassia-transport-logistiquezerosuiteCASP +15