Back to deblo
deblo

Mémoire IA et compression de contexte

Résumé de conversation fire-and-forget, l'outil save_memory et compression de contexte à 150K tokens. Comment l'IA se souvient entre les sessions pour 0,00005 $ par résumé.

Juste A. Gnimavo (Thales) & Claude | March 26, 2026 3 min deblo
EN/ FR/ ES
deblomémoirecompression-contexterésumémistraltokens

Un élève ouvre l'application lundi et dit à l'IA qu'il a du mal avec les fractions. L'IA le guide à travers le concept, donne des exemples, génère un quiz. L'élève répond correctement à 3 questions sur 5. Il ferme l'application.

Mercredi, l'élève ouvre une nouvelle conversation : « Aide-moi avec mes maths. » Si l'IA n'a pas de mémoire, elle repart de zéro.

C'est le comportement par défaut de chaque API LLM. Chaque appel est sans état. Nous avons résolu cela avec deux systèmes complémentaires : la mémoire IA (résumés inter-conversations) et la compression de contexte (gestion des tokens intra-conversation).

Le modèle AIMemory

Chaque conversation terminée génère une entrée mémoire : un titre (4-10 mots) et un contenu (2-4 phrases, maximum 200 mots). C'est tout ce dont l'IA a besoin pour se rappeler ce qui s'est passé dans une conversation précédente.

Auto-résumé : fire-and-forget

Quand une conversation se termine, le backend lance une tâche de résumé asynchrone. C'est fire-and-forget : jamais bloquant pour l'utilisateur. Si le résumé échoue, l'échec est journalisé silencieusement. Le coût est d'environ 0,00005 $ par résumé -- essentiellement gratuit.

L'outil save_memory

Au-delà du résumé automatique, l'IA peut explicitement sauvegarder des entrées mémoire pendant la conversation : « Cet élève a du mal avec les fractions mais est fort en géométrie. » L'IA utilise cet outil quand elle identifie des informations qui devraient être mémorisées explicitement.

Chargement de la mémoire : contexte inter-conversations

Au début de chaque nouvelle conversation, le processus d'assemblage du prompt système charge les entrées AIMemory récentes (actuellement 10) et les injecte dans le contexte. L'IA peut alors répondre : « La dernière fois, tu avais des difficultés avec la multiplication de fractions. Tu veux qu'on continue avec ça ? »

Compression de contexte : le seuil de 150K tokens

Quand l'estimation de tokens de la conversation dépasse 150 000 tokens, nous compressons : garder les 14 messages les plus récents in extenso, résumer le reste, et reconstruire l'historique. Le seuil de 150K a été choisi empiriquement : au-delà, nous avons observé une latence accrue et des problèmes occasionnels de cohérence.

L'équation des coûts

  • Résumé mémoire : ~0,00005 $ par résumé. À 1 000 conversations/jour : 1,50 $/mois.
  • Chargement mémoire : ~1 500-3 000 tokens par démarrage de conversation. Négligeable.
  • Compression de contexte : économise 100K-200K tokens par message suivant dans les longues conversations. Le ROI est de 5 600x à 11 200x.

Les maths sont sans ambiguïté. La mémoire et la compression ne sont pas juste des fonctionnalités -- ce sont des optimisations de coûts.

Ce que l'IA « se souvient »

Au début de toute conversation, l'IA connaît : les résumés de conversations précédentes, les notes explicitement sauvegardées, les fichiers uploadés, l'historique de conversation actuel (possiblement compressé), le statut des tâches, et les résultats d'exercices historiques.

Ce n'est pas de la vraie mémoire au sens humain. C'est du contexte reconstruit -- assemblé à chaque début de conversation depuis des enregistrements en base de données. Mais du point de vue de l'utilisateur, l'effet est le même. L'IA se souvient.


Ceci est l'article 19 de 20 dans la série « Comment nous avons construit Deblo.ai ».

Share this article:

Responses

Write a response
0/2000
Loading responses...

Related Articles

Thales & Claude thales

Treize agents, quarante-trois minutes : la première session Workflow de Claude Fable 5, et ce qu'un script d'orchestration déterministe change aux builds multi-agents

Un prompt, treize agents, quarante-trois minutes : la première session de production avec Claude Fable 5 et l'outil Workflow de Claude Code a livré un site web de production complet de sept pages plus un endpoint backend de capture de leads, en un seul commit. Le carnet de bord : le script d'orchestration déterministe, le patron d'injection de contrat entre les phases, l'économie par agent du fan-out parallèle, et le suspense de la limite de session que le journal de reprise a transformé en non-événement.

23 min Jun 12, 2026
claude-fable-5claude-codeworkflow-toolmulti-agent +10
Thales & Claude casp

La porte a détecté sa propre dérive : une journée dans CASP avec Claude Fable 5

Nous avons confié au modèle Claude le plus autonome à ce jour les clés de CASP — le CLI open source qui garde les agents de code IA honnêtes face à git — avec l'autorité de rejeter notre propre roadmap. Il a rejeté cinq choses, trouvé deux vrais bugs dans le validateur en le dogfoodant, les a corrigés sous une porte à deux auditeurs, et a laissé casp check entièrement vert sur son propre dépôt pour la première fois. CASP 0.3.0 en est le résultat.

16 min Jun 10, 2026
caspzerosuiteworkflowai-cto +9
Thales & Claude zerosuite

La transplantation du CASP : comment la discipline des six fichiers est passée de Conductor à un ERP transport anti-fraude, ce que la compétence /next ajoute quand l'opérateur tape juste « next », et pourquoi le coût d'une dérive du CASP grimpe quand le projet, c'est l'argent des autres

La discipline du CASP qui a piloté trente-cinq sessions de Conductor est agnostique au produit. Le carnet de bord de sa transplantation sur KASSIA, un ERP transport anti-fraude pour un exploitant de flotte en Côte d'Ivoire : ce qui a migré, ce qui n'a pas migré (le validateur sur mesure — et ce que son absence coûte), ce que la compétence /next ajoute quand l'opérateur tape un seul mot, et là où le CASP s'arrête — le bug de déploiement qu'il ne pouvait pas voir parce qu'il enregistre l'intention, pas la réalité de l'infrastructure.

23 min Jun 8, 2026
kassiaerp-kassia-transport-logistiquezerosuiteCASP +15