Back to flin
flin

Extraction de texte depuis CSV, XLSX, RTF et XML

Comment FLIN extrait du texte recherchable depuis les tableurs, le texte enrichi et le XML -- incluant les requêtes XPath, l'analyse Excel multi-feuilles et le traitement de flux RSS.

Juste A. Gnimavo (Thales) & Claude | March 26, 2026 3 min flin
EN/ FR/ ES
flindocument-parsingcsvxlsxrtfxmlextraction

PDF et DOCX captent toute l'attention dans les discussions sur l'analyse de documents. Mais le monde réel fonctionne avec des tableurs, des traitements de texte hérités et des flux XML. Un cabinet comptable SYSCOHADA téléverse des balances en fichiers Excel. Une équipe juridique échange des brouillons en RTF. Un agrégateur d'actualités ingère des flux RSS en XML.

Le pipeline d'extraction de documents de FLIN devait gérer tout cela. Les sessions 228, 230 et 231 ont ajouté quatre nouveaux analyseurs de format -- CSV, XLSX, RTF et XML -- portant le total des formats supportés à neuf.

CSV : données tabulaires comme texte recherchable

L'extraction convertit les lignes CSV en texte délimité par tabulations, préservant la structure tabulaire tout en produisant du texte que les modèles d'embedding peuvent traiter. L'analyseur gère les en-têtes, les champs entre guillemets, la détection d'encodage et la détection de délimiteur.

XLSX : classeurs multi-feuilles

Le défi clé avec XLSX est les classeurs multi-feuilles. FLIN extrait toutes les feuilles et étiquette chacune avec un en-tête de section. Les en-têtes de feuille agissent comme des marqueurs de section qui améliorent significativement la qualité de recherche pour les documents financiers.

RTF : texte enrichi sans les richesses

RTF est un format Microsoft de 1987 qui encode le formatage en mots de contrôle en texte brut. L'extraction supprime tout le formatage et retourne du texte brut.

XML : extraction alimentée par XPath

XML est le plus versatile des quatre formats. FLIN gère l'extraction générique de texte, les requêtes XPath 1.0, et la détection automatique de sous-types (RSS, Atom, SOAP, SVG, XHTML).

Neuf formats, un pipeline

FormatCrateTests
Texte brut(intégré)5
Markdown(intégré)5
HTML(intégré)12
PDFpdf-extract8
DOCXdocx-rs10
CSVcsv12
XLSXcalamine8
RTFrtf-parser22
XMLroxmltree + sxd-xpath61

Total : 117 tests à travers tous les analyseurs de format. Le répartiteur unifié signifie qu'ajouter un nouveau format nécessite exactement trois changements.


Ceci est la partie 132 de la série « Comment nous avons construit FLIN », documentant comment un CEO à Abidjan et un CTO IA ont conçu et construit un langage de programmation à partir de zéro.

Navigation de la série : - [131] Intégration chunk-embedding - [132] Extraction de texte depuis CSV, XLSX, RTF et XML (vous êtes ici) - [133] Auto-conversion sémantique

Share this article:

Responses

Write a response
0/2000
Loading responses...

Related Articles

Thales & Claude thales

Treize agents, quarante-trois minutes : la première session Workflow de Claude Fable 5, et ce qu'un script d'orchestration déterministe change aux builds multi-agents

Un prompt, treize agents, quarante-trois minutes : la première session de production avec Claude Fable 5 et l'outil Workflow de Claude Code a livré un site web de production complet de sept pages plus un endpoint backend de capture de leads, en un seul commit. Le carnet de bord : le script d'orchestration déterministe, le patron d'injection de contrat entre les phases, l'économie par agent du fan-out parallèle, et le suspense de la limite de session que le journal de reprise a transformé en non-événement.

23 min Jun 12, 2026
claude-fable-5claude-codeworkflow-toolmulti-agent +10
Thales & Claude casp

La porte a détecté sa propre dérive : une journée dans CASP avec Claude Fable 5

Nous avons confié au modèle Claude le plus autonome à ce jour les clés de CASP — le CLI open source qui garde les agents de code IA honnêtes face à git — avec l'autorité de rejeter notre propre roadmap. Il a rejeté cinq choses, trouvé deux vrais bugs dans le validateur en le dogfoodant, les a corrigés sous une porte à deux auditeurs, et a laissé casp check entièrement vert sur son propre dépôt pour la première fois. CASP 0.3.0 en est le résultat.

16 min Jun 10, 2026
caspzerosuiteworkflowai-cto +9
Thales & Claude zerosuite

La transplantation du CASP : comment la discipline des six fichiers est passée de Conductor à un ERP transport anti-fraude, ce que la compétence /next ajoute quand l'opérateur tape juste « next », et pourquoi le coût d'une dérive du CASP grimpe quand le projet, c'est l'argent des autres

La discipline du CASP qui a piloté trente-cinq sessions de Conductor est agnostique au produit. Le carnet de bord de sa transplantation sur KASSIA, un ERP transport anti-fraude pour un exploitant de flotte en Côte d'Ivoire : ce qui a migré, ce qui n'a pas migré (le validateur sur mesure — et ce que son absence coûte), ce que la compétence /next ajoute quand l'opérateur tape un seul mot, et là où le CASP s'arrête — le bug de déploiement qu'il ne pouvait pas voir parce qu'il enregistre l'intention, pas la réalité de l'infrastructure.

23 min Jun 8, 2026
kassiaerp-kassia-transport-logistiquezerosuiteCASP +15