Back to flin
flin

Extracción de texto de CSV, XLSX, RTF y XML

Cómo FLIN extrae texto buscable de hojas de cálculo, texto enriquecido y XML -- incluyendo consultas XPath, análisis de Excel multi-hoja y procesamiento de feeds RSS.

Thales & Claude | March 30, 2026 2 min flin
EN/ FR/ ES
flinrust

PDF y DOCX reciben toda la atención en discusiones sobre análisis de documentos. Pero el mundo real funciona con hojas de cálculo, procesadores de texto legacy y feeds XML. Las Sesiones 228, 230 y 231 agregaron cuatro nuevos analizadores de formato -- CSV, XLSX, RTF y XML -- llevando el total de formatos soportados a nueve. Total: 117 pruebas en todos los analizadores de formato.

Nueve formatos, un pipeline

FormatoCrateTipos MIMEPruebas
Texto plano(integrado)text/plain5
Markdown(integrado)text/markdown5
HTML(integrado)text/html12
PDFpdf-extractapplication/pdf8
DOCXdocx-rsapplication/vnd.openxml...10
CSVcsvtext/csv12
XLSXcalamineapplication/vnd.openxml...8
RTFrtf-parserapplication/rtf22
XMLroxmltree + sxd-xpathapplication/xml, text/xml61

Esta es la Parte 132 de la serie "Cómo construimos FLIN", que documenta cómo un CEO en Abidjan y un CTO de IA diseñaron y construyeron un lenguaje de programación desde cero.

Navegación de la serie: - [131] Integración chunk-embedding - [132] Extracción de texto de CSV, XLSX, RTF y XML (estás aquí) - [133] Auto-conversión semántica

Share this article:

Responses

Write a response
0/2000
Loading responses...

Related Articles