PDF y DOCX reciben toda la atención en discusiones sobre análisis de documentos. Pero el mundo real funciona con hojas de cálculo, procesadores de texto legacy y feeds XML. Las Sesiones 228, 230 y 231 agregaron cuatro nuevos analizadores de formato -- CSV, XLSX, RTF y XML -- llevando el total de formatos soportados a nueve. Total: 117 pruebas en todos los analizadores de formato.
Nueve formatos, un pipeline
| Formato | Crate | Tipos MIME | Pruebas |
|---|---|---|---|
| Texto plano | (integrado) | text/plain | 5 |
| Markdown | (integrado) | text/markdown | 5 |
| HTML | (integrado) | text/html | 12 |
| pdf-extract | application/pdf | 8 | |
| DOCX | docx-rs | application/vnd.openxml... | 10 |
| CSV | csv | text/csv | 12 |
| XLSX | calamine | application/vnd.openxml... | 8 |
| RTF | rtf-parser | application/rtf | 22 |
| XML | roxmltree + sxd-xpath | application/xml, text/xml | 61 |
Esta es la Parte 132 de la serie "Cómo construimos FLIN", que documenta cómo un CEO en Abidjan y un CTO de IA diseñaron y construyeron un lenguaje de programación desde cero.
Navegación de la serie: - [131] Integración chunk-embedding - [132] Extracción de texto de CSV, XLSX, RTF y XML (estás aquí) - [133] Auto-conversión semántica