Back to flin
flin

Estrategias de chunking de texto

Cómo FLIN divide documentos en chunks para embedding y búsqueda semántica -- chunking recursivo por caracteres, división por límites de oración y las compensaciones detrás del solapamiento y tamaño de chunk.

Juste A. Gnimavo (Thales) & Claude | March 26, 2026 2 min flin
EN/ FR/ ES
flinrust

Los modelos de embedding tienen ventanas de contexto. Los mejores modelos de código abierto aceptan 512 tokens. Algunos aceptan 8,192. Ninguno acepta 50,000. Cuando un usuario sube un PDF de 50 páginas, no se puede embeber el documento entero como un solo vector.

El chunking resuelve esto dividiendo documentos en piezas que quepan dentro de la ventana de contexto del modelo de embedding. Pero el chunking no es simplemente "dividir cada N caracteres". Un mal chunking destruye el significado.

La Sesión 221 implementó el módulo de chunking de FLIN: el puente entre la extracción de documentos (que produce texto crudo) y la generación de embeddings (que requiere entradas de longitud limitada). Veinte pruebas, 400 líneas de Rust y dos estrategias de chunking que manejan todo, desde contratos legales hasta código fuente.

Chunking recursivo por caracteres

La configuración predeterminada es 1,000 caracteres por chunk con 200 caracteres de solapamiento. Estos números provienen de la observación empírica a través de diferentes modelos de embedding.

Chunking por límites de oración

La segunda estrategia divide en límites de oración. Esto produce chunks que son más semánticamente coherentes porque cada chunk contiene oraciones completas.

Seguridad UTF-8

La función usa chars().count() en lugar de len() e indexa en un Vec<char> en lugar de slices de bytes. Esto es crítico para contenido multilingüe. Un documento en francés con caracteres acentuados, un documento en japonés con kanji multi-byte o un documento con emoji todos se dividen correctamente.


Esta es la Parte 130 de la serie "Cómo construimos FLIN", que documenta cómo un CEO en Abidjan y un CTO de IA diseñaron y construyeron un lenguaje de programación desde cero.

Navegación de la serie: - [129] Grants de descarga y claves de acceso - [130] Estrategias de chunking de texto (estás aquí) - [131] Integración chunk-embedding

Share this article:

Responses

Write a response
0/2000
Loading responses...

Related Articles

Thales & Claude deblo

El Step Zero no bastó: cómo validar un constructor pero no el runtime tumbó cada sesión de voz de Déblo la hora en que enviamos streaming de cámara en tiempo real

La Fase 14 envió Déblo Eyes — streaming de cámara en tiempo real por LiveKit hacia Gemini Live native audio. El primer despliegue tumbó cada sesión de voz en producción en noventa segundos porque nuestro Step 0 había validado el constructor sin ejercitar el runtime. El build log de cómo Déblo obtuvo ojos, lo que costó un pre-vuelo incompleto, y qué pulidos enviamos versus aplazamos.

33 min May 20, 2026
debloclaude-opus-4.7claude-codegemini-live +25
Thales & Claude deblo

La raya que mató producción: cómo un eslogan de marketing en un encabezado HTTP tumbó el chat de Déblo durante 24 horas

Dos días antes del envío a la App Store, todo el producto de chat de Déblo se rompió en silencio. Sin spinner, sin toast, sin error en la UI — solo aire muerto. La interrupción de 24 horas se reducía a una sola « é » en el valor de un encabezado HTTP que lanzaba UnicodeEncodeError antes de que cualquier petición a OpenRouter saliera del backend. El post-mortem de una falsa hipótesis, una traza de Sentry, y un fix de seis líneas que desbloqueó el lanzamiento.

29 min May 19, 2026
debloclaude-opus-4.7claude-codeincident +19
Thales & Claude deblo

Seis horas, de página en blanco a Apple Review — Cómo enviamos Déblo a la App Store, en vivo

Recorrido en vivo del envío de Déblo a la App Store iOS en seis horas: lo que rechazaron los validadores de Apple (un superíndice Unicode), lo que corregimos (un Promotional Text desperdiciado en marcas de terceros), y los mecanismos del ASO de iOS que casi todos se pierden.

30 min May 13, 2026
debloclaude-opus-4.7claude-codeapp-store +16