Back to flin
flin

Tests, benchmarks et fuzzing

Comment nous testons FLIN avec 891 tests, des benchmarks de performance à 250 000 ops/sec, et du fuzzing pour trouver des crashs -- construire la confiance dans chaque couche du compilateur.

Juste A. Gnimavo (Thales) & Claude | March 26, 2026 2 min flin
EN/ FR/ ES
flintestingbenchmarksfuzzingquality

Un compilateur qui produit du code incorrect est pire qu'un compilateur qui ne produit pas de code du tout. La seule défense est le test à chaque niveau. La Session 022 a fait passer FLIN de 717 à 891 tests en une seule session.

Tests d'intégration de bout en bout : 76 tests couvrant douze catégories (variables, arithmétique, déclarations typées, lambdas, expressions match, listes, entités, flux de contrôle, interpolation de chaînes, opérations booléennes, comparaisons, incrémentation/décrémentation).

Tests de cas limites : 74 tests organisés par étape du compilateur -- 27 pour le lexer (source vide, chaîne non terminée, identifiant très long, unicode), 18 pour le parser (bloc vide, parenthèses non équilibrées, imbrication profonde), 14 pour le runtime (division par zéro, débordement de pile, index hors limites).

Benchmarks de performance : 24 benchmarks mesurant chaque étape. La VM exécute 250 000 opérations arithmétiques par seconde. Le cycle complet source-vers-exécution prend 40 microsecondes.

Fuzzing : trois cibles de fuzz utilisant cargo-fuzz couvrant le lexer, le parser et le compilateur complet. Le fuzzer génère des millions d'entrées par heure, trouvant les cas limites qu'aucun testeur humain ne penserait à écrire.

L'approche en couches -- tests unitaires, tests d'intégration, tests de cas limites, benchmarks et fuzzing -- crée plusieurs filets de sécurité qui se chevauchent. C'est ainsi qu'on construit un compilateur auquel les développeurs font confiance pour leur code de production.


Ceci est la partie 174 de la série « Comment nous avons construit FLIN », documentant comment un CEO à Abidjan et un CTO IA ont conçu et construit un langage de programmation à partir de zéro.

Navigation de la série : - [173] Le format binaire .flinc - [174] Tests, benchmarks et fuzzing (vous êtes ici) - [175] Commentaires de documentation dans FLIN

Share this article:

Responses

Write a response
0/2000
Loading responses...

Related Articles

Thales & Claude deblo

Le jour où Déblo a refusé une bonne réponse — deux fois

Une trace de production a montré Déblo K12 rejetant deux fois de suite la bonne réponse d’un élève de Terminale. Huit heures d’analyse, quatre commits, une rotation A/B de modèles et un benchmark sur 6 modèles plus tard, le tuteur de maths était corrigé. Ce qui a cassé, ce que nous avons changé, et ce que l’échec surprenant de GPT-5.4-mini au test socratique nous a appris sur le choix des modèles pour l’IA éducative.

32 min May 3, 2026
debloclaude-opus-4.7claude-codemethodology +14
Thales & Claude deblo

Web Claude a trouvé le bug. Puis il a failli l’aggraver.

Comment un prompt vocal de 270 lignes pour le tuteur Ultravox de Deblo produisait la même phrase d’accueil scriptu00e9e à chaque appel. Web Claude a diagnostiqué le problème parfaitement, puis a prescrit une correction qui aurait doublé la taille du prompt avec des hooks backend inexistants. Le filtre qui a gardé le diagnostic et rejeté la prescription.

17 min Apr 28, 2026
debloclaude-opus-4.7methodologyprompt-engineering +7
Thales & Claude deblo

Pourquoi j’ai dû corriger Web Claude deux fois sur la stratégie de la page d’accueil de Deblo

Comment une conversation de 48 heures avec Web Claude a failli entraîner Deblo dans le piège généraliste « ChatGPT pour l’Afrique », et pourquoi la connaissance du marché par le fondateur a dû prendre le dessus sur les suggestions stratégiques de l’IA à deux reprises.

26 min Apr 26, 2026
debloclaude-opus-4.7methodologystrategy +6