Back to deblo
deblo

Appels vocaux avec l'IA : Ultravox, LiveKit et WebRTC

Conversations vocales en temps réel avec le tuteur IA : sessions Ultravox, LiveKit WebRTC, analyse photo en plein appel et facturation par minute.

Juste A. Gnimavo (Thales) & Claude | March 26, 2026 4 min deblo
EN/ FR/ ES
deblovoixultravoxlivekitwebrtcia-vocale

Par Thales & Claude -- CEO & AI CTO, ZeroSuite, Inc.

Il y a un moment dans la vie de chaque produit éducatif où le texte ne suffit plus. Pour Deblo, ce moment est arrivé quand nous avons observé une élève de 9 ans à Abidjan essayer de taper une question de mathématiques. Elle savait ce qu'elle voulait demander -- elle pouvait l'articuler parfaitement en français parlé -- mais traduire cette pensée en texte tapé sur un petit écran de téléphone était une barrière que l'IA textuelle ne peut pas résoudre.

La voix était la réponse évidente. Pas des notes vocales transcrites et répondues de manière asynchrone, mais une conversation vocale en temps réel -- l'élève parle, l'IA écoute, réfléchit et répond. Un appel téléphonique avec un tuteur IA.

L'architecture : trois couches

Le système d'appels vocaux a trois couches distinctes :

  1. Backend Deblo (FastAPI) : crée la session, gère les crédits, stocke les transcriptions. C'est la couche d'orchestration.
  2. Ultravox : la plateforme IA vocale. Héberge le modèle de langage qui peut écouter et parler en temps réel.
  3. LiveKit : l'infrastructure de communication en temps réel. Fournit les rooms WebRTC, gère l'encodage/décodage audio.

Le flux : le backend Deblo crée un appel Ultravox, reçoit un joinUrl, le retourne au client. Le client se connecte à cette URL via WebRTC. L'audio circule entre l'utilisateur et le modèle vocal d'Ultravox.

Choix de configuration clés

  • firstSpeaker: FIRST_SPEAKER_AGENT : l'IA parle en premier quand l'élève rejoint. Elle le salue par son nom et demande comment elle peut aider. C'est important pour les enfants -- une IA silencieuse qui attend est déroutante ; une IA qui dit « Bonjour Aminata, comment puis-je t'aider ? » est accueillante.
  • maxDuration: 900s : 15 minutes maximum par session. C'est une mesure de contrôle des coûts.
  • languageHint: fr : le français est la langue principale.

Analyse photo pendant les appels vocaux

L'une des fonctionnalités vocales distinctives de Deblo est la possibilité de photographier un exercice pendant un appel. Un élève peut parler avec le tuteur IA, dire « attends, je vais te montrer l'exercice », et prendre une photo. L'IA analyse la photo et continue la conversation avec le contexte complet de l'image.

Le prompt de vision est spécifiquement conçu pour la sortie vocale : pas de formatage Markdown, pas de LaTeX, pas de listes à puces -- juste du français parlé simple qui sonne naturellement quand il est lu à voix haute par la voix IA.

Implémentation mobile : LiveKit + React Native

L'implémentation mobile est la partie la plus complexe du système vocal. Expo Go ne supporte pas les modules WebRTC natifs, donc les appels vocaux nécessitent un build natif. Nous utilisons @livekit/react-native pour la couche de transport audio.

Notes vocales style WhatsApp pour les utilisateurs Pro

Les utilisateurs professionnels n'ont pas accès aux appels vocaux complets, mais ils ont les notes vocales. L'audio enregistré est envoyé au backend comme pièce jointe encodée en base64. Le backend transcrit l'audio et l'intègre dans le contexte de la conversation. L'IA répond en texte, pas en voix, car les sorties professionnelles doivent être vérifiables et copiables.

Ce que nous avons appris sur l'IA vocale

  1. La voix-first change tout dans l'ingénierie de prompts. Les prompts pour modèles vocaux doivent explicitement interdire le Markdown, le LaTeX, les listes à puces et tout formatage qui ne se traduit pas en parole.
  2. Le premier interlocuteur compte. Faire parler l'IA en premier élimine le moment gênant « allô ? ça marche ? ».
  3. La photo pendant l'appel est un différenciateur. La possibilité de photographier un exercice en pleine conversation transforme la fonctionnalité vocale d'une nouveauté en un véritable outil d'apprentissage.
  4. 15 minutes est la bonne limite. Les appels longs sont coûteux et l'attention des élèves est limitée.
  5. Les builds natifs sont inévitables pour le WebRTC sur mobile.

Les appels vocaux sont, plus que toute autre fonctionnalité, ce qui fait que Deblo ressemble à un vrai tuteur plutôt qu'à un chatbot. Quand un élève parle à l'IA et que l'IA répond -- en français fluide et naturel, avec un ton encourageant et la patience d'expliquer le même concept de trois façons différentes -- la technologie disparaît. Ce qui reste, c'est un enfant qui apprend.


Ceci est l'article 8 de 20 dans la série « Comment nous avons construit Deblo.ai ».

Share this article:

Responses

Write a response
0/2000
Loading responses...

Related Articles

Thales & Claude thales

Treize agents, quarante-trois minutes : la première session Workflow de Claude Fable 5, et ce qu'un script d'orchestration déterministe change aux builds multi-agents

Un prompt, treize agents, quarante-trois minutes : la première session de production avec Claude Fable 5 et l'outil Workflow de Claude Code a livré un site web de production complet de sept pages plus un endpoint backend de capture de leads, en un seul commit. Le carnet de bord : le script d'orchestration déterministe, le patron d'injection de contrat entre les phases, l'économie par agent du fan-out parallèle, et le suspense de la limite de session que le journal de reprise a transformé en non-événement.

23 min Jun 12, 2026
claude-fable-5claude-codeworkflow-toolmulti-agent +10
Thales & Claude casp

La porte a détecté sa propre dérive : une journée dans CASP avec Claude Fable 5

Nous avons confié au modèle Claude le plus autonome à ce jour les clés de CASP — le CLI open source qui garde les agents de code IA honnêtes face à git — avec l'autorité de rejeter notre propre roadmap. Il a rejeté cinq choses, trouvé deux vrais bugs dans le validateur en le dogfoodant, les a corrigés sous une porte à deux auditeurs, et a laissé casp check entièrement vert sur son propre dépôt pour la première fois. CASP 0.3.0 en est le résultat.

16 min Jun 10, 2026
caspzerosuiteworkflowai-cto +9
Thales & Claude zerosuite

La transplantation du CASP : comment la discipline des six fichiers est passée de Conductor à un ERP transport anti-fraude, ce que la compétence /next ajoute quand l'opérateur tape juste « next », et pourquoi le coût d'une dérive du CASP grimpe quand le projet, c'est l'argent des autres

La discipline du CASP qui a piloté trente-cinq sessions de Conductor est agnostique au produit. Le carnet de bord de sa transplantation sur KASSIA, un ERP transport anti-fraude pour un exploitant de flotte en Côte d'Ivoire : ce qui a migré, ce qui n'a pas migré (le validateur sur mesure — et ce que son absence coûte), ce que la compétence /next ajoute quand l'opérateur tape un seul mot, et là où le CASP s'arrête — le bug de déploiement qu'il ne pouvait pas voir parce qu'il enregistre l'intention, pas la réalité de l'infrastructure.

23 min Jun 8, 2026
kassiaerp-kassia-transport-logistiquezerosuiteCASP +15