Guide complet — Voice AI

Créer un agent vocal IA pour votre standard téléphonique

Un agent vocal IA répond à vos appels entrants 24h/24, qualifie les prospects, prend des rendez-vous et consigne tout dans votre CRM — sans secrétaire dédiée. Ce guide vous explique l'architecture technique, les plateformes disponibles, la conformité CNIL et les étapes concrètes pour déployer votre premier agent en 2 semaines.

Créer un agent vocal IA pour votre standard téléphonique

Qu'est-ce qu'un agent vocal IA ? Architecture complète

Un agent vocal IA est un système qui conduit des conversations téléphoniques naturelles de manière entièrement automatisée. Contrairement aux serveurs vocaux interactifs (SVI) classiques qui suivent des arbres de décision rigides, un agent vocal IA comprend le langage naturel, s'adapte au contexte et peut gérer des conversations non linéaires.

L'architecture repose sur trois composants enchaînés en temps réel :

🎤
STT
Speech-to-Text
Deepgram, AssemblyAI, Whisper
🧠
LLM
Compréhension + Réponse
GPT-4o, Claude, Gemini
🔊
TTS
Text-to-Speech
ElevenLabs, Azure, Play.ht
Latence totale visée : 600 – 900 ms

La chaîne STT → LLM → TTS doit s'exécuter en moins d'une seconde pour une conversation fluide. C'est la principale contrainte technique des agents vocaux : chaque milliseconde compte.

Les composants additionnels d'un agent vocal complet

  • Détection d'activité vocale (VAD) : identifie quand l'interlocuteur a fini de parler pour lancer la transcription. Essentielle pour gérer les pauses naturelles.
  • Gestion des interruptions : permet à l'interlocuteur de couper l'agent en plein milieu d'une phrase, comme dans une vraie conversation.
  • Mémoire de conversation : conserve le contexte tout au long de l'appel pour éviter de redemander des informations déjà données.
  • Orchestration d'outils : permet à l'agent d'appeler des APIs externes (vérification de disponibilité, création de RDV, consultation CRM) pendant la conversation.

Bon à savoir : Un agent vocal IA n'est pas un chatbot avec de la synthèse vocale. La conception du prompt, la gestion des silences, les interruptions et la latence exigent une approche spécifique. Un prompt de chatbot transposé tel quel en agent vocal donnera de mauvais résultats.

Comparatif des plateformes d'agents vocaux 2026

Plusieurs plateformes permettent de créer des agents vocaux sans développer l'infrastructure STT/LLM/TTS soi-même. Voici un comparatif des principales solutions disponibles en 2026.

Plateforme Prix par minute Latence Voix françaises Intégrations Idéal pour
Vapi 0,05 – 0,12 €/min 700 – 900 ms ElevenLabs, Azure Twilio, N8N, Make, webhooks PME, usage polyvalent
Retell AI 0,07 – 0,15 €/min 600 – 800 ms Très bon (11Labs) Twilio, CRM, webhooks Appels sortants, relances
Bland AI 0,09 €/min 800 – 1 100 ms Correctes Zapier, webhooks Campagnes appels sortants
ElevenLabs Conversational Variable selon usage 500 – 700 ms Excellentes (natif) API REST, webhooks Qualité voix premium
Stack custom N8N Coût APIs seules 900 – 1 500 ms Au choix Tout (self-hosted) Contrôle total, volume élevé

Astuce AutomateIA : Pour une PME française qui démarre, Vapi + ElevenLabs est la combinaison recommandée. Vapi simplifie l'orchestration et la gestion des appels, ElevenLabs fournit les voix les plus naturelles en français. Le tout se connecte facilement à N8N pour les automatisations post-appel.

Comparatif des moteurs STT pour le français

Moteur STT Précision français Latence Prix Points forts
Deepgram Nova-2 Très bonne Très faible (<200ms) 0,0043$/min Latence exceptionnelle, streaming
AssemblyAI Universal Bonne Faible 0,0062$/min Détection des locuteurs, ponctuation
Whisper Large v3 Excellente Élevée (offline) 0,006$/min Précision, multilingue
Azure Speech Bonne Faible 0,016$/min Intégration Azure, SLA entreprise

Cas d'usage pour PME françaises

Un agent vocal IA n'est pas réservé aux grandes entreprises. Les PME ont souvent des besoins précis qui se prêtent parfaitement à l'automatisation vocale.

Cabinet médical ou paramédical

Volume d'appels typique : 50 à 150 appels/jour pour de la prise de RDV, des rappels et des informations pratiques. L'agent peut :

  • Prendre des rendez-vous en temps réel via l'API Doctolib ou Calendly
  • Confirmer, modifier ou annuler un rendez-vous existant
  • Donner les informations pratiques (adresse, parking, préparation à l'examen)
  • Transférer immédiatement en cas d'urgence médicale ou de demande de conseil
72 %
des appels à un cabinet médical concernent la prise de RDV ou des informations pratiques — entièrement automatisables

Agence immobilière

Les agents immobiliers passent une part significative de leur temps à répondre à des questions répétitives sur les biens en vente. Un agent vocal peut :

  • Qualifier les acheteurs potentiels (budget, type de bien, secteur géographique, délai d'achat)
  • Donner des informations sur un bien spécifique (surface, prix, disponibilité)
  • Planifier des visites directement dans l'agenda de l'agent
  • Relancer automatiquement les leads qui n'ont pas donné suite

SAV et support client

Pour les e-commerces ou les entreprises avec un volume de tickets récurrents :

  • Suivi de commande en temps réel via l'API de l'ERP
  • Déclaration d'incidents ou retours avec création automatique de ticket
  • Vérification de garantie et orientation vers le bon service
  • Collecte d'avis client en fin d'appel

Entreprise artisanale ou de services (plombier, électricien, déménageur)

Secteur souvent difficile à joindre en journée. L'agent vocal :

  • Réceptionne les demandes d'intervention en dehors des heures ouvrées
  • Qualifie le type d'intervention et l'urgence
  • Planifie un rappel ou une visite sur les créneaux disponibles
  • Envoie un SMS de confirmation automatique

Créer un agent vocal avec Vapi : guide pas à pas

Vapi est actuellement la plateforme la plus adaptée aux PME françaises pour créer un agent vocal IA. Voici les étapes de création d'un agent de base.

Étape 1 — Créer le compte et configurer le numéro

Après inscription sur vapi.ai, rendez-vous dans Phone Numbers. Vous pouvez acheter un numéro Twilio directement depuis l'interface Vapi ou connecter un numéro Twilio existant. Pour la France, un numéro en 01, 02 ou 07 renforce la confiance des interlocuteurs.

Configuration minimale Twilio pour Vapi :

1. Créer un compte Twilio et acheter un numéro français

2. Dans Twilio : Voice → Manage → Active Numbers → Configure

3. Webhook entrant : https://api.vapi.ai/twilio

4. Copier le SID et Auth Token dans Vapi → Providers → Twilio

Étape 2 — Créer l'assistant dans Vapi

Dans Assistants → Create Assistant, configurez les paramètres de base :

  • Model : GPT-4o-mini pour la rapidité, GPT-4o pour la complexité. Évitez les modèles trop lents — chaque 100ms de latence LLM supplémentaire se ressent dans la conversation.
  • Voice : Sélectionnez ElevenLabs et choisissez une voix française. "Charlotte" (féminine) et "Thomas" (masculin) offrent une bonne naturalité en français.
  • Transcriber : Deepgram Nova-2 avec la langue "fr" configurée.
  • First message : Le message joué automatiquement à la prise d'appel. Incluez la mention CNIL ici.

Étape 3 — Configurer les outils (function calling)

Vapi permet de définir des functions que l'agent peut appeler pendant la conversation. Exemple pour un agent de prise de RDV :

// Exemple de tool "check_availability"

{

"name": "check_availability",

"description": "Vérifie les créneaux disponibles pour un rendez-vous",

"url": "https://votre-api.fr/api/availability",

"parameters": { "date": "string", "service": "string" }

}

Étape 4 — Configurer le webhook post-appel

Dans Assistant → Server URL, renseignez l'URL de votre endpoint N8N ou Make. À chaque fin d'appel, Vapi enverra automatiquement la transcription complète, le résumé et les données structurées collectées pendant la conversation.

Écrire le prompt système d'un agent vocal

Le prompt d'un agent vocal diffère fondamentalement d'un prompt de chatbot. Les contraintes sont différentes : la conversation est orale, non linéaire, et doit rester naturelle dans un contexte audio.

Structure recommandée du prompt vocal

1. IDENTITÉ ET CONTEXTE

"Tu es Sophie, l'assistante téléphonique de [Nom entreprise]. Tu prends les appels entrants pour la prise de rendez-vous et les demandes d'informations. Tu parles toujours en français, avec un ton professionnel et chaleureux."

2. RÈGLES VOCALES SPÉCIFIQUES

"Tes réponses ne font jamais plus de 2 à 3 phrases. Tu ne lis jamais de listes à puces — tu les reformules naturellement. Tu ne dis jamais 'hashtag', 'astérisque' ou tout caractère spécial. Tu utilises des connecteurs naturels : 'bien sûr', 'd'accord', 'parfait'."

3. SCÉNARIOS ET OBJECTIFS

"Ton objectif principal est de prendre un rendez-vous ou de répondre aux questions pratiques. Si l'interlocuteur pose une question médicale ou exprime une urgence, transfère immédiatement vers le médecin."

4. GESTION DES CAS DIFFICILES

"Si tu ne comprends pas la demande après 2 essais, dis : 'Je vais vous passer un de nos collaborateurs qui pourra mieux vous aider.' et transfère l'appel. Ne reste jamais bloqué en boucle."

Attention : N'incluez jamais de données sensibles dans le prompt système (mots de passe, clés API, informations personnelles de clients). Le prompt système peut être extrait par des techniques de prompt injection. Stockez les données sensibles dans les variables de contexte de Vapi.

Ce qu'il ne faut jamais mettre dans un prompt vocal

  • Des listes à puces ou des tableaux — l'agent les lira mot pour mot
  • Des URLs ou des codes — incompréhensibles à l'oral
  • Des formulations trop longues — plus le prompt est court, plus la réponse est rapide
  • Des instructions contradictoires — source de comportements imprévisibles

Gérer les interruptions et la fluidité de conversation

La gestion des interruptions est l'un des défis techniques majeurs des agents vocaux. Dans une vraie conversation, les gens coupent la parole régulièrement. Un agent qui ignore les interruptions ou qui redémarre sa réponse depuis le début est perçu comme robotique et frustrant.

Les deux types d'interruption

  • Interruption intentionnelle : l'interlocuteur veut changer de sujet, corriger une information ou exprimer une urgence. L'agent doit s'arrêter immédiatement et traiter la nouvelle entrée.
  • Bruit de fond ou faux départ : un bruit, un "hm" ou un début de phrase abandonnée. L'agent ne doit pas s'arrêter pour si peu.

Vapi et Retell gèrent cette distinction via la configuration de la VAD sensitivity. Une sensibilité trop élevée génère des faux positifs (l'agent s'arrête pour des bruits ambiants). Une sensibilité trop basse rate de vraies interruptions. Testez en conditions réelles avec différents profils d'interlocuteurs.

Configurer les paramètres de fluidité dans Vapi

Paramètre Valeur recommandée Effet
backchanneling true L'agent dit "d'accord", "je vois" pour montrer qu'il écoute
interruptionsEnabled true L'interlocuteur peut couper l'agent à tout moment
endCallSilenceTimeoutMs 3000 Raccroche après 3 secondes de silence total
maxDurationSeconds 600 Limite l'appel à 10 minutes maximum
backgroundDenoisingEnabled true Filtre les bruits de fond côté interlocuteur

Astuce AutomateIA : Intégrez des fillers vocaux dans le prompt : "Je vérifie les disponibilités pour vous, un instant…". Ces phrases de remplissage masquent la latence des appels d'API externes et rendent la conversation beaucoup plus naturelle pendant que l'agent attend une réponse.

Connecter au CRM et aux outils métier

Un agent vocal isolé a peu de valeur. Sa force réside dans sa capacité à déclencher des actions dans vos outils métier en temps réel — et à s'enrichir des données CRM pour personnaliser les conversations.

Deux modes d'intégration

Mode temps réel (pendant l'appel) : l'agent appelle des APIs externes via le function calling pour consulter ou modifier des données pendant la conversation. Exemples : vérifier la disponibilité d'un créneau, retrouver une commande en cours, confirmer un rendez-vous.

Mode post-appel (après raccrochage) : le webhook post-appel de Vapi envoie la transcription et le résumé vers N8N, qui déclenche les automatisations : création de contact CRM, envoi de SMS de confirmation, notification équipe.

Pipeline N8N post-appel recommandé

Déclencheur : Webhook Vapi (end-of-call-report)

↓ Extraire : transcription, résumé, données structurées (nom, email, motif)

↓ Chercher le contact dans HubSpot/Pipedrive par numéro de téléphone

↓ Si contact existant : ajouter une note + mettre à jour le statut

↓ Si nouveau contact : créer la fiche avec les données qualifiées

↓ Envoyer SMS de confirmation à l'interlocuteur (via Brevo ou Twilio)

↓ Notifier l'équipe sur Slack si transfert humain demandé

Pour les intégrations en temps réel, hébergez vos endpoints sur un serveur avec une latence inférieure à 300ms. Au-delà, la pause perceptible dans la conversation dégrade l'expérience. Un VPS en datacenter français est largement suffisant.

Besoin d'intégrer votre agent vocal à votre CRM ?

AutomateIA conçoit et déploie des pipelines N8N sur mesure pour connecter vos agents vocaux à vos outils métier — CRM, ERP, messagerie, calendrier.

Obtenir mon audit gratuit

Conformité CNIL et mentions légales obligatoires

L'utilisation d'un agent vocal IA pour traiter des appels téléphoniques est soumise à plusieurs obligations légales en France. Ne pas les respecter expose l'entreprise à des sanctions de la CNIL et à des risques réputationnels.

Les 4 obligations légales

Attention : Ces obligations s'appliquent dès le premier appel traité par un agent IA. Il n'existe pas de période de grâce ou de seuil minimum. Même un prototype en production est soumis à ces règles.

  1. Information sur la nature automatisée du traitement (Article 13 RGPD) : L'interlocuteur doit être informé, avant tout échange, qu'il parle à un système automatisé et non à un humain. Cette mention doit figurer dans le message d'accueil de l'agent.
  2. Information sur l'enregistrement éventuel : Si l'appel est enregistré ou si la transcription est conservée, l'interlocuteur doit en être informé et avoir la possibilité de s'y opposer.
  3. Droit d'accès à un interlocuteur humain : L'interlocuteur doit pouvoir demander à être transféré vers un humain à tout moment. Cette option doit être explicitement proposée dans les premières secondes ou sur simple demande.
  4. Durée de conservation des données : Définissez et communiquez la durée de conservation des transcriptions et données collectées. La CNIL recommande de ne pas conserver les transcriptions d'appel plus de 1 à 3 mois sauf obligation contractuelle.

Exemple de message d'accueil conforme

"Bonjour, vous êtes bien chez [Nom entreprise]. Je suis Sophie, un assistant vocal automatisé. Cet appel peut être enregistré à des fins de qualité. Vous pouvez me demander à tout moment d'être mis en relation avec un de nos collaborateurs. Comment puis-je vous aider ?"

Ce message couvre l'identification comme IA, l'information sur l'enregistrement et la proposition d'accès à un humain — les trois points essentiels en 30 secondes.

Calculer les coûts et le ROI d'un agent vocal IA

Le modèle de coût d'un agent vocal IA est principalement à l'usage : vous payez par minute d'appel traité, non par mois d'abonnement fixe.

Structure des coûts

Composant Coût typique Exemple 500 appels × 3 min
Plateforme (Vapi) 0,05 – 0,10 €/min 75 – 150 €/mois
Téléphonie (Twilio) 0,008 – 0,012 €/min 12 – 18 €/mois
LLM (GPT-4o-mini) Inclus Vapi ou ~0,01 €/min 15 €/mois
TTS (ElevenLabs) ~0,008 €/min 12 €/mois
Numéro de téléphone 1 – 2 €/mois 1 – 2 €/mois
Total 115 – 197 €/mois

Calcul du ROI pour une PME type

Pour un cabinet avec 500 appels/mois, chaque appel prend en moyenne 3 minutes à traiter. Sans agent vocal, ce temps est pris par une secrétaire ou un collaborateur :

1 500 €
Coût humain mensuel estimé
(500 appels × 3 min × 20€/h)
160 €
Coût agent vocal mensuel
(toutes plateformes incluses)

Cet exemple illustre un cas où l'agent traite intégralement les appels. En pratique, comptez un taux de transfert humain de 15 à 30% — le ROI reste très favorable.

Astuce AutomateIA : Calculez d'abord votre ROI sur l'outil calculateur ROI AutomateIA avant de choisir votre plateforme. Entrez le volume d'appels, la durée moyenne et votre coût horaire pour obtenir une estimation personnalisée.

Optimiser la qualité vocale et la naturalité

La qualité vocale est ce qui détermine si l'interlocuteur reste en ligne ou raccroche. Un agent avec une voix robotique ou des silences inhabituels génère de la méfiance, même si les réponses sont correctes.

Les facteurs qui améliorent la naturalité

  • Choisissez une voix adaptée au contexte : une voix chaleureuse pour un cabinet médical, une voix dynamique et précise pour un SAV. ElevenLabs offre une bibliothèque de voix françaises de qualité. Testez 3 à 5 voix avec de vrais utilisateurs avant de choisir.
  • Calibrez le rythme et l'intonation : ElevenLabs permet d'ajuster la vitesse, la stabilité et la similarité de la voix. Une vitesse légèrement inférieure à la normale (0.9x) est souvent mieux perçue au téléphone.
  • Utilisez la ponctuation pour guider le TTS : les virgules et les points d'exclamation dans le texte généré par le LLM influencent directement l'intonation du TTS. Demandez au LLM de ponctuer naturellement ses réponses.
  • Gérez les acronymes et les chiffres : "SIREN", "TVA", numéros de téléphone — le TTS peut les mal prononcer. Testez ces cas spécifiques et ajoutez des substitutions dans la configuration si nécessaire.

Tester la qualité avant le déploiement

Réalisez au minimum 50 appels de test couvrant ces scénarios :

  • Accents régionaux prononcés (marseillais, alsacien, breton)
  • Bruit de fond (rue, voiture, open space)
  • Interlocuteur qui parle vite ou très lentement
  • Noms propres d'entreprises ou de personnes atypiques
  • Demandes hors scope de l'agent
  • Tentatives de manipulation ou de prompt injection

Déployer et monitorer son agent vocal

Le déploiement d'un agent vocal suit la même logique que tout déploiement en production : progressif, mesuré et réversible.

Plan de déploiement en 3 phases

  1. Phase alpha (Jours 1-3) : Déployez sur un numéro de test distinct, accessible uniquement en interne. Réalisez 30 à 50 appels de test avec l'équipe. Corrigez les bugs bloquants.
  2. Phase bêta (Jours 4-10) : Basculez 20% du trafic réel vers l'agent. Gardez l'ancien numéro actif en parallèle. Surveillez le taux de transfert humain, le taux d'abandon et les retours utilisateurs.
  3. Phase production (Jours 11+) : Basculez à 100% si les métriques sont satisfaisantes. Gardez toujours un numéro de secours actif pour les cas où l'agent est indisponible.

Les 5 métriques à surveiller en continu

Métrique Objectif cible Seuil d'alerte
Taux de résolution sans transfert > 70% < 50%
Taux d'abandon (raccrochage précoce) < 10% > 20%
Durée moyenne d'appel 2 – 4 min > 6 min (agent bloqué)
Score de compréhension STT > 95% < 90%
Latence moyenne (STT+LLM+TTS) < 900 ms > 1 500 ms

Vapi propose un dashboard de monitoring natif. Pour aller plus loin, exportez les logs vers votre outil d'analytics (Grafana, Metabase) pour des analyses croisées avec vos données CRM.

Prêt à déployer votre agent vocal IA ?

AutomateIA accompagne les PME françaises de la conception au déploiement : choix de plateforme, rédaction des prompts, intégration CRM et formation équipe. Obtenez un audit gratuit pour évaluer votre cas d'usage.

Obtenir mon audit gratuit

Questions fréquentes

Un agent vocal IA peut-il remplacer complètement une secrétaire ?
Pour les tâches répétitives et volumineuses (prise de RDV, informations générales, qualification initiale), oui. Pour les conversations complexes, les litiges ou les situations nécessitant de l'empathie approfondie, l'humain reste indispensable. La bonne approche : l'agent gère le volume, l'humain gère la complexité. Le transfert intelligent entre les deux est la clé.
Quelle est la latence d'un agent vocal IA en 2026 ?
Les meilleures plateformes (Vapi, Retell AI) atteignent 600 à 900 ms de latence de bout en bout (STT + LLM + TTS). C'est perceptible mais acceptable pour une conversation. Avec des modèles locaux ou des optimisations avancées, on peut descendre sous 400 ms. Pour comparaison, le temps de réaction humain moyen dans une conversation est de 200 à 400 ms.
Est-il obligatoire de dire qu'on utilise un agent IA au téléphone ?
Oui, selon les recommandations de la CNIL et le RGPD, vous devez informer l'interlocuteur qu'il parle à un système automatisé dès le début de l'appel. Cette mention doit être claire, compréhensible et placée avant toute collecte de données. Omettre cette information expose l'entreprise à des sanctions.
Quel coût mensuel pour un agent vocal IA sur un standard de PME ?
Pour 500 appels de 3 minutes chaque mois : environ 60 à 120€/mois toutes plateformes confondues (STT + LLM + TTS + téléphonie). À comparer avec le coût d'un secrétariat externalisé (300 à 800€/mois) ou d'un poste dédié. Le ROI est généralement positif dès le premier mois pour les volumes supérieurs à 200 appels/mois.
Peut-on brancher un agent vocal IA sur un numéro de téléphone fixe existant ?
Oui, via une redirection SIP ou un renvoi d'appel. Votre numéro actuel reste inchangé. Les appels sont redirigés vers l'infrastructure de la plateforme (Vapi, Retell), l'agent traite l'appel, puis peut transférer vers votre ligne fixe si nécessaire.
Comment gérer les appels en langue étrangère ou les accents régionaux ?
Les moteurs STT modernes (Deepgram, AssemblyAI) gèrent très bien les accents régionaux français. Pour les langues étrangères, configurez un agent distinct ou un menu initial pour détecter la langue. Vapi supporte nativement plus de 30 langues sur le même agent.
Que se passe-t-il si l'agent vocal ne comprend pas l'interlocuteur ?
Configurez un mécanisme de fallback : après 2 incompréhensions consécutives, l'agent propose le transfert vers un humain ou invite à rappeler. Ne laissez jamais l'agent en boucle d'incompréhension. C'est l'une des premières choses à tester lors du déploiement.
Peut-on utiliser la voix d'un collaborateur pour l'agent IA ?
Oui, ElevenLabs et d'autres fournisseurs TTS proposent le clonage vocal à partir de quelques minutes d'enregistrement. Cela nécessite le consentement écrit explicite de la personne dont la voix est clonée. C'est une option qui humanise fortement l'agent mais qui engage la responsabilité de l'entreprise.
🎯
Découvrez votre potentiel d'automatisation

Répondez à 5 questions — obtenez votre score et 3 recommandations personnalisées en 2 minutes

⚡ Résultat immédiat 🔒 Sans engagement
Lancer l'audit express

Prêt à automatiser votre entreprise ?

Obtenez un audit gratuit de vos processus en 48h. Nos experts identifient les opportunités d'automatisation et estiment votre ROI potentiel.

Sans engagement · Réponse sous 24h · 100% gratuit