Comment entraîner un chatbot sur vos documents internes

MC
Maxime Choinet
Comment entraîner un chatbot sur vos documents internes

Votre équipe RH reçoit les mêmes questions chaque semaine : “Combien de jours de RTT me reste-t-il ?”, “Quelle est la procédure pour une note de frais ?”, “Comment fonctionne le plan d’intéressement ?” Chaque réponse est dans le manuel employé — un PDF de 80 pages que personne ne lit. La promesse d’un chatbot formé sur vos documents internes, c’est de transformer cette masse documentaire en assistant disponible 24h/24, capable de répondre en 3 secondes avec la bonne page.

Mais avant d’y arriver, il faut lever une confusion fondamentale que commet 80 % des dirigeants qui s’y intéressent.


”Entraîner” vs “connecter” : la confusion qui coûte cher

Quand un décideur dit “je veux entraîner mon chatbot sur mes documents”, il imagine généralement que l’IA va “lire” ses fichiers une fois, les mémoriser, puis s’en souvenir à vie — comme un collaborateur qui aurait étudié votre documentation.

Ce n’est pas ce qui se passe. Et confondre fine-tuning et RAG peut vous faire perdre plusieurs mois et des dizaines de milliers d’euros.

Fine-tuning : modifier le modèle lui-même

Le fine-tuning consiste à ré-entraîner un modèle de langage sur un corpus spécifique. On modifie les poids du réseau de neurones pour que le modèle intègre un nouveau style, un vocabulaire métier ou des comportements spécifiques.

Ce que ça fait bien :

  • Adopter un ton de marque très particulier
  • Maîtriser un jargon ultraspécialisé (droit fiscal, pharmacologie, terminologie industrielle)
  • Réduire les hallucinations sur un domaine très contraint

Ce que ça fait mal :

  • Mettre à jour les informations : si votre tarif change, vous devez ré-entraîner
  • Citer des sources précises : le modèle “sait” la réponse, il ne vous dit pas d’où elle vient
  • Coût et temps : GPT-4 fine-tuning = milliers d’euros, semaines de préparation de données

RAG : connecter le modèle à vos documents

Le RAG (Retrieval-Augmented Generation) ne touche pas au modèle. Il lui donne accès à une base documentaire interrogeable en temps réel. À chaque question, le système cherche les passages pertinents dans vos docs, les injecte dans le contexte du LLM, et celui-ci génère une réponse en s’appuyant dessus.

Ce que ça fait bien :

  • Mise à jour immédiate : modifiez un document, la réponse change dans l’heure
  • Traçabilité : le chatbot peut citer la source exacte (“d’après la section 4.2 du contrat-cadre”)
  • Contrôle des données : vos documents ne servent pas à entraîner le modèle OpenAI
  • Coût maîtrisé : pas de ré-entraînement

Verdict : pour 95 % des PME qui veulent un chatbot sur leurs documents, RAG est la bonne réponse. Le fine-tuning ne s’impose que dans des cas très spécifiques de personnalité de marque ou de domaine ultra-fermé.


Les 3 approches du plus simple au plus robuste

1. Context stuffing (simple, limité)

La méthode la plus basique : coller tout le document dans le prompt. Si votre FAQ fait 2 pages, vous l’envoyez intégralement à chaque requête.

Avantage : zéro infrastructure, fonctionne immédiatement. Limites : les modèles ont une fenêtre de contexte finie (128k tokens pour GPT-5, mais ça coûte cher à chaque appel), les performances dégradent sur les longs contextes, impossible à l’échelle (1000 pages internes = inenvoyable).

Utilisable pour : un chatbot sur une FAQ de 10 questions, un assistant sur un contrat unique.

2. RAG — recommandé pour 95 % des cas

Le pipeline complet que nous détaillons dans la section suivante. La bonne solution pour tout corpus documentaire de plus de 20-30 pages.

3. Fine-tuning — quand c’est vraiment pertinent

Réservez le fine-tuning aux situations où :

  • Vous avez besoin d’un style rédactionnel très précis (emails à votre marque, rapports dans votre format interne)
  • Votre domaine utilise un jargon que les modèles généraux ne maîtrisent pas (norme NF EN spécifique, protocoles médicaux d’un établissement)
  • Vous disposez de milliers d’exemples question/réponse validés pour superviser l’entraînement

Dans tous les autres cas, un RAG bien configuré bat un fine-tuning mal préparé — à 10 fois moins cher et 10 fois plus rapide à déployer.


Pipeline RAG étape par étape

Étape 1 — Préparation des documents

Le RAG est agnostique au format source. Vous pouvez ingérer :

SourceOutil recommandé
PDF (texte)PyMuPDF, pdfminer
PDF (scannés)Azure Document Intelligence, Tesseract OCR
Word / Excelpython-docx, openpyxl
NotionAPI Notion officielle
ConfluenceAPI Atlassian
Site web / intranetCrawl avec Playwright ou Firecrawl
Base de donnéesSQL direct vers texte structuré

Règle d’or avant l’ingestion : nettoyez vos documents. Supprimez les headers/footers répétitifs, les numéros de page, les tableaux mal formatés. La qualité de la réponse finale est directement proportionnelle à la qualité des documents ingérés — garbage in, garbage out.

Étape 2 — Chunking : la stratégie fait tout

Le chunking consiste à découper vos documents en morceaux (chunks) que le système pourra récupérer individuellement. C’est l’étape la plus sous-estimée, et pourtant la plus déterminante pour la qualité.

Paramètres recommandés pour démarrer :

  • Taille : 512 tokens par chunk
  • Overlap : 50 tokens (chevauchement entre chunks consécutifs pour ne pas couper les idées)
  • Séparateurs : priorité aux paragraphes, puis aux phrases, jamais au milieu d’une phrase

Stratégies avancées :

  • Hierarchical chunking : conserver le titre de section dans chaque chunk pour le contexte
  • Semantic chunking : découper selon les ruptures sémantiques plutôt qu’une taille fixe
  • Sentence window : stocker des chunks petits pour la précision, récupérer une fenêtre plus large pour le contexte LLM

Pour un corpus RH ou juridique, commencez par 512 tokens avec 50 de overlap — c’est le réglage qui fonctionne dans 80 % des cas.

Étape 3 — Embeddings : transformer le texte en vecteurs

Chaque chunk est converti en un vecteur numérique (embedding) qui encode son sens sémantique. Deux chunks avec le même sens auront des vecteurs proches dans l’espace vectoriel.

Comparatif des modèles d’embedding :

ModèleDimensionsCoûtQualitéUsage
OpenAI text-embedding-3-small15360,02$/1M tokensExcellentStandard recommandé
OpenAI text-embedding-3-large30720,13$/1M tokensSupérieurCorpus critique
sentence-transformers/all-MiniLM-L6-v2384Gratuit (local)BonOn-premise, budget serré
intfloat/multilingual-e5-large1024Gratuit (local)Très bon multilingueCorpus français

Pour un corpus en français, text-embedding-3-small d’OpenAI reste le choix le plus simple avec d’excellents résultats. Si vous devez rester on-premise pour des raisons de confidentialité, multilingual-e5-large tourne sur un GPU modeste.

Étape 4 — Vector store : stocker et interroger les embeddings

Le vector store est la base de données spécialisée dans la recherche par similarité vectorielle.

Comparatif des solutions :

SolutionTypeAvantagesInconvénients
QdrantOpen source / cloudPerformant, filtrage avancé, on-premise possibleSetup initial
PineconeSaaSZéro infra, scalabilité immédiateVendor lock-in, coût élevé à volume
pgvectorExtension PostgreSQLIntégration BDD existante, SQL natifPerformances limitées >1M vecteurs
WeaviateOpen sourceGraphQL, multi-modalPlus complexe
ChromaOpen sourceTrès simple, idéal prototypePas production-ready pour gros volumes

Recommandation PME : commencez avec Qdrant en Docker sur votre infra ou pgvector si vous avez déjà PostgreSQL. Migrez vers Pinecone si vous atteignez des volumes importants et préférez ne pas gérer l’infrastructure.

Étape 5 — Requête : recherche + rerankeur + génération

Quand un utilisateur pose une question, le pipeline de récupération s’enchaîne :

Question utilisateur

Embedding de la question (même modèle que l'indexation)

Recherche dans le vector store (top-k résultats, k=5 à 10)

Rerankeur (optionnel mais recommandé)

Top-3 chunks injectés dans le prompt LLM

Génération de la réponse avec sources citées

Le rerankeur est souvent négligé mais très efficace. Après la recherche vectorielle (qui retourne 10 candidats), un modèle de reranking (Cohere Rerank, BGE-Reranker) reclasse les résultats par pertinence contextuelle réelle. Il réduit significativement les réponses hors-sujet.


Outils recommandés

LlamaIndex (Python) — le standard pour le RAG

LlamaIndex est le framework le plus complet pour construire des pipelines RAG. Il gère nativement l’ingestion multi-formats, le chunking, les embeddings, la connexion aux vector stores et la génération.

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

# Charger tous les documents d'un dossier
documents = SimpleDirectoryReader("./docs_rh").load_data()

# Construire l'index (chunking + embeddings + stockage)
index = VectorStoreIndex.from_documents(documents)

# Créer le query engine
query_engine = index.as_query_engine()

# Poser une question
response = query_engine.query("Combien de jours de congés payés par an ?")
print(response)

n8n — orchestration no-code

Pour les équipes sans développeurs Python, n8n permet de construire un pipeline RAG via des blocs visuels. Il dispose de nœuds natifs pour Qdrant, OpenAI embeddings, et les LLMs. Idéal pour connecter le chatbot à Slack, Teams ou votre CRM sans écrire de code.

Flowise — interface visuelle pour LangChain

Flowise est une interface drag-and-drop construite sur LangChain. En quelques clics, vous assemblez un pipeline : upload PDF → chunk → embed → Qdrant → chat. Solution parfaite pour valider un prototype en 1 journée avant de passer à un développement sur-mesure.


Exemple concret : chatbot RH sur documents internes

Corpus : manuel employé (PDF 80p) + catalogue formation (Excel 3 onglets) + FAQ RH (Notion) + politique télétravail (Word)

Pipeline retenu :

  • Ingestion : LlamaIndex + connecteurs natifs Notion et fichiers locaux
  • Chunking : 512 tokens, overlap 50, hierarchical (titre de section conservé)
  • Embeddings : text-embedding-3-small (OpenAI)
  • Vector store : Qdrant sur Docker interne (données RH = sensibles)
  • LLM : GPT-5 mini (rapport qualité/coût optimal)
  • Interface : Slack via n8n (les employés interrogent directement dans leur canal)

Résultat : 73 % des questions RH récurrentes traitées automatiquement, temps de réponse moyen 4 secondes, zéro donnée transmise à l’extérieur (Qdrant + n8n sur serveur interne, seul l’appel OpenAI passe en externe).


Sécurité et confidentialité

C’est la question que pose systématiquement tout DSI sérieux. Elle est légitime.

Ce qui part chez OpenAI : uniquement les chunks récupérés + la question de l’utilisateur, au moment de la requête. Vos documents complets ne sont jamais envoyés à OpenAI.

Ce qui reste on-premise : les documents sources, les embeddings, le vector store.

Pour les données ultra-sensibles (secrets industriels, données patients, informations financières non publiques) :

  • Remplacer OpenAI par un LLM hébergé localement : Mistral 7B ou LLaMA 3 via Ollama sur un serveur GPU interne
  • Remplacer text-embedding-3-small par multilingual-e5-large en local
  • Qdrant reste on-premise dans tous les cas

Gestion des PII : si vos documents contiennent des données personnelles (noms, emails, numéros de sécu), implémentez une couche d’anonymisation avant l’indexation (bibliothèque presidio de Microsoft). Ne laissez pas les PII entrer dans le vector store.

Contrôle d’accès : le chatbot ne doit pas donner à un commercial les documents réservés à la direction. Implémentez des metadata filters dans Qdrant : chaque chunk est tagué avec son niveau de confidentialité, et la requête filtre selon les droits de l’utilisateur connecté.


Mise à jour automatique des documents

Un RAG statique devient obsolète dès que vos documents changent. La solution : un workflow de re-indexation automatique.

Stratégie recommandée :

  1. Détecter les modifications (webhook Notion, watch folder sur SharePoint, cron sur votre intranet)
  2. Re-processer uniquement les documents modifiés (pas tout le corpus)
  3. Supprimer les anciens chunks du document dans le vector store (par doc_id)
  4. Indexer les nouveaux chunks
  5. Logger la re-indexation (date, nombre de chunks, documents concernés)

Avec n8n, ce workflow peut être entièrement automatisé : modification d’un document Notion → webhook → re-indexation → notification Slack à l’équipe.


Métriques de qualité : comment savoir si votre RAG fonctionne bien

Déployer sans mesurer, c’est naviguer à l’aveugle. Trois métriques essentielles à suivre :

Faithfulness (fidélité) : la réponse est-elle fondée sur les chunks récupérés, sans inventer ? Mesure les hallucinations. Objectif : > 0,90.

Answer Relevancy (pertinence) : la réponse répond-elle vraiment à la question posée ? Objectif : > 0,85.

Context Recall (rappel) : le bon document a-t-il été récupéré ? Objectif : > 0,80.

Le framework RAGAS (open source) permet d’automatiser ces évaluations avec un jeu de questions de test. Construisez un dataset de 50-100 questions avec réponses attendues dès le début du projet — c’est votre filet de sécurité pour chaque mise à jour du corpus ou du pipeline.


Budget mensuel type

Pour une PME de 50 à 200 employés, avec un corpus de 500 documents, voici une estimation réaliste :

PosteCoût mensuel estimé
Embeddings (indexation initiale + mises à jour)5 à 15 €
LLM (GPT-5 mini, 1000 requêtes/mois)8 à 20 €
Vector store (Qdrant cloud ou VPS dédié)0 à 30 €
Infrastructure (si on-premise existant)0 €
Total13 à 65 €/mois

L’investissement principal est dans le développement initial : architecture du pipeline, ingestion des documents, configuration du chunking, tests de qualité. Comptez 3 à 6 semaines pour un projet bien cadré.


Conclusion

Connecter un chatbot à vos documents internes n’est plus un projet réservé aux grandes entreprises tech. Avec les outils actuels — LlamaIndex, Qdrant, n8n — une PME peut déployer un assistant documentaire performant en quelques semaines, pour un budget mensuel inférieur à celui d’une demi-journée de consultant.

La clé du succès : choisir RAG (et non fine-tuning) dans 95 % des cas, soigner la qualité des documents sources, bien calibrer le chunking, et mesurer la qualité avec RAGAS dès le premier déploiement.

Si vous voulez aller plus vite, notre équipe conçoit et déploie des chatbots documentaires sur-mesure — de l’ingestion des sources à l’intégration dans vos outils métier (Slack, Teams, intranet).

Découvrez notre offre chatbot IA ou explorez nos solutions agents IA pour aller encore plus loin dans l’automatisation de vos processus internes.

🚀

Partagez cette page

Faites découvrir nos conseils experts à votre réseau

💡 Partagez nos conseils d'experts avec votre réseau professionnel

🎯
Découvrez votre potentiel d'automatisation

Répondez à 5 questions — obtenez votre score et 3 recommandations personnalisées en 2 minutes

⚡ Résultat immédiat 🔒 Sans engagement
Lancer l'audit express

Passez à l'action

Prêt à automatiser votre entreprise ?

Audit gratuit en 48h — ROI estimé, plan d'action personnalisé, sans engagement.