Agents IA
Prompt engineering pour entreprises : les bases qui font la différence
Maîtrisez le prompt engineering pour obtenir des résultats professionnels avec GPT-4 et Claude. Techniques, templates et exemples concrets pour les équipes métier.
Votre équipe RH reçoit les mêmes questions chaque semaine : “Combien de jours de RTT me reste-t-il ?”, “Quelle est la procédure pour une note de frais ?”, “Comment fonctionne le plan d’intéressement ?” Chaque réponse est dans le manuel employé — un PDF de 80 pages que personne ne lit. La promesse d’un chatbot formé sur vos documents internes, c’est de transformer cette masse documentaire en assistant disponible 24h/24, capable de répondre en 3 secondes avec la bonne page.
Mais avant d’y arriver, il faut lever une confusion fondamentale que commet 80 % des dirigeants qui s’y intéressent.
Quand un décideur dit “je veux entraîner mon chatbot sur mes documents”, il imagine généralement que l’IA va “lire” ses fichiers une fois, les mémoriser, puis s’en souvenir à vie — comme un collaborateur qui aurait étudié votre documentation.
Ce n’est pas ce qui se passe. Et confondre fine-tuning et RAG peut vous faire perdre plusieurs mois et des dizaines de milliers d’euros.
Le fine-tuning consiste à ré-entraîner un modèle de langage sur un corpus spécifique. On modifie les poids du réseau de neurones pour que le modèle intègre un nouveau style, un vocabulaire métier ou des comportements spécifiques.
Ce que ça fait bien :
Ce que ça fait mal :
Le RAG (Retrieval-Augmented Generation) ne touche pas au modèle. Il lui donne accès à une base documentaire interrogeable en temps réel. À chaque question, le système cherche les passages pertinents dans vos docs, les injecte dans le contexte du LLM, et celui-ci génère une réponse en s’appuyant dessus.
Ce que ça fait bien :
Verdict : pour 95 % des PME qui veulent un chatbot sur leurs documents, RAG est la bonne réponse. Le fine-tuning ne s’impose que dans des cas très spécifiques de personnalité de marque ou de domaine ultra-fermé.
La méthode la plus basique : coller tout le document dans le prompt. Si votre FAQ fait 2 pages, vous l’envoyez intégralement à chaque requête.
Avantage : zéro infrastructure, fonctionne immédiatement. Limites : les modèles ont une fenêtre de contexte finie (128k tokens pour GPT-5, mais ça coûte cher à chaque appel), les performances dégradent sur les longs contextes, impossible à l’échelle (1000 pages internes = inenvoyable).
Utilisable pour : un chatbot sur une FAQ de 10 questions, un assistant sur un contrat unique.
Le pipeline complet que nous détaillons dans la section suivante. La bonne solution pour tout corpus documentaire de plus de 20-30 pages.
Réservez le fine-tuning aux situations où :
Dans tous les autres cas, un RAG bien configuré bat un fine-tuning mal préparé — à 10 fois moins cher et 10 fois plus rapide à déployer.
Le RAG est agnostique au format source. Vous pouvez ingérer :
| Source | Outil recommandé |
|---|---|
| PDF (texte) | PyMuPDF, pdfminer |
| PDF (scannés) | Azure Document Intelligence, Tesseract OCR |
| Word / Excel | python-docx, openpyxl |
| Notion | API Notion officielle |
| Confluence | API Atlassian |
| Site web / intranet | Crawl avec Playwright ou Firecrawl |
| Base de données | SQL direct vers texte structuré |
Règle d’or avant l’ingestion : nettoyez vos documents. Supprimez les headers/footers répétitifs, les numéros de page, les tableaux mal formatés. La qualité de la réponse finale est directement proportionnelle à la qualité des documents ingérés — garbage in, garbage out.
Le chunking consiste à découper vos documents en morceaux (chunks) que le système pourra récupérer individuellement. C’est l’étape la plus sous-estimée, et pourtant la plus déterminante pour la qualité.
Paramètres recommandés pour démarrer :
Stratégies avancées :
Pour un corpus RH ou juridique, commencez par 512 tokens avec 50 de overlap — c’est le réglage qui fonctionne dans 80 % des cas.
Chaque chunk est converti en un vecteur numérique (embedding) qui encode son sens sémantique. Deux chunks avec le même sens auront des vecteurs proches dans l’espace vectoriel.
Comparatif des modèles d’embedding :
| Modèle | Dimensions | Coût | Qualité | Usage |
|---|---|---|---|---|
| OpenAI text-embedding-3-small | 1536 | 0,02$/1M tokens | Excellent | Standard recommandé |
| OpenAI text-embedding-3-large | 3072 | 0,13$/1M tokens | Supérieur | Corpus critique |
| sentence-transformers/all-MiniLM-L6-v2 | 384 | Gratuit (local) | Bon | On-premise, budget serré |
| intfloat/multilingual-e5-large | 1024 | Gratuit (local) | Très bon multilingue | Corpus français |
Pour un corpus en français, text-embedding-3-small d’OpenAI reste le choix le plus simple avec d’excellents résultats. Si vous devez rester on-premise pour des raisons de confidentialité, multilingual-e5-large tourne sur un GPU modeste.
Le vector store est la base de données spécialisée dans la recherche par similarité vectorielle.
Comparatif des solutions :
| Solution | Type | Avantages | Inconvénients |
|---|---|---|---|
| Qdrant | Open source / cloud | Performant, filtrage avancé, on-premise possible | Setup initial |
| Pinecone | SaaS | Zéro infra, scalabilité immédiate | Vendor lock-in, coût élevé à volume |
| pgvector | Extension PostgreSQL | Intégration BDD existante, SQL natif | Performances limitées >1M vecteurs |
| Weaviate | Open source | GraphQL, multi-modal | Plus complexe |
| Chroma | Open source | Très simple, idéal prototype | Pas production-ready pour gros volumes |
Recommandation PME : commencez avec Qdrant en Docker sur votre infra ou pgvector si vous avez déjà PostgreSQL. Migrez vers Pinecone si vous atteignez des volumes importants et préférez ne pas gérer l’infrastructure.
Quand un utilisateur pose une question, le pipeline de récupération s’enchaîne :
Question utilisateur
↓
Embedding de la question (même modèle que l'indexation)
↓
Recherche dans le vector store (top-k résultats, k=5 à 10)
↓
Rerankeur (optionnel mais recommandé)
↓
Top-3 chunks injectés dans le prompt LLM
↓
Génération de la réponse avec sources citées
Le rerankeur est souvent négligé mais très efficace. Après la recherche vectorielle (qui retourne 10 candidats), un modèle de reranking (Cohere Rerank, BGE-Reranker) reclasse les résultats par pertinence contextuelle réelle. Il réduit significativement les réponses hors-sujet.
LlamaIndex est le framework le plus complet pour construire des pipelines RAG. Il gère nativement l’ingestion multi-formats, le chunking, les embeddings, la connexion aux vector stores et la génération.
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
# Charger tous les documents d'un dossier
documents = SimpleDirectoryReader("./docs_rh").load_data()
# Construire l'index (chunking + embeddings + stockage)
index = VectorStoreIndex.from_documents(documents)
# Créer le query engine
query_engine = index.as_query_engine()
# Poser une question
response = query_engine.query("Combien de jours de congés payés par an ?")
print(response)
Pour les équipes sans développeurs Python, n8n permet de construire un pipeline RAG via des blocs visuels. Il dispose de nœuds natifs pour Qdrant, OpenAI embeddings, et les LLMs. Idéal pour connecter le chatbot à Slack, Teams ou votre CRM sans écrire de code.
Flowise est une interface drag-and-drop construite sur LangChain. En quelques clics, vous assemblez un pipeline : upload PDF → chunk → embed → Qdrant → chat. Solution parfaite pour valider un prototype en 1 journée avant de passer à un développement sur-mesure.
Corpus : manuel employé (PDF 80p) + catalogue formation (Excel 3 onglets) + FAQ RH (Notion) + politique télétravail (Word)
Pipeline retenu :
Résultat : 73 % des questions RH récurrentes traitées automatiquement, temps de réponse moyen 4 secondes, zéro donnée transmise à l’extérieur (Qdrant + n8n sur serveur interne, seul l’appel OpenAI passe en externe).
C’est la question que pose systématiquement tout DSI sérieux. Elle est légitime.
Ce qui part chez OpenAI : uniquement les chunks récupérés + la question de l’utilisateur, au moment de la requête. Vos documents complets ne sont jamais envoyés à OpenAI.
Ce qui reste on-premise : les documents sources, les embeddings, le vector store.
Pour les données ultra-sensibles (secrets industriels, données patients, informations financières non publiques) :
multilingual-e5-large en localGestion des PII : si vos documents contiennent des données personnelles (noms, emails, numéros de sécu), implémentez une couche d’anonymisation avant l’indexation (bibliothèque presidio de Microsoft). Ne laissez pas les PII entrer dans le vector store.
Contrôle d’accès : le chatbot ne doit pas donner à un commercial les documents réservés à la direction. Implémentez des metadata filters dans Qdrant : chaque chunk est tagué avec son niveau de confidentialité, et la requête filtre selon les droits de l’utilisateur connecté.
Un RAG statique devient obsolète dès que vos documents changent. La solution : un workflow de re-indexation automatique.
Stratégie recommandée :
doc_id)Avec n8n, ce workflow peut être entièrement automatisé : modification d’un document Notion → webhook → re-indexation → notification Slack à l’équipe.
Déployer sans mesurer, c’est naviguer à l’aveugle. Trois métriques essentielles à suivre :
Faithfulness (fidélité) : la réponse est-elle fondée sur les chunks récupérés, sans inventer ? Mesure les hallucinations. Objectif : > 0,90.
Answer Relevancy (pertinence) : la réponse répond-elle vraiment à la question posée ? Objectif : > 0,85.
Context Recall (rappel) : le bon document a-t-il été récupéré ? Objectif : > 0,80.
Le framework RAGAS (open source) permet d’automatiser ces évaluations avec un jeu de questions de test. Construisez un dataset de 50-100 questions avec réponses attendues dès le début du projet — c’est votre filet de sécurité pour chaque mise à jour du corpus ou du pipeline.
Pour une PME de 50 à 200 employés, avec un corpus de 500 documents, voici une estimation réaliste :
| Poste | Coût mensuel estimé |
|---|---|
| Embeddings (indexation initiale + mises à jour) | 5 à 15 € |
| LLM (GPT-5 mini, 1000 requêtes/mois) | 8 à 20 € |
| Vector store (Qdrant cloud ou VPS dédié) | 0 à 30 € |
| Infrastructure (si on-premise existant) | 0 € |
| Total | 13 à 65 €/mois |
L’investissement principal est dans le développement initial : architecture du pipeline, ingestion des documents, configuration du chunking, tests de qualité. Comptez 3 à 6 semaines pour un projet bien cadré.
Connecter un chatbot à vos documents internes n’est plus un projet réservé aux grandes entreprises tech. Avec les outils actuels — LlamaIndex, Qdrant, n8n — une PME peut déployer un assistant documentaire performant en quelques semaines, pour un budget mensuel inférieur à celui d’une demi-journée de consultant.
La clé du succès : choisir RAG (et non fine-tuning) dans 95 % des cas, soigner la qualité des documents sources, bien calibrer le chunking, et mesurer la qualité avec RAGAS dès le premier déploiement.
Si vous voulez aller plus vite, notre équipe conçoit et déploie des chatbots documentaires sur-mesure — de l’ingestion des sources à l’intégration dans vos outils métier (Slack, Teams, intranet).
Découvrez notre offre chatbot IA ou explorez nos solutions agents IA pour aller encore plus loin dans l’automatisation de vos processus internes.
🚀
Faites découvrir nos conseils experts à votre réseau
💡 Partagez nos conseils d'experts avec votre réseau professionnel
Passez à l'action
Audit gratuit en 48h — ROI estimé, plan d'action personnalisé, sans engagement.