Pourquoi la peur des données freine l'IA en PME française
Les sondages sont unanimes : en 2026, la conformité RGPD et la protection des données sont la première barrière à l'adoption de l'IA dans les entreprises françaises. Ce n'est pas le coût, ni la complexité technique — c'est la peur. Une peur souvent irrationnelle dans ses manifestations, mais fondée sur des risques réels qu'il faut nommer clairement.
Les 3 types de freins à déconstruire
1. La crainte légale (RGPD et AI Act) — Le règlement général sur la protection des données impose des obligations strictes sur le traitement des données personnelles. L'AI Act, entré progressivement en application depuis 2024, ajoute une couche de conformité spécifique aux systèmes d'IA. Résultat : beaucoup de dirigeants de PME préfèrent ne rien faire plutôt que de prendre un risque légal mal compris.
2. La peur de l'espionnage industriel — "Si j'envoie mes process internes, mes données clients ou mes formulations produits à un LLM américain, est-ce que Microsoft ou Google vont s'en emparer ?" Cette inquiétude, partiellement fondée, concerne moins les données personnelles que les secrets industriels et la propriété intellectuelle.
3. Le risque réputationnel — Les clients B2B et B2C sont de plus en plus sensibles à la façon dont leurs données sont traitées. Utiliser un outil IA américain pour analyser les données clients sans l'indiquer dans les CGV et la politique de confidentialité expose à des poursuites et à une crise de réputation.
La bonne nouvelle : les solutions souveraines sont matures en 2026
En 2020, déployer une IA souveraine était réservé aux grandes entreprises avec des équipes data et des budgets conséquents. En 2026, la situation a radicalement changé :
- Les modèles open-source (Llama, Mistral, Phi, Gemma) ont atteint une qualité proche des modèles propriétaires sur la majorité des cas d'usage PME.
- Les outils d'automatisation auto-hébergés (N8N, Flowise, Activepieces) sont devenus simples à déployer et maintenir.
- Les fournisseurs cloud européens (OVH, Scaleway, Hetzner) proposent des offres GPU accessibles aux PME.
- Mistral AI, entreprise française, propose une API LLM de niveau GPT-4 hébergée en Europe.
La question n'est plus "est-ce techniquement possible ?" — la question est "quelle architecture choisir selon mon niveau de risque ?"
Les risques réels des SaaS IA américains
Avant de parler de solutions, il faut comprendre précisément quels sont les risques. Car tous les outils SaaS américains ne présentent pas le même niveau de risque — et les confondre conduit soit à une panique non justifiée, soit à une fausse sécurité.
Le Cloud Act américain : le risque structurel
Le CLOUD Act (Clarifying Lawful Overseas Use of Data Act), adopté en mars 2018, est la loi américaine qui oblige les entreprises basées aux États-Unis à fournir aux autorités américaines les données qu'elles hébergent, même si ces données sont sur des serveurs situés en dehors des États-Unis.
Concrètement : si vous utilisez OpenAI API, Microsoft Azure (même la région Frankfurt), Google Cloud, Amazon AWS — vous êtes potentiellement exposé au Cloud Act. Un tribunal américain peut ordonner à ces entreprises de transmettre vos données sans vous en informer, sans passer par les mécanismes de coopération judiciaire internationale habituels.
La CNIL française et le Comité Européen de la Protection des Données (CEPD) ont tous deux confirmé que le Cloud Act est juridiquement incompatible avec le RGPD pour les données personnelles. Ce n'est pas une position de principe politique — c'est une incompatibilité légale objective.
Les transferts de données hors UE : chaque appel API compte
Beaucoup d'entreprises ne réalisent pas que chaque appel à une API IA américaine constitue un transfert de données hors Union Européenne au sens du RGPD (Chapitre V). Ces transferts exigent :
- Un mécanisme de transfert valide : Clauses Contractuelles Types (CCT) signées, Binding Corporate Rules (BCR), ou décision d'adéquation de la Commission européenne
- Une Analyse d'Impact relative à la Protection des Données (AIPD/DPIA) si les données sont sensibles (art. 9 RGPD) ou présentent un risque élevé
- Une mention explicite dans le registre de traitement (art. 30 RGPD)
- Une information des personnes concernées dans la politique de confidentialité
L'entraînement sur vos données : le mythe et la réalité
OpenAI, Microsoft et Google ont tous modifié leurs politiques suite aux controverses sur l'utilisation des données pour entraîner leurs modèles. En 2026, la situation est la suivante :
- OpenAI API : les données envoyées via l'API ne sont pas utilisées pour entraîner les modèles par défaut (opt-out automatique pour les clients API). Les données de ChatGPT.com peuvent l'être si vous n'avez pas désactivé l'option.
- Microsoft Azure OpenAI : engagement contractuel de ne pas utiliser les données pour entraîner les modèles. Mais reste soumis au Cloud Act.
- Google Vertex AI : même logique — données API non utilisées pour l'entraînement par défaut.
Les DPA (Data Processing Agreements) de ces fournisseurs ont évolué, mais ils ne règlent pas le problème du Cloud Act — qui est une loi nationale américaine supérieure aux contrats privés.
Tableau des risques par type de données
| Type de données | Risque SaaS US | Niveau d'exposition | Recommandation |
|---|---|---|---|
| Données clients (noms, emails, historique) | RGPD art. 5-6 : base légale + transfert hors UE | Moyen | Anonymisation avant envoi OU SaaS EU avec DPA |
| Données RH (fiches employés, performances, origines) | RGPD art. 9 : données sensibles + art. 88 : données RH | Élevé | Anonymisation obligatoire ou LLM local uniquement |
| Données de santé | RGPD art. 9 + HDS (Hébergeur Données Santé) obligatoire | Critique | LLM local ou hébergeur certifié HDS uniquement |
| Secrets industriels (formules, process, R&D) | Espionnage économique, Cloud Act, propriété intellectuelle | Élevé | LLM local ou on-premise exclusivement |
| Données financières (comptabilité, trésorerie, marges) | Secret bancaire, confidentialité commerciale, Cloud Act | Moyen-élevé | SaaS EU avec DPA ou LLM local selon sensibilité |
| Données non-personnelles (contenu générique, textes publics) | Quasi nul | Faible | SaaS US acceptable avec précautions standard |
Qu'est-ce qu'une IA souveraine exactement ?
Le terme "IA souveraine" est utilisé à toutes les sauces, parfois de façon trompeuse. Voici une définition précise et opérationnelle pour les PME françaises.
Définition : Une IA souveraine est un système d'intelligence artificielle dans lequel vous contrôlez l'intégralité de la chaîne de traitement des données — du modèle utilisé à l'infrastructure d'hébergement, en passant par les données d'entraînement (si fine-tuning) et les logs d'utilisation. Aucun tiers non-autorisé ne peut accéder à vos données, y compris sous contrainte légale étrangère.
Les 4 niveaux de souveraineté IA
| Niveau | Désignation | Description | Exemples d'outils | Risque résiduel |
|---|---|---|---|---|
| 1 | Souveraineté contractuelle | DPA signé, CCT en place, opt-out entraînement activé — vous utilisez un SaaS US mais avec des garde-fous contractuels | ChatGPT Enterprise, Microsoft Azure OpenAI | Cloud Act reste applicable — moyen |
| 2 | Souveraineté hébergement | Données traitées par une entreprise européenne sur des serveurs EU — hors portée du Cloud Act américain | Mistral API, Make EU, OVHcloud AI | Dépendance fournisseur — faible |
| 3 | Souveraineté opérationnelle | Infrastructure auto-hébergée sur un cloud EU — vous contrôlez le déploiement, les logs, les accès | N8N self-hosted, Flowise, Ollama sur VPS OVH | Dépendance modèle externe pour les LLM — très faible |
| 4 | Souveraineté totale | Modèle, infrastructure et données entièrement sur vos propres serveurs physiques ou en colocation — zéro dépendance externe | Llama on-premise, infrastructure propre | Quasi nul — uniquement risques physiques |
Souveraineté ≠ conformité RGPD : deux notions complémentaires
Il est important de distinguer ces deux concepts souvent confondus :
- Conformité RGPD : vous respectez le droit européen — base légale, information des personnes, durée de conservation, droits des personnes. On peut être conforme RGPD en utilisant AWS avec des CCT valides.
- Souveraineté IA : vous contrôlez entièrement vos données et votre infrastructure. La souveraineté va au-delà du RGPD — elle protège aussi contre des risques non-RGPD : espionnage industriel, Cloud Act, dépendance fournisseur, et risques liés à l'AI Act.
La recommandation pour les PME françaises en 2026 : viser au minimum le niveau 2 de souveraineté pour toutes les données personnelles, et le niveau 3-4 pour les données sensibles. L'architecture hybride (niveau 2 pour les tâches génériques + niveau 3 pour les données critiques) est souvent la solution la plus efficace par rapport au coût.
Les 4 architectures d'IA souveraine pour PME
Il n'existe pas une seule façon de construire une infrastructure IA souveraine. Voici les 4 architectures adaptées aux PME françaises, classées par niveau de souveraineté croissant.
Architecture 1 — "SaaS EU avec précautions" (Niveaux 1-2)
Stack : Mistral API (hébergement EU, entreprise française) + N8N Cloud EU (Frankfurt) + Make EU (Prague)
Pour qui : PME sans équipe technique dédiée, données peu ou moyennement sensibles (CRM, support client, génération de contenu, classification de documents non-critiques)
Coût infrastructure : 50 à 200€/mois selon les volumes
Niveau de souveraineté : Bonne — toutes les entreprises sont européennes, les données restent dans l'UE, hors portée du Cloud Act américain
Limites : Vous restez dépendant de tiers (Mistral, N8N, Make) pour vos workflows critiques. En cas de panne ou de changement de politique tarifaire, votre stack est exposée. Certains composants (ex: N8N Cloud) restent des entreprises avec des investisseurs internationaux.
Mise en œuvre : Déployer N8N Cloud (plan Starter à Frankfurt), connecter à l'API Mistral (La Plateforme), signer les DPA respectifs, mentionner dans le registre RGPD. Aucune compétence DevOps requise.
Architecture 2 — "Self-hosted core, SaaS périphérique" (Niveaux 2-3)
Stack : N8N self-hosted sur VPS OVH/Scaleway France + Mistral API (données non-sensibles) + Flowise self-hosted pour les workflows RAG
Pour qui : PME avec un développeur ou un prestataire technique, souhaitant contrôler leurs workflows sans investir dans du GPU
Coût infrastructure : 60 à 150€/mois (VPS OVH Advance 4-8 vCPU, 16-32 GB RAM)
Niveau de souveraineté : Très bonne — les workflows, les données d'orchestration et les configurations sont entièrement sous votre contrôle. Seuls les appels LLM sortent de votre infrastructure (vers Mistral EU pour les données non-sensibles).
Mise en œuvre : VPS OVH SSD 2 (8 vCPU, 32 GB RAM, 80€/mois) → Docker Compose avec N8N + PostgreSQL + Redis → Flowise dans un second container → Connexion Mistral API avec anonymisation préalable pour toute donnée personnelle.
Architecture 3 — "LLM local pour données sensibles" (Niveaux 3-4)
Stack : N8N self-hosted + Ollama (Mistral 24B ou Llama 3.3 selon les ressources) pour données sensibles + Mistral API cloud pour les tâches génériques
Pour qui : PME avec des contraintes RGPD fortes (cabinets médicaux, RH, cabinets d'avocats, comptabilité) ou des secrets industriels à protéger
Coût infrastructure : 150 à 400€/mois (instance GPU cloud Scaleway ou Lambda Labs) OU investissement hardware GPU (RTX 4090 : ~2 000€, amortissement 24 mois)
Niveau de souveraineté : Excellente pour les données sensibles — le LLM ne quitte jamais votre infrastructure. Seules les tâches non-sensibles utilisent Mistral API cloud.
Exemple de workflow :** Dossier client RH → extraction des données sensibles par NER (Presidio) → anonymisation → LLM local Mistral 24B via Ollama (analyse, résumé, classification) → résultat stocké sur votre infrastructure. Zéro donnée personnelle ne sort.
Architecture 4 — "Souveraineté totale on-premise" (Niveau 4)
Stack : Infrastructure physique propre ou colocation en datacenter français + tous les services auto-hébergés (N8N, Flowise, Ollama, PostgreSQL, monitoring)
Pour qui : ETI (Entreprises de Taille Intermédiaire), secteur public, établissements de santé, secteur défense, industries avec des données ultra-sensibles (defense, nucléaire, pharmaceutique)
Coût infrastructure : 1 000 à 5 000€/mois (amortissement hardware serveurs GPU + colocation + infra réseau) OU cloud souverain qualifié SecNumCloud (Bleu, S3ns)
Niveau de souveraineté : Maximale — zéro dépendance externe, zéro donnée qui sort, audit intégral possible de toute la chaîne.
Limites : Requiert une équipe DevOps/SRE dédiée ou un prestataire infogérance. Les coûts sont significatifs. Réservé aux organisations pour lesquelles la violation de données aurait des conséquences catastrophiques (amendes CNIL, responsabilité pénale, perte de clients).
LLM en local et on-premise : guide pratique
Ollama a radicalement démocratisé le déploiement de LLM en local. Ce qui nécessitait en 2022 une équipe ML et des semaines de travail peut aujourd'hui être fait en 30 minutes par un développeur. Voici ce que vous devez savoir.
Ollama : l'outil de référence pour le LLM local
Ollama est un gestionnaire de LLM open-source qui permet d'installer et d'exécuter des modèles de langage sur votre propre machine ou serveur avec une interface simple. Il expose automatiquement une API REST compatible avec l'API OpenAI, ce qui signifie que vous pouvez remplacer l'API OpenAI par Ollama dans votre code sans changer une ligne.
- Installation en une commande :
curl -fsSL https://ollama.com/install.sh | sh - Téléchargement d'un modèle :
ollama pull mistralouollama pull llama3.3 - API REST locale sur
http://localhost:11434 - Compatible avec N8N, Flowise, LangChain, LlamaIndex nativement
Les modèles open-source matures en 2026
| Modèle | Taille | RAM requise | Qualité | Vitesse CPU | Vitesse GPU | Usage recommandé |
|---|---|---|---|---|---|---|
| Llama 3.3 70B | 70 milliards | 40+ GB VRAM | Excellente (= GPT-4 Turbo) | Très lent (10-30 tok/s) | Rapide (60-100 tok/s) | Tâches complexes, analyse juridique, raisonnement |
| Mistral 24B | 24 milliards | 16-20 GB VRAM | Très bonne, excellent français | Moyen (15-25 tok/s) | Rapide (80-150 tok/s) | Textes français, support client, résumés |
| Phi-3 Medium 14B | 14 milliards | 10-12 GB VRAM | Bonne (surpasse GPT-3.5) | Rapide (25-40 tok/s) | Très rapide (150+ tok/s) | Classification, extraction, tâches structurées |
| Gemma 3 27B | 27 milliards | 18-22 GB VRAM | Très bonne (Google, open-source) | Moyen (15-20 tok/s) | Rapide (80-120 tok/s) | Multimodal, analyse d'images, polyvalent |
| Llama 3.2 8B | 8 milliards | 6-8 GB VRAM (ou 16 GB RAM CPU) | Correcte pour tâches simples | Rapide (40-60 tok/s) | Très rapide (200+ tok/s) | Résumés simples, classification, Q&A rapide |
Configuration matérielle recommandée selon le budget
Option A — CPU seul (modèles < 8B, tâches légères)
VPS OVH Advance 2 : 8 vCPU / 32 GB RAM / SSD NVMe 160 GB → environ 80€/mois
Adapté à : Llama 3.2 8B, Phi-3 Mini, Mistral 7B. Vitesse correcte pour des traitements asynchrones (pas de chat temps réel). Convient pour des workflows N8N qui traitent quelques dizaines de documents par heure.
Option B — GPU cloud (modèles 13-70B, production)
Scaleway GPU L4 (24 GB VRAM) : ~150€/mois | Lambda Labs RTX 3090 : ~200€/mois | RunPod A10 (24 GB) : ~180€/mois
Adapté à : Mistral 24B, Phi-3 Medium, Gemma 3 27B. Vitesse de production (80-150 tokens/sec). Convient pour des volumes moyens (centaines de requêtes par heure).
Option C — GPU on-premise (gros volumes)
NVIDIA RTX 4090 (24 GB VRAM) : ~2 000€ achat | NVIDIA A10 (24 GB) : ~4 000€ | NVIDIA A100 (80 GB) : ~15 000€
Amortissement : 24-36 mois. Adapté à : Mistral 24B en production intensive (milliers de requêtes/heure) ou Llama 3.3 70B quantisé.
Limites réelles des LLM locaux à connaître
- Modèles < 13B : qualité clairement en dessous de GPT-4 ou Claude 4.6 Sonnet sur les tâches complexes (raisonnement multi-étapes, code avancé, analyse juridique fine). Parfaits pour les tâches structurées.
- Latence CPU : un modèle Mistral 24B sur CPU génère ~20 tokens/seconde — soit ~15 secondes pour une réponse de 300 mots. Incompatible avec un chat temps réel, acceptable pour des traitements batch.
- Gestion du contexte : les modèles locaux ont souvent des fenêtres de contexte plus courtes (4K-32K tokens) que les modèles cloud (128K-1M tokens). Important pour le traitement de longs documents.
- Mise à jour : vous devez manuellement mettre à jour les modèles. Avec les SaaS cloud, vous bénéficiez automatiquement des dernières versions.
Anonymisation et pseudonymisation : protéger les données avant l'IA
L'anonymisation est souvent la solution la plus pragmatique pour les PME qui veulent utiliser des LLM puissants (cloud, y compris américains) sans risque RGPD : si les données sont anonymes avant d'être envoyées au LLM, elles ne sont plus des données personnelles au sens du RGPD, et les obligations RGPD ne s'appliquent plus.
Anonymisation vs pseudonymisation : la distinction clé
Anonymisation : le processus supprime ou transforme les données de façon irréversible — il est techniquement impossible de réidentifier les personnes à partir des données anonymisées. Les données anonymes sortent du champ d'application du RGPD. C'est le Graal de la conformité IA.
Pseudonymisation : les données personnelles sont remplacées par des pseudonymes (tokens, identifiants génériques), mais il existe une table de correspondance permettant la réidentification. Les données pseudonymisées restent des données personnelles au sens du RGPD, mais leur traitement présente moins de risques. La pseudonymisation est recommandée par le RGPD (art. 25) comme mesure de réduction du risque.
Techniques d'anonymisation avant envoi à un LLM
Named Entity Recognition (NER) — la technique clé : un modèle NER identifie automatiquement les entités nommées dans un texte (personnes, organisations, lieux, dates, numéros de téléphone, emails, IBAN, SIRET, etc.) et les remplace par des tokens génériques.
Exemple concret :
- Texte original : "Jean Dupont, directeur de Acme SAS (75008 Paris), souhaite un devis pour 15 licences. Contact : jean.dupont@acme.fr — 06 12 34 56 78"
- Texte anonymisé : "PERSONNE_1, directeur de ORGANISATION_1 (CODE_POSTAL_1 VILLE_1), souhaite un devis pour 15 licences. Contact : EMAIL_1 — TELEPHONE_1"
- Ce texte anonymisé peut être envoyé à n'importe quel LLM en toute sécurité RGPD.
Les outils d'anonymisation open-source de référence
- Presidio (Microsoft, open-source) : bibliothèque Python qui détecte et anonymise 20+ types d'entités. Supporte le français. S'intègre facilement dans N8N via des scripts Python ou des webhooks. Gratuit, auto-hébergeable.
- spaCy NER : modèles NER multilingues (fr_core_news_lg pour le français). Très performant sur les textes formels. Peut être combiné avec des règles regex pour les données structurées (IBAN, SIRET, numéros de sécurité sociale).
- GLiNER : modèle NER zéro-shot plus récent, capable d'identifier des entités non-vues pendant l'entraînement. Particulièrement utile pour les domaines spécialisés (médical, juridique).
Workflow recommandé : anonymisation → LLM → réintégration
- Réception des données brutes : le document ou texte entre dans votre pipeline N8N (email, CRM, fichier uploadé)
- Détection et anonymisation : N8N appelle un service Presidio auto-hébergé qui identifie toutes les entités personnelles et les remplace par des tokens, en conservant une table de correspondance chiffrée
- Envoi au LLM : le texte anonymisé est envoyé au LLM de votre choix (GPT-4, Claude, Mistral) — aucune donnée personnelle ne sort
- Traitement du résultat : le LLM retourne une réponse avec les tokens (PERSONNE_1, ORGANISATION_1, etc.)
- Réintégration optionnelle : si nécessaire, N8N réintègre les valeurs originales en remplaçant les tokens par les vraies valeurs — uniquement en interne, jamais renvoyé à l'extérieur
Fournisseurs IA conformes RGPD hébergés en Europe
Le marché des outils IA européens a considérablement mûri depuis 2023. En mars 2026, voici un état des lieux factuel des acteurs disponibles, classés par catégorie.
| Catégorie | Fournisseur | Localisation | Hébergement données | Cloud Act applicable ? |
|---|---|---|---|---|
| LLM / API | Mistral AI (La Plateforme) | Paris, France | Serveurs EU (GCP EU) | Non (entreprise française) |
| LLM / API | Aleph Alpha | Heidelberg, Allemagne | Datacenter DE | Non (entreprise allemande) |
| LLM / API | LightOn | Paris, France | OVHcloud France | Non (entreprise française) |
| LLM / hébergement | OVHcloud AI Deploy | Roubaix / Gravelines, France | Datacenter FR | Non (entreprise française) |
| Automatisation | N8N Cloud EU | Berlin, Allemagne | Frankfurt, EU | Non (GmbH allemande) |
| Automatisation | Make EU | Prague, République tchèque | EU uniquement | Non (entreprise tchèque) |
| Chatbot | Crisp | Nantes, France | Serveurs FR | Non (entreprise française) |
| Chatbot | iAdvize | Nantes, France | Serveurs FR | Non (entreprise française) |
| Hébergement GPU | Scaleway | Paris, France (filiale Iliad) | Datacenter FR/AMS | Non (entreprise française) |
| Hébergement GPU | Hetzner Cloud | Nuremberg, Allemagne | Datacenter DE/FI | Non (entreprise allemande) |
| VectorDB | Qdrant | Berlin, Allemagne | Self-hosted ou EU cloud | Non (GmbH allemande) |
| VectorDB | Weaviate | Amsterdam, Pays-Bas | EU cloud ou self-hosted | Non (entreprise néerlandaise) |
Le label SecNumCloud (ANSSI) : la référence française
Pour les organisations qui traitent des données particulièrement sensibles (administrations, opérateurs d'importance vitale, données de santé à grande échelle), l'ANSSI (Agence nationale de la sécurité des systèmes d'information) a créé le label SecNumCloud — la référence française pour les prestataires cloud sécurisés.
- Bleu : coentreprise Microsoft/Capgemini offrant Microsoft 365 en version souveraine française (SecNumCloud en cours de qualification)
- S3ns : coentreprise Google/Thales offrant Google Workspace en version souveraine française
- OVHcloud : qualifié SecNumCloud pour ses offres Hosted Private Cloud
Guide par secteur : santé, finance, RH, juridique, administration
Les exigences de souveraineté varient considérablement selon le secteur d'activité. Voici un guide détaillé par secteur, avec les contraintes légales spécifiques et les stacks recommandées.
Santé et médico-social
Contraintes légales : Les données de santé sont une catégorie spéciale au sens de l'article 9 RGPD — leur traitement est interdit par principe, sauf exceptions strictes. De plus, tout hébergement de données de santé est soumis à la certification HDS (Hébergeur de Données de Santé) délivrée par l'ANS (Agence du Numérique en Santé).
Hébergeurs certifiés HDS : OVHcloud (certifié HDS), AWS Paris (certifié HDS), Microsoft Azure France (certifié HDS). Attention : HDS sur AWS ou Azure ne règle pas le problème Cloud Act. Pour une souveraineté totale, OVHcloud est le seul cloud français certifié HDS.
LLM recommandé : Exclusivement Ollama en local (Mistral 24B ou Llama 3.3) sur infrastructure OVHcloud HDS, ou anonymisation totale préalable. Aucun LLM SaaS américain ne peut recevoir des données de santé non-anonymisées.
Finance, banque et assurance
Contraintes légales : Secret bancaire (art. L.511-33 Code monétaire et financier), DORA (Digital Operational Resilience Act — en vigueur depuis janvier 2025) qui impose des exigences de résilience, traçabilité et gestion du risque tiers ICT, et les exigences prudentielles spécifiques (Bâle III, Solvabilité II pour les assureurs).
Stack recommandée : Architecture 2 minimum (N8N self-hosted + Mistral API EU) avec DPA solide et registre RGPD complet. Pour les données clients bancaires et les analyses financières internes : Architecture 3 (LLM local).
Ressources Humaines
Contraintes légales : Les données RH contiennent souvent des catégories spéciales RGPD art. 9 (origines ethniques dans certains contextes, données syndicales, données médicales en cas d'arrêts maladie). Le Code du travail (art. L.1221-9) impose des obligations de transparence envers les employés sur l'utilisation de systèmes automatisés de décision.
Stack recommandée : Anonymisation obligatoire avant tout LLM externe. Pour l'analyse de CV, de performances ou de données comportementales : Architecture 3 (LLM local) avec journalisation complète. Informer les employés par écrit de l'utilisation de l'IA dans les process RH.
Juridique et cabinets d'avocats
Contraintes légales : Le secret professionnel de l'avocat (art. 66-5 de la loi du 31 décembre 1971) couvre toutes les informations confiées par les clients. Toute donnée transmise à un LLM externe sans anonymisation constitue potentiellement une violation du secret professionnel — avec des conséquences disciplinaires (Conseil de l'Ordre) et pénales.
Stack recommandée : N8N self-hosted + Ollama uniquement — c'est la seule architecture compatible avec le secret professionnel pour les données non-anonymisées. Pour les recherches juridiques sur des textes publics (jurisprudence, doctrine) : SaaS EU acceptable.
Administration publique et collectivités
Contraintes légales : RGPD renforcé pour les données citoyens, NIS 2 (Network and Information Security Directive 2 — transposée en droit français en 2024) pour la cybersécurité des entités essentielles, et recommandations ANSSI qui imposent SecNumCloud pour les données sensibles des administrations.
Stack recommandée : Offres cloud souveraines qualifiées SecNumCloud pour les données sensibles : OVHcloud qualifié, Bleu (Microsoft souverain), S3ns (Google souverain). Pour les collectivités, le catalogue de l'ANCT (Agence Nationale de la Cohésion des Territoires) référence les solutions conformes.
E-commerce et marketing
Contraintes légales : RGPD standard (art. 5-6) pour les données clients. Pas de contrainte sectorielle spécifique, mais les violations RGPD dans le secteur e-commerce sont parmi les plus fréquemment sanctionnées par la CNIL.
Stack recommandée : Architecture 1 ou 2 suffisante — SaaS EU avec DPA + anonymisation avant envoi à LLM pour les données clients. C'est le secteur où le rapport coût/souveraineté est le plus favorable : une stack N8N Cloud EU + Mistral API couvre 95% des besoins pour moins de 100€/mois.
Mise en œuvre concrète : par où commencer
Construire une architecture IA souveraine ne se fait pas en une journée, mais l'approche progressive permet de sécuriser rapidement les points les plus critiques. Voici la feuille de route en 5 étapes.
- Cartographier vos données (1-2 jours)
Identifiez précisément quelles données vous envoyez (ou envisagez d'envoyer) à des LLMs. Créez un tableau : flux de données → type de données → classification (données personnelles ordinaires / données sensibles art. 9 / secrets industriels / données publiques). Cette cartographie détermine votre niveau de souveraineté requis pour chaque flux. La plupart des PME découvrent à cette étape que 60-80% de leurs cas d'usage IA concernent des données non-sensibles — ce qui simplifie considérablement l'architecture. - Définir votre niveau de souveraineté requis par flux (1 jour)
Pour chaque flux identifié, appliquez la règle suivante : données publiques ou non-personnelles → Architecture 1 acceptable ; données personnelles ordinaires (clients, prospects) → Architecture 2 minimum ; données sensibles art. 9 ou secrets industriels → Architecture 3-4. Vous aurez probablement une architecture hybride : différents niveaux pour différents flux, ce qui est tout à fait normal et recommandé. - Mettre en place la couche d'anonymisation (2-5 jours)
Déployez Presidio (Docker container) ou spaCy NER en tant que service HTTP dans votre infrastructure. Configurez N8N pour appeler automatiquement ce service avant tout envoi de données à un LLM externe. Testez sur vos données réelles pour vérifier que toutes les entités personnelles sont bien détectées (prévoir une phase de calibration, surtout pour les données métier spécifiques à votre secteur). - Déployer votre stack souveraine (1-2 semaines)
Selon votre architecture cible : VPS OVH + Docker Compose (N8N + PostgreSQL + Redis) pour l'Architecture 2 ; ajout d'Ollama + GPU cloud pour l'Architecture 3 ; infrastructure on-premise pour l'Architecture 4. Migrez progressivement vos workflows existants (Make, Zapier, Airtable Automations) vers votre stack auto-hébergée, en commençant par les flux les plus critiques. - Documenter et mettre à jour le registre RGPD (1 jour + maintenance)
Chaque traitement IA doit être documenté dans le registre des traitements (art. 30 RGPD) : finalité, base légale, catégories de données traitées, transfert hors UE éventuel et mécanisme de transfert, durée de conservation, mesures de sécurité. Mettez à jour la politique de confidentialité pour informer les personnes concernées de l'utilisation de l'IA dans vos traitements. Ce document est le premier que la CNIL demandera en cas de contrôle.
Les erreurs à ne pas commettre lors du déploiement
- Croire qu'un DPA suffit : un Data Processing Agreement avec OpenAI ou Google ne règle pas le problème du Cloud Act — il gère uniquement la relation contractuelle de sous-traitance.
- Négliger les logs : N8N, Ollama et tous les outils d'IA génèrent des logs qui peuvent contenir des données personnelles. Ces logs doivent être protégés, chiffrés et soumis à une politique de rétention.
- Oublier les endpoints de test : beaucoup d'équipes créent des environnements de test avec des données de production non-anonymisées "temporairement". C'est l'une des sources de violations RGPD les plus fréquentes.
- Sous-dimensionner l'infrastructure : un LLM local qui sature en production est une catastrophe opérationnelle. Prévoyez une marge de capacité de 40-60% sur vos ressources GPU/CPU.
Récapitulatif et feuille de route souveraineté IA
Faisons le point sur l'essentiel. En 2026, l'IA souveraine n'est plus une question de "si" mais de "comment" — et les options sont nombreuses, accessibles et économiquement viables pour les PME françaises de toutes tailles.
Tableau récapitulatif des architectures
| Niveau | Architecture | Coût mensuel | Pour quel type d'entreprise | Protection |
|---|---|---|---|---|
| 1-2 | SaaS EU (Mistral API + N8N Cloud EU) | 50-200€ | Solopreneur, TPE, PME sans équipe tech | Bonne — hors Cloud Act, données UE |
| 2-3 | Self-hosted + API EU (N8N self + Mistral API) | 60-150€ | PME avec 1 dev ou prestataire technique | Très bonne — workflows souverains |
| 3-4 | LLM local + self-hosted (N8N + Ollama + GPU cloud) | 150-400€ | PME avec données sensibles (santé, RH, juridique) | Excellente — données sensibles 100% locales |
| 4 | Souveraineté totale on-premise | 1 000-5 000€ | ETI, secteur public, santé, défense | Maximale — zéro dépendance externe |
Ce que 2026 change vraiment
En 2026, déployer une IA souveraine n'est plus un luxe réservé aux grandes entreprises. Un entrepreneur solo peut avoir une stack IA souveraine à 60€/mois (N8N self-hosted sur VPS OVH + Mistral API EU). Une PME de 50 salariés peut avoir une architecture de niveau bancaire à 300€/mois (N8N self-hosted + Ollama Mistral 24B sur GPU cloud). La question n'est plus "puis-je me le permettre ?" — la question est "puis-je me permettre de ne pas le faire ?" sachant que les amendes CNIL pour violation du RGPD peuvent atteindre 20M€ ou 4% du CA mondial.
- 1. Auditer vos outils IA actuels — listez tous les SaaS IA que vous utilisez et vérifiez si des données personnelles y transitent
- 2. Signer les DPA manquants — pour chaque outil SaaS existant, vérifiez qu'un DPA valide est signé et archivé
- 3. Créer un compte Mistral AI — testez La Plateforme (API EU) comme alternative souveraine à OpenAI pour vos cas d'usage courants
- 4. Installer Presidio en local — testez l'anonymisation automatique sur vos données les plus sensibles (15 minutes avec Docker)
- 5. Planifier la migration N8N self-hosted — si vous utilisez Make ou Zapier, évaluez N8N self-hosted sur OVH comme alternative souveraine
Pour un accompagnement personnalisé sur votre architecture IA souveraine — audit de vos flux de données, recommandation de stack, déploiement et formation — demandez un audit gratuit. Notre équipe analyse votre situation en 30 minutes et vous propose une feuille de route concrète adaptée à votre secteur et vos contraintes RGPD.
Pour comprendre l'ensemble du cadre réglementaire IA en 2026, consultez également notre guide AI Act et audit de conformité, qui détaille les obligations spécifiques selon le niveau de risque de vos systèmes IA.