Gouvernance de l’IA : l’injection indirecte d’instructions, le risque majeur des systèmes RAG et des agents IA

L’injection indirecte d’instructions détourne les agents IA et le RAG via les emails, pages et documents. Chiffres 2025 - 2026 + contrôles concrets.

Normes et Règlementations

Gouvernance de l’IA : l’injection indirecte d’instructions, le risque majeur des systèmes RAG et des agents IA

L’injection indirecte d’instructions détourne les agents IA et le RAG via les emails, pages et documents. Chiffres 2025 - 2026 + contrôles concrets.

Rédigé le avril 7, 2026

Introduction

L’IA générative n’est plus cantonnée à “rédiger un texte”. En 2026, elle lit vos emails et vos documents, recherche dans vos bases internes, résume des procédures, et parfois agit (création de tickets, envoi de messages, extraction de données, automatisations). Cette évolution rend un risque particulièrement critique : l’injection indirecte d’instructions.

Contrairement à une attaque “frontale” où l’attaquant parle directement au système, ici l’instruction malveillante est cachée dans une source consultée par l’IA (email, page web, PDF, base de connaissances). Le danger, côté gouvernance, c’est que l’IA traite ces contenus comme du contexte “utile” et peut alors être détournée de l’objectif initial.

-> Vous déployez un agent IA ou un RAG sur des contenus internes/externe ? La maîtrise de ce risque relève de la gestion des risques IA et de la gouvernance (rôles, règles d’accès, contrôles, preuves). Formation recommandée : Lead AI Risk Manager

Chiffres clés (2025 - 2026) : pourquoi ce risque est désormais niveau direction

Les attaques “accélérées par l’IA” progressent fortement : CrowdStrike observe +89% d’activité d’adversaires utilisant l’IA, avec un “temps de percée” moyen à 29 minutes en 2025 (et un record observé à 27 secondes).

CrowdStrike rapporte aussi des injections d’instructions malveillantes dans des outils d’IA générative chez plus de 90 organisations, et des intrusions où l’exfiltration de données démarre en moins de 4 minutes.

Côté usages internes (donc surface d’exposition) : 70% des employés déclarent utiliser des outils d’IA publics gratuits au travail, et 48–49% admettent avoir téléversé des informations sensibles (financières, ventes, clients, contenus protégés) dans des outils d’IA publics.

Au niveau organisationnel, McKinsey indique que 71% des répondants déclarent un usage régulier de l’IA générative dans au moins une fonction, mais les pratiques de déploiement maîtrisé restent inégales (revue des sorties, indicateurs, formation par rôle, etc.)

Ces chiffres disent une chose simple : l’IA devient un composant du système d’information, donc un actif à gouverner au même titre qu’un ERP ou une messagerie.

Définition : qu’est-ce que l’injection indirecte d’instructions ?

L’injection indirecte d’instructions consiste à insérer des consignes cachées dans les données que l’IA consulte (emails entrants, pages web, documents, base de connaissances). Lorsque l’agent IA ou le RAG “ingère” ces contenus, l’instruction peut modifier le comportement attendu : divulgation d’informations, décisions biaisées, actions non autorisées, etc. OWASP classe l’injection d’instructions comme un risque majeur pour les applications fondées sur des grands modèles de langage.

Pourquoi c’est un sujet de gouvernance (et pas seulement de technique)

1) Parce que l’IA consomme des sources “hors périmètre de confiance”

Email, web, pièces jointes, documents collaboratifs : ce sont des espaces où un acteur externe (ou une erreur interne) peut déposer un contenu piégé.

2) Parce que les agents IA ajoutent un facteur aggravant : l’action

OWASP décrit le risque d’agentivité excessive : quand un système IA dispose d’une autonomie/permissions trop élevées, des sorties ambiguës ou manipulées peuvent déclencher des actions dommageables.

3) Parce que le RAG apporte une autre surface : vecteurs, bases et récupération

OWASP met aussi en avant les faiblesses liées aux vecteurs et représentations utilisées par les dispositifs de RAG, pouvant mener à l’injection de contenu nuisible, à la manipulation des sorties ou à l’accès à des informations sensibles.

3) Parce que le RAG apporte une autre surface : vecteurs, bases et récupération

Ce que dit la recherche récente : ce risque est “réel”, mesurable, et parfois très efficace

A) Sur les agents IA : des taux de réussite élevés dans des scénarios réalistes

Une étude 2026 sur l’injection indirecte d’instructions “en conditions réalistes” montre qu’un seul email empoisonné peut suffire à détourner un système : sur un scénario multi-agents, les auteurs rapportent >80% de réussite pour provoquer une action de fuite de secrets dans leur expérimentation. Plus frappant : un même modèle peut être relativement résistant en configuration simple, puis devenir vulnérable en orchestration multi-agents (par exemple 72% à 80% selon la configuration testée). -> Lecture gouvernance : l’architecture (mono-agent vs multi-agents, chaînes d’outils) fait partie du risque. On ne peut pas “auditer l’IA” sans auditer le système.

B) Sur le RAG : l’empoisonnement de connaissances atteint des niveaux très élevés

Des travaux présentés à USENIX Security 2025 montrent des attaques d’empoisonnement de base de connaissances pouvant atteindre ~90% de réussite (dans leur protocole) lorsqu’on injecte plusieurs contenus malveillants ciblés.

B) Sur le RAG : l’empoisonnement de connaissances atteint des niveaux très élevés

C) Sur le web social : des défenses simples réduisent fortement le taux de réussite

Un article 2026 proposant un jeu d’essai orienté “web social” mesure un taux de réussite d’injection indirecte ~22,7% à 28,9% en configuration “sans défense”, et montre qu’un ensemble de contre-mesures (nettoyage de formats, normalisation Unicode, réponse conditionnée à l’attribution) peut réduire ce taux à ~4,3% à 5,4% avec un coût de latence limité (le nettoyage à l’ingestion ajoute environ 3,1% de latence). -> Lecture gouvernance : une partie du risque se réduit avec des contrôles à faible coût, à condition de les rendre obligatoires (politiques + exigences techniques + preuves).

Le scénario le plus fréquent en entreprise (et le plus sous-estimé)

Un collaborateur demande à l’assistant : “Résume-moi les emails sur X / prépare une réponse / fais une synthèse”.
Dans le lot d’emails, un contenu contient une instruction cachée (dans le texte, une zone non visible, une pièce jointe, etc.).
L’agent IA traite ce contenu comme du contexte et altère sa réponse (fuite d’informations, recommandations erronées, actions non désirées si l’agent a des accès).

Ce n’est pas théorique : l’écosystème sécurité (rapports d’incidents et observations) documente la montée de ces attaques et la nécessité d’accélérer la défense.

Cartographie “gouvernance IA” : où placer ce risque dans votre registre des risques

Dans un registre des risques IA, l’injection indirecte d’instructions se traite rarement seule : elle se combine souvent avec :

Injection d’instructions (OWASP) : détournement du comportement.
Divulgation d’informations sensibles : l’IA révèle des données.
Agentivité excessive : l’IA agit au-delà de l’intention.
Faiblesses des vecteurs et représentations (RAG) : récupération/pertinence manipulées, empoisonnement, accès non prévu.

Mesures de maîtrise : 10 contrôles concrets à exiger (et à prouver)

Voici un socle “gouvernance + technique”, compatible avec une démarche de système de management de l’IA telle que décrite par ISO/IEC 42001 (périmètre, responsabilités, gestion des risques, amélioration continue).

1) Définir des frontières de confiance sur les sources

Classification : interne validée / interne non validée / externe
Règles : quelles sources peuvent alimenter quel cas d’usage

2) Réduire au strict nécessaire les permissions des agents

Séparation des rôles (lecture vs action)
Actions sensibles sous validation humaine

3) Nettoyer et normaliser les contenus ingérés

Assainissement des formats (HTML/Markdown), neutralisation de contenus masqués, normalisation Unicode
Les résultats “web social” montrent que ces mesures peuvent réduire fortement la réussite des injections.

4) Imposer l’attribution des sources dans les réponses

L’agent doit citer d’où vient chaque affirmation
Si source douteuse → réponse limitée / demande de validation

5) Mettre des “garde-fous d’action"

Une étape dédiée vérifie l’alignement avec l’objectif utilisateur avant exécution (approche de type “contrôle d’alignement”).
(Sans entrer dans l’implémentation, l’idée gouvernance est : une barrière entre “raisonner” et “agir”.)

6) Journaliser de bout en bout (preuves)

Requête, sources consultées, extraits utilisés, décisions, actions, résultats Indispensable en audit / incident / conformité.

7) Évaluer l’architecture multi-agents comme facteur de risque

La recherche montre un effet d’amplification en orchestration multi-agents (forte variation des taux de réussite).

8) Mettre en place des tests de sécurité IA récurrents

Tests orientés injection indirecte + empoisonnement RAG
Jeux d’essai et indicateurs (taux d’obéissance à des instructions externes, fuite d’informations, etc.)

9) Encadrer les usages employés (politique + formation)

Les données montrent un décalage massif entre usage et maîtrise : beaucoup d’employés utilisent des outils publics et y déposent des données sensibles.

10) Gouverner par indicateurs et responsabilités

McKinsey souligne l’importance des pratiques d’adoption : formation par rôle, mécanismes de confiance, suivi d’indicateurs, revue des sorties.

Comment la formation Lead AI Risk Manager vous aide à maîtriser ce risque

Ce risque est l’exemple parfait d’un sujet qui exige une double compétence : gestion des risques + gouvernance + réalité opérationnelle des systèmes IA (RAG/agents). Dans une logique “Lead AI Risk Manager”, vous devez être capable de :

Construire un registre des risques IA et prioriser (impact / vraisemblance / détectabilité)
Définir des mesures de maîtrise (organisationnelles et techniques) et des preuves
Aligner la démarche avec un système de management de l’IA (type ISO/IEC 42001)
Transformer ces exigences en plan d’action (responsables, jalons, contrôles, indicateurs).

FAQ

1) Quelle différence entre injection d’instructions directe et indirecte ?

Directe : l’attaquant parle au système. Indirecte : l’instruction est cachée dans une source consultée par l’IA (email, document, web).

2) Pourquoi le RAG augmente le risque ?

Parce qu’il introduit une étape de récupération dans une base de connaissances (vecteurs/représentations) qui peut être manipulée ou empoisonnée.

3) Pourquoi les agents IA sont plus risqués que les assistants “lecture seule” ?

Ils peuvent agir (outils, automatisations) : si l’agentivité est trop élevée, une sortie manipulée peut déclencher une action non souhaitée.

4) Est-ce vraiment exploitable en pratique ?

Oui : des études 2025–2026 mesurent des taux de réussite significatifs, y compris dans des configurations réalistes (RAG et orchestration multi-agents).

Nos autres articles