Symbolbild: Datenqualität und KI im redaktionellen Magazinkontext
03.04.2026

Qualité des données dans les PME : pourquoi l’IA échoue sans données propres

7 min de lecture

Les projets d’IA échouent – mais rarement à cause de l’IA elle-même. Dans la plupart des cas, le problème se situe un étage plus bas : au niveau des données. Celui qui investit dans l’IA générative en 2026 sans avoir préalablement vérifié la qualité de ses données brûle son budget et perd confiance dans la technologie.

L’essentiel en bref

  • 57 % ne sont pas prêts : Plus de la moitié des entreprises estiment que leurs propres données ne sont pas adaptées à l’IA (Gartner, T3 2024).
  • Taux d’abandon de 60 % : Les projets d’IA sans base de données de qualité assurée sont majoritairement abandonnés selon les prévisions de Gartner (Gartner, février 2025).
  • 73 % citent les données comme barrière : La qualité des données est l’obstacle le plus mentionné pour le succès de l’IA par les décideurs (Capital One/Morning Consult, juillet 2024).
  • La réglementation augmente la pression : Le EU AI Act (article 10) impose une qualité des données démontrable pour l’IA à haut risque – à partir d’août 2026.
  • Six dimensions décisives : Exhaustivité, exactitude, actualité, cohérence, univocité et validité forment le cadre DAMA pour une qualité des données mesurable.

La vérité qui dérange : la plupart des données ne sont pas prêtes pour l’IA

L’Allemagne investit massivement dans l’intelligence artificielle. Selon une étude Bitkom 2025, 36 % des entreprises allemandes utilisent déjà activement l’IA – presque deux fois plus que l’année précédente. 47 % supplémentaires planifient ou discutent de son adoption. Pourtant, cet enthousiasme masque un problème fondamental : les données sur lesquelles ces projets d’IA dans les PME doivent s’appuyer ne sont, dans la majorité des cas, pas prêtes.

Une enquête de Gartner auprès de 248 responsables de la gestion des données au troisième trimestre 2024 livre des chiffres décevants : 57 % des entreprises estiment que leurs propres données ne sont pas adaptées à l’IA. Plus grave encore : 63 % indiquent soit ne pas avoir de pratiques appropriées de gestion des données, soit ne pas en être conscientes. En février 2025, Gartner a aggravé sa prévision : 60 % de tous les projets d’IA qui ne reposent pas sur des données prêtes pour l’IA seront abandonnés.

57 %
des entreprises
60 %
sans préparation des données
73 %
citent la qualité des données

Sources : Gartner T3 2024, Gartner février 2025, Capital One/Morning Consult juillet 2024

Pourquoi la GenAI aggrave le problème des données

L’IA générative réagit plus sensiblement à la qualité des données que l’analytique classique. Un tableau de bord avec des chiffres de ventes erronés finit par être remarqué. Un modèle d’IA entraîné sur des données de référence incohérentes produit des résultats qui semblent plausibles, mais qui sont faux – et personne ne s’en aperçoit immédiatement. C’est là le cœur du problème : la GenAI rend les mauvaises données invisibles au lieu de les rendre visibles.

Dans le reporting classique, les incohérences de données entraînent des contradictions évidentes. Si le rapport de ventes affiche deux chiffres différents, quelqu’un pose la question. Avec un modèle de prévision assisté par IA, cela ne se produit pas : il calcule une réponse apparemment plausible sur la base de données biaisées. Ce n’est que lorsque la prévision des besoins est erronée pendant des mois ou que le chatbot fournit aux clients de fausses informations sur les produits que le problème de données devient visible – trop tard et trop coûteux.

Les CDO Insights 2025 d’Informatica – une enquête menée auprès de 600 Chief Data Officers dans le monde – montrent les conséquences : 67 % des responsables des données interrogés n’ont même pas pu mettre en production plus de la moitié de leurs projets pilotes de GenAI. 43 % des responsables des données citent la qualité des données, l’exhaustivité des données et la préparation des données comme le plus grand obstacle dans les projets d’IA. En même temps, 92 % des CDOs ont indiqué être préoccupés par le fait que les projets pilotes d’IA avancent sans que les problèmes de données existants soient résolus au préalable.

L’étude mondiale GenAI de NTT DATA de novembre 2024, basée sur 2 300 décideurs de 34 pays, confirme ce tableau : 70 à 85 % des déploiements de GenAI n’atteignent pas le retour sur investissement souhaité. La raison la plus fréquente : la base de données n’était pas assez solide pour une utilisation en production.

Particulièrement insidieux : la PME type travaille avec cinq à quinze systèmes différents, allant de l’ERP au CRM en passant par des solutions sectorielles spécialisées et des listes Excel manuelles. Chaque système a ses propres formats de données, ses propres processus de maintenance, ses propres responsables – et souvent aussi ses propres définitions pour des termes apparemment simples comme « client actif » ou « commande ouverte ». La qualité des données se dégrade aux interfaces entre ces systèmes – précisément là où les modèles d’IA doivent être entraînés de manière transversale. Celui qui ne connaît pas systématiquement ces points de rupture ne peut pas les réparer.

Les six dimensions de la qualité des données

La qualité des données n’est pas une question de feeling. Le cadre DAMA International (Data Management Body of Knowledge) définit six dimensions mesurables. Pour les PME, il est utile de faire un bilan honnête avec sa propre base de données :

Dimension Ce qu’elle mesure Problème typique dans les PME
Exhaustivité Tous les champs requis sont-ils remplis ? Contacts CRM sans secteur ou taille d’entreprise
Exactitude Les données reflètent-elles correctement la réalité ? Adresses clients obsolètes, numéros d’articles incorrects
Actualité Les données sont-elles suffisamment actuelles pour l’usage prévu ? Stocks mis à jour seulement une fois par jour
Cohérence Les données sont-elles cohérentes entre les systèmes ? Données de référence clients divergentes entre ERP et CRM
Univocité Y a-t-il des doublons ? Le même fournisseur trois fois dans le système – orthographié différemment
Validité Les données respectent-elles les règles définies ? Champs de texte libre au lieu d’entrées structurées

L’entreprise d’analyse BARC confirme la pertinence : dans le Data, BI and Analytics Trend Monitor annuel, la gestion de la qualité des données figure depuis six ans parmi les deux principaux sujets – en 2024, elle se classe à nouveau juste derrière la sécurité des données. Ce n’est pas un nouveau problème, mais c’est un problème qui devient beaucoup plus coûteux avec l’IA.

Un exemple concret tiré de la pratique : un constructeur de machines de taille moyenne souhaite introduire des prévisions de demande assistées par IA. Les données de référence des articles dans l’ERP sont complètes à 85 % – ce qui semble acceptable. Pourtant, parmi les 15 % manquants, on trouve de manière disproportionnée des nouveaux produits et des pièces de rechange à forte marge. Le modèle de prévision apprend systématiquement de manière erronée, car il ne connaît pas les produits les plus rentables. Ce n’est qu’après six mois que l’écart est remarqué – six mois de perte d’optimisation.

La pression réglementaire augmente

Outre le risque économique, la pression réglementaire s’intensifie. Le EU AI Act stipule dans son article 10, pour les systèmes d’IA à haut risque, des exigences concrètes en matière de qualité des données : les données d’entraînement, de validation et de test doivent être pertinentes, suffisamment représentatives et, dans la mesure du possible, exemptes d’erreurs et complètes. Les fournisseurs doivent prouver qu’ils recherchent systématiquement les biais et les corrigent. Les dispositions relatives aux systèmes à haut risque entreront en vigueur en août 2026.

Bien que la plupart des applications d’IA dans les PME – comme les prévisions de demande, les chatbots ou l’optimisation des processus – ne relèvent pas de la catégorie à haut risque, celles qui utilisent l’IA dans la gestion des ressources humaines, l’évaluation de la solvabilité ou dans des domaines liés à la sécurité sont directement concernées. Et même sans classification à haut risque, le AI Act établit une norme que les clients et partenaires attendront de plus en plus.

Parallèlement, la CSRD renforce les exigences en matière de données ESG. Selon le Workiva Sustainability Practitioner Survey 2024 (2 000 professionnels interrogés), 83 % des entreprises considèrent déjà la collecte des données de durabilité requises comme difficile. 79 % ont des problèmes de vérification. Les normes EFRAG comprennent plus de 1 100 points de données individuels pour le reporting CSRD – un défi pour toute entreprise qui ne gère pas systématiquement la qualité de ses données.

Celui qui ne maîtrise pas sa gouvernance des données se retrouve avec deux chantiers simultanés : les projets d’IA et la conformité. L’avantage : celui qui investit dans la qualité des données pour l’IA en profite automatiquement pour le reporting ESG – et vice versa. Les deux exigences vont dans le même sens : des données structurées, complètes et traçables.

Cinq étapes vers une base de données prête pour l’IA

La qualité des données n’est pas un projet avec un début et une fin. C’est une capacité qu’une entreprise doit développer. Ces cinq étapes constituent un point de départ réaliste pour les PME :

1. Réaliser un inventaire des données. Avant tout projet d’IA, il faut se poser la question : quelles données avons-nous, où se trouvent-elles et qui les entretient ? De nombreuses PME sous-estiment le nombre de leurs sources de données. ERP, CRM, listes Excel, dossiers PartagerPoint, boîtes de réception e-mail – tout compter, rien omettre. Le résultat est une cartographie des données : un aperçu de toutes les sources avec les responsables, la fréquence de mise à jour et une évaluation de la qualité. Ce document est la base de toute décision ultérieure.

2. Mesurer la qualité au lieu de la supposer. Utiliser les six dimensions DAMA comme checklist. Pour le cas d’usage concret de l’IA, identifier les trois dimensions les plus pertinentes et les vérifier par échantillonnage. Exemple : pour une prévision de la demande, l’exhaustivité, l’actualité et la cohérence sont critiques. Pour un chatbot de service client, en revanche, l’exactitude et la validité le sont. Il est utile de vérifier manuellement 100 enregistrements de données et d’extrapoler le taux d’erreur. Cela prend une demi-journée et fournit une évaluation fiable.

3. Définir les responsabilités. La qualité des données ne s’améliore pas sans une responsabilité claire. Il n’est pas nécessaire d’avoir un Chief Data Officer – mais une personne par système clé qui est responsable de la maintenance des données. Dans les PME, il s’agit souvent du responsable de service, pas de l’IT. L’essentiel est que cette responsabilité ne soit pas seulement attribuée, mais aussi soutenue par du temps et des outils. Un responsable commercial qui est également responsable de la qualité des données CRM en plus de ses autres tâches mettra toujours ce sujet de côté.

4. Introduire des vérifications automatisées. La correction manuelle ne passe pas à l’échelle. Les outils d’observabilité des données comme Soda.io ou Great Expectations détectent automatiquement les anomalies – par exemple, si un champ obligatoire reste soudainement vide dans 30 % des nouveaux enregistrements de données ou si une valeur numérique s’écarte de plusieurs ordres de grandeur de la plage habituelle. Le marché de ces outils croît actuellement de plus de 16 % par an – leur licence basée sur l’utilisation les rend accessibles même aux petites entreprises. Celui qui ne souhaite pas introduire de logiciel supplémentaire peut commencer avec de simples requêtes SQL ou des scripts Python sur l’infrastructure de base de données existante.

5. Commencer petit et apprendre. Ne pas nettoyer toute la base de données en une fois. Au lieu de cela : choisir un cas d’usage concret de l’IA, sécuriser la qualité des données uniquement pour celui-ci et en tirer des enseignements. Les connaissances acquises lors du premier projet – quelles sources de données étaient problématiques, quelles étapes de nettoyage ont eu le plus grand effet – s’appliquent à tous les projets suivants. Gartner prévoit que d’ici 2028, 80 % des applications métiers de GenAI seront développées sur des plateformes existantes de gestion des données. Celui qui pose les bases aujourd’hui pourra profiter de cette évolution.

Conclusion

Les chiffres sont clairs : les investissements dans l’IA sans sécurisation préalable de la qualité des données sont des investissements à risque. 57 % des entreprises le savent déjà – et pourtant, elles ne font pas assez. Pour les PME, cela représente aussi une opportunité : celle qui met maintenant sa base de données en ordre dispose d’un avantage structurel par rapport aux concurrents qui lancent des projets d’IA et ne réalisent qu’après coup que les fondations manquent.

La première étape ne doit pas être un grand projet. Un inventaire des données pour le cas d’usage le plus important, une évaluation honnête de la qualité et une responsabilité claire suffisent pour commencer. Le reste en découlera – à condition que la qualité des données ne soit pas considérée comme un projet informatique ponctuel, mais comme une tâche de gestion continue. La technologie est prête. La question est de savoir si les données le sont aussi.

Questions fréquentes

Comment savoir si mes données sont prêtes pour l’IA ?

Vérifiez les six dimensions DAMA (exhaustivité, exactitude, actualité, cohérence, univocité et validité) à l’aide d’un échantillon du cas d’usage prévu pour l’IA. Si plus de dix pour cent des enregistrements de données sont défaillants dans l’une des dimensions, un nettoyage est nécessaire avant le démarrage de l’IA. Gartner estime que 57 % des entreprises échouent à ce test.

Quel est le coût d’une mauvaise qualité des données ?

Les coûts directs résultent de mauvaises décisions, de corrections manuelles et de projets échoués. Les coûts indirects proviennent de la perte de confiance dans les initiatives d’IA et du retard dans la digitalisation. L’étude NTT DATA 2024 montre que 70 à 85 % des déploiements de GenAI n’atteignent pas leur ROI prévu – souvent en raison d’une base de données insuffisante.

Une PME a-t-elle besoin d’un Chief Data Officer ?

Pas nécessairement. Plus important que le titre est une responsabilité claire pour la qualité des données par système clé. Dans les PME, cela peut être coordonné par le responsable informatique, tandis que les responsables de services assument la responsabilité opérationnelle de leurs données. L’essentiel est que quelqu’un vérifie régulièrement et collecte des indicateurs de qualité.

Quel rôle joue le EU AI Act pour la qualité des données ?

L’article 10 du EU AI Act impose pour les systèmes d’IA à haut risque une qualité des données démontrable : les données d’entraînement doivent être pertinentes, représentatives et, dans la mesure du possible, exemptes d’erreurs. Les biais doivent être systématiquement vérifiés. La plupart des applications d’IA dans les PME ne relèvent pas de la catégorie à haut risque, mais cette norme s’imposera comme une attente du marché. Celui qui dispose aujourd’hui de données propres aura moins à rattraper plus tard.

Combien de temps faut-il pour rendre une base de données prête pour l’IA ?

Pour un seul cas d’usage, un délai réaliste est de quatre à huit semaines – à condition que les sources de données soient connues et que le cas d’usage soit clairement défini. Les programmes de qualité des données à l’échelle de l’entreprise prennent six à douze mois avant la première amélioration mesurable. Important : ne pas tout nettoyer en une fois, mais procéder par cas d’usage.

Source de l’image : Pexels / Kampus Production (px:6248957)

Aussi disponible enAnglais  ·  Allemand  ·  Espagnol

Aussi disponible en

Un magazine de evernine media GmbH