Gouverner les données non structurées pour être prêt pour l’IA

Gouverner les données non structurées pour être prêt pour l’IA

Gouverner les données non structurées pour être prêt pour l’IA

Cet article examine les principaux obstacles qui empêchent les organisations de faire évoluer leurs initiatives en IA et démontre comment, selon nous, la plateforme de gestion de la posture de sécurité des données de Qohash, Qostodian, opérationnalise le cadre de gouvernance en cinq étapes de Gartner pour permettre des déploiements sécuritaires de l’IA générative.

Obtenez votre copie gratuite du rapport Gartner Governing Unstructured Data for AI Readiness: A Strategic Roadmap ici!

Le problème des données non-structurées

Plus de la moitié des données organisationnelles demeurent inertes, n’apportant aucune valeur aux initiatives d’IA clés. L’avènement de l’IA générative a transformé la gouvernance des données non structurées d’un défi de longue date en une priorité stratégique urgente. Sans une gouvernance adéquate, les données non structurées ne peuvent pas soutenir efficacement les initiatives d’IA — et pire encore, elles deviennent un vecteur de risques importants en matière de sécurité et de conformité.

Cette recherche de Gartner révèle l’ampleur du défi : les données non structurées (documents, courriels, images, fichiers audio et vidéo) représentent de 70 % à 90 % des données organisationnelles et posent des défis de gouvernance uniques en raison de leur volume, de leur variété et de l’absence de structure cohérente. Les grandes entreprises tripleront leur capacité de données non structurées dans les environnements sur site, à la périphérie et dans les environnements infonuagiques publics d’ici 2028. Pourtant, les stratégies de gouvernance existantes — conçues principalement pour les données structurées — ne suffisent pas à gérer les données non structurées à grande échelle.

La question critique à laquelle font face les RSSI, CISO, CIO et CDO n’est donc pas s’il faut gouverner les données non structurées, mais comment mettre en œuvre une gouvernance complète suffisamment rapidement pour soutenir une adoption sécuritaire et évolutive de l’IA tout en atténuant les risques de sécurité.

Principaux obstacles à l’adoption de l’IA

« Au cours des 12 derniers mois, Gartner a observé une augmentation importante — environ 150 % — des demandes liées à la gestion des données non structurées. Cela souligne la demande critique pour des données prêtes pour la GenAI, car leur absence est la principale raison des échecs de déploiement. »

Cette hausse reflète une réalité dure : les organisations font face à des barrières fondamentales qui empêchent les initiatives en IA de dépasser le stade pilote. À mesure que les organisations accélèrent leurs déploiements d’IA et de modèles de langage, trois obstacles critiques émergent constamment :

  1. Perte de données sensibles via les invites

Les employés saisissent régulièrement des requêtes contenant des informations clients, des données propriétaires ou du contenu réglementé dans les interfaces d’IA sans comprendre le risque d’exposition. Chaque invite devient un vecteur potentiel d’exfiltration, particulièrement lorsque les utilisateurs copient-collent du contenu provenant de documents internes vers des services d’IA externes.

  1. Perte de données sensibles via les téléversements de fichiers

Les fonctionnalités de téléversement de fichiers dans les outils d’IA créent des voies directes d’exposition pour les documents sensibles. Les utilisateurs téléversent des contrats, rapports financiers, dossiers médicaux et autres documents confidentiels pour les résumer ou analyser, contournant souvent les contrôles de prévention de perte de données qui n’étaient pas conçus pour surveiller les interactions avec l’IA.

  1. Accès illimité des agents IA aux sources de données

Il s’agit du risque d’exposition le plus important. Les agents IA ont maintenant un accès continu et non restreint à des sources de données partagées comme OneDrive, SharePoint et les plateformes de stockage infonuagique. Les employés sont à un clic de partager n’importe quelles données auxquelles ils ont accès, et les systèmes agentiques peuvent récupérer et traiter l’information sans supervision humaine ou sans contrôles d’accès granulaires.

Les approches traditionnelles de gouvernance des données supposaient que des intermédiaires humains prendraient les décisions d’accès. Les agents IA, opérant de façon autonome et à grande échelle, nécessitent une posture de sécurité fondamentalement différente — capable d’identifier les données sensibles à la source, d’appliquer les politiques d’accès en temps réel et de corriger les risques d’exposition sans déplacer de grandes quantités de données vers des systèmes centralisés.

La plateforme informatique en périphérie de Qohash est particulièrement bien positionnée pour répondre à ce troisième obstacle en amenant l’intelligence vers les données plutôt que de déplacer les données vers l’intelligence. Cette approche, fondée sur la découverte et la classification des données, permet aux organisations d’éliminer les données inutiles et de réduire la surface d’attaque en matière de sécurité des données.

Les cinq étapes de gouvernance des données non structurées

Le cadre en cinq étapes de Gartner offre une approche systématique de gouvernance des données non structurées. Qostodian se mappe directement à chaque étape, accélérant la préparation des données pour l’IA tout en maintenant sécurité et conformité.

Obtenez votre copie gratuite du rapport Gartner Governing Unstructured Data for AI Readiness: A Strategic Roadmap ici!

Étape 1 : Découvrir et cataloguer

Les organisations doivent localiser les données non structurées dispersées à travers les postes de travail, le stockage infonuagique, les applications d’affaires, les systèmes de courriels et d’autres dépôts. Les processus manuels ne sont pas viables à grande échelle — des outils automatisés sont essentiels pour traiter de grands volumes de données dans divers formats.

Capacité de Qostodian : Découverte des données à grande échelle utilisant des types d’information sensible prédéfinis et personnalisés. La plateforme assure une surveillance et une découverte continues des données sensibles, garantissant que les nouvelles données sont automatiquement cataloguées au fur et à mesure qu’elles sont créées ou modifiées.

Résultat : Qostodian maintient une visibilité à jour sur l’ensemble du paysage de données grâce à une découverte continue, identifiant où se trouvent les données sensibles sans avoir à déplacer les données vers des systèmes centralisés.

Étape 2 : Prétraiter et analyser

Les données non structurées souffrent souvent de problèmes de qualité : formats incohérents, caractères illisibles, bruit non désiré. Le travail d’analyse convertit ces données en contenu structuré et exploitable grâce à des technologies comme l’identification des données sensibles (détection des renseignements personnels ou médicaux), la modélisation de sujets, l’analyse de sentiment, l’OCR et la transcription audio.

Capacité de Qostodian : Métadonnées résumées incluant le type de fichier, le type de données sensibles présentes et l’emplacement de la source de données. La plateforme analyse automatiquement le contenu pour extraire ces métadonnées critiques sans révision manuelle.

Résultat : Les organisations peuvent prioriser l’information sensible grâce à des métadonnées détaillées, comprenant non seulement où se trouvent les données, mais aussi quel type d’information sensible elles contiennent — facilitant la priorisation basée sur le risque pour la gouvernance et la préparation à l’IA.

Étape 3 : Étiqueter et classifier

Le marquage des métadonnées ajoute de l’information descriptive aux fichiers, facilitant l’organisation, la recherche, la gestion et la sécurisation des données. La classification permet l’application d’approches de gouvernance appropriées pour la sécurité et la conformité.

Capacité de Qostodian : Étiquetage et classification automatisés basés sur l’analyse de contenu et les politiques prédéfinies. Les étiquettes peuvent être utilisées immédiatement pour les contrôles d’accès.

Résultat : Qostodian crée des étiquettes pouvant être utilisées dans des listes noires afin d’empêcher certains fichiers ou sources de données d’être accessibles par les modèles de langage. Cette intégration directe entre classification et contrôle d’accès est essentielle pour bloquer les trois principaux obstacles à l’adoption de l’IA, notamment en empêchant les agents IA d’accéder aux données sensibles qu’ils ne devraient pas récupérer.

Étape 4 : Connecter et partager

Les éléments individuels de données non structurées ont une valeur limitée à moins d’être analysés et reliés à d’autres données ou processus d’affaires. Les bases de données orientées graphes et les knowledge graphs permettent de cartographier les relations entre données structurées et non structurées via des nœuds interconnectés.

Capacité de Qostodian : Création de relations entre les données, sources de données, conteneurs, utilisateurs et types de fichiers. Cette cartographie relationnelle offre une visibilité complète sur les flux et l’usage des données.

Résultat : Cartographie, étiquetage et application de règles de partage dans les LLM et autres systèmes. Les organisations comprennent mieux comment les données circulent dans leur environnement, quels utilisateurs y accèdent et comment les agents IA interagissent avec les sources de données — permettant des contrôles d’accès efficaces pour des systèmes agentiques ayant des permissions étendues.

Étape 5 : Définir, exécuter et appliquer les politiques de données

Des politiques claires et pratiques guident la façon dont les données sont manipulées, protégées et utilisées tout au long de leur cycle de vie. Cela inclut : politiques de conformité et juridiques, politiques de classification, politiques d’accès, politiques de gestion du cycle de vie, politiques de sécurité, de stockage, de sensibilité et de protection de la vie privée.

Capacité de Qostodian : Utilisation de règles automatisées pour définir et appliquer les politiques de gouvernance de l’IA en temps réel. Les capacités de remédiation à la périphérie permettent la suppression, la mise en quarantaine ou la modification des accès tout en gardant les données en place.

Résultat : Les règles de gouvernance documentées alimentent des garde-fous qui empêchent l’accès non autorisé, appliquent les exigences de rétention et assurent la conformité dans les systèmes d’IA. Les organisations peuvent appliquer ces politiques sans déplacer les données, minimisant les coûts de mouvement et les risques tiers tout en maintenant une posture de sécurité solide.

Conclusion et recommandations

La gouvernance des données non structurées n’est plus optionnelle pour les organisations qui poursuivent des initiatives en IA. Selon nous, la recherche de Gartner confirme que l’absence de gouvernance adéquate est la principale raison pour laquelle les déploiements de GenAI ne passent pas à l’échelle. La convergence entre sécurité des données, gouvernance de l’IA et gouvernance des données est essentielle pour une adoption sécuritaire.

Gartner prévoit que d’ici 2027, 60 % des équipes de gouvernance des données seront mandatées pour prioriser la gouvernance des données semi-structurées et non structurées afin d’en extraire la valeur et d’améliorer la prise de décision via des cas d’usage GenAI. D’ici 2029, plus de 80 % des données non structurées seront déployées sur des plateformes de stockage consolidées plutôt que sur des systèmes séparés de fichiers et d’objets — une hausse significative comparativement à 40 % au début de 2024.

Les organisations qui mettent en place une gouvernance complète dès maintenant — en s’appuyant sur des plateformes comme Qostodian qui opérationnalisent le cadre en cinq étapes — profiteront d’avantages concurrentiels en matière de vitesse de déploiement, de précision des modèles et de réduction des risques.

Le cadre existe. La technologie est disponible. L’impératif est clair.
Il n’y a pas d’adoption sécuritaire de l’IA sans sécurité des données, et pas de sécurité des données efficace sans une gouvernance complète des données non structurées. Les organisations qui reconnaissent cette convergence et agissent rapidement transformeront leurs vastes dépôts de données non structurées — aujourd’hui des passifs de sécurité — en véritables différenciateurs concurrentiels dans un monde de plus en plus propulsé par l’IA.


Écrit par :

Profile Picture of Kurt Van Etten

Kurt Van Etten

vice-président adjoint, produit

LinkedIn icon

Publications récents

Un groupe manufacturier optimise son cycle de vie des données et accélère sa conformité grâce à Qohash
Études de cas

Un groupe manufacturier optimise son cycle de vie des données et accélère sa conformité grâce à Qohash

Lire la publication →