Donnée non structurée
- Intermédiaire
- Transversal
Définition complète
Une donnée non structurée est une donnée sans schéma rigide : texte libre (emails, contrats), images (photos, scans), vidéos, audio, posts social media. Représente 80% des données mondiales 2026 mais historiquement difficile à analyser. Avant LLM : indexation par mots-clés (Elasticsearch), extraction d’entités (NER). Depuis LLM (2022+) : analyse sémantique facile (Claude lit un PDF entier), embeddings vectoriels pour recherche, génération synthèse. Outils : Elasticsearch, OpenSearch, vector databases (Pinecone, Weaviate). Cas usage : analyse avis clients, classification documents juridiques, modération contenu, audit conformité. À ne pas confondre avec « structurée » (schéma rigide), « semi-structurée » (JSON, XML), « big data » (focus volume). Voir aussi : Donnée structurée, LLM, Vector Database, Elasticsearch.
À quoi ça sert
Cas d'usage typiques
1) Une banque : analyse emails clients non structurés via NLP. 2) Un éditeur média : modération auto images + commentaires. 3) Un cabinet d’avocats : analyse contrats via Claude. 4) Une marque : analyse avis Trustpilot via embeddings.
Mises en situation
S'approprier cette notion dans son quotidien de travail
Contexte
Une chef de mission audit d'une imprimerie de proximité découvre la notion de « Donnée non structurée » et souhaite l'appliquer à une situation concrète de son métier.
Application
Elle prend un cas réel rencontré récemment, identifie comment la notion s'y applique et formalise en quelques phrases ce que cela change dans sa pratique. Elle partage le résultat avec un collègue pour s'assurer que sa compréhension tient la route et l'intègre dans sa boîte à outils.
Résultat attendu
La notion sert de cadre commun et facilite les échanges avec les parties prenantes.