Donnée non structurée

  • Intermédiaire
  • Transversal

Définition complète

Une donnée non structurée est une donnée sans schéma rigide : texte libre (emails, contrats), images (photos, scans), vidéos, audio, posts social media. Représente 80% des données mondiales 2026 mais historiquement difficile à analyser. Avant LLM : indexation par mots-clés (Elasticsearch), extraction d’entités (NER). Depuis LLM (2022+) : analyse sémantique facile (Claude lit un PDF entier), embeddings vectoriels pour recherche, génération synthèse. Outils : Elasticsearch, OpenSearch, vector databases (Pinecone, Weaviate). Cas usage : analyse avis clients, classification documents juridiques, modération contenu, audit conformité. À ne pas confondre avec « structurée » (schéma rigide), « semi-structurée » (JSON, XML), « big data » (focus volume). Voir aussi : Donnée structurée, LLM, Vector Database, Elasticsearch.

À quoi ça sert

Cas d'usage typiques

1) Une banque : analyse emails clients non structurés via NLP. 2) Un éditeur média : modération auto images + commentaires. 3) Un cabinet d’avocats : analyse contrats via Claude. 4) Une marque : analyse avis Trustpilot via embeddings.

Mises en situation

S'approprier cette notion dans son quotidien de travail

Contexte

Une chef de mission audit d'une imprimerie de proximité découvre la notion de « Donnée non structurée » et souhaite l'appliquer à une situation concrète de son métier.

Application

Elle prend un cas réel rencontré récemment, identifie comment la notion s'y applique et formalise en quelques phrases ce que cela change dans sa pratique. Elle partage le résultat avec un collègue pour s'assurer que sa compréhension tient la route et l'intègre dans sa boîte à outils.

Résultat attendu

La notion sert de cadre commun et facilite les échanges avec les parties prenantes.