3. Donner du sens aux données
La couche donnée
Définition selon Pr. Bruno Bachimont:
“La donnée est une inscription formatée minimale renvoyant à un fait”
Trois caractéristiques:
- Formatée: formulée dans un langage avec syntaxe formelle, manipulable par une machine
- Minimale: indécomposable en faits plus élémentaires ou sous-propositions
- Fait: pourvue d’une valeur de vérité
Propriété importante: “La donnée possède une signification non contextuelle”
Exemple:
âge = "70"
âge est une valeur pouvant varier de 0 à 150 de type entier naturel
Exemple de données brutes:
"2" "TGV" "15"
Ces symboles seuls n’ont pas de sens exploitable.
La couche information
Définition: “L’information correspond à la donnée mise en réseau”
Réseau signifie que la donnée peut être articulée et mise en relation avec d’autres données (schéma relationnel, graphe).
Le réseau permet d’interpréter les données.
Exemple de transformation données vers information:
"2" "TGV" "15"
↓
2nde classe, TGV, Voiture n°15
Principe fondamental: “La donnée est une représentation de l’information. L’information est extraite par l’interprétation de la donnée.”
graph LR A[Donnée] --> B[Information]
La couche connaissance
Définition: “La connaissance est l’information plongée dans un contexte d’interprétation”
L’interprétation est enrichie par des règles contextuelles, culturelles et métiers.
Exemple avec le billet de train:
"2" "TGV" "15"
↓
2nde classe, TGV, Voiture n°15
↓
SNCF, Quai de gare, Billet moins cher
Exemple avec l’âge contextuel:
âge = "70"
↓
Dossier administratif: droits à la protection sociale
Dossier médical: facteur de risque
Le même symbole “70” prend un sens différent selon le contexte métier.
graph LR A[Donnée] --> B[Information] B --> C[Connaissance]
La couche sagesse
Définition: “Est sage celui qui possède les interprétants permettant de dégager le sens des énoncés en contexte”
C’est la capacité à prendre des décisions en toute connaissance.
Caractéristique importante: la machine est par nature exclue de cette couche.
La sagesse requiert un jugement humain.
graph LR A[Donnée] --> B[Information] B --> C[Connaissance] C --> D[Sagesse]
Pyramide complète
Les quatre niveaux de sens:
- Donnée: symbole brut formaté
- Information: donnée mise en réseau
- Connaissance: information en contexte
- Sagesse: capacité de décision humaine
Chaque niveau enrichit le précédent en ajoutant du sens et du contexte.
4. Le Triplet RDF
Concept du Statement (Énoncé)
Un statement est composé de trois éléments:
- Subject: ressource à décrire
- Predicate: type de propriété applicable à la ressource
- Object: valeur de la propriété
Exemple simple:
David Bowie | est un | chanteur
Subject | Predicate | Object
Composition des triplets
Les objets peuvent devenir sujets dans d’autres triplets.
Exemples enchaînés:
David Bowie | performe | Space Oddity
Space Oddity | est sorti le | 1969-07-11
Space Oddity est objet dans le premier triplet et sujet dans le second.
Types de valeurs
Deux types possibles pour l’objet:
- Ressource: entité identifiable, peut devenir sujet d’un autre triplet
- Literal: valeur brute (texte, nombre, date) ne pouvant pas être sujet
Exemple avec ressources et literal:
David Bowie | est | Singer (Ressource)
David Bowie | performe | Space Oddity (Ressource)
Space Oddity | est sorti le | 1969-07-11 (Literal)
graph LR DB[David Bowie] -->|est| S[Singer] DB -->|performe| SO[Space Oddity] SO -->|est sorti le| D[1969-07-11]
Grammaire RDF
Structure formelle sans exception:
Subject: Ressource
Predicate: Ressource
Object: Ressource OR Literal
Règle absolue: un triplet RDF suit toujours cette grammaire.
Importance du sens
Un triplet doit toujours avoir du sens sémantique.
Exemples de triplets corrects:
David Bowie | est | Chanteur ✓
David Bowie | est né à | Londres ✓
Exemples de triplets incorrects:
Chanteur | est | David Bowie ✗
David Bowie | est né à | Space Oddity ✗
David Bowie | Space Oddity | sjekhd ✗
zupsqslvnj | sjekhd | sjekhd ✗
Le sujet, prédicat et objet doivent former une phrase cohérente et vraie.
Passage de Donnée à Information
Le triplet transforme les données en information:
Données: "David Bowie" "Chanteur" "est"
↓
Information: David Bowie est Chanteur
Le triplet crée le réseau de relations entre données, formant ainsi de l’information exploitable.