3. Donner du sens aux données

La couche donnée

Définition selon Pr. Bruno Bachimont:

“La donnée est une inscription formatée minimale renvoyant à un fait”

Trois caractéristiques:

  • Formatée: formulée dans un langage avec syntaxe formelle, manipulable par une machine
  • Minimale: indécomposable en faits plus élémentaires ou sous-propositions
  • Fait: pourvue d’une valeur de vérité

Propriété importante: “La donnée possède une signification non contextuelle”

Exemple:

âge = "70"

âge est une valeur pouvant varier de 0 à 150 de type entier naturel

Exemple de données brutes:

"2" "TGV" "15"

Ces symboles seuls n’ont pas de sens exploitable.

La couche information

Définition: “L’information correspond à la donnée mise en réseau”

Réseau signifie que la donnée peut être articulée et mise en relation avec d’autres données (schéma relationnel, graphe).

Le réseau permet d’interpréter les données.

Exemple de transformation données vers information:

"2" "TGV" "15"
↓
2nde classe, TGV, Voiture n°15

Principe fondamental: “La donnée est une représentation de l’information. L’information est extraite par l’interprétation de la donnée.”

graph LR
    A[Donnée] --> B[Information]

La couche connaissance

Définition: “La connaissance est l’information plongée dans un contexte d’interprétation”

L’interprétation est enrichie par des règles contextuelles, culturelles et métiers.

Exemple avec le billet de train:

"2" "TGV" "15"
↓
2nde classe, TGV, Voiture n°15
↓
SNCF, Quai de gare, Billet moins cher

Exemple avec l’âge contextuel:

âge = "70"
↓
Dossier administratif: droits à la protection sociale
Dossier médical: facteur de risque

Le même symbole “70” prend un sens différent selon le contexte métier.

graph LR
    A[Donnée] --> B[Information]
    B --> C[Connaissance]

La couche sagesse

Définition: “Est sage celui qui possède les interprétants permettant de dégager le sens des énoncés en contexte”

C’est la capacité à prendre des décisions en toute connaissance.

Caractéristique importante: la machine est par nature exclue de cette couche.

La sagesse requiert un jugement humain.

graph LR
    A[Donnée] --> B[Information]
    B --> C[Connaissance]
    C --> D[Sagesse]

Pyramide complète

Les quatre niveaux de sens:

  1. Donnée: symbole brut formaté
  2. Information: donnée mise en réseau
  3. Connaissance: information en contexte
  4. Sagesse: capacité de décision humaine

Chaque niveau enrichit le précédent en ajoutant du sens et du contexte.

4. Le Triplet RDF

Concept du Statement (Énoncé)

Un statement est composé de trois éléments:

  • Subject: ressource à décrire
  • Predicate: type de propriété applicable à la ressource
  • Object: valeur de la propriété

Exemple simple:

David Bowie | est un | chanteur
Subject     | Predicate | Object

Composition des triplets

Les objets peuvent devenir sujets dans d’autres triplets.

Exemples enchaînés:

David Bowie | performe | Space Oddity
Space Oddity | est sorti le | 1969-07-11

Space Oddity est objet dans le premier triplet et sujet dans le second.

Types de valeurs

Deux types possibles pour l’objet:

  • Ressource: entité identifiable, peut devenir sujet d’un autre triplet
  • Literal: valeur brute (texte, nombre, date) ne pouvant pas être sujet

Exemple avec ressources et literal:

David Bowie | est | Singer (Ressource)
David Bowie | performe | Space Oddity (Ressource)
Space Oddity | est sorti le | 1969-07-11 (Literal)
graph LR
    DB[David Bowie] -->|est| S[Singer]
    DB -->|performe| SO[Space Oddity]
    SO -->|est sorti le| D[1969-07-11]

Grammaire RDF

Structure formelle sans exception:

Subject: Ressource
Predicate: Ressource
Object: Ressource OR Literal

Règle absolue: un triplet RDF suit toujours cette grammaire.

Importance du sens

Un triplet doit toujours avoir du sens sémantique.

Exemples de triplets corrects:

David Bowie | est | Chanteur ✓
David Bowie | est né à | Londres ✓

Exemples de triplets incorrects:

Chanteur | est | David Bowie ✗
David Bowie | est né à | Space Oddity ✗
David Bowie | Space Oddity | sjekhd ✗
zupsqslvnj | sjekhd | sjekhd ✗

Le sujet, prédicat et objet doivent former une phrase cohérente et vraie.

Passage de Donnée à Information

Le triplet transforme les données en information:

Données: "David Bowie" "Chanteur" "est"
↓
Information: David Bowie est Chanteur

Le triplet crée le réseau de relations entre données, formant ainsi de l’information exploitable.