5. La question du langage

Parler la même langue

Problématique centrale: comment organiser et structurer les termes pour créer un langage commun?

Quatre niveaux d’organisation croissante.

Niveau 1: Termes

Simple collection de mots sans organisation.

Exemple football:

Début du match, Première période, Coup franc, Main, Tacle, 
Interception, Dribble, Action de jeu, Corner, Passe, 
Passe longue, Reprise de volley, Football, Handball, 
Football masculin, Football féminin, But, Bleu, Rose, Blanc, 
Match amical, Coupe de France, Coupe de la ligue, 
Déplacement, Hôtel, Défenseur, Gardien, Attaquant, 
Colère, Joie, Déception, Violence, Kylian Mbappé, Neymar, 
Volley, Parc des Princes, Stade Gabriel-Montpied, 
Stade Geoffroy-Guichard, Stade de France

Limite: aucune structure, pas de relation entre les termes.

Niveau 2: Liste

Organisation simple regroupant les termes par catégories implicites.

Même ensemble de termes mais regroupés visuellement sans relation formelle.

Limite: groupement visuel seulement, pas de hiérarchie explicite.

Niveau 3: Taxonomie

Structure hiérarchique avec relations parent-enfant.

Exemple:

Action de jeu
├── Début du match
├── Coup franc
├── Main
├── Tacle
├── Interception
├── Dribble
├── Corner
├── Passe
│   └── Passe longue
├── Reprise de volley
└── But

Postes
├── Défenseur
├── Gardien
└── Attaquant

Couleurs
├── Bleu
├── Rose
└── Blanc
graph TD
    A[Action de jeu] --> B[Passe]
    A --> C[But]
    A --> D[Tacle]
    B --> E[Passe longue]
    F[Postes] --> G[Défenseur]
    F --> H[Gardien]
    F --> I[Attaquant]

Principe: relation “est un type de” ou “est une sous-catégorie de”.

Limite: seulement des relations hiérarchiques, pas de relations sémantiques entre branches.

Niveau 4: Thésaurus

Ajoute des relations sémantiques entre concepts de différentes branches.

Exemple:

But «donne un point supplémentaire»
Attaquant -> lié à But
Bleu «couleur à domicile»
Blanc «couleur en extérieur»

Relations possibles:

  • Association entre concepts
  • Descriptions contextuelles
  • Liens fonctionnels
graph LR
    A[Attaquant] -.lié à.-> B[But]
    B -->|donne| C[Point supplémentaire]
    D[Bleu] -.couleur.-> E[Domicile]
    F[Blanc] -.couleur.-> G[Extérieur]

Enrichissement: les concepts sont connectés par leur sens et leur usage.

Quel est le prochain niveau?

Question ouverte menant vers les ontologies.

Le niveau suivant permettra de formaliser ces relations de manière encore plus riche et exploitable par les machines.

Évolution:

Termes → Liste → Taxonomie → Thésaurus → ?

Chaque niveau ajoute de la structure et du sens aux données.

6. L’ontologie

Le triangle sémiotique

Trois composantes liées:

  • Symbole (Signifiant): représentation écrite ou orale
  • Concept (Signifié): idée abstraite
  • Référent (Thing/Chose): objet réel

Relations:

  • Symbole symbolise le Concept
  • Concept réfère au Référent
  • Symbole représente le Référent
graph TD
    S[Symbole<br/>«jaguar»] -.symbolise.-> C[Concept<br/>Jaguar Animal]
    C -.réfère.-> R[Référent<br/>Animal réel]
    S -.représente.-> R

Exemples:

«jaguar» → Concept: Jaguar (Animal) → Référent: l'animal réel
«11/09/2001» → Concept: Attentats de New-York → Référent: événement historique

Du symbole au concept

Problème: un même symbole peut désigner plusieurs concepts.

Exemple “jaguar”:

«jaguar» → #jaguarAnimal
«Panthera onca» → #jaguarAnimal
«ジャガー» → #jaguarAnimal
http://fr.wikipedia.org/wiki/Jaguar → #jaguarAnimal

«jaguar» → #jaguarAutomobile
«automobile Jaguar» → #jaguarAutomobile

«Jaguar Cars Ltd» → #jaguarOrganization
«جاغوار (شركة)» → #jaguarOrganization

Solution ontologique: créer des concepts distincts (#jaguarAnimal, #jaguarAutomobile, #jaguarOrganization) pour lever l’ambiguïté.

Plusieurs symboles peuvent pointer vers le même concept.

graph LR
    A[«jaguar»] --> B[#jaguarAnimal]
    C[«Panthera onca»] --> B
    D[«automobile Jaguar»] --> E[#jaguarAutomobile]
    F[«Jaguar Cars Ltd»] --> G[#jaguarOrganization]

Parler la même langue - niveau Ontologie

L’ontologie dépasse le thésaurus en définissant formellement les relations entre concepts.

Exemple domaine football:

Séquence vidéo |met à l'image| Joueur
Joueur |joue au poste| Poste
Joueur |affiche| Emotion
Joueur |porte| Couleur
Séquence vidéo |filme| Action de jeu
Action de jeu |sous-type de| Faute
Séquence vidéo |compétition| Compétition
Séquence vidéo |est tournée à| Stade
Joueur |joue dans| Discipline

Exemple domaine entreprise:

Client |est un sous type de| Personne
Personne |réside à| Ville
Ville |est localisée à| Pays
Pays |est la capitale de| Ville
Organisation |quartier général| Lieu
Personne |employé à| Organisation
Client |loue| Equipement
Contrat |contractualise| Client
Facture |émet| Document
graph LR
    C[Client] -->|sous-type| P[Personne]
    P -->|réside à| V[Ville]
    V -->|localisée à| Pa[Pays]
    P -->|employé à| O[Organisation]
    C -->|loue| E[Equipement]

Définition philosophique

Citation Wikipedia:

“L’ontologie est l’étude philosophique de l’être. C’est l’étude des concepts qui se rapportent directement à l’être, en particulier à l’existence, à la réalité, ainsi qu’aux catégories fondamentales de l’être et de leurs relations.”

Définition informatique

Quatre caractéristiques d’une ontologie :

Conceptualisation: modèle du domaine avec concepts, relations, propriétés, instances et contextes

Explicite: tout l’univers d’un cas d’usage donné doit être défini sans ambiguïté

Formelle: compréhensible et exploitable par la machine

Partagée: doit être le fruit d’un consensus entre utilisateurs

Synthèse: “Représentation formelle de la connaissance en vue de son stockage, son partage et son traitement”

Instanciation de l’ontologie

Exemple football instancié:

Clip #123 |met à l'image| #Neymar
#Neymar |affiche| #Joie
#Neymar |joue au poste| #Attaquant
#Neymar |joue dans| #Football masculin
Clip #123 |compétition| #Ligue Champions
#Neymar |porte| #Blanc
Clip #123 |est tournée à| #Parc des Princes
Clip #123 |filme| #Tacle
Clip #123 |filme| #But
#Attaquant |est associé à| #But
#Tacle |effectue| #Passe longue

Exemple entreprise instancié:

Homer Simpson |loue| iPhone 13
#123 |contractualise| Homer Simpson
B_Simpson.pdf |master| Homer Simpson
Facture Octobre 2021 |émet| B_Simpson.pdf
Homer Simpson |réside à| Springfield
Springfield |est localisé à| Etats-Unis
Centrale nucléaire |employé à| Homer Simpson
Centrale nucléaire |quartier général| Etats-Unis
Homer Simpson |Forfait| B&You

Du paradigme de l’arbre à celui du graphe

Limitation du paradigme arbre: structure hiérarchique rigide avec un seul parent par nœud.

Avantage du paradigme graphe: permet des relations multiples et non hiérarchiques entre entités.

Exemple David Bowie en graphe:

David Bowie |est un| Chanteur
David Bowie |est l'interprète de| Space Oddity
Space Oddity |date de sortie| 11/07/1969
David Bowie |prénom| «David»
David Bowie |nom| «Bowie»
David Bowie |miniature| [image]
Space Oddity |label| «Space Oddity»@fr
Space Oddity |miniature| [image]
graph TD
    DB[David Bowie] -->|est un| C[Chanteur]
    DB -->|interprète de| SO[Space Oddity]
    SO -->|date sortie| D[11/07/1969]
    DB -->|prénom| P[David]
    DB -->|nom| N[Bowie]

Le graphe permet de connecter librement les concepts sans contrainte hiérarchique.

7. Des bases interopérables

Le Linked Open Data

Concept fondamental: interconnexion de bases de données ouvertes à travers le web.

Principe: les données sont liées entre elles par des relations sémantiques, créant un réseau global d’information.

Évolution historique visible:

Les graphiques montrent l’explosion du nombre de datasets interconnectés entre 2007 et années suivantes.

Croissance exponentielle du nombre de liens entre bases de données.

Domaines couverts:

  • Publications scientifiques
  • Données géographiques
  • Données gouvernementales
  • Médias
  • Sciences de la vie
  • Données utilisateurs
  • Connaissances générales (DBpedia, Wikidata)
graph TD
    A[Dataset A] -->|relation| B[Dataset B]
    B -->|relation| C[Dataset C]
    A -->|relation| C
    C -->|relation| D[Dataset D]
    B -->|relation| D

Caractéristiques du LOD:

  • Open: données librement accessibles
  • Linked: connexions explicites entre datasets
  • Structured: format RDF exploitable par machines
  • Distributed: pas de base centrale unique

Le Web 3.0

Vision du web sémantique pleinement réalisé.

Transformation du paradigme:

Web 1.0: Documents statiques
Web 2.0: Documents interconnectés, contenus utilisateurs
Web 3.0: Ressources interconnectées par relations sémantiques

Architecture Web 3.0:

Document → Ressource
Document → Ressource
Document → Ressource

Ressources liées entre elles par relations sémantiques explicites
graph LR
    D1[Document] --> R1[Ressource]
    D1 --> R2[Ressource]
    D2[Document] --> R3[Ressource]
    D2 --> R4[Ressource]
    R1 -.relation.-> R3
    R2 -.relation.-> R4
    R1 -.relation.-> R4

Différence clé avec Web 2.0:

  • Web 2.0: liens entre documents sans sémantique explicite
  • Web 3.0: liens typés entre ressources avec sens explicite

Avantages Web 3.0:

  • Interrogation précise des données
  • Inférences automatiques possibles
  • Réutilisation des données facilitée
  • Interopérabilité entre systèmes
  • Compréhension machine du contenu

Le Web 3.0 permet aux machines de comprendre et traiter l’information, pas seulement de l’afficher.

8. L’inférence sémantique

Donner des capacités de raisonnement à la machine

Principe fondamental: permettre aux machines de déduire de nouvelles informations à partir de faits existants et de règles logiques.

Exemple familial

Faits stockés:

Homer |est le père de| Bart
Herbert |est le frère de| Homer

Règle d’inférence:

Si X est le frère de Y
Et Y est le père de Z
Alors X est l'oncle de Z

Information déduite automatiquement:

Herbert |est l'oncle de| Bart

Autres inférences possibles:

Homer |est de la même famille que| Bart
Homer |est de la même famille que| Herbert
Bart |est de la même famille que| Herbert
graph TD
    H[Homer] -->|père de| B[Bart]
    He[Herbert] -->|frère de| H
    He -.oncle de<br/>inféré.-> B
    H -.même famille<br/>inféré.-> He
    H -.même famille<br/>inféré.-> B
    B -.même famille<br/>inféré.-> He

Architecture du raisonneur sémantique

Composants du système:

Informations stockées: faits de base dans la base de connaissances

Règles d’inférence: ensemble de règles logiques définies

Raisonneur sémantique: moteur qui applique les règles sur les faits

Processus:

Informations + Règles → Raisonneur → Nouvelles informations

Exemple de flux:

Information 1: Homer père de Bart
Information 2: Herbert frère de Homer
Règle 1: Frère du père = Oncle
Règle 2: Relations familiales = Même famille

→ Raisonneur applique Règle 1
→ Nouvelle information: Herbert oncle de Bart

→ Raisonneur applique Règle 2
→ Nouvelles informations: liens "même famille"

Schéma fonctionnel:

graph LR
    A[Informations stockées] --> R[Raisonneur sémantique]
    B[Règles d'inférence] --> R
    R --> C[Nouvelles informations déduites]

Avantages de l’inférence:

  • Enrichissement automatique de la base de connaissances
  • Découverte de relations implicites
  • Cohérence logique garantie
  • Réduction de la redondance de saisie
  • Détection d’incohérences possibles

Types de règles courantes:

  • Transitivité: Si A→B et B→C alors A→C
  • Symétrie: Si A relation B alors B relation A
  • Inverse: Si A père de B alors B enfant de A
  • Subsomption: Si A sous-classe de B alors instance de A est instance de B

Le raisonneur applique ces règles de manière automatique et systématique sur l’ensemble du graphe de connaissances.