5. La question du langage
Parler la même langue
Problématique centrale: comment organiser et structurer les termes pour créer un langage commun?
Quatre niveaux d’organisation croissante.
Niveau 1: Termes
Simple collection de mots sans organisation.
Exemple football:
Début du match, Première période, Coup franc, Main, Tacle,
Interception, Dribble, Action de jeu, Corner, Passe,
Passe longue, Reprise de volley, Football, Handball,
Football masculin, Football féminin, But, Bleu, Rose, Blanc,
Match amical, Coupe de France, Coupe de la ligue,
Déplacement, Hôtel, Défenseur, Gardien, Attaquant,
Colère, Joie, Déception, Violence, Kylian Mbappé, Neymar,
Volley, Parc des Princes, Stade Gabriel-Montpied,
Stade Geoffroy-Guichard, Stade de France
Limite: aucune structure, pas de relation entre les termes.
Niveau 2: Liste
Organisation simple regroupant les termes par catégories implicites.
Même ensemble de termes mais regroupés visuellement sans relation formelle.
Limite: groupement visuel seulement, pas de hiérarchie explicite.
Niveau 3: Taxonomie
Structure hiérarchique avec relations parent-enfant.
Exemple:
Action de jeu
├── Début du match
├── Coup franc
├── Main
├── Tacle
├── Interception
├── Dribble
├── Corner
├── Passe
│ └── Passe longue
├── Reprise de volley
└── But
Postes
├── Défenseur
├── Gardien
└── Attaquant
Couleurs
├── Bleu
├── Rose
└── Blanc
graph TD A[Action de jeu] --> B[Passe] A --> C[But] A --> D[Tacle] B --> E[Passe longue] F[Postes] --> G[Défenseur] F --> H[Gardien] F --> I[Attaquant]
Principe: relation “est un type de” ou “est une sous-catégorie de”.
Limite: seulement des relations hiérarchiques, pas de relations sémantiques entre branches.
Niveau 4: Thésaurus
Ajoute des relations sémantiques entre concepts de différentes branches.
Exemple:
But «donne un point supplémentaire»
Attaquant -> lié à But
Bleu «couleur à domicile»
Blanc «couleur en extérieur»
Relations possibles:
- Association entre concepts
- Descriptions contextuelles
- Liens fonctionnels
graph LR A[Attaquant] -.lié à.-> B[But] B -->|donne| C[Point supplémentaire] D[Bleu] -.couleur.-> E[Domicile] F[Blanc] -.couleur.-> G[Extérieur]
Enrichissement: les concepts sont connectés par leur sens et leur usage.
Quel est le prochain niveau?
Question ouverte menant vers les ontologies.
Le niveau suivant permettra de formaliser ces relations de manière encore plus riche et exploitable par les machines.
Évolution:
Termes → Liste → Taxonomie → Thésaurus → ?
Chaque niveau ajoute de la structure et du sens aux données.
6. L’ontologie
Le triangle sémiotique
Trois composantes liées:
- Symbole (Signifiant): représentation écrite ou orale
- Concept (Signifié): idée abstraite
- Référent (Thing/Chose): objet réel
Relations:
- Symbole symbolise le Concept
- Concept réfère au Référent
- Symbole représente le Référent
graph TD S[Symbole<br/>«jaguar»] -.symbolise.-> C[Concept<br/>Jaguar Animal] C -.réfère.-> R[Référent<br/>Animal réel] S -.représente.-> R
Exemples:
«jaguar» → Concept: Jaguar (Animal) → Référent: l'animal réel
«11/09/2001» → Concept: Attentats de New-York → Référent: événement historique
Du symbole au concept
Problème: un même symbole peut désigner plusieurs concepts.
Exemple “jaguar”:
«jaguar» → #jaguarAnimal
«Panthera onca» → #jaguarAnimal
«ジャガー» → #jaguarAnimal
http://fr.wikipedia.org/wiki/Jaguar → #jaguarAnimal
«jaguar» → #jaguarAutomobile
«automobile Jaguar» → #jaguarAutomobile
«Jaguar Cars Ltd» → #jaguarOrganization
«جاغوار (شركة)» → #jaguarOrganization
Solution ontologique: créer des concepts distincts (#jaguarAnimal, #jaguarAutomobile, #jaguarOrganization) pour lever l’ambiguïté.
Plusieurs symboles peuvent pointer vers le même concept.
graph LR A[«jaguar»] --> B[#jaguarAnimal] C[«Panthera onca»] --> B D[«automobile Jaguar»] --> E[#jaguarAutomobile] F[«Jaguar Cars Ltd»] --> G[#jaguarOrganization]
Parler la même langue - niveau Ontologie
L’ontologie dépasse le thésaurus en définissant formellement les relations entre concepts.
Exemple domaine football:
Séquence vidéo |met à l'image| Joueur
Joueur |joue au poste| Poste
Joueur |affiche| Emotion
Joueur |porte| Couleur
Séquence vidéo |filme| Action de jeu
Action de jeu |sous-type de| Faute
Séquence vidéo |compétition| Compétition
Séquence vidéo |est tournée à| Stade
Joueur |joue dans| Discipline
Exemple domaine entreprise:
Client |est un sous type de| Personne
Personne |réside à| Ville
Ville |est localisée à| Pays
Pays |est la capitale de| Ville
Organisation |quartier général| Lieu
Personne |employé à| Organisation
Client |loue| Equipement
Contrat |contractualise| Client
Facture |émet| Document
graph LR C[Client] -->|sous-type| P[Personne] P -->|réside à| V[Ville] V -->|localisée à| Pa[Pays] P -->|employé à| O[Organisation] C -->|loue| E[Equipement]
Définition philosophique
Citation Wikipedia:
“L’ontologie est l’étude philosophique de l’être. C’est l’étude des concepts qui se rapportent directement à l’être, en particulier à l’existence, à la réalité, ainsi qu’aux catégories fondamentales de l’être et de leurs relations.”
Définition informatique
Quatre caractéristiques d’une ontologie :
Conceptualisation: modèle du domaine avec concepts, relations, propriétés, instances et contextes
Explicite: tout l’univers d’un cas d’usage donné doit être défini sans ambiguïté
Formelle: compréhensible et exploitable par la machine
Partagée: doit être le fruit d’un consensus entre utilisateurs
Synthèse: “Représentation formelle de la connaissance en vue de son stockage, son partage et son traitement”
Instanciation de l’ontologie
Exemple football instancié:
Clip #123 |met à l'image| #Neymar
#Neymar |affiche| #Joie
#Neymar |joue au poste| #Attaquant
#Neymar |joue dans| #Football masculin
Clip #123 |compétition| #Ligue Champions
#Neymar |porte| #Blanc
Clip #123 |est tournée à| #Parc des Princes
Clip #123 |filme| #Tacle
Clip #123 |filme| #But
#Attaquant |est associé à| #But
#Tacle |effectue| #Passe longue
Exemple entreprise instancié:
Homer Simpson |loue| iPhone 13
#123 |contractualise| Homer Simpson
B_Simpson.pdf |master| Homer Simpson
Facture Octobre 2021 |émet| B_Simpson.pdf
Homer Simpson |réside à| Springfield
Springfield |est localisé à| Etats-Unis
Centrale nucléaire |employé à| Homer Simpson
Centrale nucléaire |quartier général| Etats-Unis
Homer Simpson |Forfait| B&You
Du paradigme de l’arbre à celui du graphe
Limitation du paradigme arbre: structure hiérarchique rigide avec un seul parent par nœud.
Avantage du paradigme graphe: permet des relations multiples et non hiérarchiques entre entités.
Exemple David Bowie en graphe:
David Bowie |est un| Chanteur
David Bowie |est l'interprète de| Space Oddity
Space Oddity |date de sortie| 11/07/1969
David Bowie |prénom| «David»
David Bowie |nom| «Bowie»
David Bowie |miniature| [image]
Space Oddity |label| «Space Oddity»@fr
Space Oddity |miniature| [image]
graph TD DB[David Bowie] -->|est un| C[Chanteur] DB -->|interprète de| SO[Space Oddity] SO -->|date sortie| D[11/07/1969] DB -->|prénom| P[David] DB -->|nom| N[Bowie]
Le graphe permet de connecter librement les concepts sans contrainte hiérarchique.
7. Des bases interopérables
Le Linked Open Data
Concept fondamental: interconnexion de bases de données ouvertes à travers le web.
Principe: les données sont liées entre elles par des relations sémantiques, créant un réseau global d’information.
Évolution historique visible:
Les graphiques montrent l’explosion du nombre de datasets interconnectés entre 2007 et années suivantes.
Croissance exponentielle du nombre de liens entre bases de données.
Domaines couverts:
- Publications scientifiques
- Données géographiques
- Données gouvernementales
- Médias
- Sciences de la vie
- Données utilisateurs
- Connaissances générales (DBpedia, Wikidata)
graph TD A[Dataset A] -->|relation| B[Dataset B] B -->|relation| C[Dataset C] A -->|relation| C C -->|relation| D[Dataset D] B -->|relation| D
Caractéristiques du LOD:
- Open: données librement accessibles
- Linked: connexions explicites entre datasets
- Structured: format RDF exploitable par machines
- Distributed: pas de base centrale unique
Le Web 3.0
Vision du web sémantique pleinement réalisé.
Transformation du paradigme:
Web 1.0: Documents statiques
Web 2.0: Documents interconnectés, contenus utilisateurs
Web 3.0: Ressources interconnectées par relations sémantiques
Architecture Web 3.0:
Document → Ressource
Document → Ressource
Document → Ressource
Ressources liées entre elles par relations sémantiques explicites
graph LR D1[Document] --> R1[Ressource] D1 --> R2[Ressource] D2[Document] --> R3[Ressource] D2 --> R4[Ressource] R1 -.relation.-> R3 R2 -.relation.-> R4 R1 -.relation.-> R4
Différence clé avec Web 2.0:
- Web 2.0: liens entre documents sans sémantique explicite
- Web 3.0: liens typés entre ressources avec sens explicite
Avantages Web 3.0:
- Interrogation précise des données
- Inférences automatiques possibles
- Réutilisation des données facilitée
- Interopérabilité entre systèmes
- Compréhension machine du contenu
Le Web 3.0 permet aux machines de comprendre et traiter l’information, pas seulement de l’afficher.
8. L’inférence sémantique
Donner des capacités de raisonnement à la machine
Principe fondamental: permettre aux machines de déduire de nouvelles informations à partir de faits existants et de règles logiques.
Exemple familial
Faits stockés:
Homer |est le père de| Bart
Herbert |est le frère de| Homer
Règle d’inférence:
Si X est le frère de Y
Et Y est le père de Z
Alors X est l'oncle de Z
Information déduite automatiquement:
Herbert |est l'oncle de| Bart
Autres inférences possibles:
Homer |est de la même famille que| Bart
Homer |est de la même famille que| Herbert
Bart |est de la même famille que| Herbert
graph TD H[Homer] -->|père de| B[Bart] He[Herbert] -->|frère de| H He -.oncle de<br/>inféré.-> B H -.même famille<br/>inféré.-> He H -.même famille<br/>inféré.-> B B -.même famille<br/>inféré.-> He
Architecture du raisonneur sémantique
Composants du système:
Informations stockées: faits de base dans la base de connaissances
Règles d’inférence: ensemble de règles logiques définies
Raisonneur sémantique: moteur qui applique les règles sur les faits
Processus:
Informations + Règles → Raisonneur → Nouvelles informations
Exemple de flux:
Information 1: Homer père de Bart
Information 2: Herbert frère de Homer
Règle 1: Frère du père = Oncle
Règle 2: Relations familiales = Même famille
→ Raisonneur applique Règle 1
→ Nouvelle information: Herbert oncle de Bart
→ Raisonneur applique Règle 2
→ Nouvelles informations: liens "même famille"
Schéma fonctionnel:
graph LR A[Informations stockées] --> R[Raisonneur sémantique] B[Règles d'inférence] --> R R --> C[Nouvelles informations déduites]
Avantages de l’inférence:
- Enrichissement automatique de la base de connaissances
- Découverte de relations implicites
- Cohérence logique garantie
- Réduction de la redondance de saisie
- Détection d’incohérences possibles
Types de règles courantes:
- Transitivité: Si A→B et B→C alors A→C
- Symétrie: Si A relation B alors B relation A
- Inverse: Si A père de B alors B enfant de A
- Subsomption: Si A sous-classe de B alors instance de A est instance de B
Le raisonneur applique ces règles de manière automatique et systématique sur l’ensemble du graphe de connaissances.