1. Histoire et évolutions du Web
1969 - Arpanet
Premier réseau informatique. Caractéristiques principales:
- Accès aux documents un par un en téléchargement
- Processus complexe en 6 étapes (terminal, connexion serveur, localisation, téléchargement, déconnexion, consultation)
- Expertise technique requise
- Temps d’accès important
- Extraction d’information difficile
1990 - World Wide Web
Créé par Tim Berners-Lee et Robert Cailliau. Révolution dans l’accès aux données:
- Aucune compétence technique requise
- Accès simplifié aux documents
- Facilitation de l’accès à l’information via indexation et moteurs de recherche
- Structure du web basée sur les liens hypertextes
Exemple d’URLs de cette période:
Années 90-2000 - Du Web 1.0 au Web 2.0
Web 1.0 (années 90):
- Lecture seule
- Ajout de contenu réservé aux experts techniques
Web 2.0 (années 2000):
- Services collaboratifs (blogs, wikis, forums, réseaux sociaux)
- Explosion des UGC (User Generated Content)
- Tout le monde devient créateur de contenu
- Explosion du nombre de données
Aujourd’hui et demain
Tendances actuelles:
- Multiplication des supports (mobile, tablette, objets connectés)
- Augmentation exponentielle des créateurs de contenu
- Volume de données croissant de manière exponentielle
Problématique actuelle
Ambiguïté et absence de contexte
Exercice d’ambiguïté linguistique. Sans contexte, les termes peuvent avoir plusieurs significations:
- “Jaguar”: animal, marque automobile, système d’exploitation
- “TNT”: explosif, chaîne de télévision (Télévision Numérique Terrestre)
- “Ronaldo”: plusieurs footballeurs (brésilien, portugais)
Constat: Sans contexte, toute demande d’information est potentiellement une source d’erreurs.
Cette problématique justifie le besoin d’un web sémantique où les données sont enrichies de leur sens et contexte.
2. Les limites de la donnée par l’exemple
Distinction Donnée vs Information
Concepts fondamentaux:
- Donnée: symbole brut sans signification intrinsèque
- Information: donnée interprétée dans un contexte donnant du sens
Exemple clé: “Jaguar”
- Comme donnée: simple succession de 6 lettres (J-a-g-u-a-r)
- Comme information: peut signifier un animal, une marque automobile, un système d’exploitation
Un même symbole peut avoir plusieurs interprétations différentes selon le contexte.
Le problème du contexte
Sans contexte explicite, l’interprétation est ambiguë.
Exemple avec “France”:
- Pays européen
- Prénom féminin
- Partie d’un nom (France Télévisions, Radio France)
- Contexte géographique, historique, politique différents
Le contexte peut mener à deux informations totalement différentes à partir du même symbole.
Le problème de la recherche d’information
Cas pratique: recherche du mot “jaguar”
Résultats possibles:
- Pages sur l’animal (félin)
- Pages sur la marque automobile
- Pages sur Mac OS X Jaguar
- Mélange des trois types
Les moteurs de recherche actuels ne distinguent pas le sens recherché car ils indexent des mots, pas des concepts.
Limites du HTML et du Web actuel
Le langage HTML décrit comment l’information est affichée, pas le sens de l’information.
Problèmes identifiés:
- Confusion entre présentation et signification
- Les liens entre pages n’ont pas de signification explicite
- Impossibilité de différencier automatiquement les différents sens d’un même mot
- Deux symboles différents peuvent donner la même information
Principe de représentation
Citation importante: “La représentation d’un objet n’est pas l’objet lui-même”
Sur le web, nous manipulons des représentations de données, pas les objets réels eux-mêmes.