Web sémantique

Web sémantique: une petite révolution en vue pour la gestion de contenu

web semantiqueLe web sémantique représente une révolution dans les moyens de présenter des informations à des publics. Mais sait-on que son émergence va affecter aussi la manière de les mettre en ligne.

Maintenant que la plupart des concepteurs de produits digitaux viennent d’intégrer le fait qu’il faut concevoir en priorité les produits digitaux pour les utilisateurs, voila qu’une nouvelle vague est en passe de submerger cet édifice de convictions. Car, dorénavant, c’est pour les machines qu’il faudra les penser. Grand nombre d’entre nous a déjà entendu parler de la prochaine génération du web – ce que certains se complaisent à appeler « web 3.0 » – mais peu de gens savent réellement de quoi il s’agit. Et moins encore savent quel en sera l’impact sur le processus de gestion du contenu. Si les contents managers veulent que leurs audiences continuent à aimer leurs contenus, ils devront revoir leur façon de travailler.

« Le web sémantique a comme objectif de créer des données et des sites web lisibles par les machines »

Commençons par expliquer brièvement ce que signifie un web « sémantique ». La sémantique en linguistique correspond à la signification des mots. De même que la syntaxe correspond aux règles qui régissent le langage. Autrement dit, la syntaxe correspond au ‘comment’ et la sémantique au ‘quoi’. Jusqu’ici le web prenait plus en compte la syntaxe (ex.: orthographe, ordre des mots) que le sens. C’est pourquoi dans de nombreux cas, les recherches sur internet ne mènent pas directement aux résultats voulus. Les machines ne savent, par exemple, pas faire la différence entre des homonymes. Une recherche sur le mot tablette conduira à l’Ipad d’Apple mais aussi aux pages parlant des 10 commandements de l’Ancien Testament. Pour éviter ce genre d’inefficiences et offrir plus de contenus pertinents à l’endroit et au moment adéquat, les machines doivent comprendre les données. Si on leur en donne les moyens, elles pourront les exploiter de manière à leur donner du sens, et, détecter ainsi nos centres d’intérêt potentiels.

Le problème que le web sémantique essaye de résoudre est, comme le souligne bien Rachel Lovinger de l’agence Razorfish, la complexité. « S’il y a bien une chose à laquelle les machines surpassent facilement les humains c’est le traitement rapide des requêtes complexes et la mémorisation de longues séries de chiffres, la recherche d’un élément précis au travers de millions de pages. Les systèmes sémantiques sont conçus pour capter la logique qui va leur permettre de comprendre ce type de relations entre données et les utiliser pour donner une nouvelle dimension aux données. »

Permettre aux contenus de réaliser leur potentiel

Pour qu’elles arrivent, en l’occurrence, à rendre ces services, il faut que les données soient rendues identifiables, définies et structurées. Le W3C a développé un ensemble de standards (e.a. OWL, RDF, SPARQL) qui permettent au propriétaire d’un site d’intégrer toute sorte de données dans le contenu et d’organiser celles-ci selon des règles d’induction. Prenons, par exemple, le site d’événement upcoming. Chaque événement ajouté est « étiqueté » au moyen des codes- appelés microformats- partagés par différentes plateformes. Ce qui permet à l’événement d’être automatiquement repris dans le site de partage de photos flickr et Yahoo. Son exploitation via Icalendar, RSS et GeoRSS est aussi rendue possible.

Search Monkey, un moteur de recherche se voulant sémantique développé par Yahoo !, propose à partir d’une recherche sur un titre de film de voir directement l’évaluation des critiques, la durée du film, la date de sortie ainsi que des liens directs vers la bande d’annonce, une page de vente de ticket, etc.

« Si les ordinateurs comprennent la signification derrière les informations, ils pourront savoir ce qui nous intéresse. »

Le Wall Street Journal propose, pour sa part, des informations plus exhaustives sur chacun des films cités dans leurs articles – réalisateurs, autres critiques sur le film, acteurs principaux – grâce à un partenariat mis en place avec un autre site livrant des infos structurées sur le monde du divertissement (freebase) et ayant ouvert ses bases de données à d’autres.

Avoir des pages web intégrant ces avancées offrira un avantage compétitif indéniable pour les organisations. Leurs contenus web seraient incroyablement plus accessibles et exploitables. De nouvelles manières de les monétiser apparaitront aussi. Par exemple, quelqu’un cherchant une épicerie spécialisée en huiles bio la plus proche du point géographique où il se trouve ou un groupe de musique du même genre que celui qu’il vient d’écouter n’aura de peine à la/le trouver instantanément. Quelqu’un souhaitant s’enregistrer à un événement en ligne recevrait automatiquement les coordonnées dans son système GPS. Son agenda électronique serait mis à jour et il se verrait proposer des vols last-minute vers le lieu où l’événement se tient.

Poussée à l’extrême cette logique pourrait conduire à ce qu’on n’ait même plus besoin d’aller sur les sites eux-mêmes. On peut aisément imaginer les dangers que cela comporte pour les sites dont les revenus proviennent de la publicité. « Mais les machines ne peuvent réaliser certaines tâches sans l’aide des humains » averti l’experte de Razorfish.

Des processus de gestion du contenu boulversés

La raison pour laquelle le web 3.0 prend du temps à voir le jour provient du fait que cette entreprise de formatage des contenus comporte certaines lourdeurs qui ne sont pas en passe d’être résolues. Pour qu’un site puisse agréger automatiquement des informations provenant d’autres sites, il faut, comme on l’a dit, que ces infos soient «balisées » suivant les mêmes standards. Cela implique que des balises soient intégrées spécifiant à quoi chaque élément de contenu se rapporte (ex : nom de l’événement, date, lieu, prix, mots-clefs). Pour prendre un exemple connu, la manière dont Google présente ses résultats (titre, description, liens directs vers certaines pages/sections du site) provient du fait que le contenu des sites référencés ont utilisé des métadonnées (balises ‘meta title’, ‘meta description’, etc.). Le web sémantique est permis grâce un recours extensif à ce genre de pratiques.

« Poussée à l’extrême cette logique pourrait conduire à ce qu’on n’ait même plus besoin d’aller sur les sites. »

Autant le dire tout de suite, ce dessein est, en l’état des choses, plus proche d’une utopie. Car c’est comme si on demandait que les contenus appliquent la même langue – par exemple l’espagnol – mais aussi une manière de parler identique : ordre des mots, expressions, etc. Dans cette façon de communiquer, le double-sens n’aurait sa place que s’il est strictement défini. Les jeux de langages jouant sur le sens (par exemple : métaphore, Antanaclase, synecdoque) seraient dans la plupart des cas inexploitables. Certains outils, comme OpenCalais, permettent d’automatiser en partie ce travail mais ceux-ci ne sont pas encore assez efficaces et connus pour être utilisés par un nombre suffisamment important de responsables de contenu web. Cela explique en partie pourquoi cette nouvelle révolution du web tarde à venir. Ce qui est sûr, c’est que le jour où cette nouvelle dimension du web sera devenue incontournable, leur rôle aura fondamentalement changé. La ligne d’horizon ne sera assurément plus le site web mais s’étendra à toutes les plateformes qui présenteront un intérêt pour y intégrer leurs contenus. Leurs tâches quotidiennes consisteront plus à formater les informations, à trouver des opportunités de placement de contenus, à protéger ceux-ci et à négocier des accords avec des sites. Ils seront tour à tour des avocats et des commerciaux.

Pour en savoir plus, visitez le site du W3C.

Olivier De Keyser

 
(Article paru dans Inside magazine)


Les outils du web sémantique

Le développement et l’utilisation d’outils intelligents assistant efficacement les webmasters dans le processus de marquage du contenu est essentiel pour l’essor du web sémantique. Il en existe déjà plusieurs qui vous permettront de réaliser des tâches diverses. Petit tour d’horizon.

  1. Définir les contenus liés (« related contents » en anglais)
    Ils vous permettent d’améliorer la richesse informationnelle de votre page en identifiant les concepts clefs et en proposant des ressources pertinentes au regard de ceux-ci (user-generated content, tweets, video, articles wikipédia).
    Quelques noms : Apture, Evri, Head up, NewsCred, Zemanta
  2. Surveiller les conversations qui ont cours
    Ils vous permettent de savoir dans quels termes les gens parlent de vous à différents endroits du web (Twitter, blogs, sites de contenus, groupes) et d’améliorer la pertinence et l’orientation générale de vos contenus.
    Quelques noms : Imotty, Inbenta, Lexalytics, Tattler
  3. Éditer et publier des contenus sémantiques
    Ils recommandent des mots-clefs, tags en fonction du contexte de manière à automatiser le processus de formatage sémantique. Ils évitent ainsi de devoir trop se frotter au code.
    Quelques noms : OpenPublish, Jiglu Insight
  4. Optimiser ses résultats dans les moteurs de recherche
    Ils vous permettent d’ajouter automatiquement des balises au contenu, de les soumettre aux moteurs et d’enrichir les résultats avec des infos pertinentes.
    Quelques noms : Google Rich Snippet Tool, Inbenta, Semantify
Publicités
Par défaut

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s