Search Engine Optimization & Linked data

Cela peut sembler une évidence, mais je me rends compte qu’il vaut mieux préciser l’antagonisme qu’il y a à appliquer les recettes  classiques du Search Engine Optimization dans le cadre d’une démarche d’exposition des données sur le web.

Si vous souhaitez publier vos données en utilisant les normes du web sémantique sur le « web de données », le linked data, et que vous souhaitez proposer également une version des données au format HTML (+ RDFa), il y a de fortes chances pour que vous souhaitiez aussi  que ces pages HTML soient référencées du mieux possible par les moteurs de recherche.

Les techniques de maîtrise (parce qu’on ne maîtrise pas les liens depuis les autres domaines) du Search Engine Optimization reposant essentiellement sur l’optimisation dans le choix des mots clés et leur positionnement dans le code HTML, vous allez arriver en contradiction avec votre démarche d’ouverture des données.

Allez vous modifier vos données sous prétexte d’être mieux référencé ? Non, bien sûr.

La marge de manœuvre réside uniquement dans les parties éditoriales des pages, si l’on veut optimiser ses mots-clés : autant dire une peau de chagrin si vous êtes dans une logique d’exposition des données « brutes » (oui, je sais Alain Pierrot, çà n’existe pas des données brutes). En effet, on ne peut pas faire des pages et des pages éditoriales écrites pour les moteurs de recherche dans une démarche d’ouverture et d’exposition des données.

Que reste-t-il donc à faire ? A placer vos données au meilleur endroit dans le code HTML, a mettre du RDFa qui utilise des vocabulaires reconnus par Google, Yahoo! et BING ( voir par exemple About RDFa par Google), et à espérer que les moteurs favoriseront non seulement l’affichage de vos pages dans la liste des résultats (les « rich snippets » de Google) mais aussi le ranking de ces pages HTML plus structurées.

Dans mon projet Quatuo ( http://www.quatuo.com ), j’ai crée une page HTML par profil utilisateur et chaque page HTML contient du RDFA et un lien vers le fichier RDF.
Par exemple, voici ma page de profile : http://www.quatuo.com/profile/view/647a9013-2efb-42a1-969d-68d4f403b6a1/
Toutes les pages HTML de profil utilisateur sont listées dans le sitemap.xml.

Bon… problème, aujourd’hui, encore aucune de mes pages n’a été étudiée par Google pour en tirer les « rich snippets ». En effet, je fais des belles pages qui exposent des données mais google s’en moque pour le moment 🙂

[Reply]

来过,踩下,博主思想不错,哈哈!~

[Reply]

因为我不懂中文!

[Reply]

Ah bon tu ne comprends pas le chinois ?

En fait je me promenais à la recherche d’une solution de filtre anti-spam pour le site réalisé pour un ami il y a peu et qui s’est fait bombardé.
J’ai notamment trouvé un article intéressant :
http://zavie.free.fr/lousodrome/?p=116
et un logiciel tout aussi intéressant
http://caca.zoy.org/wiki/PWNtcha

Au final je ne me suis pas foulé et installé Re-captcha. C’est moche, en anglais, a les défauts du captcha mais le filtre devrait épargner au maximum mon ami.

Euh oui … la SEO et le Linked data.

Mon impression personnelle au fil des ans et que le critère de « satisfaction » pèse énormément sur la durée pour une ressource web. Quand on clique sur lien depuis google, le fait que l’on ait cliqué est tracé (sauf blocage possible). Si l’internaute clique sur un autre lien quelques secondes après, cela pourrait vouloir dire que le premier lien n’était pas intéressant. Mais on pourrait aussi ouvrir plusieurs liens depuis la page de recherche et les lire ensuite. Peut-être aussi que si on clique sur un lien depuis gg que l’on ne navigue sur le site et que l’on retourne sur gg alors, il serait possible de tracer le fait que la personne ne soit pas sorti tout de suite.
Les comportements sont multiples mais la somme des comportements si elle est tracée (et à n’en point douter, elle l’est ; difficile de savoir à quel degré), il est possible de dégager un indice de satisfaction.
Cet indice de satisfaction est largement sous-estimé comme l’obsessionnel Page Rank a été surestimé.
Je remarque donc au fil du temps sur quelques sites, que les techniques d’indexation pèsent peu en regard des bonnes pratiques. Aujourd’hui certains sites arrivent à monter par SEO mais à terme ils finissent toujours par chuter si le contenu ne plaît pas.
Bref la SEO, malgré le boniment des acteurs du secteur, ne fait pas de miracles. Elle peut même causer des catastrophes. Je me rappelle très bien de l’hécatombe après la Google Dance Florida en novembre 2003. Elle est très utile en revanche pour s’initier aux bonnes pratiques quand cela n’a pas été déjà fait.

J’en suis arrivé à ne retenir que 3 règles essentielles de la SEO :
– avoir du contenu accessible (architecture REST, pas de liens javascript sans alternatives mais aussi une navigation claire, du contenu agréable à consulter ; de l’accessibilité au sens commun et technique du terme)
– respecter les standards (h1, alt…)
– avoir des liens (externes mais aussi internes)
… ce ne sont finalement que des bonnes pratiques

La SEO peut éventuellement intervenir dans certains domaines. Par exemple dans la génération de pages de recherche, reprenant le champ lexical du contenu. Ce n’est non seulement pas du spamdexing mais cela permet au contraire de bien renseigner les moteurs sur un sous-ensemble de ressources correspondant à un terme et intéresser justement les internautes cherchant du contenu dans ce domaine.
Ou alors dans l’optimisation particulière de pages accessibles en alternative à des contenus auxquels on accède par javascript. Encore une fois c’est surtout de la bonne pratique.

… ah … oui … c’est pas le sujet… vous saviez déjà tout ça….
.. ah … il est question de la concurrence qui s’installe entre le Linked data et le site reprenant ces données lorsqu’ils sont publiés en même temps

Oui c’est clair. Mais justement le Linked data nous fait sortir d’une logique de sites cloisonnés pour se procurer de l’information. Le site ne devient qu’un état d’un flux d’informations. Mais ne perd pas d’intérêt pour autant…
Un site éditorialisé découlant de données liées devrait rester une forme privilégiée de consultation de ce contenu.
Par ailleurs, à moyen terme comme tu l’écris en conlusion il est probable que les données rdfa-isées gagnent en poids pour les moteurs de recherche. Si la requête est mieux évaluée sémantiquement (et les progrès à faire sont encore nombreux) alors les données bien marqués sémantiquement gagnent naturellement en pertinence.
Et si le site perd en visibilité en regard des contenus, cela prouve l’intérêt du Linked data.
Le rapport partager notre patrimoine culturel en pose en partie les enjeux sans pour autant mentionner le Linked data :
http://pauillac.inria.fr/~lang/pla-doc/2009_Partager-notre-patrimoine-culturel_rapport-Culture_complet.pdf
qui propose notamment d’intégrer la réutilisation dans les critères d’évaluation des opérateurs.

Hors du e-commerce et de la publicité (ça réduit beaucoup c’est vrai), les statistiques de fréquentation ne sont importantes que quand elles sont anormalement faibles et dénotent qu’il y a quelque chose qui ne va pas.

Et en plus le Linked data nous permettra de sortir de ces réunions-discussions où les outils, critères, discours traficotent les chiffres dans des concours absurdes de longueur d’appendices génitaux masculins.

Non ce n’est pas un problème mais bien une solution.

Il m’emballe moyen ce film. Akira où es-tu ?

Shonagon, squatteur

[Reply]

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.