XML versus Protocol Buffer « Christian Fauré

18 Sep 2008, 7:11
Défaut: Web-Sémantique XML
by Christian

21 comments

XML versus Protocol Buffer

La nouvelle ne m’aurait pas effleurée si un Googler (membre du Conseil d’Adminsitration d’Ars Industrialis par ailleurs) ne m’en avait parlé. La nouvelle en question c’est la mise à disposition de Protocol Buffer par Google.

C’est quoi « Protocol Buffer » ? C’est le mécanisme qu’utilise en interne Google pour sérialiser des données structurées lors d’échanges entre des systèmes ou des applicatifs.

Mais aujourd’hui on fait çà en XML non ? Exact, mais la majorité des développeurs, surtout quand il s’agit ne s’agit pas de systèmes documentaires, n’ont jamais vraiment aimé XML.

Pourquoi ? « Trop verbeux » disent-ils.

C’est aussi l’avis des ingénieurs de Google qui ont mis au point ce mécanisme pour sérialiser les données qui s’échangent sous forme de message entre des applications de leur système d’information. Le principal avantage est le gain de temps, bien sûr ce gain de temps dans le traitement d’un message en « Protocol Buffer » est de l’ordre de la nano seconde, mais on sait que quand on a les infrastructures de Google, les nano-secondes ont tendance à se multiplier de manière exponentielle, d’où l’intérêt d’avoir des messages compilés, puisque c’est ce que propose Protocol Buffer.

Parlant d’optimisation, voici les chiffres qu’avance Google sur la base de l’exemple suivant en comparant Protocol Buffer et XML (ma traduction) :

Les Protocoles Buffers sont :

plus simples
de taille 3 à 10 fois plus petits
20 à 100 fois plus rapides
moins ambigus
génèrent des classes d’accès plus faciles à manipuler en programmation

Par exemple, si vous souhaitez modéliser une person avec un name et un email. En XML, aurez :

  <person>
    <name>John Doe</name>
    <email>jdoe@example.com</email>
  </person>

Alors que le message correspondant en protocol buffer (avec le protocole buffer au format texte) est :

# Textual representation of a protocol buffer.
# This is *not* the binary format used on the wire.
person {
  name: "John Doe"
  email: "jdoe@example.com"
}

Quand ce message est encodé au format binaire il aura une taille de 28 bytes et sera parsé en 100-200 nanosecondes. La version XML fait 69 bytes sans les espaces vides, et sera parsée en 5 000 à 10 0000 nanosecondes.

Bien sûr, ces chiffres ne deviennent significatifs que sur des architectures traitant des volumes importants et/ou nombreux, et où la rapidité de traitement est critique. Par ailleurs, Google précise bien que XML garde tout son sens dans un environnement documentaire avec des langages à balises comme pour l’HTML, et où il est important d’avoir du contenu self-descriptif puisque le sens d’un message en protocole buffer (l’équivalent de sa DTD) est à part, dans le fichier ayant l’extension .proto.

M’est d’avis que, là où il y a besoin de performance et qu’il y a de la donnée structurée, Protocol Buffer va vite décoller y compris dans l’environnement web sémantique qui lui aussi travaille sur des volumes importants et structurés. Inutile donc de craindre que Protocol Buffer fasse de l’ombre au web sémantique sous prétexte qu’il remplace le XML, puisque le web sémantique n’a rien à voir avec XML qui n’est qu’une sérialisation possible parmi d’autres.

Sur la page de présentation de Protocol Buffer vous trouverez tout ce qu’il faut : tutotrial, guides et APIs.

18 Sep 2008, 8:59
by Yves-Marie Pondaven

reply

sur le nombre d’octets il faut voir ca une fois compressé … le xml se compresse très bien !

ton xml personne peut etre mis comme ca : John Doe

et avec xml tu as xsl et xpath qui viennent derrière…

bien pratique !

XML versus Protocol Buffer

Laisser un commentaire Annuler la réponse

Recent Posts

Linkroll

Christian Fauré

Newsletter

Nuages de mots-clefs

Archives

Tags

Categories