<?xml version="1.0" encoding="UTF-8"?> <rss
version="2.0"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:wfw="http://wellformedweb.org/CommentAPI/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:atom="http://www.w3.org/2005/Atom"
xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
><channel><title>Christian Fauré &#187; Middleware</title> <atom:link href="http://www.christian-faure.net/tag/middleware/feed/" rel="self" type="application/rss+xml" /><link>http://www.christian-faure.net</link> <description>Hypomnemata : supports de mémoire</description> <lastBuildDate>Wed, 08 Feb 2012 13:01:47 +0000</lastBuildDate> <language>fr</language> <sy:updatePeriod>hourly</sy:updatePeriod> <sy:updateFrequency>1</sy:updateFrequency> <generator>http://wordpress.org/?v=3.3.1</generator> <item><title>Introduction au Text-mining</title><link>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/</link> <comments>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comments</comments> <pubDate>Wed, 30 May 2007 21:12:01 +0000</pubDate> <dc:creator>Christian</dc:creator> <category><![CDATA[Défaut]]></category> <category><![CDATA[Middleware]]></category> <category><![CDATA[Moteur-de-recherche]]></category> <category><![CDATA[Text_mining]]></category><guid
isPermaLink="false">http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/</guid> <description><![CDATA[Les outils de text-mining ont pour vocation d&#8217;automatiser la structuration des documents peu ou faiblement structurés. Ainsi, à partir d&#8217;un document texte, un outil de text-mining va générer de l&#8217;information sur le contenu du document. Cette information n&#8217;était pas présente, ou explicite, dans le document sous sa forme initiale, elle va être rajoutée, et donc [...]
Related posts:<ol><li><a
href='http://www.christian-faure.net/2007/07/09/xml-pipeline-langage/' rel='bookmark' title='XML Pipeline Langage'>XML Pipeline Langage</a> <small>Un working draft de XML Pipeline Langage vient d&#8217;être publié....</small></li><li><a
href='http://www.christian-faure.net/2007/06/07/quand-le-search-bouscule-la-bi/' rel='bookmark' title='Quand le &laquo;&nbsp;Search&nbsp;&raquo; bouscule la &laquo;&nbsp;Business Intelligence&nbsp;&raquo;'>Quand le &laquo;&nbsp;Search&nbsp;&raquo; bouscule la &laquo;&nbsp;Business Intelligence&nbsp;&raquo;</a> <small>Ce note aurait tout aussi bien pu s&#8217;intituler &laquo;&nbsp;la Business...</small></li><li><a
href='http://www.christian-faure.net/2007/07/09/google-et-la-semantique/' rel='bookmark' title='Google et la sémantique'>Google et la sémantique</a> <small>Il est difficile de dire que Google ne fait pas...</small></li></ol>]]></description> <content:encoded><![CDATA[<p></p><p>Les outils de text-mining ont pour vocation d&#8217;<strong>automatiser la structuration des documents</strong> peu ou faiblement structurés.</p><p>Ainsi, à partir d&#8217;un document texte, un outil de text-mining va <strong>générer de l&#8217;information sur le contenu du document</strong>. Cette information n&#8217;était pas présente, ou explicite, dans le document sous sa forme initiale, elle va être rajoutée, et donc enrichir le document.</p><p><span
id="more-247"></span><br
/> A quoi cela peut bien servir ?</p><ul><li>à classifier automatiquement des documents</li><li>à avoir un aperçu du contenu d&#8217;un document sans le lire</li><li>à alimenter automatiquement des bases de données</li><li>à faire de la veille sur des corpus documentaires importants</li><li>à enrichir l&#8217;index d&#8217;un moteur de recherche pour améliorer la consultation des documents</li></ul><p>Bref, plusieurs usages et <strong>plusieurs services peuvent découler des solutions de text-mining.</strong></p><p>Comment çà marche ?</p><p>Il y a quelques règles de base que les outils de text-mining se doivent de respecter dans leur traitement. Ces règles de base sont plus ou moins chronologiquement les suivantes :</p><ul><li>D&#8217;abord le logiciel doit reconnaître les unités de la langue que sont les mots (<strong>tokenisation</strong>)</li><li>Ensuite il doit savoir interpréter et prendre en compte la <strong>ponctuation et la mise page</strong> (retour à la ligne, paragraphe, etc.)</li><li>Puis les <strong>formes lexicales et grammaticales</strong>, qui peuvent énormément varier selon que la langue est l&#8217;anglais, l&#8217;arabe ou le chinois.</li><li>Ensuite, il y a une phase de <strong>lemmatisation</strong> : elle consiste à identifier les différentes flexions d&#8217;un terme, ou déclinaisons d&#8217;un verbe.</li></ul><p>L&#8217;ensemble des phases précédentes relèvent de ce que j&#8217;appelle <strong>l&#8217;analyse linguistique</strong>, au sortir de laquelle nous avons un document que le logiciel de text-mining a transformé. S<strong>i le document initial était fait pour les yeux de l&#8217;humain, le document après traitement est fait pour un traitemtn par les machines</strong>.</p><p>Deux approches, qui <strong>ne</strong> <strong>sont</strong> <strong>pas antinomiques</strong>, peuvent ensuite être envisagées :</p><ul><li>une approche statistique</li><li>une approche sémantique</li></ul><p><strong>1. L&#8217;approche statistique :</strong><br
/> Elle consiste à ne voir le document que via <strong>le prisme du nombre et des chiffres.<br
/> </strong></p><p>Ainsi l&#8217;outil statistique de text-mining produit des informations sur le nombre d&#8217;occurrence d&#8217;un terme, le nombre de cooccurrence de plusieurs terme, la fréquence d&#8217;apparition d&#8217;un terme dans un document ou un corpus.<br
/> Il peut encore produire ce que l&#8217;on appelle des &laquo;&nbsp;vecteurs de sens&nbsp;&raquo;, qui sont des &laquo;&nbsp;concepts&nbsp;&raquo; statistiques de cooccurrence de termes qui permettent de classer et/ou de catégoriser tout un corpus.</p><ul><li>Les avantages de l&#8217;approche statistique :</li></ul><p>Le principal réside dans son très <strong>faible coût d&#8217;entretien</strong> eut égard au véritable service que cela peut apporter, à condition que le volume du corpus documentaire soit significatif, voire très important.</p><ul><li>Les désavantages de l&#8217;approche statistique :</li></ul><p>Le revers de la médaille, c&#8217;est qu&#8217;il n&#8217;y a <strong>pas de prise en compte des spécificités du corpus documentaire traité</strong> : textes médicaux, commerciaux, scientifiques ou autres, seront adressés de manière identique, grâce à la puissance du calcul statistique.<br
/> Autre élément à prendre en compte, c&#8217;est la pertinence du traitement qui est non seulement difficilement prévisible, et en tout cas <strong>généralement moins élevée que l&#8217;approche sémantique</strong>.</p><p><strong>2. L&#8217;approche sémantique :</strong></p><p>Dans le cas de l&#8217;approche sémantique, la démarche ne va plus s&#8217;appuyer sur la force brute de la puissance de calcul mais <strong>sur un élément externe</strong>. Cet élément externe, appelons l<strong>e référentiel</strong>. Il peut être <strong>statique ou dynamique.</strong><br
/> Une fonction comme la reconnaissance d&#8217;entité (entity recognition) va ainsi déduire que le groupe de mots &laquo;&nbsp;Christian Fauré&nbsp;&raquo;, écrit sans plus d&#8217;information dans un document, est une <em>personne de nationalité française</em> parce que le moteur de text-mining  aura été cherché mon nom dans un référentiel de personne, et qu&#8217;il l&#8217;aura trouvé dans la catégorie &laquo;&nbsp;personne de nationalité française&nbsp;&raquo;.</p><p>Les référentiels statiques peuvent être des mots clés, des listes à plats, des thesaurus, des ontologies. Le moteur de text-mining <strong>va rajouter aux documents qu&#8217;il traite l&#8217;ensemble des informations que peut contenir le référentiel</strong>.<br
/> Les référentiels dynamiques existent aujourd&#8217;hui <strong>surtout dans ma tête</strong>. Ce sont des référentiels qui mettent en oeuvre des<strong> <a
href="http://www.christian-faure.net/2005/12/11/logiques-non-standards/">logiques</a></strong><a
href="http://www.christian-faure.net/2005/12/11/logiques-non-standards/">.</a> Celles-ci peuvent être des logiques formelles (celles que décrivent OWL), mais aussi des logiques probabilistes (comme les réseaux bayesiens). La différence avec le référentiel statique est que le document qui passe par le moteur de text-mining va être enrichi par des informations qui sont <strong>déduites</strong> du référentiel : <strong>le référentiel fait un travail de déduction avant de donner sa réponse au moteur de text-ming qui va enrichir le document</strong>.</p><ul><li>Les avantages de l&#8217;approche sémantique :</li></ul><p>On peut paramétrer le moteur de text-mining pour <strong>coller à la spécificité du corpus documentaire</strong> en exploitant l&#8217;ensemble des référentiels du domaine ou de l&#8217;organisation. On peut également <strong>modéliser des connaissances métiers</strong> spécifiques pour effectuer des traitements de text-mining qui répondent à un besoin bien identifié. La pertinence des résultats obtenus est beaucoup plus fine et <strong>généralement meilleure que dans l&#8217;approche statistique</strong> (la notion de &laquo;&nbsp;meilleur&nbsp;&raquo; étant toute fois toujours relative).</p><ul><li>Les désavantages :</li></ul><p>Le <strong>coût d&#8217;exploitation et de maintenance</strong> est très fort. Cela demande des ressources matérielles, budgétaires et humaines significatives. De plus si le corpus est important, <strong>le temps de traitement</strong> requis peut être très long et représenter un frein à la démarche.</p><p><strong>3. Quelle complémentarité des approches statistiques et sémantiques ?</strong></p><p>Comme je l&#8217;ai déjà dit, ces deux approches du text-mining (statistique et sémantique) ne sont pas antinomiques. Pour éclairer <strong>la complémentarité des approches</strong> je vais prendre l&#8217;exemple des moteurs de recherche.<br
/> Je considère en effet, mais c&#8217;est une conviction personnelle, que <strong>la meilleure valorisation des outils de text-ming c&#8217;est de les utiliser afin d&#8217;enrichir l&#8217;index d&#8217;un moteur de recherche</strong>.</p><p>Je prendrai deux exemples concrets : le premier avec le moteur de recherche de <a
href="http://www.fastsearch.com/" onclick="pageTracker._trackPageview('/outgoing/www.fastsearch.com/?referer=');">FAST</a> et le deuxième avec la plate-forme <a
href="http://www.research.ibm.com/UIMA/" onclick="pageTracker._trackPageview('/outgoing/www.research.ibm.com/UIMA/?referer=');">UIMA</a> corrélée au moteur de recherche <a
href="http://www-306.ibm.com/software/data/enterprise-search/omnifind-enterprise/" onclick="pageTracker._trackPageview('/outgoing/www-306.ibm.com/software/data/enterprise-search/omnifind-enterprise/?referer=');">OmniFind</a> d&#8217;IBM.<br
/> Ces deux solutions ont en commun de proposer un &laquo;&nbsp;tuyau de traitement&nbsp;&raquo; des documents avant indexation.</p><p>Chez FAST, cela donne quelque chose qui peut s&#8217;illustrer de la manière suivante : un tuyau dont les anneaux sont autant <strong>d&#8217;étapes de traitement et d&#8217;enrichissement du document initial</strong>. Chaque étape enrichie le document tel qu&#8217;il arrive dans le tuyaux et le renvoie dans le tuyau pour une nouvelle étape de traitement.<br
/> <img
src="http://www.christian-faure.net/wp-images/fast.jpg" /></p><p>Les premiers anneaux de traitement sont ceux de la normalisation et de l&#8217;analyse linguistique évoquées plus haut, ensuite les traitements peuvent être de type statistique ou sémantique. <strong>A la fin des traitements, le document est indexé et accessible vie le moteur de recherche</strong>. Entre temps, il est devenu <strong>structuré</strong>.<br
/> Le fait est que ce tuyau est la propriété de FAST, et les outils de text-mining tiers ne peuvent pas s&#8217;y greffer facilement.</p><p>C&#8217;est là qu&#8217;arrive IBM.</p><p>Le moteur OmniFind d&#8217;IBM n&#8217;a pas la réputation d&#8217;être un foudre de guerre,  et il est en tout cas <strong>commercialement peu présent</strong> sur un marché dominé par les grands acteur du Search en entreprise et les <a
href="http://www.antidot.net/" onclick="pageTracker._trackPageview('/outgoing/www.antidot.net/?referer=');">petits éditeurs dynamiques</a>. Aussi, pour tenter de s&#8217;imposer, <strong>IBM a proposé en open source son Bus Middleware</strong>, qui correspond au tuyau de traitement et d&#8217;enrichissement avant l&#8217;indexation par le moteur de recherche. Ce bus middleware s&#8217;appelle UIMA (Unstructured Information Management Architecture) et son architecture peut être illustrée de la manière suivante :</p><p><img
src="http://www.christian-faure.net/wp-images/uima.jpg" /><br
/> Comme UIMA est ouvert et libre, IBM souhaite s&#8217;imposer, non pas comme outil de text-mining, mais <strong>comme l&#8217;architecture qui permet d&#8217;accueillir divers outils de text-mining tiers</strong>. Ainsi la solution de l&#8217;editeur de text-mining <a
href="http://www.temis.com/" onclick="pageTracker._trackPageview('/outgoing/www.temis.com/?referer=');">TEMIS</a> est &laquo;&nbsp;UIMA compliant&nbsp;&raquo; : on peut les &laquo;&nbsp;plugger&nbsp;&raquo; sur le bus UIMA d&#8217;IBM.</p><p>On peut quand même se demander si, au bout de la chaîne UIMA, le moteur de recherche qui va exploiter toute cette chaîne de traitement peut être autre chose que le moteur OmniFind d&#8217;IBM ; <em>&laquo;&nbsp;j&#8217;en doute&nbsp;&raquo;</em> me disait récemment un consultant. Mais c&#8217;est quand même bien joué de la part d&#8217;IBM, acteur reconnu du Middleware, de <strong>se positionner comme le Middleware ouvert du monde du traitement des informations non-structurées.</strong></p><p>Si cette note pouvait permettre aux entreprises d&#8217;arrêter d&#8217;imaginer que le text-mining est <strong>une solution magique</strong>, elle aurait atteint son but. C&#8217;est une solution technique qui a des impacts budgétaires, organisationnels et métiers qu&#8217;il faut clairement identifier.<br
/> Je rappelle également qu&#8217;il existe <strong>une autre méthode pour structurer les documents</strong> : c&#8217;est de les structurer <strong>dès leur création</strong> en menant <strong>une politique éditoriale</strong> (je passe la main à <a
href="http://www.lespetitescases.net/" onclick="pageTracker._trackPageview('/outgoing/www.lespetitescases.net/?referer=');">Got</a>).</p><p>Le tout est de savoir où on veut mettre le curseur&#8230; et son argent.</p> <span
class="post-twitter" ><a
href="http://twitter.com/home?status=Chez%20%40ChristianFaure%20%3A%20%22Introduction%20au%20Text-mining%22%20http%3A%2F%2Ftinyurl.com%2Fyf9yskh" title="Signaler sur Twitter" rel="nofollow" onclick="pageTracker._trackPageview('/outgoing/twitter.com/home?status=Chez_20_40ChristianFaure_20_3A_20_22Introduction_20au_20Text-mining_22_20http_3A_2F_2Ftinyurl.com_2Fyf9yskh&amp;referer=');">Signaler sur Twitter</a></span><p>Related posts:<ol><li><a
href='http://www.christian-faure.net/2007/07/09/xml-pipeline-langage/' rel='bookmark' title='XML Pipeline Langage'>XML Pipeline Langage</a> <small>Un working draft de XML Pipeline Langage vient d&#8217;être publié....</small></li><li><a
href='http://www.christian-faure.net/2007/06/07/quand-le-search-bouscule-la-bi/' rel='bookmark' title='Quand le &laquo;&nbsp;Search&nbsp;&raquo; bouscule la &laquo;&nbsp;Business Intelligence&nbsp;&raquo;'>Quand le &laquo;&nbsp;Search&nbsp;&raquo; bouscule la &laquo;&nbsp;Business Intelligence&nbsp;&raquo;</a> <small>Ce note aurait tout aussi bien pu s&#8217;intituler &laquo;&nbsp;la Business...</small></li><li><a
href='http://www.christian-faure.net/2007/07/09/google-et-la-semantique/' rel='bookmark' title='Google et la sémantique'>Google et la sémantique</a> <small>Il est difficile de dire que Google ne fait pas...</small></li></ol></p>]]></content:encoded> <wfw:commentRss>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/feed/</wfw:commentRss> <slash:comments>13</slash:comments> </item> <item><title>Histoire et actualité du Middleware</title><link>http://www.christian-faure.net/2006/10/21/histoire-et-actualit-du-middleware/</link> <comments>http://www.christian-faure.net/2006/10/21/histoire-et-actualit-du-middleware/#comments</comments> <pubDate>Sat, 21 Oct 2006 19:08:12 +0000</pubDate> <dc:creator>Christian</dc:creator> <category><![CDATA[Défaut]]></category> <category><![CDATA[Middleware]]></category> <category><![CDATA[Web-Sémantique]]></category><guid
isPermaLink="false">http://www.christian-faure.net/2006/10/21/histoire-et-actualit-du-middleware/</guid> <description><![CDATA[C&#8217;est bien connu, l&#8217;ensemble des applications du système d&#8217;information d&#8217;une entreprise reposent sur des bases de données utilisant des sémantiques différentes. Alors, pour que tout çà puisse causer ensemble il y avait trois principales solutions : passer à un ERP, c&#8217;est à dire que vous donnez les clés de votre système d&#8217;information à votre fournisseur [...]
Related posts:<ol><li><a
href='http://www.christian-faure.net/2006/09/03/webmethods-soffre-cerebra/' rel='bookmark' title='WebMethods s&#8217;offre Cerebra'>WebMethods s&#8217;offre Cerebra</a> <small>L&#8217;editeur américain WebMethods, offrant des solutions EAI (Enterprise Application Integration)...</small></li><li><a
href='http://www.christian-faure.net/2008/01/18/you/' rel='bookmark' title='You ?'>You ?</a> <small>Vous êtes convaincu que le web est la plateforme ?...</small></li><li><a
href='http://www.christian-faure.net/2007/10/18/le-web-semantique-pour-les-petits/' rel='bookmark' title='Le web sémantique pour les petits'>Le web sémantique pour les petits</a> <small>Le web sémantique est ludique et favorise l&#8217;éveil de vos...</small></li></ol>]]></description> <content:encoded><![CDATA[<p></p><p>C&#8217;est bien connu, l&#8217;ensemble des applications du système d&#8217;information d&#8217;une entreprise reposent sur des bases de données utilisant des sémantiques différentes.<br
/> <span
id="more-124"></span><br
/> Alors, pour que tout çà puisse <em>causer</em> ensemble il y avait <strong>trois principales solutions</strong> :</p><ul><li>passer à un ERP, c&#8217;est à dire que vous donnez les clés de votre système d&#8217;information à votre fournisseur de logiciel.</li><li>faire du codage &laquo;&nbsp;à la main&nbsp;&raquo; pour les échanges entre vos applications.</li><li>mettre des briques logicielles tissant des liens d&#8217;échange entre les applications, c&#8217;est pareil que le point précédent, à part qu&#8217;un éditeur vous propose un atelier logiciel unique pour développer et gérer ces d&#8217;échanges (EAI)</li></ul><p>Et bien maintenant les éditeurs réinvestissent ce terrain fructueux du <em>middleware</em> en proposant des solutions de <strong>Master Data Management</strong>. C&#8217;est quoi ? C&#8217;est une base de données dans laquelle on gère un format pivot de l&#8217;information. Ce dernier assure la sémantique et la synchronisation des différentes bases applicatives connectées.</p><p>C&#8217;est bien de proposer tout çà, mais c&#8217;est quant même mieux d&#8217;encoder les données aux normes du <strong>web sémantique</strong> plutôt que de construire des<em> usines à gaz</em> entre chaque application. <strong>Ne vaut-il pas mieux dépenser ses bugbets au niveau de l&#8217;architecture de l&#8217;information plutôt qu&#8217;au niveau de l&#8217;architecture de la couche applicative ?<br
/> </strong><br
/> L&#8217;embêtant est que ces investissement dans le <em>middleware</em> pérennisent le maintient de solutions logicielles qui ne jouent pas le jeu de l&#8217;inter-opérabilité (&laquo;&nbsp;si, si, on fait du XML&nbsp;&raquo;, répondraient-ils avec cynisme), et cette situtation retarde la pénétration des normes web sémantiques dans les entreprises.</p><blockquote><p>- Mais, pourrait-on m&#8217;objecter, il y a les architectures orientés service (SOA) et les Web services !<br
/> - A quoi je répondrais : où avez vous vu de la sémantique dans les Web services ?<br
/> - Mais il y a quand même un changement de paradigme intéressant dans ces architecture de service !<br
/> - A quoi je répondrais : les éditeurs facturent des logiciels (et de la maintenance), pas des services (au sens service rendu, pas au sens &laquo;&nbsp;Professionnal Services&nbsp;&raquo;). Quand ce sera le cas, on en reparlera.</p></blockquote> <span
class="post-twitter" ><a
href="http://twitter.com/home?status=Chez%20%40ChristianFaure%20%3A%20%22Histoire%20et%20actualit%C3%A9%20du%20Middleware%22%20http%3A%2F%2Ftinyurl.com%2Fy9n7fme" title="Signaler sur Twitter" rel="nofollow" onclick="pageTracker._trackPageview('/outgoing/twitter.com/home?status=Chez_20_40ChristianFaure_20_3A_20_22Histoire_20et_20actualit_C3_A9_20du_20Middleware_22_20http_3A_2F_2Ftinyurl.com_2Fy9n7fme&amp;referer=');">Signaler sur Twitter</a></span><p>Related posts:<ol><li><a
href='http://www.christian-faure.net/2006/09/03/webmethods-soffre-cerebra/' rel='bookmark' title='WebMethods s&#8217;offre Cerebra'>WebMethods s&#8217;offre Cerebra</a> <small>L&#8217;editeur américain WebMethods, offrant des solutions EAI (Enterprise Application Integration)...</small></li><li><a
href='http://www.christian-faure.net/2008/01/18/you/' rel='bookmark' title='You ?'>You ?</a> <small>Vous êtes convaincu que le web est la plateforme ?...</small></li><li><a
href='http://www.christian-faure.net/2007/10/18/le-web-semantique-pour-les-petits/' rel='bookmark' title='Le web sémantique pour les petits'>Le web sémantique pour les petits</a> <small>Le web sémantique est ludique et favorise l&#8217;éveil de vos...</small></li></ol></p>]]></content:encoded> <wfw:commentRss>http://www.christian-faure.net/2006/10/21/histoire-et-actualit-du-middleware/feed/</wfw:commentRss> <slash:comments>2</slash:comments> </item> </channel> </rss>
<!-- Performance optimized by W3 Total Cache. Learn more: http://www.w3-edge.com/wordpress-plugins/

Minified using disk: basic
Page Caching using disk: basic (User agent is rejected)
Database Caching 38/80 queries in 0.063 seconds using disk: basic

Served from: www.christian-faure.net @ 2012-02-12 03:14:58 -->
