<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	>
<channel>
	<title>Commentaires sur : Introduction au Text-mining</title>
	<atom:link href="http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/</link>
	<description>Hypomnemata : supports de mémoire</description>
	<pubDate>Sat, 19 Jul 2008 08:10:18 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.6</generator>
		<item>
		<title>Par : azrou</title>
		<link>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-7956</link>
		<dc:creator>azrou</dc:creator>
		<pubDate>Tue, 19 Feb 2008 17:04:37 +0000</pubDate>
		<guid isPermaLink="false">http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-7956</guid>
		<description>slt tout le monde

je cherche de la documentation sur le Text mining j'ai travail a faire sur ce sujet  mais je pas de doc concrète alors si qlq un peut m'aide 
merci</description>
		<content:encoded><![CDATA[<p>slt tout le monde</p>
<p>je cherche de la documentation sur le Text mining j&#8217;ai travail a faire sur ce sujet  mais je pas de doc concrète alors si qlq un peut m&#8217;aide<br />
merci</p>
]]></content:encoded>
	</item>
	<item>
		<title>Par : Verticrawl</title>
		<link>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-7177</link>
		<dc:creator>Verticrawl</dc:creator>
		<pubDate>Mon, 14 Jan 2008 14:49:06 +0000</pubDate>
		<guid isPermaLink="false">http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-7177</guid>
		<description>Pour "rebondir" sur le post de Thomas FRANCART, il existe un réel fossé entre les outils : A mon sens, c'est surtout lié aux contraites linguistique...mais aussi parce que ce marché et en phase de structuration. 

Chez Verticrawl (puisque vous parlez des "petits editeurs dynamiques [français]"...), à l'inverse de FAST, nous privilégions une architecture modulaire et non pas en tube. Certaines opérations peuvent s'effectuer avant indexation et d'autre post, pour enrichissement ou traitements diverses. Nous pouvons donc traiter tous les "greffons" que nous souhaitons...

Cela nous permet l'intégration de contenus structurés et non-structurés pour enrichir les recherches.

Par exemple, les processus de text mining sont fait durant l'indexation et les opérations de taggage diverse (email, adresse, téléphone) sont produites à posteriori.

Coté WEB SEMANTIQUE :
On parle beaucoup du web 3.0 comme "LE sémantique", il semble interessant de reconsidérer le moteur de recherche comme un moteur de réponse. 

Certains projets comme "CUIL" nous semble plutot interessant (bien que peut-être un peu presomptueux ?) mais pose là un vrai pont entre le text-mining et la sémantique appliquée .

A quand un moteur qui nous donne enfin l'age du capitaine ?</description>
		<content:encoded><![CDATA[<p>Pour &#8220;rebondir&#8221; sur le post de Thomas FRANCART, il existe un réel fossé entre les outils : A mon sens, c&#8217;est surtout lié aux contraites linguistique&#8230;mais aussi parce que ce marché et en phase de structuration. </p>
<p>Chez Verticrawl (puisque vous parlez des &#8220;petits editeurs dynamiques [français]&#8220;&#8230;), à l&#8217;inverse de FAST, nous privilégions une architecture modulaire et non pas en tube. Certaines opérations peuvent s&#8217;effectuer avant indexation et d&#8217;autre post, pour enrichissement ou traitements diverses. Nous pouvons donc traiter tous les &#8220;greffons&#8221; que nous souhaitons&#8230;</p>
<p>Cela nous permet l&#8217;intégration de contenus structurés et non-structurés pour enrichir les recherches.</p>
<p>Par exemple, les processus de text mining sont fait durant l&#8217;indexation et les opérations de taggage diverse (email, adresse, téléphone) sont produites à posteriori.</p>
<p>Coté WEB SEMANTIQUE :<br />
On parle beaucoup du web 3.0 comme &#8220;LE sémantique&#8221;, il semble interessant de reconsidérer le moteur de recherche comme un moteur de réponse. </p>
<p>Certains projets comme &#8220;CUIL&#8221; nous semble plutot interessant (bien que peut-être un peu presomptueux ?) mais pose là un vrai pont entre le text-mining et la sémantique appliquée .</p>
<p>A quand un moteur qui nous donne enfin l&#8217;age du capitaine ?</p>
]]></content:encoded>
	</item>
	<item>
		<title>Par : bar</title>
		<link>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-6535</link>
		<dc:creator>bar</dc:creator>
		<pubDate>Mon, 10 Dec 2007 17:02:35 +0000</pubDate>
		<guid isPermaLink="false">http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-6535</guid>
		<description>Pour connaître un peu Temis, leur solution utilise bien le framework UIMA de bout en bout. Et la plupart de leurs clients conserve cette ossature.

Maintenant il est vrai qu'UIMA est encore jeune et parfois limité, mais avec le temps il aura sans doute la chance de s'améliorer en fonction des feedbacks de chacuns. A eux de prouver qu'ils sont a l'écoute pour faire réellement évoluer le projet vers un standard.

Time will tell...</description>
		<content:encoded><![CDATA[<p>Pour connaître un peu Temis, leur solution utilise bien le framework UIMA de bout en bout. Et la plupart de leurs clients conserve cette ossature.</p>
<p>Maintenant il est vrai qu&#8217;UIMA est encore jeune et parfois limité, mais avec le temps il aura sans doute la chance de s&#8217;améliorer en fonction des feedbacks de chacuns. A eux de prouver qu&#8217;ils sont a l&#8217;écoute pour faire réellement évoluer le projet vers un standard.</p>
<p>Time will tell&#8230;</p>
]]></content:encoded>
	</item>
	<item>
		<title>Par : Thomas FRANCART</title>
		<link>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-5079</link>
		<dc:creator>Thomas FRANCART</dc:creator>
		<pubDate>Wed, 12 Sep 2007 09:38:33 +0000</pubDate>
		<guid isPermaLink="false">http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-5079</guid>
		<description>Oui UIMA est compliqué.
Non il ne remplace ni les outils de text-mining, ni les outils sémantiques.

Il y a un vrai fossé entre les outils d'extraction automatiques d'information et les outils sémantiques; ce fossé se réduira petit à petit au fur et à mesure des avancées des différentes technos, mais elles ne pourront jamais converger avant (très très) longtemps. UIMA est là pour lancer un pont par dessus ce fossé, et, si on considère la question sous l'angle du web sémantique et non plus sous un angle business, il y a un vrai besoin de combiner les deux mondes.

UIMA est très proche de ce que nous avons déjà fait chez Mondeca, et de ce point de vue, nous comprenons tout à fait et ses objectifs, et son architecture. Bref nous ne sommes pas tellement dépaysés. UIMA est compliqué justement parce que (pour m'y être déjà essayé) relier ces deux mondes est compliqué.

http://mondeca.wordpress.com/2007/09/11/uima-peut-il-reconcilier-le-text-mining-et-les-outils-semantiques/</description>
		<content:encoded><![CDATA[<p>Oui UIMA est compliqué.<br />
Non il ne remplace ni les outils de text-mining, ni les outils sémantiques.</p>
<p>Il y a un vrai fossé entre les outils d&#8217;extraction automatiques d&#8217;information et les outils sémantiques; ce fossé se réduira petit à petit au fur et à mesure des avancées des différentes technos, mais elles ne pourront jamais converger avant (très très) longtemps. UIMA est là pour lancer un pont par dessus ce fossé, et, si on considère la question sous l&#8217;angle du web sémantique et non plus sous un angle business, il y a un vrai besoin de combiner les deux mondes.</p>
<p>UIMA est très proche de ce que nous avons déjà fait chez Mondeca, et de ce point de vue, nous comprenons tout à fait et ses objectifs, et son architecture. Bref nous ne sommes pas tellement dépaysés. UIMA est compliqué justement parce que (pour m&#8217;y être déjà essayé) relier ces deux mondes est compliqué.</p>
<p><a href="http://mondeca.wordpress.com/2007/09/11/uima-peut-il-reconcilier-le-text-mining-et-les-outils-semantiques/" rel="nofollow" onclick="javascript:urchinTracker ('/outbound/comment/mondeca.wordpress.com');">http://mondeca.wordpress.com/2007/09/11/uima-peut-il-reconcilier-le-text-mining-et-les-outils-semantiques/</a></p>
]]></content:encoded>
	</item>
	<item>
		<title>Par : Christian Fauré &#187; Blog Archive &#187; XML Pipeline Langage</title>
		<link>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-3837</link>
		<dc:creator>Christian Fauré &#187; Blog Archive &#187; XML Pipeline Langage</dc:creator>
		<pubDate>Mon, 09 Jul 2007 18:53:49 +0000</pubDate>
		<guid isPermaLink="false">http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-3837</guid>
		<description>[...] A rapprocher de ce que fait l&#8217;UIMA d&#8217;IBM ou le Document Processing de FAST, dont je parlais dans mon introduction au text-mining.  XML   (No Ratings Yet) &#160;Loading ... [...]</description>
		<content:encoded><![CDATA[<p>[...] A rapprocher de ce que fait l&#8217;UIMA d&#8217;IBM ou le Document Processing de FAST, dont je parlais dans mon introduction au text-mining.  XML   (No Ratings Yet) &nbsp;Loading &#8230; [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>Par : Christian</title>
		<link>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-3094</link>
		<dc:creator>Christian</dc:creator>
		<pubDate>Wed, 13 Jun 2007 18:08:32 +0000</pubDate>
		<guid isPermaLink="false">http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-3094</guid>
		<description>Merci pour ce commentaire Foo.
Tu dis vrai sur le côté usine à gaz ainsi que sur la réalité des solutions en production utilisant UIMA.
Cela dit, les phases de document processing de FAST ne sont pas non plus d'une simplicité enfantine, c'est également du lourd.
Chacun aura compris que ces approches ont un coût significatif que ce n'est pas du "plug &#038; play" pour PME, mais çà peut apporter un vrai plus. Encore une fois c'est une question de curseur et de budget.

En passant, TEMIS a aussi croisé IBM dans sa jeunesse je crois, ce qui explique aussi leur adossement affiché à UIMA.</description>
		<content:encoded><![CDATA[<p>Merci pour ce commentaire Foo.<br />
Tu dis vrai sur le côté usine à gaz ainsi que sur la réalité des solutions en production utilisant UIMA.<br />
Cela dit, les phases de document processing de FAST ne sont pas non plus d&#8217;une simplicité enfantine, c&#8217;est également du lourd.<br />
Chacun aura compris que ces approches ont un coût significatif que ce n&#8217;est pas du &#8220;plug &#038; play&#8221; pour PME, mais çà peut apporter un vrai plus. Encore une fois c&#8217;est une question de curseur et de budget.</p>
<p>En passant, TEMIS a aussi croisé IBM dans sa jeunesse je crois, ce qui explique aussi leur adossement affiché à UIMA.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Par : Foo</title>
		<link>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-3088</link>
		<dc:creator>Foo</dc:creator>
		<pubDate>Wed, 13 Jun 2007 14:50:06 +0000</pubDate>
		<guid isPermaLink="false">http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-3088</guid>
		<description>UIMA est assez nul en réalité. Sur le papier ça semble alléchant, mais dans la vraie vie c'est une énorme machine à gaz. D'ailleurs, comme vous le faites remarquer, TEMIS se dit "UIMA Compliant", mais combien ont réellement mis en place le framework complet ? A ma connaissance, aucun. Enfin si... Thales...

... Thales, qui est passé à UIMA parce qu'un de ses chefs vient d'IBM, évidemment. D'ailleurs, j'ai ouï dire que pour adapter UIMA à leurs besoin, ça a déployé une énergie considérable.


Compte tenu du fait que la documentation (bien que très conséquente) est floue, et que l'activité sur les divers forum, proche de zéro, on peut quand même s'interroger sur la pertinence de cet outil pour autre chose que des projets monstrueusement gros (on note qu'IBM a refilé le bébé à la fondation Apache il y a peu... parce que c'est un échec ? mystère).</description>
		<content:encoded><![CDATA[<p>UIMA est assez nul en réalité. Sur le papier ça semble alléchant, mais dans la vraie vie c&#8217;est une énorme machine à gaz. D&#8217;ailleurs, comme vous le faites remarquer, TEMIS se dit &#8220;UIMA Compliant&#8221;, mais combien ont réellement mis en place le framework complet ? A ma connaissance, aucun. Enfin si&#8230; Thales&#8230;</p>
<p>&#8230; Thales, qui est passé à UIMA parce qu&#8217;un de ses chefs vient d&#8217;IBM, évidemment. D&#8217;ailleurs, j&#8217;ai ouï dire que pour adapter UIMA à leurs besoin, ça a déployé une énergie considérable.</p>
<p>Compte tenu du fait que la documentation (bien que très conséquente) est floue, et que l&#8217;activité sur les divers forum, proche de zéro, on peut quand même s&#8217;interroger sur la pertinence de cet outil pour autre chose que des projets monstrueusement gros (on note qu&#8217;IBM a refilé le bébé à la fondation Apache il y a peu&#8230; parce que c&#8217;est un échec ? mystère).</p>
]]></content:encoded>
	</item>
	<item>
		<title>Par : Christian</title>
		<link>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-2710</link>
		<dc:creator>Christian</dc:creator>
		<pubDate>Thu, 31 May 2007 17:24:40 +0000</pubDate>
		<guid isPermaLink="false">http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-2710</guid>
		<description>Vu que tu es un "vieux de la veille" chez Arisem, tu dois connaître Laurent D., qui a développé le crawler d'Arisem ? ;-)</description>
		<content:encoded><![CDATA[<p>Vu que tu es un &#8220;vieux de la veille&#8221; chez Arisem, tu dois connaître Laurent D., qui a développé le crawler d&#8217;Arisem ? <img src='http://www.christian-faure.net/wp-includes/images/smilies/icon_wink.gif' alt=';-)' class='wp-smiley' /></p>
]]></content:encoded>
	</item>
	<item>
		<title>Par : Tanneguy</title>
		<link>http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-2708</link>
		<dc:creator>Tanneguy</dc:creator>
		<pubDate>Thu, 31 May 2007 16:16:18 +0000</pubDate>
		<guid isPermaLink="false">http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/#comment-2708</guid>
		<description>Le monde me semble petit à la découverte de ce blog : ancien élève de B. Stiegler à l'UTC, j'ai raté de peu la séance sur l'éducation à Ars Industrialis... et surtout, je travaille chez un éditeur de logiciel d'analyse sémantique (Arisem). 

A ce propos, j'ai quelques commentaires :
- le défaut des algorithmes statistiques, c'est à mon avis surtout l'inertie lorsqu'un événement change la signification des mots employés. Un document du 20 mai mentionnant le "président de la république" pourrait facilement être classé avec ceux parlant de J. Chirac si le corpus passé est important.
  Cette inertie se fait particulièrement sentir sur les informations en contexte évolutif, comme par exemple la veille concurrentielle...

- le temps de traitement de l'analyse sémantique est lié aux technologies employées et pas au paradigme de l'analyse sémantique. Il serait imprudent d'exclure l'apparition prochaine d'une technologie d'analyse sémantique très rapide.

- le coût d'exploitation de la sémantique est essentiellement celui de la production et du maintien des référentiels linguistiques et ontologiques. Dans le domaine médical, les ontologies et lexiques existent déjà. Le coût de mise en oeuvre de l'analyse sémantique revient alors à sa juste estimation.
  C'est à mon sens la gestion de la connaissance au sens large qui est coûteuse pour une organisation, c'est-à-dire le passage d'un mode productif à un mode réflexif...  le niveau d'organisation est un présupposé de l'emploi de la technique, pas sa conséquence. C'est pour avoir ignoré cette distinction que les projets d'ERP des années 80-90 ont traumatisé des sociétés entières.

A très bientôt pour un commentaire sur le commentaire !</description>
		<content:encoded><![CDATA[<p>Le monde me semble petit à la découverte de ce blog : ancien élève de B. Stiegler à l&#8217;UTC, j&#8217;ai raté de peu la séance sur l&#8217;éducation à Ars Industrialis&#8230; et surtout, je travaille chez un éditeur de logiciel d&#8217;analyse sémantique (Arisem). </p>
<p>A ce propos, j&#8217;ai quelques commentaires :<br />
- le défaut des algorithmes statistiques, c&#8217;est à mon avis surtout l&#8217;inertie lorsqu&#8217;un événement change la signification des mots employés. Un document du 20 mai mentionnant le &#8220;président de la république&#8221; pourrait facilement être classé avec ceux parlant de J. Chirac si le corpus passé est important.<br />
  Cette inertie se fait particulièrement sentir sur les informations en contexte évolutif, comme par exemple la veille concurrentielle&#8230;</p>
<p>- le temps de traitement de l&#8217;analyse sémantique est lié aux technologies employées et pas au paradigme de l&#8217;analyse sémantique. Il serait imprudent d&#8217;exclure l&#8217;apparition prochaine d&#8217;une technologie d&#8217;analyse sémantique très rapide.</p>
<p>- le coût d&#8217;exploitation de la sémantique est essentiellement celui de la production et du maintien des référentiels linguistiques et ontologiques. Dans le domaine médical, les ontologies et lexiques existent déjà. Le coût de mise en oeuvre de l&#8217;analyse sémantique revient alors à sa juste estimation.<br />
  C&#8217;est à mon sens la gestion de la connaissance au sens large qui est coûteuse pour une organisation, c&#8217;est-à-dire le passage d&#8217;un mode productif à un mode réflexif&#8230;  le niveau d&#8217;organisation est un présupposé de l&#8217;emploi de la technique, pas sa conséquence. C&#8217;est pour avoir ignoré cette distinction que les projets d&#8217;ERP des années 80-90 ont traumatisé des sociétés entières.</p>
<p>A très bientôt pour un commentaire sur le commentaire !</p>
]]></content:encoded>
	</item>
</channel>
</rss>
