Intégration de la structure dans un modèle probabiliste de document.

Résumé : En fouille de textes comme en recherche d'information, différents modèles, de type probabiliste, vectoriel ou booléen, se sont révélés bien adaptés pour représenter des documents textuels mais, ces modèles présentent l'inconvénient de ne pas tenir compte de la structure du document. Or la plupart des informations disponibles aujourd'hui sur Internet ou dans des bases documentaires sont fortement structurées. Dans cet article, nous proposons d'étendre le modèle probabiliste de représentation des documents de façon à tenir compte du poids d'une certaine catégorie d'éléments structurels : les balises représentant la structure logique et la structure de mise en forme. Ce modèle a été évalué à l'aide de la collection de la campagne d'évaluation INEX 2006.
Document type :
Conference papers
Complete list of metadatas

https://hal-ujm.archives-ouvertes.fr/ujm-00366427
Contributor : Christine Largeron <>
Submitted on : Friday, March 6, 2009 - 6:59:51 PM
Last modification on : Wednesday, July 25, 2018 - 2:05:31 PM

Identifiers

  • HAL Id : ujm-00366427, version 1

Collections

Citation

Mathias Géry, Christine Largeron, Franck Thollard. Intégration de la structure dans un modèle probabiliste de document.. Extraction et Gestion des Connaissances (EGC 2008), Jan 2008, Sophia Antipolis, France. pp.613-618. ⟨ujm-00366427⟩

Share

Metrics

Record views

70