SoftJaccard: une mesure de similarité entre ensembles de chaînes de caractères pour l'unification d'entités nommées - Archive ouverte HAL Access content directly
Conference Papers Year : 2009

SoftJaccard: une mesure de similarité entre ensembles de chaînes de caractères pour l'unification d'entités nommées

Abstract

Parmi les mesures de similarité classiques utilisables sur des ensembles figure l'indice de Jaccard. Dans le cadre de cet article, nous en proposons une extension pour comparer des ensembles de chaînes de caractères. Cette mesure hybride permet de combiner une distance entre chaînes de caractères, telle que la distance de Levenstein, et l'indice de Jaccard. Elle est particulièrement adaptée pour mettre en correspondance des champs composés de plusieurs chaînes de caractères, comme par exemple, lorsqu'on se propose d'unifier des noms d'entités nommées.
Fichier principal
Vignette du fichier
posterEGC09.pdf (33.04 Ko) Télécharger le fichier
Origin : Files produced by the author(s)

Dates and versions

ujm-00366422 , version 1 (06-03-2009)

Identifiers

  • HAL Id : ujm-00366422 , version 1

Cite

Christine Largeron, Bernard Kaddour, Maria P. Fernandez. SoftJaccard: une mesure de similarité entre ensembles de chaînes de caractères pour l'unification d'entités nommées. Extraction et Gestion des Connaissances (EGC 2009), Jan 2009, Strasbourg, France. pp.443-444. ⟨ujm-00366422⟩
170 View
1786 Download

Share

Gmail Facebook Twitter LinkedIn More