SoftJaccard: une mesure de similarité entre ensembles de chaînes de caractères pour l'unification d'entités nommées - Université Jean-Monnet-Saint-Étienne Accéder directement au contenu
Communication Dans Un Congrès Année : 2009

SoftJaccard: une mesure de similarité entre ensembles de chaînes de caractères pour l'unification d'entités nommées

Résumé

Parmi les mesures de similarité classiques utilisables sur des ensembles figure l'indice de Jaccard. Dans le cadre de cet article, nous en proposons une extension pour comparer des ensembles de chaînes de caractères. Cette mesure hybride permet de combiner une distance entre chaînes de caractères, telle que la distance de Levenstein, et l'indice de Jaccard. Elle est particulièrement adaptée pour mettre en correspondance des champs composés de plusieurs chaînes de caractères, comme par exemple, lorsqu'on se propose d'unifier des noms d'entités nommées.
Fichier principal
Vignette du fichier
posterEGC09.pdf (33.04 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

ujm-00366422 , version 1 (06-03-2009)

Identifiants

  • HAL Id : ujm-00366422 , version 1

Citer

Christine Largeron, Bernard Kaddour, Maria P. Fernandez. SoftJaccard: une mesure de similarité entre ensembles de chaînes de caractères pour l'unification d'entités nommées. Extraction et Gestion des Connaissances (EGC 2009), Jan 2009, Strasbourg, France. pp.443-444. ⟨ujm-00366422⟩
178 Consultations
1833 Téléchargements

Partager

Gmail Facebook X LinkedIn More