SoftJaccard: une mesure de similarité entre ensembles de chaînes de caractères pour l'unification d'entités nommées

Résumé : Parmi les mesures de similarité classiques utilisables sur des ensembles figure l'indice de Jaccard. Dans le cadre de cet article, nous en proposons une extension pour comparer des ensembles de chaînes de caractères. Cette mesure hybride permet de combiner une distance entre chaînes de caractères, telle que la distance de Levenstein, et l'indice de Jaccard. Elle est particulièrement adaptée pour mettre en correspondance des champs composés de plusieurs chaînes de caractères, comme par exemple, lorsqu'on se propose d'unifier des noms d'entités nommées.
Document type :
Conference papers
Complete list of metadatas

https://hal-ujm.archives-ouvertes.fr/ujm-00366422
Contributor : Christine Largeron <>
Submitted on : Friday, March 6, 2009 - 6:55:21 PM
Last modification on : Wednesday, July 25, 2018 - 2:05:31 PM
Long-term archiving on : Tuesday, June 8, 2010 - 11:11:36 PM

File

posterEGC09.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : ujm-00366422, version 1

Collections

Citation

Christine Largeron, Bernard Kaddour, Maria Fernandez. SoftJaccard: une mesure de similarité entre ensembles de chaînes de caractères pour l'unification d'entités nommées. Extraction et Gestion des Connaissances (EGC 2009), Jan 2009, Strasbourg, France. pp.443-444. ⟨ujm-00366422⟩

Share

Metrics

Record views

243

Files downloads

2283