Trust in online data : privacy in text, and semantic-based author verification in micro-messages - Laboratoire d'Informatique PAris DEscartes - EA 2517 Accéder directement au contenu
Thèse Année : 2021

Trust in online data : privacy in text, and semantic-based author verification in micro-messages

Confiance dans les données en ligne : confidentialité dans le texte et vérification sémantique de l'auteur dans les micro-messages

Khodor Hammoud
  • Fonction : Auteur
  • PersonId : 1367427
  • IdRef : 276605616

Résumé

Many Problems surround the spread and use of data on social media. There is a need to promote trust on social platforms, regarding the sharing and consumption of data. Data online is mostly in textual form which poses challenges for automation solutions because of the richness of natural language. In addition, the use of micro-messages as the main means of communication on social media makes the problem much more challenging because of the scarceness of features to analyze per body of text. Our experiments show that data anonymity solutions cannot preserve user anonymity without sacrificing data quality. In addition, in the field of author verification, which is the problem of determining if a body of text was written by a specific person or not, given a set of documents known to be authored by them, we found a lack of research working with micro-messages. We also noticed that the state-of-the-art does not take text semantics into consideration, making them vulnerable to impersonation attacks. Motivated by these findings, we devote this thesis to tackle the tasks of (1) identifying the current problems with user data anonymity in text, and provide an initial novel semantic-based approach to tackle this problem, (2) study author verification in micro-messages and identify the challenges in this field, and develop a novel semantics-based approach to solve these challenges, and (3) study the effect of including semantics in handling manipulation attacks, and the temporal effect of data, where the authors might have changing opinions over time. The first part of the thesis focuses on user anonymity in textual data, with the aim to anonymize personal information from online user data for safe data analysis without compromising users’ privacy. We present an initial novel semantic-based approach, which can be customized to balance between preserving data quality and maximizing user anonymity depending on the application at hand. In the second part, we study author verification in micro-messages on social media. We confirm the lack of research in author verification on micro-messages, and we show that the state-of-the-art, which primarily handles long and medium-sized texts, does not perform well when applied on micro-messages. Then we present a semantics-based novel approach which uses word embeddings and sentiment analysis to collect the author’s opinion history to determine the correctness of the claim of authorship, and show its competitive performance on micro-messages. We use these results in the third part of the thesis to further improve upon our approach. We construct a dataset consisting of the tweets of the 88 most followed twitter influencers. We use it to show that the state-of-the-art is not able to handle impersonation attacks, where the content of a tweet is altered, changing the message behind the tweet, while the writing pattern is preserved. On the other hand, since our approach is aware of the text’s semantics, it is able to detect text manipulations with an accuracy above 90%. And in the fourth part of the thesis, we analyze the temporal effect of data on our approach for author verification. We study the change of authors’ opinions over time, and how to accommodate for that in our approach. We study trends of sentiments of an author per a specific topic over a period of time, and predict false authorship claims depending on what timeframe does the claim of authorship fall in.
De nombreux problèmes émanent de la diffusion et l'utilisation des données sur les réseaux sociaux. Il est nécessaire de promouvoir la confiance sur les plateformes sociales, quant au partage et l’utilisation des données. Les données en ligne sont principalement sous forme textuelle, ce qui pose des problèmes aux solutions d'automatisation en raison de la richesse du langage naturel. De plus, l'utilisation des micro-messages comme principal moyen de communication sur les médias sociaux rend le problème beaucoup plus difficile en raison de la rareté des fonctionnalités à analyser par corps de texte. Nos expériences montrent que les solutions d'anonymat des données ne peuvent pas préserver l'anonymat des utilisateurs sans sacrifier la qualité des données. De plus, dans le domaine de la vérification d'auteur, étant donné un ensemble de documents dont l'auteur est connu, nous avons constaté très peu de travaux de recherche travaillant sur les micro-messages. Nous avons également remarqué que l'état de l'art ne prend pas en considération la sémantique des textes, les rendant vulnérables aux attaques par usurpation d'identité. Motivés par ces résultats, nous consacrons cette thèse pour aborder les tâches de (1) identifier les problèmes actuels avec l'anonymat des données utilisateur dans le texte, et fournir une première approche sémantique originale pour résoudre ce problème, (2) étudier la vérification de l'auteur en micro -messages, et développer une nouvelle approche basée sur la sémantique pour résoudre ces défis, et (3) étudier l'effet de l'inclusion de la sémantique dans la gestion des attaques de manipulation, (4) étudier l'effet temporel des données, où les auteurs pourraient avoir changer d'avis au fil du temps. La première partie de la thèse se concentre sur l'anonymat des utilisateurs dans les données textuelles sur les réseaux sociaux, dans le but d'anonymiser les informations personnelles des données des utilisateurs en ligne pour une analyse sécurisée des données sans compromettre la confidentialité des utilisateurs. Nous présentons une première approche basée sur la sémantique, qui peut être personnalisée pour équilibrer la préservation de la qualité des données et la maximisation de l'anonymat de l'utilisateur en fonction de l'application à portée de main. Dans la deuxième partie, nous étudions la vérification d'auteur dans les micro-messages sur les réseaux sociaux. Nous confirmons le manque de recherche en vérification d'auteur sur les micro-messages, et nous montrons que l'état de l'art ne fonctionne pas bien lorsqu'il est appliqué sur des micro-messages. Ensuite, nous présentons une nouvelle approche basée sur la sémantique qui utilise des inclusions de mots et une analyse des sentiments pour collecter l'historique des opinions de l'auteur afin de déterminer l'exactitude de la revendication de paternité et montrer ses performances concurrentielles sur les micro-messages. Nous utilisons ces résultats dans la troisième partie de la thèse pour améliorer encore notre approche. Nous construisons un ensemble de données composé des tweets des 88 influenceurs Twitter les plus suivis. Nous l'utilisons pour montrer que l'état de l'art n'est pas capable de gérer les attaques d'usurpation d'identité, modifiant le message derrière le tweet, tandis que le modèle d'écriture est préservé. D'autre part, puisque notre approche est consciente de la sémantique du texte, elle est capable de détecter les manipulations de texte avec une précision supérieure à 90%. Et dans la quatrième partie de la thèse, nous analysons l'effet temporel des données sur notre approche de vérification d'auteur.Nous étudions l'évolution des opinions des auteurs au fil du temps et comment s'en accommoder dans notre approche. Nous étudions les tendances des sentiments d'un auteur pour un sujet spécifique sur une période de temps et prédisons les fausses allégations de paternité en fonction de la période dans laquelle se situe la revendication.
Fichier principal
Vignette du fichier
Hammoud_Khodor_va.pdf (3.18 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04519886 , version 1 (25-03-2024)

Identifiants

  • HAL Id : tel-04519886 , version 1

Citer

Khodor Hammoud. Trust in online data : privacy in text, and semantic-based author verification in micro-messages. Social and Information Networks [cs.SI]. Université Paris Cité, 2021. English. ⟨NNT : 2021UNIP5203⟩. ⟨tel-04519886⟩
1 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More