Artykuł naukowy pracowników naszej Katedry pt. „Sentence Embeddings and Semantic Entity Extraction for Identification of Topics of Short Fact-Checked Claims” został opublikowany w otwartym dostępie. Praca opisuje podejście do przypisywania tematów do twierdzeń weryfikowanych przez agencje fact-checkingowe. Autorzy publikacji: dr hab. Krzysztof Węcel, prof. UEP, mgr Marcin Sawiński, dr Włodzimierz Lewoniewski, dr Milena Stróżyna, mgr Ewelina Księżniak, prof. dr hab. Witold Abramowicz.
W erze dominacji informacji cyfrowej, dezinformacja i fałszywe wiadomości stanowią coraz większe wyzwanie. W celu skutecznej walki z fałszywymi informacjami, niezbędne jest precyzyjne przypisywanie tematów do twierdzeń, które zostały sprawdzone przez agencje fact-checkingowe. Tradycyjne metody klasyfikacji często opierają się na prostych kategoriach, które nie oddają pełnego kontekstu ani złożoności zagadnień.
Naukowcy z Katedry Informatyki Ekonomicznej opracowali autorską metodę, która wykorzystuje zaawansowane techniki przetwarzania języka naturalnego. Poprzez zastosowanie osadzeń zdań (z ang. „sentence embeddings”), twierdzenia są przekształcane w numeryczne reprezentacje, co umożliwia ich analizę i porównywanie. Wykorzystano również metody klasteryzacji, takie jak HDBSCAN, UMAP i k-średnich, w celu grupowania twierdzeń podobnych.
Kluczowym elementem jest także wyodrębniania jednostek semantycznych z twierdzeń – identyfikacja i dopasowywanie konkretnych pojęć i tematów z baz wiedzy takich jak Wikidane, DBpedia, Wikipedia czy YAGO. Dzięki temu tematy są reprezentowane w sposób hierarchiczny, co ułatwia nawigację i zrozumienie powiązań między nimi.
Metoda została oceniona poprzez porównanie wyników z istniejącymi oznaczeniami profesjonalnych weryfikatorów faktów. Wyniki są obiecujące i wskazują, że takie podejście może znacząco usprawnić proces identyfikacji i klasyfikacji tematów w kontekście fałszywych wiadomości.
Publikacja powstała w ramach projektu OpenFact, finansowanego przez Narodowe Centrum Badań i Rozwoju w ramach programu INFOSTRATEG I „Zaawansowane technologie informacyjne, telekomunikacyjne i mechatroniczne”.