OpenFact na konferencji CLEF 2024

W dniach 9-12 września 2024 roku naukowcy z Katedry Informatyki Ekonomicznej przedstawili swoje prace podczas konferencji CLEF 2024, która się odbyła w Grenoble (Francja). To była 25. edycja konferencji CLEF (Conference and Labs of the Evaluation Forum), która jest kluczowym wydarzeniem w dziedzinie informacji oraz technologii językowych, skupiającym się na ocenie systemów informacyjnych. Dzięki różnorodnym zadaniom testowym, uczestnicy mogą porównywać i doskonalić swoje algorytmy, co sprzyja postępowi w naukach o informacji. Strona konferencji: clef2024.imag.fr.

Przedstawione przez naszych naukowców prace dotyczyły różnych metod, które zostały opracowane w ramach konkursów w obszarze wiarygodności informacji, oceny weryfikowalności tekstów, analizy wieloautorskiego stylu pisania oraz wykrywania zagrożeń w Internecie. Metody te mogą się przyczynić do rozwoju narzędzi do automatycznej oceny jakości informacji oraz wykrywania fake news.

W konkursie dotyczącym wiarygodności informacji metoda naszych naukowców zajęła pierwsze miejsce. Celem konkursu była weryfikacja odporności popularnych podejść do klasyfikacji tekstu stosowanych do problemów oceny wiarygodności. W ramach zadania należało opracować metodę, która najskuteczniej zmodyfikuje teksty w taki sposób, aby różne algorytmy klasyfikacyjne zmieniły swoją decyzję na przeciwną. Teksty te były związane z 5 obszarami problematycznymi: ocena stronniczości wiadomości, wykrywanie propagandy, sprawdzanie faktów, wykrywanie plotek oraz dezinformacji związanej z COVID-19. Spośród wszystkich zespołów, które zgłosiły swoje wyniki, metoda naszych naukowców uzyskała najwyższy wynik który uwzględniał miary związane z poziomem skuteczności zmian w tekstach, semantycznego podobieństwa oraz odległości edycyjnej Levenshteina. Największa liczba punktów pozwoliła zająć pierwsze miejsce w rankingu, wyprzedając metody opracowane m.in. przez Uniwersytet w Zurychu (UZH). Zwycięska metoda została opracowana przez zespół w składzie: dr Włodzimierz Lewoniewski, dr Piotr Stolarski, dr Milena Stróżyna, dr Elżbieta Lewańska, mgr inż. Aleksandra Wojewoda, mgr Ewelina Księżniak, mgr Marcin Sawiński. Szczegóły na temat opracowanej metody można znaleźć w artykule pt. „OpenFact at CheckThat! 2024: Combining multiple attack methods for effective adversarial text generation”.

W ramach konkursu dotyczącym oceny weryfikowalności tekstów w różnych językach nasi naukowcy zajęli drugie miejsce w rankingach – dla języka angielskiego i arabskiego. Celem konkursu było wykrywanie tekstów wartych sprawdzenia (z ang. „check-worthy”). Zastosowanie modeli językowych opartych na transformerach oraz technik międzyjęzykowego uczenia transferowego pozwoliło zdobyć dwa drugie miejsca w rankingach. W konkursie brali udział 26 zespołów z ośrodków z całego świata, w tym z Queen Mary University of London, Sorbonne Université, University of Montréal, Airbus Defence and Space. Nasz zespół zajął drugie miejsce pod kątem wartości miary F1 w ramach analizy tekstów. Miara F1 jest powszechnie stosowaną miarą do oceny modeli uczenia maszynowego, szczególnie w przypadku nierównowagi klas. Metoda została opracowana przez zespół OpenFact w składzie: mgr Marcin Sawiński, dr hab. Krzysztof Węcel, prof. UEP, mgr Ewelina Księżniak. Więcej informacji na temat opracowanej metody można znaleźć w artykule pt. „OpenFact at CheckThat! 2024: Cross-Lingual Transfer Learning for Check-Worthiness Detection”. Warto wspomnieć, że w roku 2023 zespół projektu OpenFact zajął pierwsze miejsce w konkursie „CLEF-2023 CheckThat! Lab” – najlepsza metoda pozwalająca wykrywać zdania w języku angielskim, które wymagają sprawdzenia ze względu na możliwość wprowadzania w błąd.

Zespół OpenFact wziął również udział w konkursie dotyczącego analizy wieloautorskiego stylu pisania. Zadanie konkursowe polegało na wykrywaniu miejsc, w których następuje zmiana autora w tekście napisanym przez kilku autorów. Kluczową kwestią było sprawdzenie, czy możliwe jest rozpoznanie różnic w stylu pisania. W efekcie prac powstał artykuł pt. „Team OpenFact at PAN 2024: Fine-Tuning BERT Models with Stylometric Enhancements”, opisujący zastosowane podejście. Autorzy publikacji: mgr Ewelina Księżniak, dr hab. Krzysztof Węcel, prof. UEP, mgr Marcin Sawiński.

Katedra Informatyki Ekonomicznej realizuje obecnie projekt badawczy OpenFact, kierowany przez prof. dra hab. Witolda Abramowicza. W ramach tego projektu opracowywane są narzędzia do automatycznego wykrywania fake news w języku polskim. W lipcu 2024 roku wyniki projektu OpenFact drugi rok z rzędu zostały ocenione przez NCBiR jako najlepsze w Polsce. Zwycięstwo w prestiżowych konkursach potwierdza, że dokonania naszego zespołu są istotne w skali światowej oraz że metody opracowane przez zespół OpenFact osiągają równie wysoką skuteczność w innych językach.

Projekt OpenFact jest finansowany przez Narodowe Centrum Badań i Rozwoju w ramach programu INFOSTRATEG I „Zaawansowane technologie informacyjne, telekomunikacyjne i mechatroniczne”.

Poza projektem OpenFact, naukowcy z Katedry Informatyki Ekonomicznej uzyskali również najlepszy wynik w konkursie w zakresie wczesnego wykrywania zagrożeń w Internecie. Celem konkursu było opracowanie systemu wczesnego rozpoznawania osób z anoreksją na podstawie ich aktywności na platformach społecznościowych. Spośród licznych zespołów, które zgłosiły swoje rozwiązania, metoda opracowana przez naszych naukowców osiągnęła najlepszy wynik według metryki ERDE (Early Risk Detection Error). Metryka ta uwzględnia zarówno precyzję wyników, jak i czas potrzebny do zaalarmowania o możliwości, że dana osoba może cierpieć na anoreksję. Aspekt ten stanowił kluczowy element konkursu oraz ma realny wpływ przy zastosowaniu systemów wczesnego ostrzegania. Autorzy metody: mgr Oskar Riewe-Perła oraz dr hab. Agata Filipowska, prof. UEP. Autorskie rozwiązanie jest opisane w artykule pt. „Combining Recommender Systems and Language Models in Early Detection of Signs of Anorexia”.