Zespół projektu OpenFact wziął udział w konkursie CheckThat! organizowanym w ramach międzynarodowej konferencji CLEF 2023 (Conference and Labs of the Evaluation Forum). Zaproponowana przez naszych naukowców metoda zajęła pierwsze miejsce. Ta metoda pozwala wykrywać zdania w języku angielskim, które wymagają sprawdzenia ze względu na możliwość wprowadzania w błąd.
Główna metoda zespołu OpenFact uzyskała najwyższy wynik F1 (średnią harmoniczną precyzji i pełności odpowiedzi), dając pierwsze miejsce w rankingu, przed metodami opracowanymi przez 10 innych zespołów, w tym przez Instytut Fraunhofera i firmę Accenture. Lepsza od konkurencji okazała się również druga metoda naszych naukowców (mimo że do oceny można było zgłosić więcej modeli, to oficjalnie w klasyfikacji można wskazać tylko jeden). Zwycięska metoda polegała na wykorzystaniu dużego modelu językowego GPT o wielkości 13 miliardów parametrów wstępnie wytrenowanym na ogólnym korpusie tekstu o wielkości 800GB a następnie dotrenowaniu go do zadania klasyfikacji na specjalnie dobranym zestawie uczącym. Drugie najlepsze rozwiązanie polegało na dotrenowaniu lokalnego modelu DeBERTa. Szczegółową informacje na temat implementacji zwycięskiej metody można znaleźć w pracy pt. „OpenFact at CheckThat! 2023: Head-to-Head GPT vs. BERT – A Comparative Study of Transformers Language Models for the Detection of Check-worthy Claims” .
Wykrywanie zdań, które wymagają sprawdzenia, jest niezwykle istotne w procesie fact-checkingu, ponieważ pozwala filtrować strumień wiadomości i kierować uwagę profesjonalnego fact-checkera lub algorytmu automatycznej weryfikacji. CLEF CheckThat! Lab jest organizowany od 2018 roku, a jego celem jest rozwój metod automatycznej identyfikacji i weryfikacji stwierdzeń pojawiających się w wypowiedziach polityków. Międzynarodowa konferencja odbywała się w Bolonii, Bukareszcie, Lugano, Avignon a wyniki tegorocznej edycji zostaną zaprezentowane we wrześniu na konferencji w Salonikach w Grecji. CLEF CheckThat! Lab oraz FEVER to najważniejsze światowe wydarzenia poświęcone wyłącznie zagadnienia automatycznej weryfikacji fake news.
Warto wspomnieć, że w marcu 2023 roku wyniki zespołu OpenFact dotyczące wykrywania fałszywych informacji z użyciem sztucznej inteligencji dla języka polskiego zostały ocenione przez NCBiR jako najlepsze w Polsce. Zwycięstwo w tym prestiżowym konkursie potwierdza, że dokonania zespołu projektu OpenFact są istotne w skali światowej oraz że metody opracowane przez zespół OpenFact osiągają równie wysoką skuteczność w innych językach.
Skład zespołu projektu OpenFact: prof. Witold Abramowicz, dr hab. Krzysztof Węcel, prof. UEP, dr Włodzimierz Lewoniewski, dr Piotr Stolarski, dr Milena Stróżyna, mgr Ewelina Księżniak, mgr Marcin Sawiński.
Projekt OpenFact jest finansowany przez Narodowe Centrum Badań i Rozwoju w ramach programu INFOSTRATEG I „Zaawansowane technologie informacyjne, telekomunikacyjne i mechatroniczne”.