Dwie trzecie nagrody naszych studentów w konkursie Eurostat „The Web Intelligence – Deduplication Challenge”

Studenci naszej specjalności na kierunku Informatyka i Ekonometria – Mikołaj Tym i Jakub Żerebecki (2 stopień, 1 rok, specjalność Informatyka w Gospodarce i Administracji) – wzięli udział w konkursie „The Web Intelligence – Deduplication Challenge” organizowanym przez Eurostat pomiędzy grudniem 2022 a kwietniem 2023 roku. Realizowane zadanie dotyczyło dziedziny Data Science, a także przetwarzania języka naturalnego.

Celem konkursu była identyfikacja potencjalnych duplikatów ofert pracy zebranych ze stron internetowych w całej Unii Europejskiej. Zbiór danych zawierał 112.000 ogłoszeń o pracę w różnych językach, które należało sklasyfikować do jednej z kategorii:

  1. Unikalne ogłoszenia.
  2. Pełne duplikaty – oferty mające ten sam tytuł i opis stanowiska.
  3. Semantyczne duplikaty – oferty dotyczące tej samej pozycji zawodowej, ale wyrażone w inny sposób w języku naturalnym lub w różnych językach.
  4. Czasowe duplikaty – semantyczne duplikaty z różnymi datami pozyskania ogłoszenia.
  5. Częściowe duplikaty – oferty dotyczące tej samej pozycji zawodowej, ale zawierające, np. dodatkowe wymagania wobec kandydata, których nie posiada pierwotna oferta.

Nasi studenci przygotowali rozwiązanie w języku Python, które z wykorzystaniem LLM (duży model językowy), a także innych metod przetwarzania języka naturalnego identyfikuje zduplikowane oferty pracy.

W konkursie wzięło udział 69 zespołów z 17 krajów, a nasi studenci (zespół IDA) zajęli trzecie miejsca w dwóch kategoriach:

  1. Accuracy – jak najdokładniejsza identyfikacja duplikatów (3000 EUR).
  2. Reproducibility – opracowanie innowacyjnej i skalowalnej metodologii w celu tworzenia europejskich statystyk (3000 EUR).

Szczególne podziękowania należą się prof. Krzysztofowi Węclowi, którego zajęcia zainspirowały członków zespołu do rozwoju w Data Science oraz za jego bezcenną pomoc i wsparcie podczas trwania konkursu!

Więcej informacji na stronie: statistics-awards.eu/announcements/winners-wi-1st-round