Microsoft Azure for Research Award wesprze podnoszenie jakości informacji na przykładzie Wikipedii

Dr Krzysztof Węcel z Katedry Informatyki Ekonomicznej otrzymał grant na przeprowadzenie badań z wykorzystaniem narzędzi dostępnych w chmurze Microsoft Azure. Nagroda została przyznana w ramach programu Microsoft Azure for Research Award po pozytywnej ocenie zgłoszonego projektu „Data Science for improving the quality of crowdsourced information. The case of Wikipedia”. W realizacji projektu będzie uczestniczył również doktorant Włodzimierz Lewoniewski oraz studenci, którzy w okresie letnim będą odbywali w Katedrze praktyki w tym zakresie.

Celem prowadzonych badań jest opracowanie metod pozwalających na zgromadzenie kompletnej, dokładnej, wiarygodnej i aktualnej informacji, czyli informacji wysokiej jakości, na podstawie analizy informacji dostarczanych przez niezależnych dostawców informacji (crowdsourcing). Najbardziej znanym przykładem źródła współtworzonego przez wiele osób jest Wikipedia. Obecnie zawiera ona ponad 44 miliony artykułów w prawie 300 językach. Jest piątą najbardziej popularną witryną na świecie. Jest również źródłem, które przyciąga największy ruch internetowy z wyszukiwarek – 37,5% (źródło: Alexa).

Szczególnym wyzwaniem jest wolumen danych. Angielska Wikipedia zawiera ponad 5 milionów artykułów. Sam tekst tych artykułów po spakowaniu zajmuje 13GB. Do tego dochodzą strony z dyskusją o artykułach – 25GB. Gdyby chcieć uwzględnić informacje o tym kto i kiedy zmienił jaką stronę (bez samej treści zmian), to potrzebne jest kolejne 50GB. Przewidywany wolumen dla zakresu planowanych badań to 15-20 terabajtów (1TB = 1024GB). Wykorzystanie usług Azure może istotnie poprawić jakość i szybkość prowadzonych badań. Nie tylko pozwoli na przezwyciężenie wyzwań związanych z wolumenem danych, ale również istotnie zwiększy możliwości obliczeniowe, przede wszystkim w zakresie uczenia maszynowego (Machine Learning) do budowy modeli oceny jakości.

Prowadzone przez nas badania mogą przyczynić się do przezwyciężenia wielu wyzwań społecznych i ekonomicznych związanych z jakością informacji. Jako jeden z przykładów można podać problem rozprzestrzeniania się fałszywych wiadomości (fake news). Z praktycznych korzyści zespół Katedry Informatyki Ekonomicznej zdobędzie istotne doświadczenie w pracy z wielkoskalowymi danymi, co wzmocni potencjał naukowy w składanych wnioskach o granty unijne.