Początek roku akademickiego w Stanach Zjednoczonych zbiegł się z wystąpieniem dra Włodzimierza Lewoniewskiego na Uniwersytecie Tufts. W ramach seminarium dyskusyjnego omówione zostały kwestie związane z wykorzystaniem sztucznej inteligencji oraz wielkich zbiorów otwartych danych do automatyzacji procesu oceny jakości artykułów Wikipedii oraz jej źródeł informacji w różnych wersjach językowych.
Wydarzenie odbyło się w dniu 7 września 2023 roku w budynku Joyce Cummings Center (JCC) podczas sześciotygodniowej wizyty dra Włodzimierza Lewoniewskiego w Stanach Zjednoczonych. To pierwsze seminarium dyskusyjne (colloquium) na Uniwersytecie Tufts w ramach roku akademickiego 2023/2024. Więcej informacji na temat seminariów z zaproszonymi prelegentami omawiającymi wyzwania badawcze i najnowsze postępy w informatyce można znaleźć na stronie internetowej Uniwersytetu Tufts.
Automatyczna ocena jakości Wikipedii
Wikipedia jest jednym z największych źródeł informacji na świecie z milionami artykułów w wielu językach. Ta encyklopedia oferuje darmowy i otwarty dostęp do ogromnej ilości informacji na praktycznie każdy temat. Dzięki temu ludzie na całym świecie mogą zdobywać wiedzę, której wcześniej nie mieli możliwości poznania. Dodatkowo, treści pochodzące z tej ogólnodostępnej encyklopedii pomagają polepszać różne serwisy internetowe (np. wyszukiwarka Google, ChatGPT, Facebook etc.).
Wikipedia jest tworzona przez wolontariuszy z całego świata, co sprawia, że jest dynamiczna i ciągle rozwijająca się. Ten model współpracy pozwala na szybkie aktualizacje i korekty informacji. Codziennie w ramach tej encyklopedii wprowadza się ponad pół miliona nowych edycji. Ręczna ocena wszystkich tych zmian w realnym czasie jest dużym wyzwaniem.
W Wikipedii istnieją pewne standardy oceny jakości treści. Jednak kryteria oceny mogą się różnić w zależności od wersji językowej oraz mogą się zmieniać w czasie. Ponadto, ocena jakości informacji jest w dużej mierze procesem subiektywnym, zależnym od interpretacji i doświadczenia poszczególnych edytorów tej encyklopedii. Dlatego ocena artykułów w Wikipedii często wymaga dialogu i konsensusu wśród społeczności.
Automatyzacja procesu oceny jakości informacji Wikipedii może znacząco przyczynić się do poprawy jakości treści, efektywności pracy redaktorów oraz wiarygodności platformy jako całości. Algorytmy, które są dobrze zaprojektowane, nie mają emocji, uprzedzeń ani stronniczości, co może pomóc w zapewnieniu bardziej obiektywnej oceny jakości informacji. Dodatkowo, automatyzacja pozwala na jednolitą i spójną ocenę jakości artykułów opartą na ustalonych kryteriach, co przyczynia się do większej spójności w ocenie treści. Dzięki automatyzacji można również gromadzić i analizować duże ilości danych dotyczących jakości informacji, co może dostarczyć cennych wskazówek na temat obszarów wymagających poprawy i kierunków dalszego rozwoju platformy. Ponadto, automatyzacja może pomóc w odciążeniu użytkowników Wikipedii od rutynowych zadań, pozwalając skupić się na bardziej skomplikowanych aspektach edycji oraz moderacji.
Specjalnie przygotowane narzędzia mogą natychmiast identyfikować potencjalne problemy, takie jak wandalizm, nieodpowiednie treści czy dezinformacja, co pozwala na szybsze reagowanie i poprawę jakości treści. Te narzędzia mogą dostarczać redaktorom cennych informacji zwrotnych w czasie rzeczywistym, pomagając im w tworzeniu i edycji artykułów zgodnie z wytycznymi Wikipedii. Dodatkowo, systemy automatycznej oceny artykułów Wikipedii (np. WikiRank) oraz jej źródeł informacji (np. BestRef) mogą być zintegrowane z innymi narzędziami i platformami, co pozwala na lepsze wykorzystanie technologii w celu poprawy jakości treści.
Należy również pamiętać, że społeczność Wikipedii składa się z wielu wolontariuszy, którzy zazwyczaj ręcznie oceniają i poprawiają treść. W przypadku znaczącej aktywizacji działań w kierunku zamieszczania fałszywych informacji lub masowego wandalizmu, automatyczne narzędzia mogą służyć jako pierwsza linia obrony, szybko identyfikując i reagując na niechciane zmiany.
Kluczowym aspektem jakości treści w Wikipedii jest zasada weryfikowalności informacji. To oznacza, że każde twierdzenie w artykułach tej encyklopedii musi być oparte o wiarygodne źródło informacji. Automatyzacja procesu oceny źródeł mogą pomóc szybko identyfikować źródła, które są potencjalnie niewiarygodne, przestarzałe lub które nie spełniają standardów akademickich, co pozwala redaktorom skupić się na ich weryfikacji lub zastąpieniu bardziej wiarygodnymi źródłami. Dodatkowo, w dobie rosnącej liczby fake news, automatyczna ocena źródeł może szybko wykrywać i sygnalizować informacje oparte na wątpliwych źródłach, zapobiegając ich rozprzestrzenianiu się. Ponadto, nowi redaktorzy Wikipedii mogą nie być pewni, jakie źródła są najbardziej wiarygodne w danej dziedzinie. Automatyczna ocena źródeł może dostarczyć im wskazówek i zaleceń, pomagając w wyborze odpowiednich materiałów źródłowych.
DBpedia oraz Wikidane
W ramach prezentacji zostały również przedstawione niektóre możliwości otwartych semantycznych baz wiedzy, które mocno są związane z Wikipedią – DBpedia oraz Wikidane. Podczas gdy DBpedia koncentruje się na wyodrębnianiu danych z Wikipedii w formie bardziej przystępnej dla maszyn, Wikidane służą jako centralna baza danych wspierająca wszystkie projekty Wikimedia w różnych językach. Wspólnie te inicjatywy przyczyniają się do zwiększenia dostępu do wiedzy w sposób bardziej strukturyzowany. Poprawa jakości w Wikipedii może przyczyniać się do polepszenia tych semantycznych baz wiedzy.
Wikipedia, Wikidata i DBpedia są otwartymi zasobami, które umożliwiają wykorzystanie swojej treści do różnorodnych celów. Lepsza jakość tych zasobów może się przyczynić do polepszenia innych serwisów, które wykorzystują otwarte dane. Poniżej znajduje się lista przykładów serwisów i zastosowań, które mogą korzystać z Wikipedii, DBpedii oraz Wikidanych:
- Wyszukiwarki internetowe: indeksowanie i integracja treść z tych baz w celu poprawy wyników wyszukiwania.
- Semantyczne wyszukiwarki: tworzenie wyszukiwarek, które rozumieją kontekst zapytania dzięki strukturalnym danym z DBpedii lub Wikidanych.
- Przetwarzanie języka naturalnego (NLP): wykorzystanie treści do trenowania modeli językowych lub do analizy składniowej.
- Aplikacje edukacyjne: wykorzystanie treści do tworzenia materiałów dydaktycznych. Np. aplikacja korzysta z artykułów Wikipedii, aby przedstawić użytkownikowi interaktywną linię czasu ważnych wydarzeń historycznych, umożliwiając jednocześnie pogłębienie wiedzy poprzez odnośniki do pełnych haseł.
- Systemy rekomendacji: mogą korzystać z danych z tych źródeł, aby rekomendować artykuły lub tematy powiązane. Np. analizując preferencje użytkownika, system sugeruje filmy (lub gry, książki etc.) oparte na aktorach, reżyserach czy gatunkach, korzystając z informacji zawartych w DBpedii lub Wikidanych, a następnie oferuje linki do powiązanych haseł w Wikipedii dla głębszego zrozumienia kontekstu.
- Tworzenie gier edukacyjnych: wykorzystanie danych do stworzenia quizów, gier planszowych czy komputerowych z pytaniami opartymi na treściach z tych baz.
- Opracowywanie historii tematycznych: na przykład ścieżek edukacyjnych czy wycieczek turystycznych opartych na treści z Wikipedii.
- Chmury wiedzy i ontologie: do tworzenia semantycznych baz wiedzy. Np. korporacje mogą korzystać danych z DBpedia oraz Wikidanych do tworzenia spersonalizowanych chmur wiedzy, które integrują informacje branżowe z ogólną wiedzą, umożliwiając pracownikom szybki dostęp do spójnych i aktualnych danych.
- Asystenci wirtualni i chatboty: mogą korzystać z tych źródeł, aby dostarczać odpowiedzi na pytania użytkowników. Np. asystent wirtualny wykorzystuje ontologie z DBpedią do zrozumienia semantycznych powiązań między różnymi tematami, co pozwala na bardziej płynną i kontekstualnie bogatą interakcję z użytkownikiem.
- Serwisy analizy danych: analizować i wizualizować dane pochodzące z tych źródeł. Np. takie serwisy mogą korzystać z historii edycji Wikipedii, aby monitorować i analizować najczęściej aktualizowane tematy, co może świadczyć o rosnącym zainteresowaniu danym wydarzeniem czy tematem w świecie.
- Analiza sieci powiązań: korzystając z DBpedii oraz Wikidanych, serwisy mogą tworzyć sieci powiązań między różnymi jednostkami (np. osobami, miejscami, wydarzeniami), co pozwala na głębsze zrozumienie relacji i wzorców zachodzących w skomplikowanych zestawach danych.
- Aplikacje do nauki języków: wykorzystanie treści do tworzenia materiałów do nauki różnych języków. Np. można prezentować użytkownikom artykuły Wikipedii w dwóch językach równocześnie, umożliwiając porównywanie struktur językowych i lepsze zrozumienie kontekstu tłumaczenia.
- Badania naukowe: badacze mogą korzystać z tych danych w celu analizy, badania i tworzenia nowej wiedzy. Np. korzystanie z DBpedii oraz Wikidanych do tworzenia specjalistycznych baz danych semantycznych, które pomagają w analizie i interpretacji złożonych zestawów informacji, na przykład w biologii molekularnej czy naukach społecznych.
- Tworzenie map i aplikacji geolokalizacyjnych: wykorzystanie danych geograficznych i historycznych do tworzenia interaktywnych map.
- Aplikacje kulturowe i turystyczne: mogą przedstawiać informacje o miejscach, osobach czy wydarzeniach historycznych.
- Integracja z aplikacjami AR/VR: wykorzystanie danych dla aplikacji wirtualnej lub rozszerzonej rzeczywistości, które mogą dostarczać informacji na temat otoczenia użytkownika.
- Analiza sentymentu: wykorzystanie historii edycji artykułów do analizy sentymentu w dyskusjach na różne tematy. Np. można śledzić zmieniające się opinie na temat kontrowersyjnych tematów lub postaci, obserwując jak ewoluują sformułowania i ton artykułów w odpowiedzi na bieżące wydarzenia.
- Linkowanie danych: połączenie danych z tych baz z innymi źródłami otwartymi w celu tworzenia bogatszych zestawów informacji.
- Personalizacja treści: aplikacje czy serwisy mogą dostosowywać treść opartą na Wikipedii do indywidualnych potrzeb i zainteresowań użytkowników.