Identyfikowanie wiarygodnych źródeł informacji o firmach w wielojęzycznej Wikipedii

Na stronie wydawnictwa IEEE została opublikowana praca naukowa na temat automatycznej identyfikacji wiarygodnych źródeł informacji o firmach w wielojęzycznej Wikipedii. Przedstawione w ramach publikacji modele oceny źródeł informacji mogą pomóc użytkownikom Internetu w poszukiwaniu wartościowych źródeł informacji na temat firm za pomocą otwartych danych z Wikipedii, DBpedii oraz Wikidanych.

Autorzy publikacji: Włodzimierz Lewoniewski, Krzysztof Węcel, Witold Abramowicz. Wyniki badań naukowych zostały przedstawione podczas konferencji FedCSIS 2022.

W celu dobrania artykułów Wikipedii o firmach, zostały wykorzystane dane z różnych semantycznych baz wiedzy – DBpedii[1] oraz Wikidanych[2].

Najczęściej używane wartości[3] w ramach właściwości P31 („jest to”) w elementach Wikidanych związanych z co najmniej jednym artykułem Wikipedii. Źródło: obliczenia własne w 2022 roku.

Wikidane – semantyczna baza wiedzy, która działa na podobnych zasadach, co Wikipedia, z jedną istotną różnicą – tutaj możemy umieszczać fakty dotyczące obiektów za pomocą stwierdzeń o właściwościach i wartościach, a nie zdań w języku naturalnym. Każdy element Wikidanych zawiera zbiór różnych stwierdzeń ułożonych w formie: „Obiekt-Właściwość-Wartość”. Na przykład, informacje na temat Uniwersytetu Ekonomicznego w Poznaniu możemy znaleźć na osobnej stronie w Wikidanych:

Wikidane są również uważane za centralną platformę zarządzania danymi dla Wikipedii i większości jej siostrzanych projektów. To oznacza, że za pośrednictwem WikiDanych, możemy znaleźć odwołania do artykułów Wikipedii w różnych językach opisujących ten sam obiekt. Zatem posiadając listę elementów Wikidanych określonego typu (np. firmy) możemy znaleźć również odpowiednie nazwy artykułów Wikipedii.

Obecnie Wikidane posiadają ponad 100 milionów elementów[4] (opisanych obiektów), podczas gdy liczba artykułów Wikipedii we wszystkich wersjach językowych wynosi około 60 milionów[5]. Zatem nie każdy element Wikidanych musi posiadać odwołanie do osobnego artykułu Wikipedii na określony temat.

Najczęściej używane klasy z ontologii DBpedii[6]. Źródło: obliczenia własne w 2022 roku.

DBpedia – to semantyczna baza wiedzy, która jest automatycznie wzbogacana przy użyciu ustrukturyzowanych informacji z artykułów Wikipedii w różnych językach. Uzyskana wiedza na dany temat jest dostępna na osobnej stronie. Na przykład takie semantyczne dane dotyczące Uniwersytetu Ekonomicznego w Poznaniu jako zasób DBpedii wydobyte z angielskojęzycznej Wikipedii[7] możemy znaleźć na stronie:

Na takich stronach DBpedii, wśród różnych właściwości, możemy również znaleźć informacje o typie (typach) opisywanego obiektu. Dla naszego przykładu DBpedia wskazuje na przynależność obiektu do takich klas jak: dbo:Organisation, dbo:EducationalInstitution, dbo:University oraz innych. Posiadając nazwy interesujących nas klas, możemy znaleźć wszystkie obiekty określonego typu w ramach DBpedii.

Publikację naukową można znaleźć na stronię wydawnictwa IEEE oraz ACSIS.

Uwagi

  1. Strona DBpedii: www.dbpedia.org
  2. Strona Wikidanych: www.wikidata.org
  3. W ramach danego wykresu zostały wykluczone następujące wartości: Q4167410 („strona ujednoznaczniająca w projekcie Wikimedia”), Q13406463 („lista w projekcie Wikimedia”), Q22808320 („strona ujednoznaczniająca dla osób”), Q18340514 („artykuł o wydarzeniach w określonym roku lub okresie”)
  4. Statystyki Wikidanych: www.wikidata.org/wiki/Special:Statistics
  5. Lista wersji językowych Wikipedii: meta.wikimedia.org/wiki/List_of_Wikipedias
  6. Więcej informacji na temat ontologii DBpedii można znaleźć na stronie: dbpedia.org/resources/ontology/
  7. Artykuł anglojęzycznej Wikipedii na temat Uniwersytetu Ekonomicznego w Poznaniu jest umieszczony pod adresem: en.wikipedia.org/wiki/Poznań_University_of_Economics_and_Business