Integror

Integror jest wewnętrznym projektem Katedry, dotyczącym zagadnienia różnych poziomów integracji danych i informacji z Sieci. Nasze zainteresowania obejmują:

  • integrację strukturyzowanych i półustrukturyzowanych danych z Internetu i Głębokiego Internetu,
  • intuicyjną i półautomatyczną wizualną integrację nieustrukturyzowanych bloków treści.

U podstaw zadania integracji leżą dwa innowacyjne i wydajne formalizmy: jeden zdolny adresować treść strony oraz drugi, odpowiedzialny za opis ścieżek nawigacji.

Pierwszy z mechanizmów, oparty na względnym adresowaniu XPath, cechuje się większą wydajnością niż stosowane obecnie schematy oparte na bezwzględnym adresowaniu XPath. Jego wykorzystanie w zadaniu integracji informacji umożliwiło stworzenie aplikacji myPortal – intuicyjnego, przyjaznego użytkownikowi i wydajnego narzędzia, pozwalającego na tworzenie personalizowanych portali, opartych na logicznych blokach treści, która została wyekstrahowana z predefiniowanych źródeł. Korzystając z myPortal tworzenie reguł ekstrakcji bloków danych jest niezwykle proste i szybkie. Wyekstrahowane bloki mogą być komponowane w widoki zawierające zintegrowane informacji (personalizowany portal). Testy wykazały, że metoda ta, niezwykle elestycznie reaguje na zmiany treści. myPortal został dokładniej opisany w publikacjach oraz zademonstrowany na konferencjach VLDB i WWW.

Drugi z formalizmów, wykorzystuje oparty na modelu automatu skończonego (ang. Finite State Automata – FSA) opis nawigacji użytkownika i lemat o pompowaniu, co w połączeniu ze względnym XPath dało początek aplikacji DWDI (Deep Web Data Integration). Pozwala ona na integrację danych z półustrukturyzowanej i strukturyzowanej nawigacji (przeglądanie) oraz ze źródeł internetowych opartych na formularzach. DWDI wykorzystuje ścieżkę nawigacji wykonanej przez użytkownika i na jej podstawie tworzy wzorce nawigowania do źródeł z Sieci lub Głębokiego Internetu, natomiast umiejscowienie bloków danych na stronie jest opisane za pomocą względnego XPath.

Aktualne kierunki badań skupiają się na stworzeniu mechanizmu umożliwiającego bardziej wydajne i adaptacyjne adresowanie róznych obiektów Webowych w dynamicznym środowisku (np. zawierającym zmieniające się struktury serwisów internetowych):

  • wykorzystanie wizualnych cech i adresowania dwuwymiarowego bloków treści na stronach WWW,
  • automatyczne wykrywanie punktów odniesienienia dla względnego XPath,
  • rozwiązywanie konfliktów wynikających z wielokrotnego adresowania tych samych obiektów Webowych,
  • zdolność do działania po napotkaniu problemów technicznych, np. kod niespełniający standardów, błędy 404, itp.

Projekt obejmuje również badania nad aplikacjami i modelami biznesowymi dla wzbogaconego adresowania obiektów Webowych, nad naturą i kategoryzacją źródeł Głębokiego Internetu, jak również nad sposobami wizualnego i nawigacyjnego przedstawienia zawartości baz danych w Sieci. W planach przyszłych prac znajduje się wykorzystanie doświadczeń z projektu F-WebS, w celu zaimplementowania schematów wykorzystujących jakoś usług (QoS) do ewaluacji i selekcji źródeł sieciowych.