BBC i IBM tworzą Web 3.0

Internetowe wyszukiwarki, których potęga zaczyna niepokoić niektórych badaczy internetu niedługo staną się jeszcze potężniejsze. Dzięki współpracy IBM z brytyjskim koncernem medialnym BBC powstaje technologia pozwalająca szukać nie tylko słów kluczowych ale także grzebać wewnątrz plików wideo i audio.

Do tej pory, internetowe wyszukiwarki były mocno uzależnione od ludzi. Przy przeglądaniu filmów i obrazów biorą pod uwagę tylko opisy i tzw. tagi, czyli słowa kluczowe wpisane przez autora strony internetowej. Szukając “po omacku” internetowe roboty nie znajdują bardzo wielu filmów, które, choć odpowiadają wyszukiwanemu przez internautę hasłu, nie zostały wyczerpująco opisane. Ułomność wyszukiwarek pozwala właścicielom serwisów internetowych na denerwujące sztuczki. Często opisują oni filmy w sposób mylący, żeby zwiększyć ruch na swojej witrynie.

Marvel, wyszukiwarka rozwijana przez IBM, ma tym problemom zaradzić. Jak zapowiadają twórcy, nowa technologia spowoduje też, że wyniki wyszukiwania będą znacznie bardziej trafne. - To będzie Web 3.0, technologia, która rozumie zawartość strony i potrafi rozpoznać więcej niż tylko ciąg zer i jedynek - powiedział cytowany przez serwis internetowy media.guardian.co.uk. Ashley Highfield, dyrektor BBC ds. technologii i mediów przyszłości.

Na podbój archiwów BBC

Oczywiście, tak zaawansowane technologie nie powstają od razu. Na razie IBM stworzy wyszukiwarkę w brytyjskich serwisach dla dzieci - CBBC i CBeebies. Jednak nowa technologia ma znaleźć zastosowanie także w innych działach BBC.

Marvel ma przede wszystkim znacznie ułatwić przeglądanie w internecie audiowizualnego archiwum BBC. Stacja posiada już bardzo prostą wyszukiwarkę wideo. Nie jest ona jednak wystarczającym narzędziem do przeglądania ogromnych archiwów, a, jak podkreśla Highfield, stworzenie skutecznej technologii wyszukiwania filmów może przesądzić o sukcesie bądź porażce BBC w sieci.

Obecnie archiwum zawiera filmy o łącznej długości przekraczającej 1,5 mln godzin i, jak przyznał Highfield, opisy większości z nich zawierają co najwyżej kilka tagów, a wiele filmów - ręczne opisywanie zajmuje średnio dziesięć razy dłużej niż trwa sam klip - w ogóle nie jest opisane. Ale nawet opisanie filmu nie gwarantuje sukcesu. Trudno uniknąć błędów i utrzymać jednolite standardy opisu przy tak monotonnej pracy. Przy tak opisanym archiwum znalezienie większości filmów jest w zasadzie niemożliwe. Jeśli nowa wyszukiwarka się sprawdzi, pracownicy BBC będą mieli problem z głowy.

Program się uczy, co jest na obrazkach

Program Marvel, jako obiecująca innowacja zdobył w 2004 roku nagrodę Wall Street Journal Technology Innovation Award. Teraz ta bardzo zaawansowana wyszukiwarka, oparta o algorytmu samouczące się będzie miała szansę sprawdzić się w praktyce.

System uczy się rozpoznawania obrazów na podstawie próbek opisanych przez człowieka. Na obecnym etapie prac nad oprogramowaniem trzeba ręcznie opisać 5, a czasami tylko 1 proc. zasobów. Resztę program poopisuje już samodzielnie.

Jak to możliwe? Wszystko dzięki statystycznej analizie danych. Marvel analizuje opisane i nieopisane materiały, porównując ścieżkę dźwiękową i obrazy, a nawet mowę i pojawiające się na zdjęciach napisy. I nie tylko porównuje kolory czy teksturę - stosuje też zaawansowane modele znaczeniowe, dzięki którym “rozumie” treść przeszukiwanego materiału.

Algorytmy statystyczne służą do wyszukiwania podobieństw. Na przykład jeśli chcemy za jego pomocą opisać w naszej bazie filmów filmy pokazujące rakietę, musimy najpierw samodzielnie wybrać próbkę filmów z rakietami i opatrzyć je odpowiednimi informacjami. Na tej podstawie Marvel jest w stanie przeszukać całą resztę materiałów i rozpoznać podobne to tych opisanych. Szukając podobieństw w ścieżce dźwiękowej zapewne natknie się też na inne zjawiska powodujące hałas, np. startujące samoloty, albo krzyczący tłum. W sferze wizualnej, trudnym wyzwaniem będą dla niego inne sceny rozgrywające się na tle nieba. Ale połączenie tych rezultatów daje bardzo dobre efekty a wyniki produkowane są w kilka sekund.

Dzięki temu użytkownik, który szuka filmów z debaty prezydenckiej, może wpisać po prostu “dwaj ludzie, podium”. Komputer wyposażony w Marvela i podłączony do odpowiedniej bazy filmów, może całkiem dobrze rozumieć nowe materiały multimedialne.

Pora wejść na rynek

Na stronach IBM dostępne jest demo wyszukiwarki Marvel. Można sobie także ściągnąć program i zainstalować na własnym komputerze. Po kilku latach rozwijania technologii IBM oczekuje, że zacznie na niej zarabiać.

IBM będzie przy tej okazji współpracować także z Siemensem, który również jest partnerem Brytyjczyków - nad dalszym doskonaleniem technologii Marvel.

Porozumienie z IBM jest już trzecią z podpisanych w przeciągu trzech ostatnich miesięcy umów mających rozwijać internetowe serwisy BBC. Pod koniec zeszłego roku nadawca porozumiał się Microsoftem, a w zeszłym tygodniu z YouTube.

www

Comments are closed.


nauka jazdy Kraków Pozycjonowanie Biuro rachunkowe Warszawa kitchens tunbridge wells noclegi kołobrzeg