BIG DATA

Big Data: krótka historia niespełnionych oczekiwań

Gartner już ponad rok temu zrezygnował z umieszczania Big Data na krzywej Hype Cycle dla wschodzących technologii – w przekonaniu o wszechobecności technologii przetwarzania dużych zbiorów danych. Chyba nie ma sektora gospodarki, w którym firmy i organizacje nie starają być „napędzane danymi” (data driven). A przynajmniej mówią, że się starają. Rynek wart jest 122 mld $ rocznie i rośnie. Jednak pytania o spektakularne, przekonujące sukcesy odbijają się raczej echem.

Wokół hasła Big Data wyrósł ogromny przemysł starający się wspierać firmy i organizacje w zarządzaniu, zagospodarowaniu  i wydobywaniu wartość z petabajtów danych, które one generują i przechowują. Podstawową przesłanką, na podstawie której dostawcy przekonują organizacje do inwestycji w technologie przetwarzania dużych zbiorów danych jest taki scenariusz:

  1. w bazach danych, repozytoriach plików czy licznych aplikacjach biznesowych, przechowywana jest coraz większa ilość danych jakie firma generuje i zbiera każdego dnia;
  2. dane i informacje skrywają wiele ukrytych wzorców i relacji, których identyfikacja może mieć dla firmy ogromną wartość;
  3. aby tego dokonać potrzebujemy zaawansowanych narzędzi potrafiących poradzić sobie z dużą ilością różnorodnych, rozproszonych i zanieczyszczonych  danych;
  4. dzięki tym narzędziom możliwa jest konsolidacja, integracja, pogłębiona analiza i interpretacja danych, w efekcie firma otrzymuje gotowe do zastosowania wnioski (actionable insights) i staje się firmą napędzaną danymi (data driven).

Wygląda to bardzo dobrze – co do założeń. Jednak okazuje się że znalezienie przekonującego, realnego przypadku biznesowego ukazującego sukces w/w scenariusza jest niezwykle trudne. Przekonującego, to znaczy ukazującego mierzalne efekty na każdym z etapów – jakich ukrytych i zaskakujących (nieznanych dotychczas i nie oczywistych) wniosków dostarczyło zastosowanie narzędzi  dostawcy na danych przedsiębiorstwa, jakiej wartości (wyrażonej finansowo) dostarczyło wprowadzenie w życie decyzji podjętych na podstawie tych wniosków. Wreszcie – czy sumarycznie wartość finansowa odniesionych korzyści zdecydowanie przewyższyła wartość poniesionych nakładów?

Co prawda wybór webinariów i publikacji opisujących historie sukcesów wdrożeń platform big data i narzędzi analitycznych, przygotowanych przez dostawców rozwiązań, jest niezwykle szeroki, ale przyglądając się im bliżej zauważymy, że są to raczej przypadki opisane ogólnikowo, posiadające bardzo pobieżne miary sukcesu (finansowego) bądź nawet żadnych. Można odnieść wrażenie, że sukcesem jest już np. samo wdrożenie i uruchomienie produkcyjne bazy X w klastrze w chmurze, zamiast dotychczasowego serwera z bazą SQL i udana migracja danych. Nie spowoduje to jednak automatycznie że firma stanie się data driven. Często przedsiębiorstwa wykorzystują nową, uruchomioną platformę opartą np. na Hadoop albo Spark, do tych samych zadań, jakie realizowały dotychczas poprzez tradycyjne narzędzia do zarządzania danymi jak hurtowne danych, systemy informacji zarządczej i raportowania, nie wnosząc praktycznie żadnej wartości dodanej.

Ale to chyba nie do końca o to chodzi.

Nie każdy może być jak Google

Problem nie leży jednak po stronie dostawców rozwiązań big data, a w każdym razie nie tylko po ich stronie. To co jest jego istotą to postęp technologiczny poczyniony w zakresie zdolności operowania danymi przez firmy takie jak Google, które musiały poradzić sobie ze skalą i złożonością rozwijającego się Internetu i Web 2.0. Postęp, który jednak na chwilę obecną w przypadku większości „zwykłych” firm zdecydowanie wyprzedza ich zdolność do pełnej absorpcji i wykorzystania rozwiniętych technologii. W przypadku tych firm rozwój następuje metodą prób i błędów.

Jedną z kluczowych kwestii, z których firmy przymierzające się do wdrożeń analityki wielkich zbiorów danych powinny sobie zdawać sprawę jest potrzeba zmiany sposobu myślenia o przetwarzaniu danych.  Po pierwsze, istnieje naturalna granica na ile posiadanie dogłębnych danych o danym przedsiębiorstwie jest w stanie pomóc decydentom odnieść sukces rynkowy. Dane to bowiem nic więcej jak cyfrowe odbicie rzeczywistych transakcji, zatem drążenie danych i wnioskowanie na ich podstawie może pomóc w testowaniu hipotez – potwierdzeniu bądź zaprzeczeniu pewnym intuicyjnym prawidłowościom.

Po drugie – analityka predyktywna. Aby być jak Google przedsiębiorstwo potrzebuje spojrzeć inaczej na posiadane dane i ich wykorzystanie. W przypadku usługi tłumaczenia tekstów – oparte na uczeniu maszynowym algorytmy nie odnoszą się do zasad gramatyki języków z których i na które odbywa się tłumaczenie. Amazon generuje 35% sprzedaży wykorzystując algorytmy rekomendacji, nie wnikając dlaczego niektóre artykuły są częściej kupowane razem. Siłą algorytmów predyktywnych jest to że  nie potrzebują ‚rozumieć’ związków przyczynowo skutkowych stojących za zależnościami statystycznymi aby być skutecznymi w praktyce. Aby zatem skorzystać z benefitów analityki predyktywnej przed firmą stoi zadanie wyzbycia się chęci wnioskowania w celu uzyskania odpowiedzi na pytanie ‚dlaczego’ i skierowania wysiłku w kierunku automatyzacji wybranych pocesów biznesowych w oparciu o analitykę predyktywną.

Pozostaje zatem pytanie – czy moja firma jest na to gotowa mentalnie, procesowo, biznesowo?

Uczyć się na błędach

Analityka predyktywna jest już wykorzystywana do wykrywania oszustw czy zapobiegania cyberatakom, co nie zmienia faktu, że jest to jeszcze terra incognita dla większości firm zorientowanych na rynek konsumencki. Do tego dochodzi jeszcze niekiedy błędne rozumienie pojęcia predykcji (jako pojęcia statystycznego) bądź brak jego zrozumienia oraz brak przekonania do komputerowych modeli jako narzędzi do podejmowania decyzji.

Dokładność modeli predykcyjnych można ocenić w środowisku testowym, przed wdrożeniem do środowiska produkcyjnego i uruchomieniem w realnym świecie. Możemy zdefiniować poziom dokładności  jaki zamierzamy osiągnąć, możemy zautomatyzować budowę modelu przy określonych założeniach – możemy np. założyć, że preferujemy  „false positives” nad „false negatives”. Lub też odwrotnie. Dla większości zastosowań biznesowych model nie musi być szalenie dokładny, wystarczy bowiem, że pozwala wyprzedzić konkurencję, np. dzięki szybkości podjęcia decyzji.

Nawet jednak bardzo metodyczne podejście nie uchroni nas od możliwych błędów i porażek, czego dobrym przykładem może być właśnie…. Google. Przypadek predycji ilości wystąpień grypy w oparciu o zapytania w wyszukiwarce, za pomocą algorytmu wytrenowanego na danych historycznych jest często cytowany jako „modelowy” przypadek porażki uczenia maszynowego, a nawet big data w ogóle! Po początkowym okresie względnej zgodności algorytm zaczął znacznie przeszacowywać ilość zachorowań. Co poszło nie tak? Czy poczyniono błędne założenia? Czy oparcie modelu na zapytaniach w wyszukiwarce  było dobrym posunięciem? Może jednak lepszym podejściem byłoby oparcie modelu na monitorowaniu wiadomości Twitter’a zawierających wzmianki o symptomach wraz z geo-lokalizacją. Twitter w tym przypadku bardziej odwzorowuje  rzeczywiste sieci społeczne i ich dynamikę.

Jesteśmy jednak w tym przypadku mądrzy już po fakcie. Co wskazuje tylko jak długa jeszcze droga przed nami.

Chmura w Polsce: Dołącz do nas