ANALITYKA APLIKACJE W CHMURZE

Dlaczego Google kupił Kaggle? Odpowiedź: AI w chmurze

Przy okazji konferencji Google Cloud Next ’17 firma ujawniła swoją strategię dotyczącą oferty dla rynku Enterprise oraz jak widzi w tym obszarze rolę takich elementów jak AI, uczenie maszynowe i demokratyzacja danych. Bardzo silnie wiąże się to z ogłoszonym przy tej samej okazji zakupem Kaggle.

Na konferencji Google Cloud Next w San Francisco w marcu b.r. firma Google ogłosiła, że przejęła Kaggle, australijską firmę organizująca konkursy, w których badacze danych (data scientists) z całego świata mogą rozwiązywać problemy stawiane przez inne firmy. Konkursy Kaggle są sposobem na wyróżnienie się najbardziej skutecznych badaczy danych wśród konkurencji i w efekcie zdobycie lukratywnego kontrakt lub posady. Mimo, że jest teraz częścią Google Cloud, zespół Kaggle będzie kontynuował samodzielnie działania i dalej organizował konkursy.

Otwartość – DNA Google

Firma już dawno odkryła, że inwestycje w otwartość  i wsparcie dla społeczności developerskich po prostu się opłaca. Kaggle – jako platforma gromadząca niezależnych badaczy danych, specjalistów uczenia maszynowego i data miningu, a zatem społeczność bardzo cenną dla Google na obecnym etapie rozwoju biznesu chmurowego – to naturalny kandydat do przejęcia i zagospodarowania. Nie tylko dlatego, aby nie zrobiła tego konkurencja. Przede wszystkim z powodu potencjału jaki posiada pod względem możliwości budowania społeczności użytkowników wokół technologii sztucznej inteligencji oferowanych w chmurze i udostępnianych jako open source przez Google. Jako społeczność ponad 800 tys. badaczy danych wraz z setkami wysokiej jakość zbiorów danych Kaggle znajduje się w samym centrum tego co obecnie najważniejsze dla Google – twierdzi Fei-Fei Li, która od niedawna przewodzi grupie Cloud AI/ML w Google.

Google i “wojny chmurowe”

Aktywność firmy w zakresie udostępniania na zasadach otwartych coraz to nowych narzędzi sztucznej inteligencji i uczenia maszynowego pozwala na obniżenie progu wejścia przy implementacji rozwiązań wykorzystujących te technologie. Programiści – a to oni są coraz częściej prekursorami nowatorskich, podnoszących efektywność i konkurencyjność rozwiązań w firmach – mogą bez ograniczeń przetestować kod i algorytmy Google. Dużo łatwiejsza i bardziej naturalna staje się następnie migracja do chmury Google i integracja z innymi usługami.

Do najbardziej znanych projektów Google, które zostały udostępnione na zasadach otwartych przez firmę należą m.in. Kubernetes, Apache Beam i przede wszystkim w zakresie uczenia maszynowego TensorFlow. Kubernetes to projekt, który powstał na bazie wewnętrznych rozwiązań firmy do zarządzania zasobami centrów danych i w ciągu 2 lat stał się de facto standardową platformą do zarządzania kontenerami Dockera. Apache Beam to z kolei narzędzie wspierające przetwarzanie wielkich zbiorów danych, pozwalające na definiowanie równolegle przetwarzanych strumieni danych, tak w trybie wsadowym jak i online. TensorFlow wyewoluował z projektu Google Brain jako zestaw narzędzi uczenia maszynowego, w szczególności do głębokiego uczenia sieci neuronowych i zdążył już zdobyć dominującą pozycję wśród badaczy danych i w środowiskach naukowych.

Dla wszystkich trzech wymienionych narzędzi Google oferuje odpowiedni serwis w chmurze oparty właśnie na tym projekcie open source pozwalający na bezpośrednią migrację z lokalnej maszyny do chmury i odpowiednie skalowanie. W przypadku TensorFlow jest to Cloud ML Engine. Badacze danych i programiści mogą przetestowany kod przenieść bez zmian do serwisu w chmurze i kontynuować swoje prace  na większych zbiorach i przy wykorzystaniu większej mocy obliczeniowej. Analogicznie – dla Kubernetes jest to Container Engine natomiast dla Apache Beam – Cloud Dataflow.

Takie podejście wyróżnia Google na tle najważniejszych konkurentów – AWS i Microsoft.

Zaangażowanie w open source dostarcza też innego rodzaju korzyści dla Google, nie mniej ważnych. Mimo, że dla firmy z Mountain View pracuje już niemała grupa najbystrzejszych umysłów świata IT, to jednak właśnie poprzez otwartość firma jest w stanie dotrzeć jeszcze do tych, którzy dla niej nie pracują a jednak przyczyniają się do ulepszenia stworzonych przez Google algorytmów i jakości kodu. Dochodzimy w ten sposób z powrotem do Kaggle i społeczności – która staje się naturalną platformą popularyzacji narzędzi udostępnianych przez Google, do tego w zastosowaniu do rozwiązywania konkretnych problemów biznesowych konkretnych firm, dużych firm. Wiele z nich Google widziałby chętnie jako klientów swoich usług Cloud Platform.

Wybrane narzędzia i biblioteki ML i AI udostępnione społeczności przez Google:

  1. TensorFlow – najpopularniejsza obecnie biblioteka open source dla sieci neuronowych, w tym modeli głębokiego uczenia (deep learning)
  2. Tensor2Tensor – zoptymalizowany i zawierający gotowe modele system do treningu głębokich sieci neuronowych
  3. SyntaxNet – biblioteka modeli przetwarzania języka naturalnego (NLP) oparta na TensorFlow
  4. Sonnet – biblioteka do konstrukcji sieci neuronowych udostępniona przez DeepMind (należącą do Google)

 

MIESIĄC W CHMURACH
Wrzesień w chmurach - Jacek i Michał
Sierpień w chmurach live Michał i Jacek
CLOUDFORUM.TV
Chmura w Polsce: Dołączysz?

Obserwuj nas: