AK74 – Krzyśku, patrząc z perspektywy NK, czy mówienie o big data jest uzasadnione? Bo słyszałem i takie teorie, że w zasadzie termin „big data” dotyczyć może tylko serwisów takiej klasy jak Facebook czy Twitter albo ministerstw.
Krzysiek Sobieszek – Słyszałem o tych wątpliwościach, jednak nikt nie jest w stanie wyznaczyć granicy, od której możemy zacząć mówić o big data. Bo czy ma wyznaczać ją liczba tera, peta czy może eksabajtów? Według mnie z założenia definiowanie pojęcia big data poprzez ilość danych jest drogą donikąd.
Jeśli 90% danych, jakie w ogóle są gromadzone na świecie, pojawiło się w ciągu ostatnich dwóch lat i tempo ich przyrostu nie zwalnia, to to, co dziś wydaje nam się duże, za rok będzie śmiesznie małe.
W NK tak zwanym „big data”, w wielu jego aspektach, zajmujemy się już od 3 lat i to czyni nas pionierami na polskim rynku. Zbudowaliśmy hurtownię danych, w której gromadzimy ok. 0,5 peta bajta danych. Według mojej wiedzy jest to jedna z większych takich hurtowni w tej części Europy.
Z jednej strony mamy więcej danych niż np. niektóre duże telekomy, a z drugiej Facebook zbiera 0,5 petabajta danych dziennie. Co do ministerstw to szczerze wątpię, żeby polskie gromadziły takie dane :)
AK74 – Czym big data różni się od business intelligence? Czy czasem te pojęcia nie są ze sobą mylone? To, że dzięki wykorzystaniu informacji jakie zostawiają użytkownicy na przykład mojego serwisu umiem określić pewne ich typy zachowań czyni ze mnie specjalistę od BI?
KS – Zagłębiając się w ten temat natrafisz na niezliczone branżowe dyskusje dotyczące tego zagadnienia. Rzeczywiście bardzo często można spotkać dziś pytania, czy big data to coś zupełnie nowego czy po prostu część business intelligence. A może odwrotnie? To są spory akademickie i pewnie takimi już pozostaną.
Z mojego punktu widzenia ważne jest głównie to, czy big data wymagają nowej technologii, kompetencji i struktury w firmie. Co do tego pierwszego (technologia) to bez wątpienia jest ona konieczna i dlatego stale ją rozwijamy. Naszą hurtownię budowaliśmy w sposób autorski, w oparciu o najbardziej innowacyjne na świecie rozwiązania i nie korzystając z pomocy żadnych wielkich firm wdrożeniowych.
Co do kompetencji nasza obserwacja jest następująca: jeśli big data mamy analizować w ten sam sposób, w jaki operuje się systemem BI, aby uzyskiwać takie same wyniki to znaczy, że big data to ściema i oznacza po prostu „więcej danych w BI”. My wierzymy, że jest inaczej. Dlatego w naszej firmie rozdzielamy te dwie rzeczy.
Funkcjonuje niezależny system BI działający w oparciu o hurtownię. Jego głównym zadaniem jest dostarczanie jak największej liczbie osób w firmie, które w swoich decyzjach mogą opierać się na danych, odpowiednich informacji.
Natomiast „zabawy” big data, żeby mogły prowadzić do sukcesów, o jakich słyszy się na świecie, muszą być realizowane przez dedykowany zespół ludzi o dość specjalistycznych kompetencjach. Na świecie określa się ich jako „data scientist”. Funkcjonują w FB, Linkedin, Twitterze, Amazonie, sieciach handlowych i każdej posiadającej duże dane firmie.
W Polsce tego typu oddzielne zespoły zaczęły formować banki, które przecież posiadają już rozwinięte działy analityczne. Z rozmów konferencyjnych wiemy, że taka wydzielona struktura działa np. w Polkomtelu. Od jakiegoś czasu posługuję się metaforą, że BI przypomina bardziej narciarstwo zjazdowe. Chodzi o to, żeby idealnie zoptymalizować ogólnie znany tor jazdy.
W tym sensie BI jest dla firmy bardzo ważny, bo jest w stanie pomóc osiągnąć przewidywalne w czasie wyniki. Big data to raczej freestyle, „bawimy się” dużymi, nieustrukturyzowanymi danymi, robimy tricki, niektóre z nich mogą doprowadzić do bardzo dużych efektów biznesowych, inne nie. W tym sensie dla firmy jest to większa obietnica przełomowych innowacji, ale w warunkach większej niepewności.
AK74 – Z jednej strony mam olbrzymią ilość informacji a z drugiej chętnych żeby ją analizować i katalogować. PRISM i NSA są chyba przykładem big data w praktyce…
KS – Niewątpliwie jednym z największych, jeśli nie największym Mnie to raczej fascynuje niż przeraża, ale uważam, że kontrowersje etyczne wokół tego są w pełni zrozumiałe. Inna sprawa jest taka, że w mniejszym lub większym stopniu to dzieje się od wielu lat w przestrzeni komercyjnej i byłbym szczerze zdziwiony, gdyby nie robiły tego agencje wywiadowcze.
Podobno wiele rozwiązań np. wizualizacji danych, które trafiły do firm, były najpierw rozwijane dla agend rządowych. Więc to taka trochę tajemnica poliszynela, która trafiła szeroko do mediów.
AK74 – Podczas spotkania Auli Polskiej mówiłeś, że strasznie ciężko jest w Polsce znaleźć osoby, które mają doświadczenie w big data. Z czego to wynika? Nie ma takich osób czy może one nie wiedzą, że zajmują się big data?:)
KS – Moim zdaniem, mówiąc najogólniej, wynika to z naszego systemu edukacji. Ale nie ma co pastwić się nad minister Kudrycką. Zwłaszcza, że przecież nasz kraj kształci bardzo wielu uzdolnionych informatyków. A jest to jedna z kluczowych kompetencji, żeby być dobrym data scientist. Problem w tym, że nie jedyna potrzebna.
Do tego dochodzi umiejętność analizy danych, a także wiedza z zakresu np. nauk społecznych. A taka interdyscyplinarność jest spotykana rzadko. Zresztą nie tylko Polsce. Dlatego, jeśli ktoś takie kompetencje posiada, jest raczej „rozchwytywany” :). Oczywiście świadomość kwestii związanych z dużymi danymi jest w Polsce jeszcze w początkowym stadium, więc jest odpowiednio mniej specjalistów.
AK74 – Co taka organizacja jak NK może uzyskać dzięki analizie big data? Jak to się przekłada na biznes?
KS – NK opiera się na dwóch porównywalnych co do wielkości nogach przychodowych. Jedna to reklama. O tym, jak istotne jest wykorzystanie danych w tym obszarze, nie trzeba nikogo przekonywać. Można powiedzieć, że cały światowy rynek definiuje się w tym kierunku. Mam tu ma myli m.in. systemy AdExchange i powiązany z tym model „audiencje buying”, który opiera się właśnie na dużej ilości profilowanych w czasie rzeczywistym danych.
Dla nas ten trend jest w zasadzie jednym z kluczowych. Mówiliśmy o tym z Marcinem Barcińskim w prezentacji na tegorocznym Forum IAB. Druga noga to tak naprawdę e-commerce, choć w nieco specyficznym ujęciu. Chodzi o usługi, gifty, wirtualne dobra w grach na NK i tym podobne. W tym przypadku również nie ma chyba wątpliwości, jak ważne jest segmentowanie, personalizacja i predykcje, wspierając się np. przykładem Amazona.
Zdecydowanie będziemy chcieli zwiększyć nasze wykorzystanie danych w tym zakresie, a już teraz robimy w tym obszarze coraz więcej.
AK74 – Parę miesięcy temu strasznie popularne stało się szukanie i werbowanie ludzi na stanowiska „growth hackers”. Jest „cool” mieć w zespole takiego specjalistę ale czy idą za tym zyski? Da się jeszcze lepiej prześledzić na przykład co użytkownik robi na stronie i podsunąć mu odpowiednią reklamę?
KS – Na ogół da się. Trzeba tylko dysponować wystarczająco dokładnymi danymi, a te często nie są zbierane. GA raczej nie wystarczy… Co więcej, zbierane dane można łączyć z innymi zewnętrznymi źródłami. Ponieważ przykład z bankami wciągającymi do CRMu dane z serwisów społecznościowych jest już powszechnie znany, podam inny. Oglądalność takiego serwisu jak NK jest w dużej mierze uzależniona od pogody. Dlatego uwzględnienie w hurtowni danych pogodowych i ich modeli w połączeniu z danymi ze strony może nas przenieść na nowy level. Dotyczy to również reklamy.
AK74 – Organizujecie jako NK „Big Data Summer Camp” – co to jest, ile trwa, co można dzięki temu robić i ile to kosztuje? I po co takiej organizacji jak Wasza taka impreza?
KS – BDSC jest projektem, który kierujemy przede wszystkim do studentów, zainteresowanych tematyką big data i posiadającymi kompetencje w tym zakresie. W krótkich, żołnierskich słowach jest to program do którego mogą zgłaszać się zespoły analityczne, aby przekonać nas, że ich pomysł jest najlepszy, a potem przez 2 miesiące realizować go w naszej firmie z perspektywą konkretnej nagrody finansowej. Zdecydowaliśmy się na taką inicjatywę z kilku przyczyn.
Najważniejszymi są: zwrócenie uwagi na rozwój big data i coraz większe znaczenie data scientist, a także chęć podzielenia się naszym know-how i doświadczeniem. Jesteśmy przekonani, że nasza wiedza pretenduje nas do tego. Nie bez znaczenia jest też fakt, że dzięki BDSC mamy szansę na stworzenie algorytmów i analiz, których nie bylibyśmy w stanie wykonać szybko własnymi zasobami.
Projekt zakończy się we wrześniu. Aktualnie czekamy na zgłoszenia – do 14 lipca każdy, kto po zapoznaniu się z próbnym zestawem danych, prześle są swoją propozycję analizy, może wziąć udział w projekcie. Udział oczywiście jest bezpłatny, natomiast najlepsi maja szansę zdobyć 20 000 zł, jeśli ich analiza zostanie wdrożona.
Po szczegóły zapraszamy na naszą stronę bigdata.nk.pl. Podobne programy są organizowane coraz częściej przez amerykańskie uczelnie i firmy komercyjne. Jest to coraz bardziej powszechny sposób rozwijania kard z zakresu „data science”. My chcieliśmy zainicjować tego typu praktyki w Polsce.
AK74 – Jak sądzisz kto powinien się zgłosić na BDSC?
KS – Każdy, kto lubi super wyzwania (bo łatwo nie będzie) i ma odpowiednie kompetencje analityczne, informatyczne i biznesowe. Jeśli nie ma ich sam, to może stworzyć zespół. Warto, bo można popracować z zasadzie bez ograniczeń na jednej z największych hurtowni danych, ze wparciem jednego z bardziej doświadczonych zespołów i stworzyć coś konkretnego, co wpłynie na biznes. Tak się „rodzą” data scientists, a to naprawdę obiecujący zawód.