Szukaj
Zamknij
Wywiady

Krzysztof Sobieszek (NK.pl) – W NK big data zajmujemy się już od 3 lat i to czyni nas pionierami na polskim rynku.

Krzysztof_Sobieszek_nk_ak74

AK74 – Krzyśku, patrząc z perspektywy NK, czy mówienie o big data jest uzasadnione? Bo słyszałem i takie teorie, że w zasadzie termin „big data” dotyczyć może tylko serwisów takiej klasy jak Facebook czy Twitter albo ministerstw.

Krzysiek Sobieszek – Słyszałem o tych wątpliwościach, jednak nikt nie jest w stanie wyznaczyć granicy, od której możemy zacząć mówić o big data. Bo czy ma wyznaczać ją liczba tera, peta czy może eksabajtów? Według mnie z założenia definiowanie pojęcia big data poprzez ilość danych jest drogą donikąd.

Jeśli 90% danych, jakie w ogóle są gromadzone na świecie, pojawiło się w ciągu ostatnich dwóch lat i tempo ich przyrostu nie zwalnia, to to, co dziś wydaje nam się duże, za rok będzie śmiesznie małe.

W NK tak zwanym „big data”, w wielu jego aspektach, zajmujemy się już od 3 lat i to czyni nas pionierami na polskim rynku. Zbudowaliśmy hurtownię danych, w której gromadzimy ok. 0,5 peta bajta danych. Według mojej wiedzy jest to jedna z większych takich hurtowni w tej części Europy.

Z jednej strony mamy więcej danych niż np. niektóre duże telekomy, a z drugiej Facebook zbiera 0,5 petabajta danych dziennie. Co do ministerstw to szczerze wątpię, żeby polskie gromadziły takie dane :)

AK74 – Czym big data różni się od business intelligence? Czy czasem te pojęcia nie są ze sobą mylone? To, że dzięki wykorzystaniu informacji jakie zostawiają użytkownicy na przykład mojego serwisu umiem określić pewne ich typy zachowań czyni ze mnie specjalistę od BI?

KS – Zagłębiając się w ten temat natrafisz na niezliczone branżowe dyskusje dotyczące tego zagadnienia. Rzeczywiście bardzo często można spotkać dziś pytania, czy big data to coś zupełnie nowego czy po prostu część business intelligence. A może odwrotnie? To są spory akademickie i pewnie takimi już pozostaną.

Z mojego punktu widzenia ważne jest głównie to, czy big data wymagają nowej technologii, kompetencji i struktury w firmie. Co do tego pierwszego (technologia) to bez wątpienia jest ona konieczna i dlatego stale ją rozwijamy. Naszą hurtownię budowaliśmy w sposób autorski, w oparciu o najbardziej innowacyjne na świecie rozwiązania i nie korzystając z pomocy żadnych wielkich firm wdrożeniowych.

Co do kompetencji nasza obserwacja jest następująca: jeśli big data mamy analizować w ten sam sposób, w jaki operuje się systemem BI, aby uzyskiwać takie same wyniki to znaczy, że big data to ściema i oznacza po prostu „więcej danych w BI”. My wierzymy, że jest inaczej. Dlatego w naszej firmie rozdzielamy te dwie rzeczy.

Funkcjonuje niezależny system BI działający w oparciu o hurtownię. Jego głównym zadaniem jest dostarczanie jak największej liczbie osób w firmie, które w swoich decyzjach mogą opierać się na danych, odpowiednich informacji.

Natomiast „zabawy” big data, żeby mogły prowadzić do sukcesów, o jakich słyszy się na świecie, muszą być realizowane przez dedykowany zespół ludzi o dość specjalistycznych kompetencjach. Na świecie określa się ich jako „data scientist”. Funkcjonują w FB, Linkedin, Twitterze, Amazonie, sieciach handlowych i każdej posiadającej duże dane firmie.

W Polsce tego typu oddzielne zespoły zaczęły formować banki, które przecież posiadają już rozwinięte działy analityczne. Z rozmów konferencyjnych wiemy, że taka wydzielona struktura działa np. w Polkomtelu. Od jakiegoś czasu posługuję się metaforą, że BI przypomina bardziej narciarstwo zjazdowe. Chodzi o to, żeby idealnie zoptymalizować ogólnie znany tor jazdy.

W tym sensie BI jest dla firmy bardzo ważny, bo jest w stanie pomóc osiągnąć przewidywalne w czasie wyniki. Big data to raczej freestyle, „bawimy się” dużymi, nieustrukturyzowanymi danymi, robimy tricki, niektóre z nich mogą doprowadzić do bardzo dużych efektów biznesowych, inne nie. W tym sensie dla firmy jest to większa obietnica przełomowych innowacji, ale w warunkach większej niepewności.

AK74 – Z jednej strony mam olbrzymią ilość informacji a z drugiej chętnych żeby ją analizować i katalogować. PRISM i NSA są chyba przykładem big data w praktyce…

KS – Niewątpliwie jednym z największych, jeśli nie największym  Mnie to raczej fascynuje niż przeraża, ale uważam, że kontrowersje etyczne wokół tego są w pełni zrozumiałe. Inna sprawa jest taka, że w mniejszym lub większym stopniu to dzieje się od wielu lat w przestrzeni komercyjnej i byłbym szczerze zdziwiony, gdyby nie robiły tego agencje wywiadowcze.

Podobno wiele rozwiązań np. wizualizacji danych, które trafiły do firm, były najpierw rozwijane dla agend rządowych. Więc to taka trochę tajemnica poliszynela, która trafiła szeroko do mediów.

AK74 – Podczas spotkania Auli Polskiej mówiłeś, że strasznie ciężko jest w Polsce znaleźć osoby, które mają doświadczenie w big data. Z czego to wynika? Nie ma takich osób czy może one nie wiedzą, że zajmują się big data?:)

KS – Moim zdaniem, mówiąc najogólniej, wynika to z naszego systemu edukacji. Ale nie ma co pastwić się nad minister Kudrycką. Zwłaszcza, że przecież nasz kraj kształci bardzo wielu uzdolnionych informatyków. A jest to jedna z kluczowych kompetencji, żeby być dobrym data scientist. Problem w tym, że nie jedyna potrzebna.

Do tego dochodzi umiejętność analizy danych, a także wiedza z zakresu np. nauk społecznych. A taka interdyscyplinarność jest spotykana rzadko. Zresztą nie tylko Polsce. Dlatego, jeśli ktoś takie kompetencje posiada, jest raczej „rozchwytywany” :). Oczywiście świadomość kwestii związanych z dużymi danymi jest w Polsce jeszcze w początkowym stadium, więc jest odpowiednio mniej specjalistów.

AK74 – Co taka organizacja jak NK może uzyskać dzięki analizie big data? Jak to się przekłada na biznes?

KS – NK opiera się na dwóch porównywalnych co do wielkości nogach przychodowych. Jedna to reklama. O tym, jak istotne jest wykorzystanie danych w tym obszarze, nie trzeba nikogo przekonywać. Można powiedzieć, że cały światowy rynek definiuje się w tym kierunku. Mam tu ma myli m.in. systemy AdExchange i powiązany z tym model „audiencje buying”, który opiera się właśnie na dużej ilości profilowanych w czasie rzeczywistym danych.

Dla nas ten trend jest w zasadzie jednym z kluczowych. Mówiliśmy o tym z Marcinem Barcińskim w prezentacji na tegorocznym Forum IAB. Druga noga to tak naprawdę e-commerce, choć w nieco specyficznym ujęciu. Chodzi o usługi, gifty, wirtualne dobra w grach na NK i tym podobne. W tym przypadku również nie ma chyba wątpliwości, jak ważne jest segmentowanie, personalizacja i predykcje, wspierając się np. przykładem Amazona.

Zdecydowanie będziemy chcieli zwiększyć nasze wykorzystanie danych w tym zakresie, a już teraz robimy w tym obszarze coraz więcej.

AK74 – Parę miesięcy temu strasznie popularne stało się szukanie i werbowanie ludzi na stanowiska „growth hackers”. Jest „cool” mieć w zespole takiego specjalistę ale czy idą za tym zyski? Da się jeszcze lepiej prześledzić na przykład co użytkownik robi na stronie i podsunąć mu odpowiednią reklamę?

KS – Na ogół da się. Trzeba tylko dysponować wystarczająco dokładnymi danymi, a te często nie są zbierane. GA raczej nie wystarczy… Co więcej, zbierane dane można łączyć z innymi zewnętrznymi źródłami. Ponieważ przykład z bankami wciągającymi do CRMu dane z serwisów społecznościowych jest już powszechnie znany, podam inny. Oglądalność takiego serwisu jak NK jest w dużej mierze uzależniona od pogody. Dlatego uwzględnienie w hurtowni danych pogodowych i ich modeli w połączeniu z danymi ze strony może nas przenieść na nowy level. Dotyczy to również reklamy.

AK74 – Organizujecie jako NK „Big Data Summer Camp” – co to jest, ile trwa, co można dzięki temu robić i ile to kosztuje? I po co takiej organizacji jak Wasza taka impreza?

KS – BDSC jest projektem, który kierujemy przede wszystkim do studentów, zainteresowanych tematyką big data i posiadającymi kompetencje w tym zakresie. W krótkich, żołnierskich słowach jest to program do którego mogą zgłaszać się zespoły analityczne, aby przekonać nas, że ich pomysł jest najlepszy, a potem przez 2 miesiące realizować go w naszej firmie z perspektywą konkretnej nagrody finansowej. Zdecydowaliśmy się na taką inicjatywę z kilku przyczyn.

Najważniejszymi są: zwrócenie uwagi na rozwój big data i coraz większe znaczenie data scientist, a także chęć podzielenia się naszym know-how i doświadczeniem. Jesteśmy przekonani, że nasza wiedza pretenduje nas do tego. Nie bez znaczenia jest też fakt, że dzięki BDSC mamy szansę na stworzenie algorytmów i analiz, których nie bylibyśmy w stanie wykonać szybko własnymi zasobami.

Projekt zakończy się we wrześniu. Aktualnie czekamy na zgłoszenia – do 14 lipca każdy, kto po zapoznaniu się z próbnym zestawem danych, prześle są swoją propozycję analizy, może wziąć udział w projekcie. Udział oczywiście jest bezpłatny, natomiast najlepsi maja szansę zdobyć 20 000 zł, jeśli ich analiza zostanie wdrożona.

Po szczegóły zapraszamy na naszą stronę bigdata.nk.pl. Podobne programy są organizowane coraz częściej przez amerykańskie uczelnie i firmy komercyjne. Jest to coraz bardziej powszechny sposób rozwijania kard z zakresu „data science”. My chcieliśmy zainicjować tego typu praktyki w Polsce.

AK74 – Jak sądzisz kto powinien się zgłosić na BDSC?

KS – Każdy, kto lubi super wyzwania (bo łatwo nie będzie) i ma odpowiednie kompetencje analityczne, informatyczne i biznesowe. Jeśli nie ma ich sam, to może stworzyć zespół. Warto, bo można popracować z zasadzie bez ograniczeń na jednej z największych hurtowni danych, ze wparciem jednego z bardziej doświadczonych zespołów i stworzyć coś konkretnego, co wpłynie na biznes. Tak się „rodzą” data scientists, a to naprawdę obiecujący zawód.

  • Bartłomiej Sergiusz

    „Da się jeszcze lepiej prześledzić na przykład co użytkownik robi na stronie i podsunąć mu odpowiednią reklamę?” – oczywiście da się, ale jak słusznie zauważył Pan Krzysztof, GA nie wystarczy, bo nie przypisuje zebranych danych do konkretnego odwiedzającego. Z polskich rozwiązań radzi sobie z tym technologia microsites dostępna dla użytkowników Salesmanago – na podstawie danych z CRM-u i behawioralnych można personalizować wygląd strony www, w tym właśnie zasugerowane wyświetlenie targetowanej pod konkretnego odwiedzającego reklamy. Oparte o ten sam skrypt maile potrafią osiągać CTR-y powyżej 50%, danych ze skuteczności dostępnych dopiero od kilku miesięcy microsites jeszcze nie ma, ale możliwości wykorzystania tego rozwiązania są imponujące.

  • Łukasz Walkowski

    Termin „Big Data” jest dobrze zdefiniowany i dokładnie wiadomo o czym mówimy. Jeżeli chcemy mówić o BD, to:

    1. Zestaw danych w obecnej chwili musi przekraczać 1EB.
    lub
    2. Szybkość zbierania danych musi przekraczać możliwości dzisiejszego sprzętu – na przykład różne sensory, które generują xx mln rekordów na sekundę (na normalnie dostępnym sprzęcie możliwe są obecnie do osiągniecie prędkości zbierania danych na poziomie 1mln rekordów na sekundę).
    lub
    3. Wybrany „set” danych z którymi pracujemy przy procesowaniu musi przekraczać możliwości jednego serwer – czyli w dzisiejszych czasach coś w granicach 500GB (zasoby RAM). Chociaż ja bym poszedł dalej i powiedział że jest to przedział TB ze względu na popularyzację technologii SSD.

    Facebook zbiera duże ilości danych sumarycznie, natomiast z tego zestawu trzeba usunąć na przykład potężną ilość zdjęć, która do BD się nie zalicza. Sety na których pracują systemy FB są zazwyczaj w przedziale „-nastu” do „-set” GB. Kilka miesięcy temu był nawet artykuł, w którym jeden z inżynierów FB wypowiadał się, że o ile pracują z dużą ilością danych, o tyle nie do końca można mówić o BD.

    Jest też trochę inna definicja: „Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process the data within a tolerable elapsed time.”. Dla mnie ta definicja nie jest pełna, bo to, że ktoś odpali sobie klaster Hadoop na 5 serwerach nie oznacza, że ma doczynienia z BD.

    Dużo bardziej do projektów takich jak w NK pasuje zwrot „data science”, który nie tyle skupia się na ilości danych, co na ich analizie. I o tym powinno się mówić, ale to nie jest obecnie „seksi zwrot” o którym jest głośno jak o BD.

  • Edward Mężyk

    Niestety nie mogę się zgodzić z kolegą. Nie jedna osoba się próbowała z definicją uporać. Aby pokazać z jak szerokim terminem mamy do czynienia, poniżej jeden z wielu linków pokazujących jak dużo osób próbowało sie już zmierzyć z definicją BD: http://www.opentracker.net/article/definitions-big-data

    Nie wnikając w to, które z powyższych tekstów są najlepsze,
    właściwe, tudzież zwyczajnie wyczerpujące, jedno można stwierdzić śmiało –
    definicja jest rozmyta. Podobnie jak termin „Web 2.0” parę lat temu w
    terminologii związanej z budowaniem stron/aplikacji „internetowych”, tak i
    termin „Big Data” wydaje się jest nagłówkiem dla pewnego nurtu na styku
    analityki i IT. Oczywiście termin jako, że jest bardzo modny, to jest silnie
    wykorzystywany reklamowo przez firmy dostarczające narzędzia bazodanowe, analityczne oraz inne związane z analityka i IT.

Zapisz się do mojego newslettera

Raz w tygodniu wyślę Ci wyselekcjowane informacje ze świata: technologii, biznesu i mediów. Jeśli interesujesz się startupami, dronami, drukiem 3D, EV, VR, AI, AR, video czy bitcoinami to witaj w domu.

Obiecuję - zero spamu tylko samo "mięcho"!

Wahasz się? Dostaniesz też za darmo w PDFie komiks "Strange Years" stworzony przez Michała "Śledzia" Śledzińskiego!




Dziękuje, nie chcę