Sprawę awarii w Beyondzie starałem się śledzić od samego początku – między innymi dlatego, że jeden z moich klientów kupował w tej firmie usługi związane z hostingiem. Interesowały mnie dwie sprawy: jak firma poradzi sobie z zarządzania kryzysem oraz jak szybko klienci odzyskają swoje dane…
Na początku zawrzałem świętym oburzeniem – jak to, taki fuckup zgotowała firma, która na łamach mojego bloga chwaliła się, że jej konkurentami są Amazon i RackSpace. Potem zacząłem kontaktować się z konkurencją Beyonda zakładając, że będą najlepszymi recenzentami tego co się stało. Od kilku osób dostałem taki sam sygnał, który streszczę następująco: „wpadka cholernie bolesna. niemniej świadomość klientów (nie tylko ich) w dziedzinie tworzenia kopii zapasowych woła o pomstę do nieba”.
To co zdarzyło się w Beyondzie jest sumą zdarzeń, które zazwyczaj nie występują – tutaj doprowadziły do ogromnej awarii. Na pewno zostanie to zapamiętane jako problemy „okresu dziecięcego” z cloud computingiem w Polsce i często przytaczane na konferencjach branżowych. Wina Beyonda jest niezaprzeczalna i długo będą słusznie dostawali za to po tyłku.
Drugą sprawą jest jednak świadomość wśród klientów tego co kupują i za jaką sumę. Tak jak powiedział jeden z moich rozmówców „ludzie, którzy kupują usługą wycenianą na grosze a żądają obsługi VIP i takich samych warunków bezpieczeństwa jak dla super drogi pakietów są sami sobie winni”.
Premier Cimoszewicz podczas „powodzi tysiąclecia” powiedział powodzianom brutalne słowa „to jest kolejny przypadek, kiedy potwierdza się, że trzeba być przezornym i trzeba się ubezpieczać, a ta prawda jest ciągle mało powszechna”. Efektem były gwałtowne spadki notowań jego gabinetu. Beyond zapewne też chętnie by wytoczył taki argument ale zostałby rozstrzelany PR’owo za przerzucanie odpowiedzialności na klientów.
Miarą profesjonalizmy Beyonda będzie teraz rekompensata dla pokrzywdzonych klientów i przekonanie obecnych klientów, że są firmą w pełni odpowiedzialną. Czy im to się uda – nie wiem.
Michał Romanowski skontaktował się ze mną w środę 6-go czerwca z pytaniem czy nie chciałbym „przesłuchać” kogoś z Beyonda a propos tego co się dzieje. Pomyślałem, że klasyczny wywiad może zostać odebrany jako działania PR przykrywające problem więc zaproponowałem inną opcję: nie wywiad tylko pytania zadane przez osoby, lepiej znające się ode mnie w tej materii a często same będące klientami Beyonda (czyli na pobłażliwość nie ma co liczyć).
Pytania zbierałem za pomocą Facebooka i G+. Michał dostał je po małych stylistycznych poprawkach i szybko skonsultował odpowiedzi z osobami technicznymi u siebie. Poniżej znajdziecie te pytania i odpowiedzi na nie.
Na początku jeszcze słowo wstępu od samego Michała:
„Przesyłam odpowiedzi na przesłane przez Ciebie pytania. Chciałbym zwrócić Twoją uwagę na pewną kwestię, która ucieka w dyskusji na temat awarii i jej konsekwencji dla e24cloud.com i jego klientów. Obrywa nam się głównie za brak lub nieodpowiednie zabezpieczenie backupów. A to jest nieprawda. Backupy były bezpieczne i dane w nich zawarte zostały przywrócone natychmiast po starcie systemu.
Teraz walczymy z odzyskaniem danych z macierzy mirror, która na skutek wielu niezależnych od siebie awarii została również uszkodzona. Innymi słowy ratujemy, niemałym kosztem i nakładem siły, dane użytkowników, którzy nie pomyśleli o ich właściwym zabezpieczeniu. Regulamin świadczenia usług e24cloud.com wyraźnie zobowiązuje użytkowników to zabezpieczenia danych we własnym zakresie.”
A teraz pytania:
Michał Rybak: „W jaki sposób zabezpieczacie się przed kolejnymi utratami danych? Jak przewidujecie rozwiązanie sprawy i co mają zrobić ludzie, którzy utracili swoje pliki? Jeśli został wykonany przez nich backup danych, to w jakim odstępie czasowym użytkownicy/klienci mogą odzyskać dawny stan swoich danych?”
Użytkownicy e24cloud.com, którzy wybrali opcje backupy danych (albo ręcznie albo wg harmonogramu) otrzymali dostęp do tych danych natychmiast po tym jak e24cloud.com wrócił do sieci, tj. wtorek 5 czerwca, Swobodnie dostępny backup 1GB danych w e24cloud.com to symboliczny koszt 2 zł na miesiąc.
Co do danych użytkowników, którzy nie skorzystali z back upu: na tę chwilę (piątek 08.06 godzina 13:30) nie można stwierdzić, że zostały utracone, prace nad ich odzyskaniem wciąż trwają, pracujemy z ekspertami zajmującymi się tematyką odzysku danych w takich sytuacjach. Zdajemy sobie sprawę, że brak dostępu do tych danych jest dla naszych klientów bardzo uciążliwy. Przepraszamy.
Od początku awarii wszyscy inżynierowie e24cloud.com nie ustają w wysiłkach by przywrócić dane, a o postępach ich prac informujemy na bieżąco. Całą dobę jest też dostępny nasz suport dla wszystkich użytkowników.
Co do rozwiązań na przyszłość, to jest kilka pomysłów – pracujemy m.in. nad rozwiązaniem korzystnej usługi, w której każdy z naszych użytkowników będzie miał włączony back up. Dodatkowo wszystkim użytkownikom zapewnimy jednorazowy darmowy back up. Patrzymy na problem również w zakresie długookresowym – przygotowujemy cykl szkoleń z zakresu bezpieczeństwa rozwiązań w chmurze po stronie użytkownika, w tym duży akcent położymy na tworzenie back up swoich danych.
Paweł Iwaniuk: „Jakie przewidujecie metody zadośćuczynienia klientom, którzy ponieśli straty?”
Rozdzielmy dwie kwestie – klienci Beyond.pl i klienci e24cloud.com
Klienci e24cloud otrzymają preferencyjne warunki korzystania z usługi. Ich rodzaj firma przedstawi z dniem 19.06 . Będziemy je konsultowali z klientami, tak by nowe warunki jak najbardziej odpowiadały ich potrzebom i oczekiwaniom. Zdajemy sobie sprawę z tego, że nasi klienci maja też swoich klientów.
W tej chwili korzystanie z chmury dla userów narażonych w awarii jest bezpłatne. Klienci Beyond.pl otrzymają odszkodowania zgodne z umowami SLA, nasi ubezpieczyciele wiedza, że będą mieli do pokrycia straty. Jesteśmy w indywidualnym kontakcie z klientami.
Tomasz Berezowski: „Czy macierz miała dwa zasilacze, a jeżeli tak, to czy były podłączone do dwóch niezależnych UPSów?”
Tak, miała dwa zasilacze i tak była podłączona do dwóch niezależnych linii zasilających zabezpieczonych UPS. Przyczyną przerwy w dostępności zasilania był fatalny zbieg okoliczności:
a. awaria układu automatycznego sterowania rozdzielniami elektrycznymi,
b. awaria jednego z głównych wyłączników układu SZR,
W konsekwencji – feralne macierze straciły zasilanie na obu torach zasilających – to wystarczyło abyśmy mieli bardzo duży problem. Wiele czasu zajęła nam analiza i odpowiedź na pytanie „co się stało”. Dla nas ten czas biegł jak szalony, dla naszych klientów stał w miejscu, z ich punktu widzenia nic się nie działo. Niemniej czynności podjęte przez służby techniczne serwerowni, przywróciły zasilanie a inżynierowie e24cloud.com skupili się na tym aby najszybciej jak było to możliwe usunąć przyczynę problemów oraz przywrócić stabilność działania usługi.
Michał Samojlik: „Jakie wnioski wyciągnęliście dla swego biznesu po tej sytuacji? Co byście zrobili inaczej? Czy ich standardy są standardami branży, czy jednak były niedopatrzenia?”
Nasze nieustające od poniedziałku starania, by za wszelką cenę odzyskać dane klientów, którzy nie skorzystali z opcji back up pokazują, że standardy e24cloud.com są wyższe niż standardy branży vide polityka Rackspace czy Amazon i ich zachowanie w podobnych przypadkach.
O naszych planach w tym zakresie mówiłem wcześniej – m.in. zwiększymy profilaktykę poprzez konieczność świadomego zrezygnowania użytkownika z opcji back up
Robert Drózd: „Czy przewidujecie kroki prawne ze strony klientów, których dane stracili? Co ma zrobić firma, której zależy na usługach w chmurze, ale chce uniknąć stresu, którego mają obecnie klienci e24cloud?”
Ta decyzja należy do klientów. Regulamin usługi mówi w tym zakresie § 5 [ZASADY KORZYSTANIA Z USŁUGI] pkt 2. Niezależnie od postanowień § 3 poniżej, celem należytego korzystania z Usługi do obowiązków Użytkownika należy w szczególności: […]
b) tworzenie kopii bezpieczeństwa własnych danych umieszczanych na serwerze lub serwerach; (Regulamin dostępny jest tutaj: https://www.e24cloud.com/Regulamin_e24cloud-PL.pdf)
Korzyści z korzystania z rozwiązań w chmurze są wielorakie, a ich świadomość zwiększa się wśród odbiorców:
– Stosunkowo niskie wydatki na wdrożenie systemu.
– Skalowalność i elastyczność
– płatności w systemie pay-as-you go
– możliwość uruchomienia platformy serwerów w chmurach w czasach nieosiągalnych dla tradycyjnych rozwiązań
– bezpłatne łącza internetowe
Jednak nie należy zapominać że cloud computing – jak każde alternatywne rozwiązanie – może być również narażony na awarię. Nie ma systemu 100% bezawaryjnego, co więcej, to właśnie rozwiązania w chmurach są najbardziej zbliżone do ideału bezpieczeństwa. Decydując się na to rozwiązania – czy na jakiekolwiek inne – należy zawsze jednak pamiętać o robieniu back up’ów.
Michał Bielecki: „Czy były wykonywane jakiekolwiek kopie danych off-site? Jeżeli nie – dlaczego?”
W Beyond.pl backupujemy dane offsite w zależności od umów z klientami i zgodnie z ich indywidualną polityką backupu.
W e24cloud.com klienci mogą wykupić opcję backup udostępniającą im 1 GB za 2 zł miesięcznie. Backup następuję wg harmonogramu ustalonego przez użytkownika lub w wybranym przez niego momencie.
Środowiska wirtualizacyjne ze względu na to, że są ciągłe w ruchu mają zapewnianą redundancję po stronie sprzętu – grupy macierzy w trybie active-passive + osobne środowisko na dane backupowane zgodnie z oczekiwaniami użytkowników (punkty przywracania).
W przypadku e24cloud.com doszło do tragicznej w skutkach jednoczesnej awarii zarówno podstawowego środowiska danych jak i jego mirroru. Zazwyczaj w takich przypadkach (vide case Amazon czy Rackspace) przywraca się jedyne dane z backupu, nie walczy się o odzyskanie mirrora. Aktualnie praca całego naszego zespołu prowadzona jest w celu odzyskania danych, których właściciele nie skorzystali z backupu.
Podejmujemy ten wysiłek, by odzyskać zaufanie naszych klientów. Warto powtórzyć – klienci którzy skorzystali z opcji backupu swoje dane mieli do dyspozycji z powrotem w momencie ponownego uruchomienia usługi.
Podkreślam jeszcze raz różnicę pomiędzy backupem a mirrorem. Mirror powstaje w momencie zapisywania danych – są one jednocześnie umieszone w dwóch niezależnych miejscach. W wypadku awarii macierzy głównej jej zadania przejmuje mirror. Na ogół użytkownik nie zauważa tej zmiany.
Backup to „dysk bezpieczeństwa” – dane na nim nie są zapisywane symultanicznie, a w wyznaczonych przez użytkownika momentach. Wówczas dane są „paczkowane” i wysyłane w bezpieczne miejsce (które posiada m.in. osobną linię zasilania).
W przypadku zaistniałych problemów z zasilaniem niestety straciliśmy więcej niż dwa dyski w każdej grupie RAID6 w każdej z produkcyjnych macierzy. Wyjaśniamy tę sytuację z producentem urządzeń, gdyż taka sytuacja nigdy nie powinna mieć miejsca.
Jacek Artymiak:„Czy zamierzacie zmienić i udokumentować na publicznie dostępnej stronie projekt infrastruktury tak żeby klienci wiedzieli co kupują i co się dzieje kiedy coś się psuje, no i jakie są procedury usuwania awarii?”
Wszyscy klienci Beyond.pl mają wgląd w dokumentację techniczną. Co więcej, klienci, którzy życzą sobie lub nałożone są na nich takie wymagania mogą uczestniczyc we wszystkich testach wszystkich naszych instalacji. Byliśmy, jesteśmy i będziemy transparentni dla naszych klientów, natomiast podawanie projektów czy schematów do wiadomości publicznej nie leży w interesie naszej firmy.
e24cloud.com nie podaje swojej infrastruktury ze względu na tajemnice biznesowe.
Jednak przygotujemy szczegółowe case study na temat naszej awarii. Bardzo zależy nam na odzyskaniu zaufania naszych klientów, ale także zaufania do usługi i branży, którą reprezentujemy. Zdajemy sobie sprawę z tego, że awaria, której doświadczamy, że największa tego typu w Polsce, dlatego też będziemy otwarci. Jesteśmy to winni, wszystkim, którzy kibicowali nam i wierzyli w nas.
Mariusz Drozdziel: „Czy poprzez „macierz” rozumiecie gotowy produkt pudełkowy a’la np. Eva od HP? Jeżeli tak, to czy czemu przy swojej skali nadal korzystacie z takich gotowych rozwiązań, zamiast jak wszystkie Amazon, Facebook, Google budować własne rozwiązania do storage (bardzo tani PCet, 12 dysków i jakaś warstwa software’owa, oparta na jakimś otwartym rozwiązaniu)?”
Odpowiedź na to pytanie wkracza głęboko w branżową politykę bezpieczeństwa, która jest naszym priorytetem i której przestrzegamy. Dlatego w chwili obecnej nie chcemy i możemy odpowiedzieć na to pytanie. Wspomnienie wcześniej case study na pewno rzuci światło na kwestie związane z tym tematem. Prosimy o cierpliwość.
Tomasz Szkudlarek: „Plany awaryjne – czyli scenariusze napraw w przypadkach rożnych usterek. Co ze scenariuszem kopii bezpieczeństwa? Czy korzystacie z eksportowanych mediów (jak taśmy), które można wynieść poza serwerownie do ogniotrwalego sejfu i dlaczego w tym przypadku kopie zawiodły?”
W przypadku Beyond.pl – Oczywiście, wszystkie scenariusze zadziałały bo serwerownia została przywrócona operacyjnie w kilka minut.
W przypadku e24cloud.com – użytkownicy, którzy korzystali z opcji back up otrzymali dostęp do swoich danych – w momencie ponownego przywrócenia usługi.
„I wreszcie – skoro mają w każdym urodzeniu redundantne zasilanie a padła tylko jedna linia zasilania, to dlaczego spowodowało to wyłączenie zasilania jakiegokolwiek urządzenia? Z zasady redundantne zasilacze połączą się do rożnych linii…”
Wspominałem już o tym wcześniej. Nastąpiła tragiczna w skutkach kaskada błędów. Opisałem ją szczegółowo w odpowiedzi na pytanie Pana Tomasza Berezowskiego:
Wojciech Jukowski: „jaki procent klientów załączyło sobie backup?”
Około 25%
Łukasz Jagiełło: „Jakim cudem dyski uległy fizycznemu uszkodzeniu skoro nie przyłączyło się zasilanie, co podał w komunikacie beyond. Nie bylo spięcia, przeciążenia itd więc skąd te fizyczne uszkodzenia dysków na głównej macierzy i mirrorze.”
Skok napięcia w tak wielkiej instalacji zawsze uszkadza elektronikę. W trakcie samego zaniku jak i powrotu zasilania w instalacji mają miejsce stany nieustalone. Zasilanie jest podawane na poszczególne sekcje i tory zasilające serwerownię za pośrednictwem zasilaczy UPS, których falowniki (elementy kształtujące przebieg napięcia wyjściowego) w momencie zaniku napięcia – lub jego powrotu podają napięcie o ściśle określonej wartości (prąd zmienny – stale zmienia się wartość). Po utracie i przywróceniu napięcia może powodowa spowodować to niestabilną pracę elektroniki a co za tym idzie utratę spójności danych np w kontrolerach macierzy dyskowych.
„Dodatkowo czemu nie skorzystano z supportu tylko z firm trzecich ?”
Dostawcy sprzętu IT dla Beyond.pl gwarantują sprawność sprzętu a nie integralność danych. Korzystając z suportu zapewne dostalibyśmy nowe, świeże dyski lub nowe świeże macierze. A i jedno i drugie było w Beyond.pl w podręcznym magazynie części zapasowych z czego natychmiast skorzystaliśmy
Jan Rychter: „1. Czy to prawda, że zostały stracone nie tylko bieżące dane serwerów klientów (dopuszczalne), ale też backup, który był zapewniony jako część usługi (niedopuszczalne)?”
To nieprawda: – backupy klientów zostały udostępnione natychmiast po wznowieniu usługi e24cloud.com.
„2. Jeśli tak, dlaczego backup nie był robiony w zupełnie innej części infrastruktury?”
Backup był robiony w innej części infrastruktury. Wcześniej tłumaczymy różnice pomiędzy back upem a danymi, które zostały uruchomione.
„3. Jak możliwa jest „awaria zasilania”, skoro na beyond.pl czytamy:
Bezpieczeństwo mocy
Dwie całkowicie oddzielne szyny mocy
18 ton a…https://www.facebook.com/messages/?action=read&tid=id.242804699163904”
– wystąpił więcej niż jedne problem. Również odsyłam do odpowiedzi na pytanie Tomasza Berezowskiego.
Rafał Agnieszczak: „Ile zapłaciliście za ten wywiad?”
A ile Twoim zdaniem to jest warte?
Jak to faktycznie wyglądało: komunikując się z klientami na temat awarii zauważyliśmy, że Artur „polubił” nasz profil FB. Ponieważ nie trzeba być Sherlockiem żeby domyślić się, że awaria stanie się tematem jego kolejnego artykułu, zgłosiliśmy mu chęć udzielenia wszelkich informacji jakie będzie potrzebował.