TELE TECHNIKA

DLA CIEBIE DLA DOMU DLA FIRMY

Cloudflare

Internet

Globalna awaria Cloudflare sparaliżowała internet

Globalna awaria Cloudflare sparaliżowała internet na ponad 3 godziny, powodując błędy 500 na setkach stron – od X po CDA i CANAL+. Nawet Downdetector padł ofiarą usterki. Co dokładnie się wydarzyło i jak przebiegała walka o przywrócenie usług? Sprawdź szczegóły.

Globalna awaria Cloudflare sparaliżowała internet
Globalna awaria Cloudflare sparaliżowała internet

Błędy 500 na setkach stron.
Padł też satkurier.pl 18 listopada około godziny 12:30 doszło do poważnej awarii w internecie, która spowodowała niedostępność wielu stron i serwisów.
W ich miejscu pojawiała się charakterystyczna plansza Cloudflare z błędem 500.
Problemy te objęły także portal i forum satkurier.pl, korzystające – podobnie jak liczne inne witryny – z infrastruktury Cloudflare, co na co dzień zapewnia sprawne i szybkie dostarczanie treści użytkownikom.

Usterkę udało się ostatecznie usunąć dopiero po ponad 3 godzinach, choć w międzyczasie zdarzały się krótkie okresy prawidłowego działania.  

  • Zauważyliśmy nagły wzrost nietypowego ruchu do jednej z usług Cloudflare o godz. 12:20. Spowodowało to, że część ruchu przechodzącego przez sieć Cloudflare napotykała błędy – przekazało biuro prasowe Cloudflare, jeszcze w trakcie trwania awarii.
    Jednym z największych serwisów dotkniętych awarią był X (dawny Twitter).
    Problemy wystąpiły również w wielu innych usługach, m.in. CDA i CANAL+.
    Warto dodać, że skutki awarii odczuł także serwis Downdetector – miejsce, w którym internauci zwykle sprawdzają i zgłaszają problemy z funkcjonowaniem różnych platform, co dodaje całej sytuacji odrobiny ironii.

Poniżej prezentujemy oś czasu „Problemy w globalnej sieci Cloudflare”, opublikowaną na stronie cloudflarestatus.com.
Warto dodać, że treść komunikatów ewoluowała w trakcie trwania awarii.

  • 12:48 Cloudflare doświadcza wewnętrznego pogorszenia działania usług.
    Niektóre usługi mogą być okresowo niedostępne.
    Skupiamy się na ich przywróceniu.
    Będziemy aktualizować informacje w miarę postępów prac naprawczych.
    Kolejne aktualizacje wkrótce.
  • 13:03 Nadal badamy ten problem.
  • 13:21 Obserwujemy, że usługi zaczynają wracać do działania, ale klienci mogą nadal doświadczać wyższej niż normalnie liczby błędów, ponieważ kontynuujemy działania naprawcze.
  • 13:37 Nadal badamy ten problem.
  • 13:53 Nadal badamy ten problem.
  • 14:04 Podczas prób usunięcia problemu wyłączyliśmy dostęp WARP w Londynie.
    Użytkownicy w Londynie próbujący uzyskać dostęp do Internetu przez WARP zobaczą błąd połączenia.
  • 14:09 Problem został zidentyfikowany i wdrażana jest poprawka.
  • 14:13 Wprowadziliśmy zmiany, które pozwoliły na odzyskanie działania Cloudflare Access i WARP.
    Poziom błędów dla użytkowników Access i WARP wrócił do stanu sprzed incydentu.
    Ponownie włączyliśmy dostęp WARP w Londynie.
    Kontynuujemy działania w celu przywrócenia pozostałych usług.
  • 14:35 Kontynuujemy prace nad przywróceniem usług dla klientów korzystających z usług aplikacyjnych.
  • 14:58 Kontynuujemy prace nad przywróceniem usług dla klientów korzystających z usług aplikacyjnych.
  • 15:22 Nadal pracujemy nad poprawką rozwiązującą ten problem.
  • 15:34 Wdrożyliśmy zmianę, która przywróciła działanie panelu zarządzania.
    Nadal pracujemy nad usunięciem szerokiego wpływu na usługi aplikacyjne.
  • 15:42 Wdrożyliśmy poprawkę i uważamy, że incydent został już rozwiązany.
    Nadal monitorujemy błędy, aby upewnić się, że wszystkie usługi wróciły do normy.
  • 15:57 Niektórzy klienci mogą nadal mieć problemy z logowaniem się lub korzystaniem z panelu Cloudflare.
    Pracujemy nad poprawką, aby to rozwiązać, i nadal monitorujemy sytuację pod kątem ewentualnych problemów.
  • 16:23 Wciąż monitorujemy sytuację pod kątem ewentualnych dalszych problemów.
  • 16:40 Zespół nadal koncentruje się na przywracaniu działania usługi po wdrożeniu poprawki. Pracujemy nad zniwelowaniem kilku problemów, które utrzymują się po wdrożeniu.
  • 17:04 Wyniki botów będą okresowo zaburzone podczas przeprowadzania globalnego procesu odzyskiwania.
    Poinformujemy, gdy uznamy, że wyniki botów w pełni wróciły do norm.
  • 17:27 W dalszym ciągu obserwujemy mniej błędów oraz poprawę opóźnień, jednak nadal otrzymujemy zgłoszenia o sporadycznych błędach.
    Zespół nadal monitoruje sytuację w miarę jej poprawy i szuka sposobów na przyspieszenie pełnego przywrócenia sprawności.
  • 17:46 Wciąż obserwujemy spadek liczby błędów, gdy pracujemy nad usługami na całym świecie, i usuwamy pozostałe błędy oraz opóźnienia.
  • 18:14 Kontynuujemy monitorowanie systemu w trakcie procesu odzyskiwania i widzimy, że poziom błędów i opóźnienia wracają do normy.
    Pełne dochodzenie powyincydentowe oraz szczegóły dotyczące incydentu zostaną udostępnione jak najszybciej.
  • 18:44 Usługi Cloudflare działają obecnie normalnie.
    Nie obserwujemy już podwyższonego poziomu błędów ani opóźnień w sieci.
    Nasze zespoły inżynierskie nadal uważnie monitorują platformę i prowadzą dokładniejsze dochodzenie w sprawie wcześniejszych zakłóceń, jednak na ten moment nie są wprowadzane żadne zmiany w konfiguracji.
    W tej chwili uznaje się, że ponowne włączenie usług Cloudflare, które zostały tymczasowo wyłączone podczas incydentu, jest bezpieczne.
    Po zakończeniu dochodzenia udzielimy finalnej aktualizacji.

Aktualizacja:

Głos zabrał Dane Knecht, dyrektor techniczny Cloudflare.
We wpisie na platformie X przeprasza klientów za awarię, która spowodowana była „ukrytym błędem w usłudze wspierającej mechanizmy ochrony przed botami” po rutynowej zmianie konfiguracji, jaka została wprowadzona przez zespół Cloudflare.

  • To doprowadziło do szerokiego pogorszenia działania naszej sieci i innych usług.
    To nie był atak – podkreśla Knecht.
    Dodaje, że ten problem, jego skutki i czas potrzebny na jego rozwiązanie są „nie do przyjęcia”.

  • Prace nad zapewnieniem, że to się nie powtórzy, już trwają, ale wiem, że dziś spowodowało to realne problemy.
    Zaufanie, jakim obdarzają nas klienci, jest dla nas najważniejsze i zrobimy wszystko, by je odzyskać – skwitował dyrektor techniczny Cloudflare.  

Aktualizacja:

O godz. 18:00 Dane Knecht udostępnił aktualizację dotyczącą przywracania usług Cloudflare:
– Udało nam się usunąć wpływ incydentu na ruch przechodzący przez naszą sieć około 15:30, co było naszym głównym priorytetem, jednak incydent wymagał dodatkowych działań, aby w pełni przywrócić naszą płaszczyznę kontrolną (nasz panel oraz interfejsy API, których nasi klienci używają do konfiguracji Cloudflare).
Płaszczyzna kontrolna powinna być teraz w pełni dostępna.
Monitorujemy te usługi i wciąż upewniamy się, że wszystko działa w pełni prawidłowo.
Ponownie, planujemy udostępnić pełne omówienie tego, co dziś poszło nie tak, w ciągu najbliższych kilku godzin oraz przedstawimy, jak zamierzamy zapobiec podobnym sytuacjom w przyszłości.