Globalna awaria Cloudflare sparaliżowała internet
Globalna awaria Cloudflare sparaliżowała internet na ponad 3 godziny, powodując błędy 500 na setkach stron – od X po CDA i CANAL+. Nawet Downdetector padł ofiarą usterki. Co dokładnie się wydarzyło i jak przebiegała walka o przywrócenie usług? Sprawdź szczegóły.

Błędy 500 na setkach stron.
Padł też satkurier.pl 18 listopada około godziny 12:30 doszło do poważnej awarii w internecie, która spowodowała niedostępność wielu stron i serwisów.
W ich miejscu pojawiała się charakterystyczna plansza Cloudflare z błędem 500.
Problemy te objęły także portal i forum satkurier.pl, korzystające – podobnie jak liczne inne witryny – z infrastruktury Cloudflare, co na co dzień zapewnia sprawne i szybkie dostarczanie treści użytkownikom.
Usterkę udało się ostatecznie usunąć dopiero po ponad 3 godzinach, choć w międzyczasie zdarzały się krótkie okresy prawidłowego działania.
- Zauważyliśmy nagły wzrost nietypowego ruchu do jednej z usług Cloudflare o godz. 12:20. Spowodowało to, że część ruchu przechodzącego przez sieć Cloudflare napotykała błędy – przekazało biuro prasowe Cloudflare, jeszcze w trakcie trwania awarii.
Jednym z największych serwisów dotkniętych awarią był X (dawny Twitter).
Problemy wystąpiły również w wielu innych usługach, m.in. CDA i CANAL+.
Warto dodać, że skutki awarii odczuł także serwis Downdetector – miejsce, w którym internauci zwykle sprawdzają i zgłaszają problemy z funkcjonowaniem różnych platform, co dodaje całej sytuacji odrobiny ironii.
Poniżej prezentujemy oś czasu „Problemy w globalnej sieci Cloudflare”, opublikowaną na stronie cloudflarestatus.com.
Warto dodać, że treść komunikatów ewoluowała w trakcie trwania awarii.
- 12:48 Cloudflare doświadcza wewnętrznego pogorszenia działania usług.
Niektóre usługi mogą być okresowo niedostępne.
Skupiamy się na ich przywróceniu.
Będziemy aktualizować informacje w miarę postępów prac naprawczych.
Kolejne aktualizacje wkrótce. - 13:03 Nadal badamy ten problem.
- 13:21 Obserwujemy, że usługi zaczynają wracać do działania, ale klienci mogą nadal doświadczać wyższej niż normalnie liczby błędów, ponieważ kontynuujemy działania naprawcze.
- 13:37 Nadal badamy ten problem.
- 13:53 Nadal badamy ten problem.
- 14:04 Podczas prób usunięcia problemu wyłączyliśmy dostęp WARP w Londynie.
Użytkownicy w Londynie próbujący uzyskać dostęp do Internetu przez WARP zobaczą błąd połączenia. - 14:09 Problem został zidentyfikowany i wdrażana jest poprawka.
- 14:13 Wprowadziliśmy zmiany, które pozwoliły na odzyskanie działania Cloudflare Access i WARP.
Poziom błędów dla użytkowników Access i WARP wrócił do stanu sprzed incydentu.
Ponownie włączyliśmy dostęp WARP w Londynie.
Kontynuujemy działania w celu przywrócenia pozostałych usług. - 14:35 Kontynuujemy prace nad przywróceniem usług dla klientów korzystających z usług aplikacyjnych.
- 14:58 Kontynuujemy prace nad przywróceniem usług dla klientów korzystających z usług aplikacyjnych.
- 15:22 Nadal pracujemy nad poprawką rozwiązującą ten problem.
- 15:34 Wdrożyliśmy zmianę, która przywróciła działanie panelu zarządzania.
Nadal pracujemy nad usunięciem szerokiego wpływu na usługi aplikacyjne. - 15:42 Wdrożyliśmy poprawkę i uważamy, że incydent został już rozwiązany.
Nadal monitorujemy błędy, aby upewnić się, że wszystkie usługi wróciły do normy. - 15:57 Niektórzy klienci mogą nadal mieć problemy z logowaniem się lub korzystaniem z panelu Cloudflare.
Pracujemy nad poprawką, aby to rozwiązać, i nadal monitorujemy sytuację pod kątem ewentualnych problemów. - 16:23 Wciąż monitorujemy sytuację pod kątem ewentualnych dalszych problemów.
- 16:40 Zespół nadal koncentruje się na przywracaniu działania usługi po wdrożeniu poprawki. Pracujemy nad zniwelowaniem kilku problemów, które utrzymują się po wdrożeniu.
- 17:04 Wyniki botów będą okresowo zaburzone podczas przeprowadzania globalnego procesu odzyskiwania.
Poinformujemy, gdy uznamy, że wyniki botów w pełni wróciły do norm. - 17:27 W dalszym ciągu obserwujemy mniej błędów oraz poprawę opóźnień, jednak nadal otrzymujemy zgłoszenia o sporadycznych błędach.
Zespół nadal monitoruje sytuację w miarę jej poprawy i szuka sposobów na przyspieszenie pełnego przywrócenia sprawności. - 17:46 Wciąż obserwujemy spadek liczby błędów, gdy pracujemy nad usługami na całym świecie, i usuwamy pozostałe błędy oraz opóźnienia.
- 18:14 Kontynuujemy monitorowanie systemu w trakcie procesu odzyskiwania i widzimy, że poziom błędów i opóźnienia wracają do normy.
Pełne dochodzenie powyincydentowe oraz szczegóły dotyczące incydentu zostaną udostępnione jak najszybciej. - 18:44 Usługi Cloudflare działają obecnie normalnie.
Nie obserwujemy już podwyższonego poziomu błędów ani opóźnień w sieci.
Nasze zespoły inżynierskie nadal uważnie monitorują platformę i prowadzą dokładniejsze dochodzenie w sprawie wcześniejszych zakłóceń, jednak na ten moment nie są wprowadzane żadne zmiany w konfiguracji.
W tej chwili uznaje się, że ponowne włączenie usług Cloudflare, które zostały tymczasowo wyłączone podczas incydentu, jest bezpieczne.
Po zakończeniu dochodzenia udzielimy finalnej aktualizacji.
Aktualizacja:
Głos zabrał Dane Knecht, dyrektor techniczny Cloudflare.
We wpisie na platformie X przeprasza klientów za awarię, która spowodowana była „ukrytym błędem w usłudze wspierającej mechanizmy ochrony przed botami” po rutynowej zmianie konfiguracji, jaka została wprowadzona przez zespół Cloudflare.
- To doprowadziło do szerokiego pogorszenia działania naszej sieci i innych usług.
To nie był atak – podkreśla Knecht.
Dodaje, że ten problem, jego skutki i czas potrzebny na jego rozwiązanie są „nie do przyjęcia”. -
Prace nad zapewnieniem, że to się nie powtórzy, już trwają, ale wiem, że dziś spowodowało to realne problemy.
Zaufanie, jakim obdarzają nas klienci, jest dla nas najważniejsze i zrobimy wszystko, by je odzyskać – skwitował dyrektor techniczny Cloudflare.
Aktualizacja:
O godz. 18:00 Dane Knecht udostępnił aktualizację dotyczącą przywracania usług Cloudflare:
– Udało nam się usunąć wpływ incydentu na ruch przechodzący przez naszą sieć około 15:30, co było naszym głównym priorytetem, jednak incydent wymagał dodatkowych działań, aby w pełni przywrócić naszą płaszczyznę kontrolną (nasz panel oraz interfejsy API, których nasi klienci używają do konfiguracji Cloudflare).
Płaszczyzna kontrolna powinna być teraz w pełni dostępna.
Monitorujemy te usługi i wciąż upewniamy się, że wszystko działa w pełni prawidłowo.
Ponownie, planujemy udostępnić pełne omówienie tego, co dziś poszło nie tak, w ciągu najbliższych kilku godzin oraz przedstawimy, jak zamierzamy zapobiec podobnym sytuacjom w przyszłości.























