Официальное объяснение от ЖЖ-Россия

Хааааахахахахахаха! ЖЖ-Россия ответило на вопрос про хокку коменты.

Не могу не привести его здесь, потому что обожаю жанр официальных писем-объяснительных. Вот сравните, объяснительная команды ЖЖ:

Уважаемые пользователи,
к сожалению, в минувшую субботу мы были вынуждены откатить наш последний релиз (#59) из-за его нестабильности. К сожалению, в процессе этих манипуляций частично вышла из строя система уведомлений ЖЖ.
Наши инженеры работают над устранением этой проблемы и прилагают все возможные усилия для того, чтобы сделать это максимально быстро. Мы рассчитываем выпустить патч в течении следующего дня, чтобы исправить проблемы с системой уведомлений одновременно с повторным выпуском релиза.

В настоящий момент все уведомления ставятся в очередь, таким образом они будут разосланы сразу после устранения неисправности и проверки, что все работает корректно.

UPD! (3:28 9.12.2009)
Проблема с системой уведомлений была исправлена в обновленной версии релиза (#59.1). Обработка очереди рассылки (которая превышает 12 млн. заданий) уже началась.

Пожалуйста, дождитесь, когда наши «воркеры» обработают эту очередь и отправят вам ваши уведомления. В зависимости от объема, некоторые уведомления могут придти к вам раньше других, но мы надеемся, что в течении 24 часов все уведомления из очереди будут разосланы и доставлены адресатам.

Примите, пожалуйста, извинения за доставленные неудобства.

И объяснительная команды Gmail (почти год назад случилось так, что пару часов ни один юзер не мог зайти в свой ящик; письмо появилось спустя несколько часов после инцидента). Ее можно как рассказ читать:

Вчера веб-интерфейс почтового сервиса Gmail был недоступен по всему миру на протяжении достаточно большого промежутка времени — около 100 минут. Мы знаем, что много людей полагаются на Gmail как на инструмент для личных и корпоративных коммуникаций и относимся к проблемам с сервисом очень серьезно. Поэтому я сразу хотел бы извиниться перед всеми вами — отключение, произошедшее сегодня, было беспрецедентным по своему масштабу, и именно с такой точки зрения мы и будем его рассматривать. Мы уже провели тщательное расследование случившегося, и на базе полученных сведений в настоящее время составляем список того, что мы намерены исправить или улучшить.

Вот что случилось: сегодня утром по тихоокеанскому времени (вчера вечером по МСК) мы отключили несколько серверов Gmail, чтобы провести плановое обновление. Само по себе это не проблема — мы проводим обновления постоянно, в то время как веб-интерфейс Gmail продолжает работать, используя серверы, расположенные в других точках мира.

Однако, как теперь стало ясно, мы слегка недооценили нагрузки, которые были вызваны недавними изменениями (по иронии судьбы, некоторые из них были предназначены для улучшения доступности сервисов) в маршрутизаторах запросов — серверах, которые перенаправляют прямые запросы из Сети на соответствующие серверы Gmail. Примерно в 12:30 по тихоокеанскому времени (23:30 по МСК) несколько маршрутизаторов оказались перегруженными и фактически заявили остальной системе «хватит отправлять нам трафик, мы слишком медленно работаем!». Это привело к тому, что нагрузка перенеслась на оставшиеся маршрутизаторы, из-за чего некоторые из них также не выдержали нагрузки, и через несколько минут почти все маршрутизаторы были перегружены. В результате, пользователи не могли получить доступ к Gmail через веб-интерфейс, поскольку их запросы не могли быть перенаправлены на серверы Gmail. IMAP/POP-доступ по-прежнему работал нормально, поскольку эти запросы обрабатывались незатронутой группой других маршрутизаторов.

Команда инженеров Gmail получила уведомления об отказе маршрутизаторов спустя несколько секунд после возникновения проблемы (мы очень серьезно относимся к мониторингу). Как только стало ясно, что причиной проблемы является недостаток имеющихся мощностей, инженеры незамедлительно начали подключать большое количество маршрутизаторов запросов (гибкая расширяемость является одним из преимуществ архитектуры Google) и направили трафик через них, после чего веб-интерфейс Gmail возобновил свою работу.

Что же дальше: Мы приложим все усилия, чтобы не допустить повторения подобных ситуаций впредь. Некоторые из действий по предотвращению таких инцидентов очевидны и уже предприняты — например, увеличение мощностей маршрутизаторов с целью получить технологический запас.

Другие решения не так просты — например, мы пришли к выводу, что маршрутизаторы запросов недостаточно защищены от сбоев (например, если в одном из центров обработки данных возникла проблема, это не должно влиять на серверы другого центра обработки данных) и плохо реагируют на нагрузку (например, если несколько маршрутизаторов запросов перегружены одновременно, они все должны просто работать медленнее вместо того, чтобы отказываться принимать трафик и перенаправлять нагрузку).

Мы будем усиленно работать в течение ближайших нескольких недель для принятия этих и других мер по улучшению надежности сервиса. Gmail по-прежнему остается сервисом с уровнем доступности более чем 99,9% для всех пользователей, и мы постараемся в будущем свести количество подобных инцидентов к минимуму.

Вконтактнуть
Телеграмнуть
alexandr@glazunov.am     |     © 2009–2024 Александр Глазунов
Ссылка на эту страницу: https://glazunov.am/blog/official-explanation-from-livejournal-russia