Вчерашним утром посыпались звонки разгневанных клиентов о том, что ничего не работает. Это клиенты спутниковой системы, разной серьезности (от собаководов, автовладельцев до силовиков, использующих те же маячки).
Не сразу было понятно, в чем дело: все работает, мониторинг не тревожит.
Оказалось, что корневой домен более не зарегистрирован. Whois отдают not registered. Пока все живет только за счет кэша DNS.
Домен в зоне .im, на котором висит основной сервис и приложения, зарегистрирован у REG.ru. Был продлен 9 августа (проверил в списке успешных транзакций) и сам reg.ru показывает до сих пор, что все ок:
Что делать?
Честно говоря такого подвоха никак не ожидали.
Упади сервер, база и даже хостер — на все есть свое решение проблемы, пусть даже с простоем в несколько часов. Но тут домен! На него завязаны приложения в маркетах, у клиентов стоят закладки.
И самое страшное, что регистратору это все поровну: для них тикеты равны по приоритету и могут обрабатываться днями (хоть речь о мелкой проблеме с входом в панель, хоть об аварии подобной нашей).
Создали сразу тикет (#2015082810048659), тишина…
Нашел скрытую возможность позвонить в REG.ru:
www.reg.ru/support/voicechat
Дозвонился, девушка пообещала, что передала специалистам, тишина…
После обеда звонил еще 2 раза — пытался донести, что это авария, что у нас клиенты, и т.д.
Писал по email, даже в группу ВК. Позже в тикете отписались, что специалисты занимаются, передан запрос регистратору, меня уведомят о решении проблемы.
Идут вторые сутки. От REG.ru тишина…
Регистрация напрямую
Сегодня утром я сделал простую вещь: нашел собственника домена
.im (остров Мэн) — это
www.nic.im и провел регистрацию с нуля. Домен удачно зарегистрировался, вышло конечно дороже в 3 раза ( 40 фунтов по курсу). Установил минимальный TTL и через час(!) домен и поддомены заработали, а whois отдавал записи сразу после оплаты домена. Думаю, надо было не тянуть и сделать все вчера, но я ожидал какого-то решения от reg.ru и боялся возможных коллизий.
Итого
Наша компания получила урон репутации, мы потеряли потенциальные продажи тем, кто висел на тестовом периоде. Обещая высокую отказоустойчивость — мы обманули ожидания.
Все наши кластеры, очереди, балансировки и прочее оказались бесполезны. Проблема с доменом нам принесла даунтайм больше, чем за несколько лет.
Буду рад услышать советы, как можно перестраховаться от таких случаев.
Самое смешное: пока мы разбирались со всем этим — нам непрерывно помогала техподдержка linode, у которых хостятся NS-сервера всех наших доменов, ну и сами продакшен сервера. Они мало чем могли помочь в данном вопросе, но всегда отвечают на любой вопрос в течении 3-х минут и всегда рады помочь (и так более 5 лет). REG.ru, который должен был решать свою проблему с утерей домена клиента — не ответил до сих пор…
UPD (22:00):
Со мной по телефону (указанному в панели) связался тех. руководитель.
Объяснили ситуацию, извинились, разбираются с регистратором след. уровня, компенсировали лишние расходы на перерегистрации доменов.
Кратко — домен был продлен, REG.ru получил success от партнера, но домен не продлился.
Позже опишут подробнее информацию от инженеров по расследованию, которое сейчас проводится.
UPD (00:00):
Подробнее техническое пояснение из письма:
Нам очень жаль за произошедший инцидент.
На основании Ваших заявок на продление домена ......im, REG.RU отправил запросы в OpenSRS, на которые были получены положительные ответы о продлении домена. Но несмотря на отсутствие уведомлений об ошибках, домен в OpenSRS продлен не был и по данному факту мы проводим внутреннее расследование для выяснения причин. Официальный ответ по ситуации от OpenSRS на данный момент не получен. Так же хотелось бы уточнить что мы являемся только реселлером данной зоны.
Приносим извинения за несвоевременно предоставленный ответ о ходе решения Вашей проблемы, поскольку ожидался официальный комментарий OpenSRS…
UPD.Мини-вывод:
Ситуация редкая, но возможная. Думаю, может случиться у любого реселлера и, вероятно, регистратора. Как перестраховаться? В приложениях можно через список алиасов/ip, на веб-сервисах — не понятно как. В данном случае основной косяк reg.ru — общая тикет-система с неясными приоритетами (при создании тикета черным по белому написано — вам ответят в течении 24 часов!).
Из всех возможных причин обращения в техподдержку падение домена в продакшене — очевидно, самое критичное. Для таких случаев должна быть отдельная красная кнопка (особенно если домену более 2-х лет), если у клиента жопа, то нужно сделать все что можно для решения проблемы (как видно из поста — решение было).
И сюда же, хороший коммент (AlexanderS):
Тут штука в том, что подобным образом ведет себя большинство ТП. Если клиенту сказать нечего (самим непонятно или сами разбираются) — ему вообще ничего не говорят. Клиент же ждёт, ждёт, напряжение неопределённости нарастает и когда превышает определённый порог (для всех уровень разный) клиент начинает что-то предпринимать самостоятельно. Типа: сам не сделаешь — никто за тебя не сделает. Я редко где встречался, где с клиентом говорили по-человечески: или объясняют все действия до текущего момента, или честно признаются что сами не понимают и объясняют свои текущие действия — я в такой ситуации по крайней мере понимал что люди что-то делают, не дёргался резко и себя не изводил.
комментарии (105)