Вчерашним утром посыпались звонки разгневанных клиентов о том, что ничего не работает. Это клиенты спутниковой системы, разной серьезности (от собаководов, автовладельцев до силовиков, использующих те же маячки).
Не сразу было понятно, в чем дело: все работает, мониторинг не тревожит.
Оказалось, что корневой домен более не зарегистрирован. Whois отдают not registered. Пока все живет только за счет кэша DNS.
Домен в зоне .im, на котором висит основной сервис и приложения, зарегистрирован у REG.ru. Был продлен 9 августа (проверил в списке успешных транзакций) и сам reg.ru показывает до сих пор, что все ок:
Что делать?
Честно говоря такого подвоха никак не ожидали.
Упади сервер, база и даже хостер — на все есть свое решение проблемы, пусть даже с простоем в несколько часов. Но тут домен! На него завязаны приложения в маркетах, у клиентов стоят закладки.
И самое страшное, что регистратору это все поровну: для них тикеты равны по приоритету и могут обрабатываться днями (хоть речь о мелкой проблеме с входом в панель, хоть об аварии подобной нашей).
Создали сразу тикет (#2015082810048659), тишина…
Нашел скрытую возможность позвонить в REG.ru:
www.reg.ru/support/voicechat
Дозвонился, девушка пообещала, что передала специалистам, тишина…
После обеда звонил еще 2 раза — пытался донести робо-людям, что это авария, что у нас клиенты, и т.д.
Писал по email, даже в группу ВК. Позже в тикете отписались, что специалисты занимаются, меня уведомят о решении проблемы.
Идут вторые сутки. От REG.ru тишина…
Регистрация напрямую
Сегодня утром я сделал простую вещь: нашел собственника домена
.im (остров Мэн) — это
www.nic.im и провел регистрацию с нуля. Домен удачно зарегистрировался, вышло конечно дороже в 3 раза ( 40 фунтов по курсу). Установил минимальный TTL и через час(!) домен и поддомены заработали, а whois отдавал записи сразу после оплаты домена. Думаю, надо было не тянуть и сделать все вчера, но я ожидал какого-то решения от reg.ru и боялся возможных коллизий.
Итого
Наша компания получила урон репутации, мы потеряли потенциальные продажи тем, кто висел на тестовом периоде. Обещая высокую отказоустойчивость — мы обманули ожидания.
Все наши кластеры, очереди, балансировки и прочее оказались бесполезны. Проблема с доменом нам принесла даунтайм больше, чем за несколько лет.
Буду рад услышать советы, как можно перестраховаться от таких случаев.
Самое смешное: пока мы разбирались со всем этим — нам непрерывно помогала техподдержка linode, у которых хостятся NS-сервера всех наших доменов, ну и сами продакшен сервера. Они мало чем могли помочь в данном вопросе, но всегда отвечают на любой вопрос в течении 3-х минут и всегда рады помочь (и так более 5 лет). REG.ru, который должен был решать свою проблему с утерей домена клиента — не ответил до сих пор…
UPD (22:00):
Со мной по телефону (указанному в панели) связался тех. руководитель.
Объяснили ситуацию, извинились, разбираются с регистратором след. уровня, компенсировали лишние расходы на перерегистрации доменов.
Кратко — домен был продлен, REG.ru получил success от партнера, но домен не продлился.
Позже опишут подробнее информацию от инженеров по расследованию, которое сейчас проводится.
UPD (00:00):
Подробнее техническое пояснение из письма:
Нам очень жаль за произошедший инцидент.
На основании Ваших заявок на продление домена ......im, REG.RU отправил запросы в OpenSRS, на которые были получены положительные ответы о продлении домена. Но несмотря на отсутствие уведомлений об ошибках, домен в OpenSRS продлен не был и по данному факту мы проводим внутреннее расследование для выяснения причин. Официальный ответ по ситуации от OpenSRS на данный момент не получен. Так же хотелось бы уточнить что мы являемся только реселлером данной зоны.
Приносим извинения за несвоевременно предоставленный ответ о ходе решения Вашей проблемы, поскольку ожидался официальный комментарий OpenSRS…
комментарии (105)