СоХабр закрыт.

С 13.05.2019 изменения постов больше не отслеживаются, и новые посты не сохраняются.

H Переселение ЦОДа в черновиках

Миграция с одного сервера на другой всегда была довольно не простым процессом, который непременно отягощается объемом контента и сложностью интернет проектов, что размещены на нем. А что если стоит задача перенести не сервер и даже не серверный шкаф, а целый дата-центр и чтоб без явного ущерба для его клиентов? Вот так задача. Именно ее и предстояло решить инженерам одной из крупных хостинг компаний.

Как огласили недавно представители компании Интернап (Internap) они завершили перенос своей площадки из ЦОДа, что размещался на острове Манхеттен, в пригород Нью-Йорка – Нью-Джерси. Здание дата-центра, расположено на 8-ой Авеню, четыре года назад было целиком выкуплено корпорацией Google. Перенос сетевой инфраструктуры для арендаторов стал вынужденным шагом, связанным с нежеланием руководства Google продолжать предоставление аренды своих площадей компаниям партнерам. Логика таких действий руководства Google весьма очевидна, ведь размещенное в самом сердце мирового капитализма сооружение, без преуменьшения обладает целым набором уникальных опций, и является одним из самых привлекательных мест для функционирования здесь ЦОДа. Ключевой ценностью является конечно же локация, а также то огромное количество операторских сетей к которым подключено здание. Множество серьезных клиентов, разветвленная сетевая инфраструктура – это те не простые условия, в которых и пришлось осуществлять миграцию своей площадки инженерам Интернап.



Во время процесса переноса более тысячи серверов из Нью-Йорка в Нью-Джерси, где разместился новый ЦОД компании – Секаукус (Secauscus), команда инженеров на протяжении нескольких дней работала в режиме нон-стоп. Для того чтоб клиенты, размещенные на старой площадке, как можно менее болезненно перенесли переезд, временем для миграции был выбран уикенд предваряющий общенациональный праздник США – День Памяти.

Оставшиеся арендаторы размещенные в Манхэттенском дата-центре имели большие термины аренды площадей нежели Интернап, некоторые из текущих контрактов исчисляются десятилетиями, и для них не так остро стоял вопрос смены своей площадки, но опыт Интернап видимо в недалеком будущем станет для них весьма интересным.

Как сказал Майк Хиггинс (Mike Higgins) – вице-президент компании Интернап: «Наш нововозведенный ЦОД в Нью-Джерси – Секаукус – это взгляд в будущее, спроектирован и построен он из расчета на существенный прирост нашей клиентской базы».

«Уже сейчас могу сказать, что мы успешно преодолели этот весьма не тривиальный вызов. А вот когда, в начале 2013 года, нас только поставили перед фактом освободить в указанные сроки арендуемые площади, за это сомнительное предприятие среди нас даже браться никто не хотел», – отметил Майк. На протяжении более чем 10 лет сотрудники Интернап расстраивали свою инфраструктуру с учетом их ключевой площадки на острове Манхэттен, нужда покидать насиженное место стала для инженеров компании настоящим шоком. Как продолжил Майк: «На момент вынужденного переезда у нас было много клиентов, с которыми мы сотрудничали годами, были и такие, что оставались с нами от самого начала нашей деятельности. Соответственно мы были просто обязаны произвести миграцию максимально безопасно и быстро, что в свою очередь требовало не только объединения усилий нашей команды, так и четкого взаимодействия с клиентами. В самом начале процесса многие не брались гарантировать успешный исход нашей операции».



Чисто физически транспортировать огромное количество серверов – это еще пол беды. Сотрудникам Интернап необходимо было буквально вырвать свою площадку из одной из наиразвитийшей ИТ-инфраструктуры мира – Манхэттенского ЦОДа, и перенести ее без существенных потерь «Uptime» у клиентов. Это была настоящая головоломка. Находясь между молотом и наковальней, инженеры компании приняли единственно возможное решение – была задействована временная инфраструктура, которая и поддерживала «живыми» все клиентские соединения.

«Были такие клиенты с которыми мы сумели договориться о предоставлении нам перерыва в обслуживании их «железа», но также оставалось множество наших давних партнеров, которые просто не могли себе позволить остановку своих сервисов даже на самый не значительный срок. Для второго рода клиентов мы подготовили временную инфраструктуру на базе нашего облачного сервиса, что и позволило нам поддерживать доступность некоторых клиентских проектов на протяжении всей миграции», – продолжил Майк.

Для кого то из клиентов копании, инициированный переезд стал хорошим предлогом для инвентаризации своих арендуемых услуг. «Были прецеденты того, что клиенты исправно оплачивали оборудование, которое по факту они уже и не использовали», – отметил с досадой Майк. «Также хватало пользователей, которые отказались от продолжения сотрудничества с нами на новой площадке в Секокус, из тех соображений, что для них было более важным оставаться именно в Манхэттенском ИТ-узле. Тем не менее, потери нашей клиентской базы были не существенными и они особо не сказались на нашем доходе».

Миграция тысячи серверов от Аутбрейн (Outbrain)


Контентный провайдер Аутбрейн – огромная рекламная платформа, которая помогает раскручивать разного рода интернет проекты, работает, распределив свою ИТ-структуру среди трех дата-центров, одним из которых теперь должен был стать новый ЦОД Секокус. Беда для инженеров Интернап состояла в громадных размерах этого интернет проекта, достаточно будет сказать, что размещенный у них сегмент Аутбрейна обслуживал более 72000 запросов к контенту ежесекундно.



«Мы имели четкий план, что нам делать с Аутбрейном и подобными ему клиентами», – говорит Хиггинс. «Наш план по миграции включал в себя все необходимые ресурсы для перевода всей нашей клиентской базы. Все наши сотрудники были наготове, отдел центра поддержки обеспечивал максимальное взаимодействие с клиентами. Весь процесс по миграции должен был непременно уложится в отведенные для этого выходные, мы к этому были готовы на все сто!».

«В подобных условиях, принципиально, существует два способа миграции», – сказал Орит Ярон (Orit Yaron) – начальник операционного отдела компании Аутбрейн. «Первый путь – это создать новую, полностью готовую к функционированию площадку, и осуществить миграцию через сеть. Мы же пошли по второму пути, по пути «большего взрыва». Мы осуществили молниеносный прыжок, это конечно же несло в себе больше риска, нежели постепенный переезд, но с другой стороны это было менее обременительным для нас, кардинально уменьшая стрессовый период работы в условиях вяло текущей миграции».

Переезд требовал определенного времени и наиболее подходящим для него моментом были выбраны долгие выходные с учетом национального праздника Дня Памяти, рабочая активность по стране в эти дни, обычно, падает до минимума. «На момент начала миграции в Секокусе у нас там не было никакой инфраструктуры, все начиналось с нуля, – продолжил Орит, – График работ был очень агрессивным, при этом он был серьезно завязан на плане проведения работ сотрудниками Интернап».



Для транспортировки самого «железа» было принято решения использовать под каждый конкретный ИТ-узел персональный грузовик. «Такое решение диктовалось исключительно логикой перестраховки», – сказал Орит. «Мы хотели закрепить за каждым ИТ-узлом отдельный грузовик, на случай, если одно из транспортных средств не доедет к пункту назначения, мы могли не теряя времени заниматься другими узлами».

Поскольку используемые серверы являлись собой типовыми решениями, для того, чтоб не перепутать их между собой, все они были промаркированы специальным образом аж трижды.

Аутбрейн в своей работе использует методологию беспрерывной интеграции, то есть работа элементов системы ресурса Аутбрейн должна была, как минимум выглядеть, как бесперебойно функционирующая, даже в тот момент когда она не являлась таковой. Для этого была созданна специальная система на базе облачного сервиса Интернап. Система предварительно, неоднократно подвергалась проверкам и тестам, имитирующим полное отключение всей Манхэттенской площадки. Скрипты на временной системе были установлены так, что бы после завершения переезда оборудования не возникло лавинообразного флуда с сообщениями об ошибках доступности.

Выходные, ознаменовавшие великий переезд выдались дождливыми, но даже это не повлияло негативно на ход выполнения графика работ. Вместо отведенных двух суток, вся миграция уложилась всего в 36 часов.

Наиболее комплексная миграция


В данный момент ЦОД Интернап целиком покинул остров Манхэттен и компания уже смело планирует свое будущее в новом сооружении Секакус.

«То в чем мы имели честь принимать участие, было одним из наиболее сложных мероприятий, самой крупной миграцией на моей памяти и я был одной из шестеренок этого процесса», – заявил с гордостью Майк Хиггинс. «Как только вспомню то количество клиентов, которое нам удалось переместить с уникальной Манхэттенской площадки, аж в дрожь бросает», – с улыбкой отдался воспоминаниям, далеко не последний человек в этой всей истории, Майк.

комментарии (8)

+4
+6 –2
vtyulb ,   * (был изменён)
Я так и не понял как они мигрировали. Взяли серверы, промаркировали три раза и перевезли в другой датацентр? Была ли доступность серверов во время переезда? Что за «система на базе облачного сервиса Интернап»?

Статья в стиле «У нас была очень сложная задача. Были невероятные требования. Для ее решения мы использовали новейшие технологии. И вот теперь все работает.»
–1
+1 –2
HostingManager ,  
Правильно заданный вопрос — большая часть ответа, Вы же спрашиваете: " Была ли доступность серверов во время переезда?"
Очевидно, что сервер выключен и недоступен во время переезда. Или как Вы себе это представляете? За грузовиком с серверами едут генераторы и каналы? :)

Если бы Вы внимательно читали статью, то прочитали бы, что миграция производилась узлами, отключался узел, в этот момент поднимался инстанс в облачной среде на время миграции узла.
0
gonzazoid ,   * (был изменён)
читаем внимательно:
была задействована временная инфраструктура, которая и поддерживала «живыми» все клиентские соединения.

в контексте ясно, что это на время переезда, потому как следующим идет абзац:
Были такие клиенты с которыми мы сумели договориться о предоставлении нам перерыва в обслуживании их «железа», но также оставалось множество наших давних партнеров, которые просто не могли себе позволить остановку своих сервисов даже на самый не значительный срок

то есть с кем то все таки договорились и тупо рубанули серваки на время переезда. Подозреваю что таких было ничтожно мало, потому как тупо перевезти сервера нужна скорее команда аккуратных грузчиков а не дипломированных инженеров. А что бы стикеры на железе налепить при демонтаже два высших образования не надо.

Промахнулся, коммент оратору уровнем выше.
–1
HostingManager ,  
" Что за «система на базе облачного сервиса Интернап»? " — это Вы можете узнать, выполнив поиск в Интернете и написав самостоятельно статью об этом сервисе, если сочтете нужным. Данная публикация не об облачном сервисе, к сожалению, и даже не о деталях миграции, они бессмысленны для специалистов, ниже поясню почему. Публикация — повод задуматься, что даже крупную инфраструктуру иногда приходится переносить, причем с весьма живыми клиентами и нужно быть к этому готовым.

Логистика подобных переносов должна быть волшебна, в каждом конкретном случае она индивидуальна и неповторима, описывать всю логистику в статье, когда она значительно различается для миграции разных клиентов — не было бы никакого смысла, это Вам ничем не поможет в реальной жизни, так как сталкиваясь с конкретной проблемой нужно уметь находить конкретное решение и таких вариантов великое множество. Переносы не проходят по мануалу. Не существует единого универсального метода миграции, существуют люди, способные придумать конкретный метод переноса под конкретный проект.

В данном случае речь о миграции множества разных проектов, в том числе Аутбрейна, к которому применили особое решение в виде временной работы недоступной инфраструктуры в облаке.
+2
+3 –1
alexxxst ,  
Дочитал до «термины аренды» и закрыл вкладку.
+3
HostingManager ,  
А как комментарий оставили то с закрытой вкладкой? :)
0
click0 ,  
Добавлю некоторые предположения:
На новом месте — в Секаукусе, пришлось заново установить новое сетевое ядро и новые ряды стоек.
Миграция клиентских серверов происходила блоками ip — сетями размером /27 (все оборудование, использующее эти IP).
+1
achekalin ,   * (был изменён)
А что они за «методологию беспрерывной интеграции» используют, хочется спросить. Такое впервые встречаю, «БЕСпрерывную». НЕпрерывную знаю, а вот «БЕС...»

Я к тому, что перевод ради перевода, как и пост ради поста — хорошо, конечно, пи-ар и все такое, но иногда из-за них хочется иметь инструмент вида «никогда больше не показывать посты из этого блога мне в ленте „Популярное за сутки“»… Чтобы бездумными текстами ленту не забивать, примерно так.