Только с декабря прошлого года Timeweb Cloud прирос на 30 тысяч клиентов — теперь их 150 тысяч. Каждую минуту в панели управления устанавливается больше двух серверов. Ниже проблемы, с которыми мы столкнулись в последнее время, и наши решения.
Трафик на отдельных магистралях уперся в проектные лимиты досрочно. Универсальные маршрутизаторы, которые работали годами, в какой-то момент превратились в узкое место.
Мы не стали точечно наращивать емкость, вместо этого пересобираем сетевую архитектуру.
Во-первых, расширили магистральные сети. Поэтапно переходим с универсальных на высокопроизводительные пакетные платформы — линейку Juniper PTX10000, которая поддерживает интерфейсы 400G. Первым стал Петербург, дальше будет Москва и другие города.
Во-вторых, параллельно разворачиваем DWDM — технологию, которая уплотняет множество каналов в одном оптоволокне. На ее основе будем строить OTN-сети с отказоустойчивыми магистралями. Такой проект уже реализован в столице: мы запустили DWDM и расширили канал на ключевом узле до нескольких терабит. На очереди другие крупные города.
В-третьих, в планах запуск городских MAN-сетей там, где у нас несколько локаций. Первый такой проект будет в Москве: объединим площадки в единое отказоустойчивое кольцо общей емкостью в несколько десятков терабит в секунду. Каждую нашу локацию подключим минимум к двум независимым узлам связи — получится до 4 Тбит/с на площадку. Будет больше связности и отказоустойчивости сети, сократятся маршруты до клиентских систем.
Что почувствуют клиенты — у них будет надежная инфраструктура под крупные проекты и интенсивные нагрузки. AI-платформы, распределенные базы данных и массовые бэкапы будут стабильно работать даже в пиковые периоды.
Когда установок стало больше трех тысяч в день, старый подход перестал работать. Каждый сервер должен быть готов из коробки: с актуальными обновлениями и корректно настроенной сетью. Для этого мы пересмотрели внутренний конвейер сборки и перешли на готовые облачные образы вендоров.
Мы перестроили сам процесс подготовки образов операционных систем. Вместо одного сложного сценария — два простых конвейера, которые автоматически собирают и обновляют образы каждую неделю.
Первый конвейер унифицирует диски: делает их совместимыми с нашими стандартами, чтобы любая ОС вела себя стабильно и предсказуемо. Затем второй конвейер применяет настройки и вносит изменения, специфичные для каждого семейства систем. Команда лишь добавляет новые образы по запросам клиентов.
В результате подготовка и обновление нового образа занимает до 15 минут, а запуск сервера у клиента — десятки секунд.
Серверы работают сразу после выбора подходящей конфигурации в панели управления. Под капотом 58 готовых решений на весь стек: от Linux для облачных серверов до сборок под Kubernetes и другие managed-сервисы.
Быстрый рост нагрузки — это не просто цифры в отчетах, а стресс-тест для всей инфраструктуры. Есть два пути: тушить пожары по мере возникновения или строить архитектуру с запасом прочности. Мы выбрали второе.
Максим Яковлев, CTO Timeweb Cloud