Yandex Global Network

Привет! Рады тебя видеть на странице Yandex Global Network — мы проектируем, строим и эксплуатируем сетевую инфраструктуру Яндекса и Yandex Cloud.

Сервисами Яндекса ежедневно пользуются миллионы людей. Мы строим и развиваем одну из самых больших в России сетей дата-центров.

Немного о нас 🤗

В Яндексе построением сетевой инфраструктуры занимается команда Yandex Global Network — нас больше 40 человек. Перед нами стоит непростая задача: повышать стабильность и производительность, обеспечивать масштабируемость и простоту эксплуатации сети в условиях постоянного роста числа серверов и запуска новых дата-центров и облачных регионов. При этом мы не существуем сами по себе, а плотно интегрируемся с другими облачными и инфраструктурными сервисами.

Команда состоит из двух частей: одна отвечает за внутреннюю инфраструктуру Яндекса, другая — за внешнюю публичную платформу Yandex Cloud.

Мы управляем всеми сегментами сети:

  • дата-центровыми сетями;
  • кластерами суперкомпьютеров;
  • магистралью между датацентрами;
  • сегментом внешней связности;
  • слоем сервисных устройств — балансировщиками нагрузки, фаерволами и т. д.

https://www.youtube.com/watch?v=mPvLf-TqS74

Что интересного? 🧑‍💻

  • Пять дата-центров в России и не только.
  • Более 150 тысяч серверов.
  • Тысячи сетевых устройств.
  • > 1PTbps bisectional bandwidth внутри датацентровых фабрик.
  • Серверные стойки и сервера собственного дизайна.
  • Три суперкомпьютера на GPU в топ-500, мощностью 21.5, 16, 12.8 PFlop/s.
  • Абсолютно все вендоры и виды сетевого оборудования.
  • Перспективные подходы к проектированию сетей.

3rd Gen: Clos (planar)

Clos.png

Next Gen: Dragonfly

DF.png

Optical_rack.png

Server_rack.png

Автоматизация и мониторинг 🤖

Каждый год наша сеть прирастает на несколько десятков тысяч серверов, а следовательно, и на тысячу коммутаторов. Здесь нет места ручной работе: весь процесс ввода в эксплуатацию — от установки серверной стойки до передачи сервисам — занимает два часа.
Мы умеем запускать новые дата-центры Яндекса.
Мы умеем разворачивать с нуля новые регионы Yandex Cloud.
Каждую минуту распределённая система мониторинга собирает с флота сетевого оборудования несколько сотен тысяч метрик, по которым мы определяем отклонения от нормы и создаём уведомления в случае проблем, чтобы не пропустить ничего важного.

Стек

• Python — основная кодовая база
• Go — там, где нам нужен один бинарный файл без длинного хвоста зависимостей
• RestAPI и gRPC для межсервисного взаимодействия

Подходы

• Всё код, и сеть — тоже код
• Используем облачную инфраструктуру
• Деплой в контейнерах под управлением Kubernetes
• Вся инфраструктура описана и эксплуатируется через Terraform
 
В нашем сегменте мы пионеры полной автоматизации жизненного цикла сети и разработки сервисной обвязки для коммутаторов с open-source операционной системой на базе Linux.

Рассказываем о себе 🥸

Сеть, которая лечит себя сама: магия Flow Label и детектив вокруг ядра Linux. Доклад Яндекса

О сетевой аварии в Яндексе

Как превратить две серверные стойки в сеть для десятков тысяч машин и не остаться в неоплатном техническом долгу

https://linkmeup.ru/podcasts/1169/

https://linkmeup.ru/podcasts/2353/

https://www.youtube.com/watch?v=D9ovLORzZrE

Marat.png

Yandex nexthop 🤩

Отдельного упоминания требует серия международных конференций о сетевых технологиях с множеством интереснейших докладов. В том числе и о том, как устроена наша сеть. Мы стремимся быть открытыми и рассказываем о том, как выглядит наша сеть из первых уст.

https://www.youtube.com/watch?v=dCQ1MRljAzc

https://www.youtube.com/live/Loo25Y_T3nE?feature=share

https://www.youtube.com/watch?v=eFlKVLbP5Tg

https://www.youtube.com/watch?v=U86Xjx1rcHY

https://www.youtube.com/watch?v=oC82g8c7QLE

Приходите в наш телеграм-канал поговорить про сети и заодно узнать о новых ивентах.

Как попасть к нам? 👀

Свежие вакансии 💬

Полезные ссылки для подготовки 📕

Предыдущая
Следующая