Группа сетевой системной разработки

Язык буткемпа: C++, Go, Python

В дата-центрах Яндекса — multi-path ipv6-only сеть, передающая в прыжке сотни терабит в секунду через тысячи сетевых устройств. Сеть спроектирована для развёртывания в ней мультитеннантных систем. Мы готовим хостовую часть сети в самой крупной мультитеннантной системе Яндекса: внутреннем контейнерном облаке.
Каждый из миллиона запущенных контейнеров должен получать ясный уровень обслуживания по связности и RTT. Для этого мы разрабатываем ebpf-программы, управляем сетевой подсистемой Linux и развиваем систему мониторинга (ближайший аналог — Zabbix).

Стек

C++ Обязателен
Go Желателен, но можно освоить на месте
Python 3 Используем мало, можно освоить на месте

Ожидаем, что кандидат хорошо понимает архитектуру ядра Linux, подходы к решению задач в user mode, знаком с основными аспектами работы TCP/IP (routing, congestion control).

Команда

Распределенная (Москва, Ереван, Екатеринбург) команда из шести системных разработчиков, которые умеют в продуктовую разработку и эксплуатацию.

Особенности

  • Уникальные масштабы: мы настраиваем и мониторим сеть, объединяющую свыше ста тысяч хостов.
  • Уникальный опыт: мало где представится возможность управлять таким объёмом трафика.
  • У нас можно попробовать всё, о чём пишут в учебниках: от создания ebpf-программ до патчинга ядра.
  • Спектр задач для любого уровня подготовки, возможность роста, а также возможность принимать решения, влияющие на работу всех сервисов и инженеров Яндекса.

Что нужно принять во внимание

  • Мы ценим умение самостоятельно решать задачи сложнее твоего уровня, но не оставляем с ними один на один.
  • Как и у многих других инфраструктурных команд, у нас есть дежурства. Инженеры дежурят примерно неделю в месяц. В дневное время дежурство предполагает разбор накопившихся жалоб, в ночное — починку факапов. Однако факапы у нас случаются редко, чаще это медленная деградация, которую надо вовремя разглядеть.
  • Поведение сетевого стека трудно проверить до выкатывания в продакшн. Мы ещё не нашли того таланта, который сможет настолько улучшить наш CI, чтобы не оказывать негативного влияния на прод. Пока это так, в продакшн катят те же инженеры, что и делают продуктовую разработку.

Вызовы

  • Мониторинг качества high bandwidth-сети суперкомпьютеров Яндекса.
  • Спиливание хвоста из медленных запросов, выбивающихся по времени ответа за 99,9%, по всему Яндексу.

Дополнительные материалы

Сеть как черный ящик или мониторинг связности кластеров Яндекса, Максим Самойлов, Yandex

Предыдущая
Следующая