Группа сетевой системной разработки
Язык буткемпа: C++, Go, Python
В дата-центрах Яндекса — multi-path ipv6-only сеть, передающая в прыжке сотни терабит в секунду через тысячи сетевых устройств. Сеть спроектирована для развёртывания в ней мультитеннантных систем. Мы готовим хостовую часть сети в самой крупной мультитеннантной системе Яндекса: внутреннем контейнерном облаке.
Каждый из миллиона запущенных контейнеров должен получать ясный уровень обслуживания по связности и RTT. Для этого мы разрабатываем ebpf-программы, управляем сетевой подсистемой Linux и развиваем систему мониторинга (ближайший аналог — Zabbix).
Стек
C++ | Обязателен |
---|---|
Go | Желателен, но можно освоить на месте |
Python 3 | Используем мало, можно освоить на месте |
Ожидаем, что кандидат хорошо понимает архитектуру ядра Linux, подходы к решению задач в user mode, знаком с основными аспектами работы TCP/IP (routing, congestion control).
Команда
Распределенная (Москва, Ереван, Екатеринбург) команда из шести системных разработчиков, которые умеют в продуктовую разработку и эксплуатацию.
Особенности
- Уникальные масштабы: мы настраиваем и мониторим сеть, объединяющую свыше ста тысяч хостов.
- Уникальный опыт: мало где представится возможность управлять таким объёмом трафика.
- У нас можно попробовать всё, о чём пишут в учебниках: от создания ebpf-программ до патчинга ядра.
- Спектр задач для любого уровня подготовки, возможность роста, а также возможность принимать решения, влияющие на работу всех сервисов и инженеров Яндекса.
Что нужно принять во внимание
- Мы ценим умение самостоятельно решать задачи сложнее твоего уровня, но не оставляем с ними один на один.
- Как и у многих других инфраструктурных команд, у нас есть дежурства. Инженеры дежурят примерно неделю в месяц. В дневное время дежурство предполагает разбор накопившихся жалоб, в ночное — починку факапов. Однако факапы у нас случаются редко, чаще это медленная деградация, которую надо вовремя разглядеть.
- Поведение сетевого стека трудно проверить до выкатывания в продакшн. Мы ещё не нашли того таланта, который сможет настолько улучшить наш CI, чтобы не оказывать негативного влияния на прод. Пока это так, в продакшн катят те же инженеры, что и делают продуктовую разработку.
Вызовы
- Мониторинг качества high bandwidth-сети суперкомпьютеров Яндекса.
- Спиливание хвоста из медленных запросов, выбивающихся по времени ответа за 99,9%, по всему Яндексу.
Дополнительные материалы
Сеть как черный ящик или мониторинг связности кластеров Яндекса, Максим Самойлов, Yandex