Платформа для ML разработки
Язык буткемпа: Go
ML Platform – интегрированный набор инструментов для повышения эффективности работы ML инженеров
Яндекса. В платформу входят:
-
Dev Cluster – инструмент для написания кода обучений и отладки его на GPU разных типов.
-
YT Trainer – инструмент для бесшовного запуска на YT с возможностью мониторинга происходящего со всеми нодами.
-
Experiment manager – инструмент для управления и сравнения экспериментов так же удобно как в Weights & Biases.
-
Model Registry + Inference – система для управления жизненным циклом моделей от экспериментов до inference в проде.
Сейчас мы работаем над Experiment manager-ом и собираем команду для разработки DevCluster-а, остальными компонентами займёмся позже.
Основные цели проекта
- сократить time-to-market в ML-разработке
- повысить эффективность использования железа (особенно GPU) разработчиками
Стек
Dev Cluster | Go, gRPC, PostgreSQL, Porto |
---|---|
Experiment manager | Python, PostgreSQL, Valkey, FastAPI |
Команда
У нас команда из 10 человек (в основном - Москва и Санкт-Петербург): бэкенд, фронтенд разработчики, дизайнер, ML-лид.
Хотя мы разрабатываем инструменты для ML-разработки, собственно ML-ем мы не занимаемся, знания в этой области полезны,
но не обязательны.
Компоненты DevClusterа, над которыми предстоит работать:
- агент, выполняющийся на хосте и управляющий пользовательскими контейнерами
- менеджер, отвечающий за аллокацию ресурсов и управление парком агентов
- сетевая маршрутизация, DNS
- управление базовыми образами для контейнеров
- квотирование потребления ресурсов
Особенности
Мы разрабатываем новый проект. У нас нет легаси, но нет и простых/понятных задач.
Нужно пробовать разные подходы, искать оптимальное решение.