Платформа для ML разработки

Язык буткемпа: Go

ML Platform – интегрированный набор инструментов для повышения эффективности работы ML инженеров
Яндекса. В платформу входят:

  • Dev Cluster – инструмент для написания кода обучений и отладки его на GPU разных типов.

  • YT Trainer – инструмент для бесшовного запуска на YT с возможностью мониторинга происходящего со всеми нодами.

  • Experiment manager – инструмент для управления и сравнения экспериментов так же удобно как в Weights & Biases.

  • Model Registry + Inference – система для управления жизненным циклом моделей от экспериментов до inference в проде.

Сейчас мы работаем над Experiment manager-ом и собираем команду для разработки DevCluster-а, остальными компонентами займёмся позже.

Основные цели проекта

  • сократить time-to-market в ML-разработке
  • повысить эффективность использования железа (особенно GPU) разработчиками

Стек

Dev Cluster Go, gRPC, PostgreSQL, Porto
Experiment manager Python, PostgreSQL, Valkey, FastAPI

Команда

У нас команда из 10 человек (в основном - Москва и Санкт-Петербург): бэкенд, фронтенд разработчики, дизайнер, ML-лид.
Хотя мы разрабатываем инструменты для ML-разработки, собственно ML-ем мы не занимаемся, знания в этой области полезны,
но не обязательны.

Компоненты DevClusterа, над которыми предстоит работать:

  • агент, выполняющийся на хосте и управляющий пользовательскими контейнерами
  • менеджер, отвечающий за аллокацию ресурсов и управление парком агентов
  • сетевая маршрутизация, DNS
  • управление базовыми образами для контейнеров
  • квотирование потребления ресурсов

Особенности

Мы разрабатываем новый проект. У нас нет легаси, но нет и простых/понятных задач.
Нужно пробовать разные подходы, искать оптимальное решение.

Предыдущая
Следующая