YPE DWH
Язык буткемпа: Python
Наша команда занимается продуктовой аналитикой инфраструктурных сервисов Яндекса. Для того, чтобы ускорить аналитику, мы разрабатываем хранилище данных (DWH).
Чем больше качественных данных будет в DWH, тем проще менеджеры и аналитики смогут построить необходимые дашборды.
Стек
- Python
- YTSaurus
- YQL (внутренний диалект SQL)
- Logos (внутренний аналог AirFlow)
Команда
Наша команда состоит из 6 аналитиков-разработчиков и одного системного аналитика. Географически мы находимся в 4 городах: Санкт-Петербург, Москва, Ереван и Белград.
Особенности
У нас пока что небольшое хранилище (несколько десятков витрин), но мы уже храним и обрабатываем сотни террабайт данных.
Актуальные задачи:
- Подключение новых источников. Сервисы готовы поставлять нам свои данные для аналитики, мы активно расширяемся.
- Оптимизация существующих витрин. Мы не привыкли закрывать неоптимальный код количеством железа, поэтому всячески экономим используемые ресурсы.
- Проектирование витрин. Мы проектируем по звезде.
- Описание данных в каталоге данных. Чем проще будет найти данные, тем лучше.
Была ли статья полезна?
Предыдущая