YPE DWH

Язык буткемпа: Python

Наша команда занимается продуктовой аналитикой инфраструктурных сервисов Яндекса. Для того, чтобы ускорить аналитику, мы разрабатываем хранилище данных (DWH).

Чем больше качественных данных будет в DWH, тем проще менеджеры и аналитики смогут построить необходимые дашборды.

Стек

  • Python
  • YTSaurus
  • YQL (внутренний диалект SQL)
  • Logos (внутренний аналог AirFlow)

Команда

Наша команда состоит из 6 аналитиков-разработчиков и одного системного аналитика. Географически мы находимся в 4 городах: Санкт-Петербург, Москва, Ереван и Белград.

Особенности

У нас пока что небольшое хранилище (несколько десятков витрин), но мы уже храним и обрабатываем сотни террабайт данных.

Актуальные задачи:

  • Подключение новых источников. Сервисы готовы поставлять нам свои данные для аналитики, мы активно расширяемся.
  • Оптимизация существующих витрин. Мы не привыкли закрывать неоптимальный код количеством железа, поэтому всячески экономим используемые ресурсы.
  • Проектирование витрин. Мы проектируем по звезде.
  • Описание данных в каталоге данных. Чем проще будет найти данные, тем лучше.
Предыдущая