Data Mining Specialist / Data Scientist, Москва
Недавно у нас сформировался новый департамент по экосистемным продуктам Mail.ru Group, который будет заниматься координацией общих или экосистемных проектов группы (Ситимобил, VK Connect, Маруся, VK MiniApps, Combo, VK Pay и других).
Data office — подразделение в департаменте экосистемных продуктов. Мы строим внутренние сервисы и продукты для использования данных в аналитике, развитии продуктов и машинном обучении. Наша главная цель — сделать данные полезными для каждого сервиса в группе и всей экосистемы в целом.
Данное подразделение постепенно растет, и мы ищем специалиста на роль Data Mining Specialist / Data Scientist.
Вам предстоит работать с по-настоящему большими данными, искать полезные свойства в данных различных сервисов и продуктов и распространять их внутри нашей экосистемы. Эта позиция предлагает большую ценность для всей компании — мы верим, что с помощью правильного подхода к данным мы можем значительно улучшить метрики каждого отдельного сервиса и всей экосистемы в целом. Ваша роль будет ключевой в этом процессе. Предполагается кросс-взаимодействие со многими командами машинного обучения во всей группе компаний.
Стек технологий: Hadoop, Hive, Spark, Python.
Задачи
- погружение в имеющиеся данные сервисов;
- исследование данных, составление имеющихся полезных признаков объектов в разных сервисах/продуктах;
- генерация признаков для моделей на основе сырых данных, например формирование категориальных признаков или эмбеддингов объектов;
- проверка полезности существующих и новых признаков для улучшения качества моделей;
- построение моделей машинного обучения;
- общение с командами машинного обучения во всей группе и распространение лучших практик решения задач.
Требования
- Опыт разработки/анализа данных с использованием Python
- Уверенное владение SQL
- Знание ML (алгоритмы, метрики)
- Знакомство с основными библиотеками Python для ML
- Знакомство с технологиями обработки больших объемов данных MapReduce, hadoop, spark
- Linux, уверенная работа в командной строке
Будет плюсом
- Опыт участия в соревнованиях на kaggle и других платформах
- Опыт обработки больших объемов данных
- Знакомство с фреймворками luigi, airflow
- Знание Java, Scala
Мы предлагаем
Департамент по экосистемным продуктам Mail.ru Group
![](https://webcf.waybackmachine.org/web/20210306013223im_/https://corp.imgsmail.ru/media/images/mail.rugroupsudhahw_WO3h4gw.png)
Цель нашего департамента — объединить продукты Mail.ru Group, делать их синергию эффективнее, полезнее и удобнее для людей каждый день. Данные являются важнейшей частью создания и управления продуктами, принятия решений и основой для работы алгоритмов, без которых мы сегодня не можем представить ни одного нашего сервиса.