Java/Scala разработчик, Москва
Спайдер является основным источником данных для поисковой системы. Он постоянно обходит весь Интернет, скачивая веб-страницы и обнаруживая новые публикации. Чтобы хорошо выполнять эту работу, спайдер должен соответствовать широкому набору требований. Он должен обеспечивать большую пропускную способность, соответствующую масштабам Интернета. Не менее важна скорость доставки документов в индекс. При этом следует соблюдать правила обхода сайтов, не перегружая их. Команда спайдера разрабатывает и развивает систему выкачки Поиска, решая задачи хранения и обработки больших объёмов данных. Мы используем технологии Big Data, такие как Apache Spark, Hadoop, Hbase и Kafka, для построения масштабируемых воркфлоу. В нашем ведении самый большой в России кластер Hadoop. Мы также постоянно совершенствуем наши решения, находя новые архитектурные подходы - перед командой всегда стоит множество сложных и интересных задач.
От вас мы ожидаем свободное владение средствами разработки на языках Java и Scala, умение проектировать и оценивать архитектурные решения, чётко формулировать решаемые проблемы. Важно уметь как предложить новое решение, так и действовать в рамках принятых ранее.
Задачи
Разработка систем выкачки данных для Поиска из Интернета. Поддержка текущей инфраструктуры выкачки. Участие в on-call поддержке сервиса.
Требования
- Обязателен опыт работы с Java 8 SE, Scala, Hadoop;
- Алгоритмы;
- Java concurrency / multithreading;
- Gradle;
- Опыт работы с технологиями: Apache Spark, Apache Hadoop.
Будет плюсом
- HBase;
- Kafka.
Формат работы
Уровень
График работы
Поиск
Поиск Mail.ru – это третья поисковая система на интернет-рынке России. Поиск понимает смысл поисковых запросов при помощи нейросетей, мы используем обширный граф знаний и компьютерное зрение, развиваем рекомендательную систему, детектируем спам и другой вредоносный контент.