Как стать автором
Обновить
52.9
Рейтинг

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Записи докладов ок.tech: Data Толк #3

Блог компании Одноклассники Data Mining *Big Data *Машинное обучение *Искусственный интеллект


6 ноября в московском офисе компании Одноклассники прошел ок.tech Data Толк #3, в этот раз мероприятие было посвящено рекомендательным системам. Вместе с коллегами из OK.ru, Joom и СколТеха мы поговорили про прошедший RecSys19, а также о теории, практике и трендах рекомендательных систем.

Заходите под кат, если вам интересны рекомендательные системы.
Внутри поста: видеозаписи докладов и дискуссии, а также презентации спикеров.
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 2K
Комментарии 0

Новости

Нейросеть для определения хейтеров — «не, ну это бан»

Python *Data Mining *Big Data *Визуализация данных Машинное обучение *
Привет!

Часто ли вы видите токсичные комментарии в соцсетях? Наверное, это зависит от контента, за которым наблюдаешь. Предлагаю немного поэкспериментировать на эту тему и научить нейросеть определять хейтерские комментарии.

Итак, наша глобальная цель — определить является ли комментарий агрессивным, то есть имеем дело с бинарной классификацией. Мы напишем простую нейросеть, обучим ее на датасете комментариев из разных соцсетей, а потом сделаем простой анализ с визуализацией.

Для работы я буду использовать Google Colab. Этот сервис позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, что ускорит обучение. Мне понадобится backend TensorFlow, дефолтная версия в Colab 1.15.0, поэтому просто обновим до 2.0.0.

Импортируем модуль и обновляем.
Читать дальше →
Всего голосов 29: ↑23 и ↓6 +17
Просмотры 10K
Комментарии 19

Интервью с Артуром Хачуяном: как вычислить миллиардера в социальных сетях?

Блог компании ua-hosting.company Big Data *Статистика в IT Социальные сети и сообщества Будущее здесь
Основатель Tazeros Global Systems Артур Хачуян рассказал о сборе данных в социальных сетях и как правильно составлять анкету в профиле, чтобы познакомиться в них с миллиардерами? Студия, где записывалось интервью, находится на высоте 332 метра. Вообще, в «Башне Федерация» находятся самые высокие апартаменты в Европе. Высота башни – 374 метра, 97 этажей.



Disclaimer. Эта статья — расшифровка интервью Артура Хачуяна на канале Forbes. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Мы решили для всех них и вас расшифровать отличный контент. Кто всё же предпочитает видео — ссылка в конце.

Интервьюер (далее – И): – Для того, чтобы разобраться в цифрах сайтов знакомств России, мы пригласили к нам одного из главных экспертов в России по «биг дате», основателя «Тазерос Глобал Системс» Артура Хачуяна.
Всего голосов 37: ↑27 и ↓10 +17
Просмотры 17K
Комментарии 9

Передача знания и Нейронный машинный перевод на практике

Алгоритмы *Big Data *Машинное обучение *
Из песочницы
Нейронный машинный перевод (НМП, англ. Neural Machine Translation, NMT) развивается очень быстро. Сегодня, чтобы собрать свой переводчик, не нужно иметь два высших образования. Но чтобы обучить модель, нужен большой параллельный корпус (корпус, в котором предложению на исходном языке сопоставлен его перевод). На практике речь идет хотя бы об одном миллионе пар предложений. Есть даже отдельная большая область НМП, исследующая методы обучения языковых пар с малым количеством данных в электронном виде (англ. Low Resource NMT).

Мы собираем чувашско-русский корпус и параллельно смотрим, что можно сделать с имеющимся объемом данных. В этом примере использовали корпус из 90 000 пар предложений. Самый хороший результат на данный момент дал метод передачи знания (англ. Transfer Learning), о нем и пойдет речь в статье. Цель статьи — дать практический пример реализации, который легко можно было бы воспроизвести.
Читать дальше →
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 3.4K
Комментарии 3

Data Mesh: как работать с данными без монолита

Блог компании Dodo Engineering IT-инфраструктура *Big Data *Хранение данных *Data Engineering *

Привет, Хабр! Мы в Dodo Pizza Engineering очень любим данные (а кто их сейчас не любит?). Сейчас будет история о том, как накопить все данные мира Dodo Pizza и дать любому сотруднику компании удобный доступ к этому массиву данных. Задача под звёздочкой: сохранить нервы команды Data Engineering.


Читать дальше →
Всего голосов 21: ↑18 и ↓3 +15
Просмотры 12K
Комментарии 23

«Быть Insight-Driven»: продвинутая аналитика и управление жизненным циклом моделей машинного обучения

Блог компании SAP Big Data *Машинное обучение *Бизнес-модели
Recovery mode
Сегодня мы хотим поговорить о концепции Insight-Driven и о том, как ее реализовать на практике c помощью DataOps и ModelOps. Insight-Driven подход — это комплексная тема, про которую мы подробно рассказываем в нашей недавно созданной библиотеке полезных материалов про управление данными (ссылка будет ниже). В сегодняшнем хабратопике мы сконцентрируемся на ключевых этапах жизненного цикла моделей машинного обучения, т.к. это одна из основных тем в рамках концепции.


Читать дальше →
Всего голосов 17: ↑17 и ↓0 +17
Просмотры 5K
Комментарии 0

Что нужно знать об олимпиаде «Я — профессионал»: рассказываем о направлениях «Большие данные» и «Робототехника»

Блог компании Университет ИТМО Big Data *Хакатоны Разработка робототехники *Учебный процесс в IT
«Я — профессионал» — это конкурс для бакалавров и магистров гуманитарных и технических специальностей. Его организуют крупные российские ИТ-компании и сильнейшие вузы страны, в том числе Университет ИТМО. Сегодня говорим о целях олимпиады и двух направлениях, которые курирует наш вуз — «Большие данные» и «Робототехника» (об остальных — в наших следующих хабратопиках).

Читать дальше →
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 11K
Комментарии 0

Мертв ли Hadoop? Часть 1

Блог компании OTUS Big Data *Hadoop *Data Engineering *
Перевод
Перевод статьи подготовлен специально для студентов курса «Data Engineer».




После того, как и Cloudera, и MapR несколько недель назад объявили о том, что их бизнес переживает трудные времена, я увидел поток постов в социальных сетях с темой «Hadoop мертв». Эти посты не являются чем-то новым, но в секторе, где технические специалисты редко производят качественный материал для социальных сетей, эти возгласы становятся все громче и громче. Я бы хотел рассмотреть некоторые из аргументов, касающихся состояния Hadoop.
Читать дальше →
Всего голосов 22: ↑18 и ↓4 +14
Просмотры 8.1K
Комментарии 4

С чего начинается создание маркетплейса. Часть первая

Ruby *Анализ и проектирование систем *IT-стандарты *Big Data *Бизнес-модели
На сегодняшний день такой вид ИТ бизнеса, как маркетплейс, получает все большее распространение. И этому есть вполне очевидные причины. Одна из них — это очень высокая ликвидность, а также большой потенциал к последующему росту, что при грамотном подходе может принести очень впечатляющую прибыль. Именно об этом грамотном подходе я сегодня и хочу с вами поговорить.
Читать дальше →
Всего голосов 10: ↑8 и ↓2 +6
Просмотры 18K
Комментарии 8

Куда движется рынок BI-аналитики в 2019 году

Big Data *Визуализация данных IT-компании
Занимаясь BI с 2013 года, я прошел достаточно интересный и длинный путь в этом бизнесе. На старте моей карьеры это был динамичный рынок, многие не понимали, что это за инструменты и зачем они нужны, но все были впечатлены визуальной составляющей продуктов. С тех пор появились новые продукты, пришло понимание как правильно и эффективно использовать инструменты BI, на мой взгляд, рынок стал узким и скучным.

Что нужно рынку BI для роста


Сейчас наиболее известные продукты на рынке BI: Qlik, Power BI, Tableau. Когда я читаю очередное ТЗ на создание корпоративной BI-системы, сразу понимаю апологет какого продукта его писал. На рынке ощущается нехватка свежих идей.

В 2018 году Gartner, известная консалтинговая компания, ориентирующаяся на исследования в IT, заявила, что в скором времени BI изменится и станет AI (Augmented Intelligence) — этот инструмент будет решать более широкий спектр задач. Однако чтобы период дополненной аналитики пришел компаниям придется немало потрудиться в таких направлениях как:

  • Интеграция с облачными сервисами, что в целом является мейнстримом в современном мире IT;
  • Внедрение ML и AI (Artificial intelligence) в свои продукты, которые также уже вошли в нашу жизнь и их проникновение продолжится;
  • Дальнейшее развитие подходов к демократизации данных, например: NLP (natural language processing) который позволит пользователям коммуницировать с системной, практически на человеческом языке;
  • Разработка собственных ботов, способных воспринимать как текстовые, так и голосовые запросы.

Давайте попробуем оценить насколько корректны выводы консалтинговой компании рассмотрев события 2019 года.
Читать дальше →
Всего голосов 13: ↑9 и ↓4 +5
Просмотры 8K
Комментарии 3

Андрей Себрант (Яндекс): Бизнес в Эпоху Искусственного Интеллекта

Блог компании ua-hosting.company Алгоритмы *Big Data *Машинное обучение *Будущее здесь
Сейчас все говорят о новой революции, которую несет искусственный интеллект и машинное обучение. Умные алгоритмы проникают во все сферы жизни: от поисков бозона Хиггса, до выбора фильма на вечер. Самые передовые компании уже активно внедряют эти технологии в свои продукты и маркетинг. Персонализированные рекомендации, реклама, интерфейс сайта — все это не какая-то черная магия, а уже доступные технологии.

На отечественном рынке, без сомнения, самой передовой компанией, использующей мощь машин, является Яндекс. В своем докладе на #amoCONF директор по маркетингу сервисов Яндекс, Андрей Себрант, рассказал о наступившем будущем и возможностях, открывающихся каждой компании. Оптимизируйте ваш бизнес под тенденции будущего!

Disclaimer. Эта статья — расшифровка выступления Андрея Себранта. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Мы решили для всех них и вас расшифровать отличный контент. Кто всё же предпочитает видео — ссылка в конце.
Всего голосов 16: ↑14 и ↓2 +12
Просмотры 6.4K
Комментарии 4

Greenplum 6: обзор новых фич

PostgreSQL *Администрирование баз данных *Big Data *Хранение данных *
image Вот уже 16 лет как открытая массивно-параллельная СУБД Greenplum помогает самым разным предприятиям принимать решения на основе анализа данных.

За это время Greenplum проник в различные сферы бизнеса, в числе которых: ритейл, финтех, телеком, промышленность, e-commerce. Горизонтальное масштабирование до сотен узлов, отказоустойчивость, открытый исходный код, полная совместимость с PostgreSQL, транзакционность и ANSI SQL — трудно представить более удачное сочетание свойств для аналитической СУБД. Начиная от громадных кластеров в мировых компаниях-гигантах, как, например, Morgan Stanley (200 узлов, 25 Пб данных) или Tinkoff (>70 узлов), и заканчивая маленькими двух-нодовыми инсталляциями в уютных стартапах — всё больше компаний выбирают Greenplum. Особенно приятно наблюдать этот тренд в России — за последние два года количество крупных отечественных компаний, использующих Greenplum, выросло втрое.

Осенью 2019 года вышел очередной мажорный релиз СУБД. В этой статье я коротко расскажу об основных новых возможностях GP 6.
Читать дальше →
Всего голосов 12: ↑11 и ↓1 +10
Просмотры 7.2K
Комментарии 6

Дайджест новостей машинного обучения и искусственного интеллекта за октябрь

Блог компании VK Data Mining *Big Data *Машинное обучение *Искусственный интеллект
Привет, Хабр! Отфильтровав для вас большое количество источников и подписок, собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за октябрь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Для тех, кто не читал дайджест за сентябрь, можете прочесть его здесь.

Итак, а теперь дайджест за октябрь:

1. Фотореалистичная 3D-модель человека выступила на TED. Нейросеть динамически восстанавливает 3D-модель человека на основе распознавания движения лицевых мышц. С помощью данных с камеры нейросеть распознает и восстанавливает эмоции и действия человека.

Всего голосов 61: ↑58 и ↓3 +55
Просмотры 8K
Комментарии 5

Визуальное представление выборов в Санкт-Петербурге — магия накрутки голосов

Python *Data Mining *Геоинформационные сервисы *Big Data *Визуализация данных
Из песочницы
Привет!

В сентябре этого (2019) года прошли выборы Губернатора Санкт-Петербурга. Все данные о голосовании находятся в открытом доступе на сайте избирательной комиссии, мы не будем ничего ломать, а просто визуализируем информацию с этого сайта www.st-petersburg.vybory.izbirkom.ru в нужном для нас виде, проведем совсем несложный анализ и определим некоторые «волшебные» закономерности.

Обычно для подобных задач я использую Google Colab. Это сервис, который позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, это заметно ускорит парсинг данных и их дальнейшую обработку. Мне понадобились некоторые подготовительные работы перед импортом.

%%time 
!apt update
!apt upgrade
!apt install gdal-bin python-gdal python3-gdal 
# Install rtree - Geopandas requirment
!apt install python3-rtree 
# Install Geopandas
!pip install git+git://github.com/geopandas/geopandas.git
# Install descartes - Geopandas requirment
!pip install descartes

Далее импорты.

import requests 
from bs4 import BeautifulSoup 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import geopandas as gpd
import xlrd

Описание используемых библиотек


  • requests — модуль для запроса на подключение к сайту

  • BeautifulSoup — модуль для парсинга html и xml документов; позволяет получить доступ напрямую к содержимому любых тегов в html

  • numpy — математический модуль с базовым и необходимым набором математических функций

  • pandas — библиотека для анализа данных

  • matplotlib.pyplot — модуль-набор методов построения

  • geopandas — модуль для построения карты выборов

  • xlrd — модуль для чтения табличных файлов

Настал момент собирать сами данные, парсим. Избирком позаботился о нашем времени и предоставил отчетность в таблицах, это удобно.
Читать дальше →
Всего голосов 56: ↑51 и ↓5 +46
Просмотры 17K
Комментарии 25

Большое интервью про Big Data: зачем за нами следят в соцсетях и кто продает наши данные?

Блог компании ua-hosting.company Информационная безопасность *Big Data *Социальные сети и сообщества Будущее здесь
Disclaimer. Специалист по Big Data, Артур Хачуян, рассказал, как соцсети могут читать наши сообщения, как наш телефон нас подслушивает, и кому все это нужно. Эта статья — расшифровка большого интервью. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Мы решили для всех них и вас расшифровать отличный контент. Кто всё же предпочитает видео — ссылка в конце.



Каждый день мы что-то пишем, разыскиваем и выкладываем в интернете, и каждый день кто-то следит за нами по ту сторону экрана. Специальные программы сканируют фото, лайки и тексты, чтобы продать наши данные рекламным компаниям или полиции. Можно назвать это паранойей или научной фантастикой, но телефон, круг общения, переписка или ориентация — больше не секрет.
Всего голосов 48: ↑44 и ↓4 +40
Просмотры 37K
Комментарии 59

Интуитивное объяснение проверки гипотез и p-значение

Big Data *Математика *
Из песочницы
Привет, Хабр! Представляю вашему вниманию перевод статьи «An intuitive explanation of Hypothesis Testing and P-Values» автора Joos Korstanje.

Несколько лет назад я делал свою первую фриланс-работу по статистике для компании по доставке фруктов и овощей. Двадцать четыре часа в день поступающие продукты от фермеров до того, как были отправлены в супермаркеты, проходили через отдел по контролю за качеством. Выбор продуктов осуществлялся случайно работниками данного отдела.

В годовом отчёте они заметили, что качество в этом году ниже, чем качество в прошлом: разница составила примерно половину пункта по шкале от 1 до 10.

Потом пригласили меня. Я должен был ответить на вопрос:
Читать дальше →
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 9.2K
Комментарии 3

RabbitMQ против Kafka: отказоустойчивость и высокая доступность

Блог компании ITSumma Мессенджеры *Big Data *DevOps *Распределённые системы *
Перевод


В прошлой статье мы рассмотрели кластеризацию RabbitMQ для обеспечения отказоустойчивости и высокой доступности. Теперь глубоко покопаемся в Apache Kafka.

Здесь единицей репликации является раздел (partition). У каждого топика один или несколько разделов. В каждом разделе есть лидер с фолловерами или без них. При создании топика указывается количество разделов и коэффициент репликации. Обычное значение 3, это означает три реплики: один лидер и два фолловера.
Читать дальше →
Всего голосов 48: ↑45 и ↓3 +42
Просмотры 27K
Комментарии 3

Двоичный алгоритм машинного обучения с динамической структурой

Data Mining *Алгоритмы *Big Data *Машинное обучение *Искусственный интеллект
Recovery mode


Если рассматривать сегодняшние алгоритмы машинного обучения с движением от невежества (низ) к осознанию (верх) то текущие алгоритмы похожи на прыжок. После прыжка происходит замедление скорости развития (обучающая способность) и неминуемый разворот и падение (переобучение). Все усилия сводятся к попыткам приложить как можно больше сил к прыжку, что увеличивает высоту прыжка но кардинально не меняет результатов. Прокачивая прыжки мы увеличиваем высоту, но не учимся летать. Для освоения техники «контролируемого полета» потребуется переосмыслить некоторые базовые принципы.
Читать дальше →
Всего голосов 21: ↑5 и ↓16 -11
Просмотры 5.8K
Комментарии 157

Что изучают на специальности Data Science в зарубежных вузах

Big Data *Образование за рубежом
Recovery mode

«Будь то компания, предоставляющая финансовые услуги, которая хочет снизить риски, или ритейлер, пытающийся предсказать поведение покупателей, сценарий применения ИИ и машинного обучения основан на эффективной стратегии использования данных», — слова Рёхея Фуджимаки, основателя компании dotData и самого молодого научного сотрудника в истории 119-летней IT-корпорации NEC.


С ростом спроса, растет и количество программ Data Science в университетах. Какие модули изучают студенты, какие визовые возможности предусмотрены для выпускников вузов — разбираемся ниже.

Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 9.9K
Комментарии 1

SIBUR Challenge 2019 – соревнование по анализу промышленных данных

Блог компании Цифровой СИБУР Data Mining *Big Data *Хакатоны Химия
Всем привет!

Продолжается онлайн-этап конкурса по анализу данных – SIBUR Challenge 2019.

Коротко о главном:

  • SIBUR Challenge – это наш фирменный хакатон, который мы делаем вместе с AI Community. В качестве кейсов мы используем реальные производственные задачи, основанные на реальных данных.
  • Призовой фонд – 1 000 000 рублей, плюс вакансии и стажировки победителям.
  • Включиться в гонку можно до 17 ноября, офлайн-этап пройдёт 23-24 ноября в Москве.
  • На данный момент зарегистрировались уже более 1200 участников.

Задачи делятся на две группы:

  • Первая – про бизнес: необходимо предсказать рыночную стоимость важных для отрасли продуктов;
  • Вторая – про производство: необходимо предсказать активность катализатора, который участвует в процессе полимеризации (о том, какие ещё в нефтехимии бывают процессы, можно прочитать в статье Алексея Винниченко в нашем блоге).

Остальное – под катом.


Читать дальше →
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 1.9K
Комментарии 3

Вклад авторов

Работа

Data Scientist
107 вакансий