Big Data

AndrewShmig вчера в 17:40

Погружение в свёрточные нейронные сети. Часть 5 / 1 — 9

Полный курс на русском языке можно найти по этой ссылке.
Оригинальный курс на английском доступен по этой ссылке.

Выход новых лекций запланирован каждые 2-3 дня.

Читать дальше →

Сбербанк предлагает дать разработчикам ИИ доступ к городским данным
23 мая 2019 в 01:44 Комментарии: 5
Ученые подтвердили, что переизбыток информации снижает общественное внимание
23 апреля 2019 в 14:14 Комментарии: 10
Reuters: «Яндекс» подвергался атакам западных спецслужб
28 июня 2019 в 14:32 Комментарии: 13
Разработчики DeepNude закрыли проект из-за бешеной популярности
28 июня 2019 в 13:41 Комментарии: 45
В России запускают систему наблюдения за всеми автомобилями
28 июня 2019 в 10:34 Комментарии: 231

DataPrivacyOffice 28 июня 2019 в 16:18

Подводные камни GDPR

Сергей Воронкевич, MBA, CIPP/E, CIPM

Основная ошибка при внедрении GDPR — это рассчитывать на силы и ресурсы только одного человека. Распространенная практика — ожидать от юриста самостоятельной работы по Регламенту. В такой ситуации, если он не будет обладать достаточно серьезным весом в организации и не сможет убедить коллег в необходимости общей слаженной работы, то все сведется к подготовке бесполезных шаблонов документов, которые не будут защищать компанию.

GDPR не реализовать в одиночку

Еще хуже, если это будет даже не юрист. Отдав GDPR-вопросы копирайтеру или маркетологу, вы можете получить шаблонную политику приватности (политику конфиденциальности) у себя на сайте. Вы же помните, почему это плохо? В такой политике ваши пользователи не увидят, зачем при подписке на email-рассылку вы взяли их номера телефонов. А потом будут удивлены, получив звонок с предложением товара или услуги. Итог: двойная жалоба за прямой маркетинг и политику приватности.

Читать дальше →

Smetanchik 28 июня 2019 в 07:40

10 лучших JavaScript библиотек для визуализации данных на графиках и диаграммах

Перевод

Есть в графиках что-то магическое. Изгиб кривой мгновенно раскрывает всю ситуацию — историю развития эпидемии, паники или периода процветания. Эта линия просвещает, пробуждает воображение, убеждает.
― Генри. Д. Хаббард

Объемы данных, с которыми нужно работать, постоянно увеличиваются. И чем больше информации, тем сложнее ее обрабатывать. Вот почему сейчас стала особенно популярна тема визуализации данных — в виде графиков, диаграмм, дашбордов, желательно интерактивных. Визуальное представление данных позволяет нам, людям, тратить меньше времени и сил на их просмотр, анализ и осмысление, а также на принятие правильных, информированных решений на основе этого.

Вряд ли кто-то станет отрицать, что в современном HTML5 вебе JavaScript — самая универсальная и простая технология для визуализации данных. Так что, если вы занимаетесь фронтенд-разработкой, то вы, скорее всего, либо уже имели дело с созданием JS чартов, либо столкнетесь с этим в (скором) будущем.

Существует множество JavaScript библиотек для построения графиков и диаграмм, каждая из которых (как и любые другие инструменты) имеет свои плюсы и минусы. Чтобы облегчить вам жизнь, я решил рассказать о тех из них, которые нравятся мне больше всего. Я считаю, десять следующих библиотек — это лучшие JS библиотеки для создания графиков, и они действительно способны помочь решить практически любую задачу по визуализации данных. Давайте вместе пройдемся по списку и убедимся, что они вам известны хотя бы базово и вы не упустили из виду какую-нибудь хорошую библиотеку, которая может оказаться полезной в текущих или будущих больших проектах.

Заглавная картинка: визуализация данных на графиках и диаграммах

Заглавная картинка: визуализация данных на графиках и диаграммах

Что ж, приступим: вот лучшие JS библиотеки для визуализации данных!

Читать дальше →

ph_piter 27 июня 2019 в 16:26

Книга «Kafka Streams в действии. Приложения и микросервисы для работы в реальном времени»

Привет, Хаброжители! Эта книга подойдет для любого разработчика, который хочет разобраться в потоковой обработке. Понимание распределенного программирования поможет лучше изучить Kafka и Kafka Streams. Было бы неплохо знать и сам фреймворк Kafka, но это не обязательно: я расскажу вам все, что нужно. Опытные разработчики Kafka, как и новички, благодаря этой книге освоят создание интересных приложений для потоковой обработки с помощью библиотеки Kafka Streams. Java-разработчики среднего и высокого уровня, уже привычные к таким понятиям, как сериализация, научатся применять свои навыки для создания приложений Kafka Streams. Исходный код книги написан на Java 8 и существенно использует синтаксис лямбда-выражений Java 8, так что умение работать с лямбда-функциями (даже на другом языке программирования) вам пригодится.

Читать дальше →

gibsonen 27 июня 2019 в 15:30

Глубокое ранжирование для сравнения двух изображений

Из песочницы

Привет, Хабр! Представляю вашему вниманию перевод статьи «Image Similarity using Deep Ranking» автора Akarsh Zingade.

Алгоритм Deep Ranking

Понятия "сходства двух изображений" — введено не было, поэтому давайте введем данное понятие хотя бы в рамках статьи.

Сходство двух изображений — это результат сравнения двух изображений по определенным критериям. Его количественная мера определяет степень сходства между диаграммами интенсивности двух изображений. С помощью меры сходства сравниваются какие-то признаки, описывающие изображения. В качестве меры сходства обычно применяется: расстояние Хемминга, евклидово расстояние, расстояние Манхэттена и т. д.

Читать дальше →

p0ly 25 июня 2019 в 19:02

Опыт разработки требований к профессиональным качествам data scientist

Сегодня практически любой бизнес ощущает потребность в исследовании данных. Data science не воспринимается как нечто новое. Тем не менее, не для всех очевидно, каким должен быть нанимаемый специалист.

Данная статья написана не HR-специалистом, а дата сайнтистом, поэтому стилистика изложения весьма специфична, но в этом есть и преимущество – это взгляд изнутри, позволяющий понять, какие качества data scientist являются необходимыми для профессии, для того, чтобы компания могла положиться на такого человека.

Пролог

Пришло время, когда data science стартап вырос из пеленок — число задач для анализа возросло с непредвиденной скоростью, и эта скорость сразу же перестала компенсироваться автоматизацией. Стало очевидно, что нужны новые мозги в команду…

Как мне сначала казалось, человек требовался вполне определенный: всего лишь обычный дата-что-то-там… программист, аналитик, статистик. Так в чем же сложность составить список требований?

“В инженерном деле, если не знаете, что делаете — не стоит этого делать.”
Ричард Хэмминг

Подошел я к делу как обычно. Достал два листа бумаги. Один озаглавил «Технические навыки», другой — «Профессиональные качества». После этого возникло желание полезть на какой-нибудь ресурс, найти там пачку резюме, выписать списки качеств, выбрать те, что понравятся. Но что-то меня остановило. “Это не мой способ, — сказал я себе. — Я в этом не разбираюсь. Я разбираюсь в задачах..”

Читать дальше →

SemyonSinchenko 24 июня 2019 в 17:03

Microsoft ML Spark: расширение Spark, делающее SparkML человечнее, и LightGBM как бонус

Tutorial

Многие, кто работал с Spark ML, знают, что некоторые вещи там сделаны "не совсем удачно"
или не сделаны вообще. Позиция разработчиков Spark в том, что SparkML — это базовая платформа, а все расширения должны быть отдельными пакетами. Но это не всегда удобно, ведь Data Scientist и аналитики хотят работать с привычными инструментами (Jupter, Zeppelin), где есть большая часть того, что нужно. Они не хотят собирать при помощи maven-assembly JAR-файлы на 500 мегабайт или руками скачивать зависимости и добавлять в параметры запуска Spark. А более тонкая работа с системами сборки JVM-проектов может потребовать от привыкшых к Jupyter/Zeppelin аналитиков и DataScientist-ов много дополнительных усилий. Просить же DevOps-ов и администраторов кластера ставить кучу пакетов на вычислительные ноды — явно плохая идея. Тот, кто писал расширения для SparkML самостоятельно, знает, сколько там скрытых трудностей с важными классами и методами (которые почему-то private[ml]), ограничениями на типы сохраняемых параметров и т.д.

И кажется, что теперь, с библиотекой MMLSpark, жизнь станет немного проще, а порог вхождения в масштабируемое машинное обучение со SparkML и Scala чуть ниже.

Читать дальше →

Korolevmv 24 июня 2019 в 14:58

QVD-файлы — что внутри, часть 3

В первой статье о структуре QVD-файла я описал общую структуру и достаточно подробно остановился на метаданных, во второй — на хранении колонок (символов). В этой статье я опишу формат хранения информации о строках, подытожу, расскажу о планах и достижениях.

Итак (вспоминаем) QVD-файл соответствует реляционной таблице, в QVD файле таблица хранится в виде двух косвенно связанных частей:

Таблицы символов (термин мой) содержат уникальные значения каждой колонки исходной таблицы. О них я рассказывал во второй статье.

Таблица строк содержит строки исходной таблицы, каждая строка хранит индексы значений колонки (поля) строки в соответствующей таблице символов. Именно об этои и будет эта статья.

Читать дальше →

o6CuFl2Q 24 июня 2019 в 12:17

Обфускация данных для тестов производительности

Пользователи ClickHouse знают, что его главное преимущество — высокая скорость обработки аналитических запросов. Но как мы можем выдвигать такие утверждения? Это должно подтверждаться тестами производительности, которым можно доверять. О них мы сегодня и поговорим.

Такие тесты мы начали проводить в 2013 году, задолго до того, как продукт стал доступным в опенсорсе. Как и сейчас, тогда нас больше всего интересовала скорость работы данных сервиса Яндекс.Метрика. Мы уже хранили данные в ClickHouse с января 2009 года. Часть данных записывалась в базу с 2012 года, а часть — была переконвертирована из OLAPServer и Metrage — структур данных, которые использовались в Яндекс.Метрике раньше. Поэтому для тестов мы взяли первое попавшееся подмножество из 1 миллиарда данных о просмотрах страниц. Запросов в Метрике ещё не было, и мы придумали запросы, больше всего интересные нам самим (всевозможные виды фильтрации, агрегации и сортировки).

ClickHouse тестировался в сравнении с похожими системами, например, Vertica и MonetDB. Для честности тестирования его проводил сотрудник, который до этого не был разработчиком ClickHouse, а частные случаи в коде не оптимизировались до получения результатов. Похожим образом мы получили набор данных и для функциональных тестов.

После того, как ClickHouse вышел в опенсорс в 2016 году, к тестам стало больше вопросов.

Читать дальше →

germn 24 июня 2019 в 09:29

10 фич для ускорения анализа данных в Python

Перевод

Источник

Советы и рекомендации, особенно в программировании, могут быть очень полезны. Маленький шоткат, аддон или хак может сэкономить кучу времени и серьёзно увеличить производительность. Я собрала свои самые любимые и сделала из них эту статью. Какие-то из советов ниже уже известны многим, а какие-то появились совсем недавно. Так или иначе, я уверена, они точно не будут лишними, когда вы в очередной раз приступите к проекту по анализу данных.

1. Профилирование Pandas Dataframe

Профилирование помогает лучше понять наши данные, и пакет Pandas Profiling создан как раз для этого. Библиотека даст возможность просто и быстро выполнить разведочный анализ Pandas Dataframe. Обычно в таких случаях в качестве первого шага используются функции df.describe() и df.info(), но они сообщают мало и плохо справляются с большими наборами данных. Одна строка кода с использованием Pandas Profiling, напротив, выведет много информации в интерактивном HTML-отчете.

Вот что вычисляется для заданного набора данных:

Статистика выводимая Pandas Profiling.

Установка

pip install pandas-profiling
или
conda install -c anaconda pandas-profiling

Использование

Давайте используем набор данных о пассажирах Титаника, чтобы продемонстрировать возможности профайлера.

Читать дальше →

KseniaDS 21 июня 2019 в 18:30

Освобождаем руки нескольким аналитикам: API Livy для автоматизации типовых банковских задач

Привет, Хабр!

Не секрет, что для оценки платежеспособности клиентов банки используют данные из различных источников (кредитное бюро, мобильные операторы и т.д.). Количество внешних партнёров может достигать нескольких десятков, а аналитиков в нашей команде наберётся лишь несколько человек. Возникает задача оптимизации работы небольшой команды и передачи рутинных задач вычислительным системам.

Как данные попадают в банк, и как команда аналитиков следит за этим процессом, разберём в данной статье.

Читать дальше →

sannikovdmitry 19 июня 2019 в 19:01

Краудсорсинг в ML Boot Camp. Считаем mIOU без картинок для новой задачи от Одноклассников

Привет! Лето — жаркое. Организаторы «айтишных» чемпионатов много сидели на солнце, сгорели и схватили удар, но главное — собрали новую задачу для очередного (уже девятого) контеста на платформе ML Boot Camp. Чемпионат пройдёт онлайн в течение месяца.

Сейчас на платформе зарегистрировано более 10 тысяч специалистов. Часто бывает, что задачи, которые на ней появляются, не всем по зубам (богам Kaggle в том числе). Для чего мы это делаем? Нужно развиваться и пробовать, причем на реальных данных, а не синтетическом булшите. Победы придут со временем.

Задача, которую хотим предложить вам решить в этом соревновании, отличается от всех предыдущих. Тема задачи — это детектирование объектов на изображениях. Формулировка задачи подразумевает, что в наборе данных будут картинки, но, что забавно, их нет. И это не петабайты данных. И даже не гигабайты.

Читать дальше →

arttom 19 июня 2019 в 16:37

Большие данные — большая ответственность, большой стресс и большие деньги

Термин Big Data подпорчен современным фантастическим преувеличением новых вещей. Как ИИ поработит людей, а блокчейн построит идеальную экономику — так и большие данные позволят знать абсолютно все про всех и видеть будущее.

Но реальность, как всегда, скучнее и прагматичнее. В больших данных нет никакой магии — как нет ее нигде — просто информации и связей между разными данными становится так много, что обрабатывать и анализировать все старыми способами становится слишком долго.

Появляются новые методы. Вместе с ними — новые профессии. Декан факультета аналитики Big Data в GeekBrains Сергей Ширкин рассказал, что это за профессии, где они нужны, чем там надо заниматься и что надо уметь. Какие используются инструменты и сколько обычно платят специалистам.

Читать дальше →

AndrewShmig 18 июня 2019 в 14:28

CS231n: Свёрточные нейронные сети для распознавания образов

Добро пожаловать на одну из лекций курса CS231n: Convolutional Neural Networks for Visual Recognition.

Читать дальше →

s_egorov 17 июня 2019 в 17:17

PyDaCon meetup в Mail.ru Group: 22 июня

22 июня Mail.ru Group проводит совместный митап с организаторами конференции PyCon Russia и PyData Moscow meetup. Вас ждут 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup. В программе мероприятия: keynote, технические доклады, викторина и много полезного общения.

Программа мероприятия

AloneCoder 17 июня 2019 в 15:09

Парсим 25TB с помощью AWK и R

Перевод

Как читать эту статью: прошу прощения за то, что текст получился таким длинным и хаотичным. Чтобы сэкономить ваше время, я каждую главу начинаю со вступления «Чему я научился», в котором одним-двумя предложениями излагаю суть главы.

«Просто покажи решение!» Если вы хотите всего лишь увидеть, к чему я пришёл, то переходите к главе «Становлюсь изобретательнее», но я считаю, что интереснее и полезнее почитать про неудачи.

Недавно мне поручили настроить процесс обработки большого объёма исходных последовательностей ДНК (технически это SNP-чип). Нужно было быстро получать данные о заданном генетическом местоположении (которое называется SNP) для последующего моделирования и прочих задач. С помощью R и AWK мне удалось очистить и организовать данные естественным образом, сильно ускорив обработку запросов. Далось мне это нелегко и потребовало многочисленных итераций. Эта статья поможет вам избежать некоторых моих ошибок и продемонстрирует, что же у меня в конце концов получилось.

Читать дальше →

searchag 17 июня 2019 в 13:02

Доверяй, но проверяй! Как проверить свою модель с помощью облака IBM (Watson OpenScale)

Проблема доверия предсказаниям, сделанных моделями машинного обучения, становится все более и более актуальна. Чем существеннее решение, принимаемое на основании этого предсказания, тем меньше доверия. Вызвано это в первую очередь тем, что далеко не всегда понятно, что же повлияло на конечное решение, не было ли смещения в исходных данных, на которых обучалась модель, и не сделал ли разработчик ошибки при расчете параметров. Проверить всё это вручную на практике не представляется возможным, поэтому зачастую руководству легче не внедрять ИИ вообще.

А что, если автоматизировать этот процесс?

Представляем Watson OpenScale – облачное решение, позволяющее не только контролировать качество ваших моделей, но и отслеживать наличие предвзятости в предсказаниях, обнаруживать и устранять их причины.

Расскажем что это такое, и где научиться с ним работать.

Читать дальше →

Galimardanov 14 июня 2019 в 13:08

Проблемы анализа Больших Данных

Big Data

Из песочницы

Каковы проблемы анализа Больших Данных

Большие Данные создают характерные особенности, которые не разделяются традиционными наборами данных. Эти особенности создают значительные проблемы для анализа данных и мотивируют разработку новых статистических методов. В отличие от традиционных наборов данных, где объем выборки, как правило, больше, чем измерение, Большие Данные характеризуются огромным размером выборки и высокой размерностью. Во-первых, мы обсудим влияние большого размера выборки на понимание неоднородности: с одной стороны, большой размер выборки позволяет нам раскрыть скрытые модели, связанные с небольшими подгруппами населения и слабой общностью среди всей популяции. С другой стороны, моделирование внутренней неоднородности Больших Данных требует более сложных статистических методов. Во-вторых, мы обсудим несколько уникальных явлений, связанных с высокой размерностью, включая накопление шума, ложную корреляцию и случайную эндогенность. Эти уникальные особенности делают традиционные статистические процедуры недействительными.

Читать дальше →

Korolevmv 13 июня 2019 в 14:26

QVD-файлы — что внутри, часть 2

В первой статье о структуре QVD файла я описал общую структуру и достаточно подробно остановился на метаданных. В этой статье я опишу формат хранения информации о колонках, поделюсь своим опытом трактовки этих данных.

Итак (вспоминаем) QVD файл соответствует реляционной таблице, которая, как известно состоит из строк. Каждая строка таблицы в свою очередь состоит из колонок (или полей), причем строки имеют одинаковую структуру, которая может быть описана, например, SQL оператором (create table).

В QVD файле таблица хранится в виде двух косвенно связанных частей:

Таблицы символов (термин мой) содержат уникальные значения каждой колонки исходной таблицы. Именно о них пойдет речь ниже.

Таблица строк содержит строки исходной таблицы, каждая строка хранит индексы значений колонки (поля) строки в соответствующей таблице символов. О таблице строк более подробно я расскажу в третьей части этой серии.

Читать дальше →

GalsSoftware 13 июня 2019 в 07:05

Разбираемся с Machine Learning в Elastic Stack (он же Elasticsearch, он же ELK)

Напомним, что в основе Elastic Stack лежат нереляционная база данных Elasticsearch, веб-интерфейс Kibana и сборщики-обработчики данных (самый известный Logstash, различные Beats, APM и другие). Одно из приятных дополнений всего перечисленного стека продуктов — анализ данных при помощи алгоритмов машинного обучения. В статье мы разбираемся что из себя представляют эти алгоритмы. Просим под кат.

Читать дальше →

Большие данные и всё о них

Все подряд

Лучшие

Авторы

Новости

GDPR не реализовать в одиночку

Рекомендуем

Велосезон «на спорте» и «на стиле» с редакторами Хабра

Для разрабов высоконагруженных систем: главные тезисы конференции Saint HighLoad++ 2019

Что учесть и про что не забыть при постройке Wi-Fi сети в помещении

Алгоритм Deep Ranking

Пролог

1. Профилирование Pandas Dataframe

Установка

Использование

Чем решить задачу поиска дубликатов из 1млрд изображений?

Есть ли готовое решение, франшиза агротеха с биг дата, датчиками в рос. сельхозе?

Архитектура kinesis+spark stream?

Построение bigdata архитектуры на основе kinesis+spark streaming?

Clickhouse и частые запросы?

Каковы проблемы анализа Больших Данных

Спонсоры сообщества

Вклад авторов

Читают сейчас

Самое читаемое

Рекомендуем

Найти водяной чип: как мы очищаем воду в наших домах

Что учесть и про что не забыть при постройке Wi-Fi сети в помещении

Ваш аккаунт

Разделы

Информация

Услуги