Как стать автором
Обновить
37.1
Рейтинг

Big Data *

Большие данные и всё о них

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

На стыке BI и DS: как предоставить аналитикам возможность делать с данными все, что они хотят?

Блог компании Visiology Python *Big Data *Машинное обучение *Искусственный интеллект

Привет, Хабр! Мы продолжаем рассказывать о новых трендах в BI, и сегодня речь пойдет о расширении возможностей аналитических систем и кастомизации дашбордов под конкретные (и порой уникальные) задачи клиентов. Для этого необходимо работать на стыке DS и BI, а значит —  в BI должен быть базовый набор ML- инструментов (Machine Learning), доступных не только суровым математикам, но и бизнес-аналитикам. В этой статье мы рассмотрим возможные варианты пересечения сфер BI и DS для проведения более глубокой аналитики, с плюсами и минусами, а также покажем основные подходы к внедрению ML в BI на уровне стандартного функционала.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 2K
Комментарии 0

Видеозапись серии вебинаров The A-Z of Data — блок MLOps

Big Data *Машинное обучение *Конференции DevOps *Искусственный интеллект

Приветствую всех!

На протяжении последних нескольких месяцев, мы командой Data Phoenix, провели ряд вебинаров посвященных MLOps в рамках серии «The A-Z of Data».

Сегодня я хочу поделиться всеми видеозаписями прошедших вебинаров, а также пригласить на предстоящий, который будет посвящен MLOps инструменту — Pachyderm. Также буду благодарен за пожелания в комментариях тем, на которые вам было бы интересно послушать предстоящие вебинары.

Смотреть видеозаписи
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 520
Комментарии 0

Вебинар «Pachyderm in production: lessons learned»

Big Data *Машинное обучение *Конференции DevOps *Искусственный интеллект

Команда Data Phoenix Events приглашает всех, 29 сентября в 19:00, на технический вебинар из серии "The A-Z of Data", который будет посвящен MLOps инструменту - Pachyderm.

Читать далее
Рейтинг 0
Просмотры 205
Комментарии 0

Как спарсить любой сайт?

JavaScript *Data Mining *Big Data *Открытые данные *Тестирование веб-сервисов *
Tutorial

Меня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.

Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность и масштабируемость.

Узнать как
Всего голосов 68: ↑59 и ↓9 +50
Просмотры 27K
Комментарии 84

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

Data Mining *Обработка изображений *Big Data *Машинное обучение *
Перевод

Мы постоянно находимся в поиске лучших платформ аннотирования, обеспечивающих широкую функциональность, имеющих инструменты управления проектами и оптимизацию процесса аннотирования (когда нужно аннотировать 50 тысяч изображений, важна экономия даже одной секунды на каждом).

На основании своего опыта работы с каждой из платформ мы делимся своими честными обзорами, надеясь, что они будут полезны дата-саентистам, которым необходимо вручную размечать свои данные.

Мы используем следующие критерии:

  1. Цена
  2. Разнообразие функций, инструментов и форматов
  3. Управление проектами и простота использования
Читать дальше →
Всего голосов 7: ↑6 и ↓1 +5
Просмотры 723
Комментарии 3

Построение архитектуры проекта при работе с PySpark

Блог компании X5 Group Python *Анализ и проектирование систем *Big Data *Data Engineering *

В настоящее время уже сложно найти крупную компанию, которая не использовала бы возможности накопления и использования больших данных. Меня зовут Никита Сурков и я работаю в проекте ценообразования "Пятёрочки" X5 Group. Проект является ярким примером использования больших данных, так как Пятёрочка -- это 18000 магазинов по всей стране. Чтобы построить систему ценообразования в такой сети требуется обработка миллиардов строк информации из чеков, данных по остаткам, себестоимостей и многих других данных. Для всего этого преимущественно используется PySpark, как один из популярных инструментов для работы с расперделёнными системами. В данной статье будет представлен один из методов написания кода на PySpark таким образом, чтобы он был более читаем, легко тестируем и поддерживаем. Сразу оговорюсь, что не представляю здесь единственное правильное решение, но оно доказало свою жизнеспособность на примере того проекта, в котором я работал.

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 1.8K
Комментарии 9

Как Airbnb ошиблась и зачем строила Wall

Блог компании SkillFactory Python *IT-инфраструктура *Big Data *Data Engineering *
Перевод

Чтобы ускорить принятие решений и лучше поддерживать мониторинг метрик бизнеса, в Airbnb внедрили сертификацию всех метрик и наборов данных, написали рекомендации о проверках качества данных, но не обеспечили их выполнение. О возникшей из-за этого проблеме и её решении рассказываем к старту флагманского курса по Data Science.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 2.6K
Комментарии 0

Apache Spark: оптимизация производительности на реальных примерах

Блог компании Neoflex Apache *Big Data *Хранилища данных *Data Engineering *
Из песочницы

Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком.

Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора данных, написав всего одну строку кода. Но только задумайтесь: что происходит в кластере при соединении двух наборов данных, которые могут и не находится целиком на каком-либо из узлов кластера? Обычно Spark со всем справляется быстро, но иногда, а особенно, если данных действительно много, необходимо все-таки понимать – что происходит уровнем ниже и использовать это знание, чтобы помочь Spark работать в полную силу.

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 3.3K
Комментарии 5

Какой софт использует ЦРУ и АНБ для дата-майнинга

Блог компании ITSumma Поисковые технологии *Data Mining *Big Data *Киберпанк


После утечки данных от Сноудена стало понятно, что АНБ собирает данные на всех граждан до совершения преступлений, а не на конкретных подозреваемых после преступления.

Аналогичную практику сбора разведданных на всех граждан до совершения преступления начали практиковать и в других странах, в том числе России. Речь идёт о длительном хранении интернет-трафика, сведений о перемещении, звонков, записей видеонаблюдения и т.д. Это очень удобно, ведь в случае необходимости найдутся улики практически на любого человека.

Разумеется, для быстрого поиска в таком огромном массиве данных требуется специальный софт.
Читать дальше →
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 8.8K
Комментарии 4

Как мы планируем работу над проектами в R&D

Блог компании Plarium IT-инфраструктура *Big Data *

В этой статье ребята из отдела Research and Development расскажут, как они планируют работу над проектами.

Читать далее
Всего голосов 2: ↑1 и ↓1 0
Просмотры 1.6K
Комментарии 1

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Data Mining *Обработка изображений *Big Data *Машинное обучение *
Перевод

В 2018 году мы опубликовали обзор лучших инструментов аннотирования, которыми регулярно пользуемся. Статью с энтузиазмом восприняли и профессионалы в сфере ИИ, и неспециалисты.

С нами даже связались несколько новых платформ, попросив провести бета-тестирование их инструментов и написать отзывы об UX и UI на основе нашего личного опыта управления крупномасштабными проектами разметки для ИИ.

С 2018 года произошёл большой прогресс в сфере платформ разметки, в том числе успешный фандрайзинг Labelbox, упрочивший его ведущую позицию в этой области, а также заявления о потрясающих новых функциях нашего любимого Supervise.ly, который мы продолжаем использовать в большинстве проектов.

Мы решили, что настало подходящее время для рассказа о самых потрясающих новых инструментах, появившихся за последнее время. В предыдущей статье мы оценивали продукты по следующим параметрам:

  • Цена
  • Функции
  • Управление проектами

Но решили, что стоит добавить ещё один:

  • Автоматизация

Ведь каждый из этих новых инструментов имеет отличные новые способы оптимизации ручного процесса аннотирования.
Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.5K
Комментарии 0

Экосистема ваших Big Data-кластеров из решении Apache в Docker-контейнерах на Linux-машинах

Open source *Big Data *DevOps *Hadoop *Data Engineering *

Недавно в своей работе начал практиковаться с Hadoop, Spark и Hive от Apache на примере организации распределенного хранилища данных в крупном и сложном проекте. Так как я хорошо дружу с Linux и вселенной Docker, только одна команда позволит не мучиться с лишней установкой Big Data-решении от Apache, не нагружая при этом свою Linux-машину(при наличии Docker и Docker-Compose).

Читать далее
Всего голосов 5: ↑0 и ↓5 -5
Просмотры 1.4K
Комментарии 7

Последние обновления моделей распознавания речи из Silero Models

Big Data *Машинное обучение *Развитие стартапа Natural Language Processing *Голосовые интерфейсы

quality_growth


Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.


В этот раз мы можем порадовать вас:


  • Как большими, так и маленькими моделями;
  • Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
  • Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
  • Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 1.1K
Комментарии 0

Битва за условное форматирование: дополняем стандартный функционал Power BI

Big Data *Визуализация данных Статистика в IT
Из песочницы

Как использовать для визуализации такой замечательный инструмент, как условное форматирование, если ваши данные против этого? Как добавить в отчет красивую карту, если несколько точек "портят" всю картину? Как использовать статистические методы для настройки внешнего вида вашего отчета?

Я постарался рассказать об этом на примере выполнения задания для хакатона по Power BI.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 2K
Комментарии 2

Лучшие инструменты аннотирования для компьютерного зрения в 2021 году

Data Mining *Обработка изображений *Big Data *Машинное обучение *Управление персоналом *
Перевод

Мы уже долгое время занимались регулярной публикацией обзоров лучших инструментов аннотирования на рынке. Радостно видеть, что экосистема всегда динамична, а у платформ аннотирования появляются всё более мощные функции.

Все наши обзоры совершенно честны и основаны на личном опыте аннотирования тысяч изображений и видео для различных проектов и областей применения.

В этом году мы хотим поделиться списком лучших инструментов для разметки и аннотирования в 2021 году (вне какого-либо порядка).

Как и в предыдущих списках, мы оценивали инструменты по следующим параметрам:

  • Функции
  • Автоматизация
  • Управление проектами
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 1.9K
Комментарии 0

Вебинар «Deploying deep learning models with Kubernetes and Kubeflow»

Big Data *Машинное обучение *Конференции DevOps *Искусственный интеллект

Команда Data Phoenix Events приглашает всех завтра, 8 сентября в 17:00, на третий вебинар из серии "The A-Z of Data", который будет посвящен деплою deep learning моделей при помощи Kubernetes и Kubeflow.

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 448
Комментарии 1

ClickHouse: Путь джедая, искавшего дом для своих данных

Блог компании Туту.ру Big Data *Хранение данных *

В разные эпохи развития нашего проекта в качестве основного хранилища которое было как источник данных для аналитики у нас были хранилища MySQL, ElasitcSearch, Exasol и ClickHouse. Последний нам очень нравится и вообще вызывает дикий восторг как инструмент для работы с большими массивами данных, но если посчитать итоговую стоимость владения с учётом внедрения кластера, обучения и поддержки — лучше подумайте два раза, прежде чем тащить его в ваше стек. На наших объёмах данных вложенные усилия окупаются, но если бы мы были чуть меньше, то, наверное, экономика не сошлась бы.

Главная проблема ClickHouse — это практическое отсутствие удобных и стабильно работающих инструментов для эксплуатации и большое кол-во решение рядом в погоне добиться того же пользовательского опыта как при работе с классическим RDBMS (MySQL или PostgreSQL). Вам придется приложить не мало усилий чтобы понять как эффективно применить clickhouse для ваших задач анализировать придется много: начиная от вопросов развертывания до выбора оптимальных моделей данных под профиль вашей нагрузки, в общем доступе не так много рекомендаций по выбору конфигураций под разные типы задач.

С другой стороны, его киллер-фича — это возможность работать с огромными массивами данных невероятно быстро для решений в этой области, то что раньше нам приходилось делать в Spark или через другие реализации map reduce, теперь мы можем делать внутри clickhouse. И бесплатно, потому что такими же плюсами обладают многие MPP решения вроде Vertica или Exasol. Но ClickHouse открытый, и за это мы платим налог на использование не прогнозируемым объемом поддержки или развития системы. Не всем это подходит: например, есть опыт компаний, которые сначала было влезли в это дело, потом поняли, что это не то — и взяли платные продукты с платной поддержкой с экспертизой в решении архитектурных задач именно их продуктами. В платных продуктах есть готовые инструменты, которые понятно, как применять.

Читать далее
Всего голосов 27: ↑26 и ↓1 +25
Просмотры 5.4K
Комментарии 8

Python-культура в российских* IT-компаниях. Часть 2: Provectus

Блог компании IT-People Python *Big Data *Конференции

В первой части статей о python-культуре мы писали про Тинькофф, а в этот раз решили рассказать о компании, в которую инженеры приходят, чтобы решать действительно сложные задачи, например, применение AI для распознавания болезней.

В Provectus, по умолчанию, считается, что задача будет выполнена в срок, и никто принципиально не стоит над душой и не спрашивает статус в течение дня или даже недели. Здесь общий код и инфраструктура. Каждый может создавать свои проекты на Github. И такая инициатива зачастую перерастает в реальные большие проекты, которые начинают монетизироваться. Что такое здоровая атмосфера в компании и правильная инженерная культура? Прочитайте, как их понимают и создают в Provectus - герое сегодняшней статьи.

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 4.6K
Комментарии 0

Ассоциативные связи

Программирование *Анализ и проектирование систем *Совершенный код *IT-инфраструктура *Big Data *

Что такое идеальный "квант информации" или "минимальная единица смысла" и зачем задаваться этим вопросом? С этим связано много боли, часто даже не осознаваемой. Мы предлагаем решение, но сначала нужно разобраться для чего это нужно. Рекомендуем ознакомиться с первой статьёй в серии.

Одна Связь, чтоб править всеми
Всего голосов 8: ↑3 и ↓5 -2
Просмотры 1.8K
Комментарии 8

Фактор рефакторинга

Анализ и проектирование систем *API *Big Data *Data Engineering *
Из песочницы

Код зависим от данных и моделей, а значит от абстракций используемых в них, поэтому рефакторинг неминуем сегодня. Почему? Обычно под рефакторингом подразумевают реорганизацию кода из соображений необходимости использовать данные по-новому. Мы поговорим о самом частом и нелюбимом типе рефакторинга - лавинообразный рефакторинг, возникающий при изменениях в моделях данных, структурах таблиц и бизнес логике.

Это те дроиды, которых вы ищете
Всего голосов 19: ↑12 и ↓7 +5
Просмотры 4.1K
Комментарии 36

Вклад авторов