Big Data *

Большие данные и всё о них

nologin 24 сентября в 16:41

На стыке BI и DS: как предоставить аналитикам возможность делать с данными все, что они хотят?

Блог компании Visiology Python *Big Data *Машинное обучение *Искусственный интеллект

Привет, Хабр! Мы продолжаем рассказывать о новых трендах в BI, и сегодня речь пойдет о расширении возможностей аналитических систем и кастомизации дашбордов под конкретные (и порой уникальные) задачи клиентов. Для этого необходимо работать на стыке DS и BI, а значит — в BI должен быть базовый набор ML- инструментов (Machine Learning), доступных не только суровым математикам, но и бизнес-аналитикам. В этой статье мы рассмотрим возможные варианты пересечения сфер BI и DS для проведения более глубокой аналитики, с плюсами и минусами, а также покажем основные подходы к внедрению ML в BI на уровне стандартного функционала.

m31 24 сентября в 16:01

Видеозапись серии вебинаров The A-Z of Data — блок MLOps

Big Data *Машинное обучение *Конференции DevOps *Искусственный интеллект

Приветствую всех!

На протяжении последних нескольких месяцев, мы командой Data Phoenix, провели ряд вебинаров посвященных MLOps в рамках серии «The A-Z of Data».

Сегодня я хочу поделиться всеми видеозаписями прошедших вебинаров, а также пригласить на предстоящий, который будет посвящен MLOps инструменту — Pachyderm. Также буду благодарен за пожелания в комментариях тем, на которые вам было бы интересно послушать предстоящие вебинары.

Смотреть видеозаписи

520

m31 24 сентября в 12:41

Вебинар «Pachyderm in production: lessons learned»

Big Data *Машинное обучение *Конференции DevOps *Искусственный интеллект

Команда Data Phoenix Events приглашает всех, 29 сентября в 19:00, на технический вебинар из серии "The A-Z of Data", который будет посвящен MLOps инструменту - Pachyderm.

205

ohld 22 сентября в 13:40

Как спарсить любой сайт?

JavaScript *Data Mining *Big Data *Открытые данные *Тестирование веб-сервисов *

Tutorial

Меня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.

Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность и масштабируемость.

Узнать как

+50

27K

kucev 22 сентября в 11:52

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

Data Mining *Обработка изображений *Big Data *Машинное обучение *

Перевод

Мы постоянно находимся в поиске лучших платформ аннотирования, обеспечивающих широкую функциональность, имеющих инструменты управления проектами и оптимизацию процесса аннотирования (когда нужно аннотировать 50 тысяч изображений, важна экономия даже одной секунды на каждом).

На основании своего опыта работы с каждой из платформ мы делимся своими честными обзорами, надеясь, что они будут полезны дата-саентистам, которым необходимо вручную размечать свои данные.

Мы используем следующие критерии:

Цена
Разнообразие функций, инструментов и форматов
Управление проектами и простота использования

Читать дальше →

723

X5RetailGroup 21 сентября в 18:34

Построение архитектуры проекта при работе с PySpark

Блог компании X5 Group Python *Анализ и проектирование систем *Big Data *Data Engineering *

В настоящее время уже сложно найти крупную компанию, которая не использовала бы возможности накопления и использования больших данных. Меня зовут Никита Сурков и я работаю в проекте ценообразования "Пятёрочки" X5 Group. Проект является ярким примером использования больших данных, так как Пятёрочка -- это 18000 магазинов по всей стране. Чтобы построить систему ценообразования в такой сети требуется обработка миллиардов строк информации из чеков, данных по остаткам, себестоимостей и многих других данных. Для всего этого преимущественно используется PySpark, как один из популярных инструментов для работы с расперделёнными системами. В данной статье будет представлен один из методов написания кода на PySpark таким образом, чтобы он был более читаем, легко тестируем и поддерживаем. Сразу оговорюсь, что не представляю здесь единственное правильное решение, но оно доказало свою жизнеспособность на примере того проекта, в котором я работал.

1.8K

Mojsha 19 сентября в 21:05

Как Airbnb ошиблась и зачем строила Wall

Блог компании SkillFactory Python *IT-инфраструктура *Big Data *Data Engineering *

Перевод

Чтобы ускорить принятие решений и лучше поддерживать мониторинг метрик бизнеса, в Airbnb внедрили сертификацию всех метрик и наборов данных, написали рекомендации о проверках качества данных, но не обеспечили их выполнение. О возникшей из-за этого проблеме и её решении рассказываем к старту флагманского курса по Data Science.

2.6K

valexv 18 сентября в 01:29

Apache Spark: оптимизация производительности на реальных примерах

Блог компании Neoflex Apache *Big Data *Хранилища данных *Data Engineering *

Из песочницы

Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком.

Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора данных, написав всего одну строку кода. Но только задумайтесь: что происходит в кластере при соединении двух наборов данных, которые могут и не находится целиком на каком-либо из узлов кластера? Обычно Spark со всем справляется быстро, но иногда, а особенно, если данных действительно много, необходимо все-таки понимать – что происходит уровнем ниже и использовать это знание, чтобы помочь Spark работать в полную силу.

+14

3.3K

ITSumma 17 сентября в 12:17

Какой софт использует ЦРУ и АНБ для дата-майнинга

Блог компании ITSumma Поисковые технологии *Data Mining *Big Data *Киберпанк

После утечки данных от Сноудена стало понятно, что АНБ собирает данные на всех граждан до совершения преступлений, а не на конкретных подозреваемых после преступления.

Аналогичную практику сбора разведданных на всех граждан до совершения преступления начали практиковать и в других странах, в том числе России. Речь идёт о длительном хранении интернет-трафика, сведений о перемещении, звонков, записей видеонаблюдения и т.д. Это очень удобно, ведь в случае необходимости найдутся улики практически на любого человека.

Разумеется, для быстрого поиска в таком огромном массиве данных требуется специальный софт.

Читать дальше →

+15

8.8K

Plarium 15 сентября в 14:37

Как мы планируем работу над проектами в R&D

Блог компании Plarium IT-инфраструктура *Big Data *

В этой статье ребята из отдела Research and Development расскажут, как они планируют работу над проектами.

1.6K

kucev 14 сентября в 12:35

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Data Mining *Обработка изображений *Big Data *Машинное обучение *

Перевод

В 2018 году мы опубликовали обзор лучших инструментов аннотирования, которыми регулярно пользуемся. Статью с энтузиазмом восприняли и профессионалы в сфере ИИ, и неспециалисты.

С нами даже связались несколько новых платформ, попросив провести бета-тестирование их инструментов и написать отзывы об UX и UI на основе нашего личного опыта управления крупномасштабными проектами разметки для ИИ.

С 2018 года произошёл большой прогресс в сфере платформ разметки, в том числе успешный фандрайзинг Labelbox, упрочивший его ведущую позицию в этой области, а также заявления о потрясающих новых функциях нашего любимого Supervise.ly, который мы продолжаем использовать в большинстве проектов.

Мы решили, что настало подходящее время для рассказа о самых потрясающих новых инструментах, появившихся за последнее время. В предыдущей статье мы оценивали продукты по следующим параметрам:

Цена
Функции
Управление проектами

Но решили, что стоит добавить ещё один:

Автоматизация

Ведь каждый из этих новых инструментов имеет отличные новые способы оптимизации ручного процесса аннотирования.

Читать дальше →

1.5K

seregazolotaryow64 14 сентября в 09:07

Экосистема ваших Big Data-кластеров из решении Apache в Docker-контейнерах на Linux-машинах

Open source *Big Data *DevOps *Hadoop *Data Engineering *

Недавно в своей работе начал практиковаться с Hadoop, Spark и Hive от Apache на примере организации распределенного хранилища данных в крупном и сложном проекте. Так как я хорошо дружу с Linux и вселенной Docker, только одна команда позволит не мучиться с лишней установкой Big Data-решении от Apache, не нагружая при этом свою Linux-машину(при наличии Docker и Docker-Compose).

-5

1.4K

snakers4 13 сентября в 14:37

Последние обновления моделей распознавания речи из Silero Models

Big Data *Машинное обучение *Развитие стартапа Natural Language Processing *Голосовые интерфейсы

quality_growth

Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.

В этот раз мы можем порадовать вас:

Как большими, так и маленькими моделями;
Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;

Читать дальше →

+11

1.1K

Yellow_ki 12 сентября в 18:27

Битва за условное форматирование: дополняем стандартный функционал Power BI

Big Data *Визуализация данных Статистика в IT

Из песочницы

Как использовать для визуализации такой замечательный инструмент, как условное форматирование, если ваши данные против этого? Как добавить в отчет красивую карту, если несколько точек "портят" всю картину? Как использовать статистические методы для настройки внешнего вида вашего отчета?

Я постарался рассказать об этом на примере выполнения задания для хакатона по Power BI.

kucev 7 сентября в 14:11

Лучшие инструменты аннотирования для компьютерного зрения в 2021 году

Data Mining *Обработка изображений *Big Data *Машинное обучение *Управление персоналом *

Перевод

Мы уже долгое время занимались регулярной публикацией обзоров лучших инструментов аннотирования на рынке. Радостно видеть, что экосистема всегда динамична, а у платформ аннотирования появляются всё более мощные функции.

Все наши обзоры совершенно честны и основаны на личном опыте аннотирования тысяч изображений и видео для различных проектов и областей применения.

В этом году мы хотим поделиться списком лучших инструментов для разметки и аннотирования в 2021 году (вне какого-либо порядка).

Как и в предыдущих списках, мы оценивали инструменты по следующим параметрам:

Функции
Автоматизация
Управление проектами

Читать дальше →

1.9K

m31 7 сентября в 12:14

Вебинар «Deploying deep learning models with Kubernetes and Kubeflow»

Big Data *Машинное обучение *Конференции DevOps *Искусственный интеллект

Команда Data Phoenix Events приглашает всех завтра, 8 сентября в 17:00, на третий вебинар из серии "The A-Z of Data", который будет посвящен деплою deep learning моделей при помощи Kubernetes и Kubeflow.

-1

448

sab0tazh 7 сентября в 10:12

ClickHouse: Путь джедая, искавшего дом для своих данных

Блог компании Туту.ру Big Data *Хранение данных *

В разные эпохи развития нашего проекта в качестве основного хранилища которое было как источник данных для аналитики у нас были хранилища MySQL, ElasitcSearch, Exasol и ClickHouse. Последний нам очень нравится и вообще вызывает дикий восторг как инструмент для работы с большими массивами данных, но если посчитать итоговую стоимость владения с учётом внедрения кластера, обучения и поддержки — лучше подумайте два раза, прежде чем тащить его в ваше стек. На наших объёмах данных вложенные усилия окупаются, но если бы мы были чуть меньше, то, наверное, экономика не сошлась бы.

Главная проблема ClickHouse — это практическое отсутствие удобных и стабильно работающих инструментов для эксплуатации и большое кол-во решение рядом в погоне добиться того же пользовательского опыта как при работе с классическим RDBMS (MySQL или PostgreSQL). Вам придется приложить не мало усилий чтобы понять как эффективно применить clickhouse для ваших задач анализировать придется много: начиная от вопросов развертывания до выбора оптимальных моделей данных под профиль вашей нагрузки, в общем доступе не так много рекомендаций по выбору конфигураций под разные типы задач.

С другой стороны, его киллер-фича — это возможность работать с огромными массивами данных невероятно быстро для решений в этой области, то что раньше нам приходилось делать в Spark или через другие реализации map reduce, теперь мы можем делать внутри clickhouse. И бесплатно, потому что такими же плюсами обладают многие MPP решения вроде Vertica или Exasol. Но ClickHouse открытый, и за это мы платим налог на использование не прогнозируемым объемом поддержки или развития системы. Не всем это подходит: например, есть опыт компаний, которые сначала было влезли в это дело, потом поняли, что это не то — и взяли платные продукты с платной поддержкой с экспертизой в решении архитектурных задач именно их продуктами. В платных продуктах есть готовые инструменты, которые понятно, как применять.

+25

5.4K

kate_shlyakhova 6 сентября в 11:23

Python-культура в российских* IT-компаниях. Часть 2: Provectus

Блог компании IT-People Python *Big Data *Конференции

В первой части статей о python-культуре мы писали про Тинькофф, а в этот раз решили рассказать о компании, в которую инженеры приходят, чтобы решать действительно сложные задачи, например, применение AI для распознавания болезней.

В Provectus, по умолчанию, считается, что задача будет выполнена в срок, и никто принципиально не стоит над душой и не спрашивает статус в течение дня или даже недели. Здесь общий код и инфраструктура. Каждый может создавать свои проекты на Github. И такая инициатива зачастую перерастает в реальные большие проекты, которые начинают монетизироваться. Что такое здоровая атмосфера в компании и правильная инженерная культура? Прочитайте, как их понимают и создают в Provectus - герое сегодняшней статьи.

4.6K

IvanSGlazunov 5 сентября в 21:23

Ассоциативные связи

Программирование *Анализ и проектирование систем *Совершенный код *IT-инфраструктура *Big Data *

Что такое идеальный "квант информации" или "минимальная единица смысла" и зачем задаваться этим вопросом? С этим связано много боли, часто даже не осознаваемой. Мы предлагаем решение, но сначала нужно разобраться для чего это нужно. Рекомендуем ознакомиться с первой статьёй в серии.

Одна Связь, чтоб править всеми

-2

1.8K

IvanSGlazunov 4 сентября в 18:38

Фактор рефакторинга

Анализ и проектирование систем *API *Big Data *Data Engineering *

Из песочницы

Код зависим от данных и моделей, а значит от абстракций используемых в них, поэтому рефакторинг неминуем сегодня. Почему? Обычно под рефакторингом подразумевают реорганизацию кода из соображений необходимости использовать данные по-новому. Мы поговорим о самом частом и нелюбимом типе рефакторинга - лавинообразный рефакторинг, возникающий при изменениях в моделях данных, структурах таблиц и бизнес логике.

Это те дроиды, которых вы ищете

4.1K

2 3 ...

49 50

Big Data *

На стыке BI и DS: как предоставить аналитикам возможность делать с данными все, что они хотят?

Видеозапись серии вебинаров The A-Z of Data — блок MLOps

Вебинар «Pachyderm in production: lessons learned»

Как спарсить любой сайт?

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

Построение архитектуры проекта при работе с PySpark

Как Airbnb ошиблась и зачем строила Wall

Apache Spark: оптимизация производительности на реальных примерах

Какой софт использует ЦРУ и АНБ для дата-майнинга

Как мы планируем работу над проектами в R&D

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Экосистема ваших Big Data-кластеров из решении Apache в Docker-контейнерах на Linux-машинах

Последние обновления моделей распознавания речи из Silero Models

Битва за условное форматирование: дополняем стандартный функционал Power BI

Лучшие инструменты аннотирования для компьютерного зрения в 2021 году

Вебинар «Deploying deep learning models with Kubernetes and Kubeflow»

ClickHouse: Путь джедая, искавшего дом для своих данных

Python-культура в российских* IT-компаниях. Часть 2: Provectus

Ассоциативные связи

Фактор рефакторинга

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги