Big Data *

Большие данные и всё о них

Apache Spark: оптимизация производительности на реальных примерах

Apache *Big Data *Хранилища данных *Data Engineering *

Из песочницы

Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком.

Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора данных, написав всего одну строку кода. Но только задумайтесь: что происходит в кластере при соединении двух наборов данных, которые могут и не находится целиком на каком-либо из узлов кластера? Обычно Spark со всем справляется быстро, но иногда, а особенно, если данных действительно много, необходимо все-таки понимать – что происходит уровнем ниже и использовать это знание, чтобы помочь Spark работать в полную силу.

100

ITSumma вчера в 12:17

Какой софт использует ЦРУ и АНБ для дата-майнинга

Блог компании ITSumma Поисковые технологии *Data Mining *Big Data *Киберпанк

После утечки данных от Сноудена стало понятно, что АНБ собирает данные на всех граждан до совершения преступлений, а не на конкретных подозреваемых после преступления.

Аналогичную практику сбора разведданных на всех граждан до совершения преступления начали практиковать и в других странах, в том числе России. Речь идёт о длительном хранении интернет-трафика, сведений о перемещении, звонков, записей видеонаблюдения и т.д. Это очень удобно, ведь в случае необходимости найдутся улики практически на любого человека.

Разумеется, для быстрого поиска в таком огромном массиве данных требуется специальный софт.

Читать дальше →

4.2K

Plarium 15 сентября в 14:37

Как мы планируем работу над проектами в R&D

Блог компании Plarium IT-инфраструктура *Big Data *

В этой статье ребята из отдела Research and Development расскажут, как они планируют работу над проектами.

1.3K

kucev 14 сентября в 12:35

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Data Mining *Обработка изображений *Big Data *Машинное обучение *

Перевод

В 2018 году мы опубликовали обзор лучших инструментов аннотирования, которыми регулярно пользуемся. Статью с энтузиазмом восприняли и профессионалы в сфере ИИ, и неспециалисты.

С нами даже связались несколько новых платформ, попросив провести бета-тестирование их инструментов и написать отзывы об UX и UI на основе нашего личного опыта управления крупномасштабными проектами разметки для ИИ.

С 2018 года произошёл большой прогресс в сфере платформ разметки, в том числе успешный фандрайзинг Labelbox, упрочивший его ведущую позицию в этой области, а также заявления о потрясающих новых функциях нашего любимого Supervise.ly, который мы продолжаем использовать в большинстве проектов.

Мы решили, что настало подходящее время для рассказа о самых потрясающих новых инструментах, появившихся за последнее время. В предыдущей статье мы оценивали продукты по следующим параметрам:

Цена
Функции
Управление проектами

Но решили, что стоит добавить ещё один:

Автоматизация

Ведь каждый из этих новых инструментов имеет отличные новые способы оптимизации ручного процесса аннотирования.

Читать дальше →

1.3K

seregazolotaryow64 14 сентября в 09:07

Экосистема ваших Big Data-кластеров из решении Apache в Docker-контейнерах на Linux-машинах

Open source *Big Data *DevOps *Hadoop *Data Engineering *

Недавно в своей работе начал практиковаться с Hadoop, Spark и Hive от Apache на примере организации распределенного хранилища данных в крупном и сложном проекте. Так как я хорошо дружу с Linux и вселенной Docker, только одна команда позволит не мучиться с лишней установкой Big Data-решении от Apache, не нагружая при этом свою Linux-машину(при наличии Docker и Docker-Compose).

-5

1.3K

snakers4 13 сентября в 14:37

Последние обновления моделей распознавания речи из Silero Models

Big Data *Машинное обучение *Развитие стартапа Natural Language Processing *Голосовые интерфейсы

quality_growth

Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.

В этот раз мы можем порадовать вас:

Как большими, так и маленькими моделями;
Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;

Читать дальше →

+10

946

Yellow_ki 12 сентября в 18:27

Битва за условное форматирование: дополняем стандартный функционал Power BI

Big Data *Визуализация данных Статистика в IT

Из песочницы

Как использовать для визуализации такой замечательный инструмент, как условное форматирование, если ваши данные против этого? Как добавить в отчет красивую карту, если несколько точек "портят" всю картину? Как использовать статистические методы для настройки внешнего вида вашего отчета?

Я постарался рассказать об этом на примере выполнения задания для хакатона по Power BI.

1.9K

kucev 7 сентября в 14:11

Лучшие инструменты аннотирования для компьютерного зрения в 2021 году

Data Mining *Обработка изображений *Big Data *Машинное обучение *Управление персоналом *

Перевод

Мы уже долгое время занимались регулярной публикацией обзоров лучших инструментов аннотирования на рынке. Радостно видеть, что экосистема всегда динамична, а у платформ аннотирования появляются всё более мощные функции.

Все наши обзоры совершенно честны и основаны на личном опыте аннотирования тысяч изображений и видео для различных проектов и областей применения.

В этом году мы хотим поделиться списком лучших инструментов для разметки и аннотирования в 2021 году (вне какого-либо порядка).

Как и в предыдущих списках, мы оценивали инструменты по следующим параметрам:

Функции
Автоматизация
Управление проектами

Читать дальше →

1.7K

m31 7 сентября в 12:14

Вебинар «Deploying deep learning models with Kubernetes and Kubeflow»

Big Data *Машинное обучение *Конференции DevOps *Искусственный интеллект

Команда Data Phoenix Events приглашает всех завтра, 8 сентября в 17:00, на третий вебинар из серии "The A-Z of Data", который будет посвящен деплою deep learning моделей при помощи Kubernetes и Kubeflow.

-1

421

sab0tazh 7 сентября в 10:12

ClickHouse: Путь джедая, искавшего дом для своих данных

Блог компании Туту.ру Big Data *Хранение данных *

В разные эпохи развития нашего проекта в качестве основного хранилища которое было как источник данных для аналитики у нас были хранилища MySQL, ElasitcSearch, Exasol и ClickHouse. Последний нам очень нравится и вообще вызывает дикий восторг как инструмент для работы с большими массивами данных, но если посчитать итоговую стоимость владения с учётом внедрения кластера, обучения и поддержки — лучше подумайте два раза, прежде чем тащить его в ваше стек. На наших объёмах данных вложенные усилия окупаются, но если бы мы были чуть меньше, то, наверное, экономика не сошлась бы.

Главная проблема ClickHouse — это практическое отсутствие удобных и стабильно работающих инструментов для эксплуатации и большое кол-во решение рядом в погоне добиться того же пользовательского опыта как при работе с классическим RDBMS (MySQL или PostgreSQL). Вам придется приложить не мало усилий чтобы понять как эффективно применить clickhouse для ваших задач анализировать придется много: начиная от вопросов развертывания до выбора оптимальных моделей данных под профиль вашей нагрузки, в общем доступе не так много рекомендаций по выбору конфигураций под разные типы задач.

С другой стороны, его киллер-фича — это возможность работать с огромными массивами данных невероятно быстро для решений в этой области, то что раньше нам приходилось делать в Spark или через другие реализации map reduce, теперь мы можем делать внутри clickhouse. И бесплатно, потому что такими же плюсами обладают многие MPP решения вроде Vertica или Exasol. Но ClickHouse открытый, и за это мы платим налог на использование не прогнозируемым объемом поддержки или развития системы. Не всем это подходит: например, есть опыт компаний, которые сначала было влезли в это дело, потом поняли, что это не то — и взяли платные продукты с платной поддержкой с экспертизой в решении архитектурных задач именно их продуктами. В платных продуктах есть готовые инструменты, которые понятно, как применять.

+25

5.1K

kate_shlyakhova 6 сентября в 11:23

Python-культура в российских* IT-компаниях. Часть 2: Provectus

Блог компании IT-People Python *Big Data *Конференции

В первой части статей о python-культуре мы писали про Тинькофф, а в этот раз решили рассказать о компании, в которую инженеры приходят, чтобы решать действительно сложные задачи, например, применение AI для распознавания болезней.

В Provectus, по умолчанию, считается, что задача будет выполнена в срок, и никто принципиально не стоит над душой и не спрашивает статус в течение дня или даже недели. Здесь общий код и инфраструктура. Каждый может создавать свои проекты на Github. И такая инициатива зачастую перерастает в реальные большие проекты, которые начинают монетизироваться. Что такое здоровая атмосфера в компании и правильная инженерная культура? Прочитайте, как их понимают и создают в Provectus - герое сегодняшней статьи.

4.5K

IvanSGlazunov 5 сентября в 21:23

Ассоциативные связи

Программирование *Анализ и проектирование систем *Совершенный код *IT-инфраструктура *Big Data *

Что такое идеальный "квант информации" или "минимальная единица смысла" и зачем задаваться этим вопросом? С этим связано много боли, часто даже не осознаваемой. Мы предлагаем решение, но сначала нужно разобраться для чего это нужно. Рекомендуем ознакомиться с первой статьёй в серии.

Одна Связь, чтоб править всеми

-2

1.7K

IvanSGlazunov 4 сентября в 18:38

Фактор рефакторинга

Анализ и проектирование систем *API *Big Data *Data Engineering *

Из песочницы

Код зависим от данных и моделей, а значит от абстракций используемых в них, поэтому рефакторинг неминуем сегодня. Почему? Обычно под рефакторингом подразумевают реорганизацию кода из соображений необходимости использовать данные по-новому. Мы поговорим о самом частом и нелюбимом типе рефакторинга - лавинообразный рефакторинг, возникающий при изменениях в моделях данных, структурах таблиц и бизнес логике.

Это те дроиды, которых вы ищете

eaton_ru 3 сентября в 19:26

ИБП для медицинских учреждений

Блог компании Eaton Информационная безопасность *IT-инфраструктура *Big Data *Интернет вещей

В отделениях реанимации жизни пациентов зависят не только от компетентности врачей и наличия лекарств, но и от качества электропитания. Перебои не должны сказываться на работе аппаратов искусственного дыхания и другого оборудования. По этой причине к электроснабжению медицинских объектов предъявляются особые требования. С возросшей нагрузкой на медицинскую систему в связи с пандемией эта проблема получила новую актуальность.

-21

2.8K

neoflex 2 сентября в 16:43

Управление сложностью legacy-кода в Big Data проектах с помощью инструмента Datalog

Блог компании Neoflex Apache *Big Data *

Самый простой Big Data проект сложнее проекта из мира привычного ПО. Имеется ввиду не сложность собственно алгоритмов или архитектуры, но анализа того, что представляет собой проект, как он работает с данными, как собирается та или иная витрина, какие для нее берутся данные.

Например, нужно решить такую задачу:

Загрузить таблицу из Oracle;
Посчитать в ней сумму по какого-нибудь полю, сгруппировав по ключу;
Результат сохранить в витрину в Hive.

Набор инструментов будет выглядеть примерно так:

Oracle
Apache Sqoop
Oozie
Apache Spark
Hive

Простая задача неожиданно приводит к появлению проекта, включающего три независимых инструмента с тремя независимыми папками исходных файлов. И как понять – что происходит в проекте?

Если рассмотреть более типичный случай, то набор артефактов простого проекта в Big Data представляет собой:

SH управляющие файлы;
Sqoop скрипты;
набор Airflow Dag или Oozie Workflow;
SQL скрипты собственно преобразований;
Исходники на PySpark или Scala Spark;
DDL скрипты создания объектов.

Также, особенностью является то, что если пользоваться Cloudera или Hortonworks, то среда не предоставляет удобных средств разработки и отладки.

Облачные среды, такие как AWS или Azure, предлагают все делать в их оболочке, объединяющей все требуемые артефакты в удобном интерфейсе.

Вот, например, картинка с сайта Microsoft Azure:

Но это если есть AWS или Azure. А если есть только Cloudera?

Как ответить на вопрос – что, собственно, в проекте написано? При этом этот вопрос крайне интересует и заказчика тоже, так как в случае обычного ПО ему все равно то, как всё устроено внутри, а в случае с Big Data заказчику важно понимать, что данные получаются правильно.
В мире обычного программирования есть набор паттернов, подходов, применение которых позволяет структурировать код. А как структурировать код, представляющий из себя зоопарк независимых SQL-файлов, SH-скриптов вперемешку с Oozie Workflow?

Читать дальше →

898

fotol 2 сентября в 15:16

Как мы в SIGIR-соревновании участвовали

Блог компании TINKOFF Data Mining *Алгоритмы *Big Data *Машинное обучение *

Летом этого года на конференции SIGIR проводился Workshop On eCommerce, посвященный прогнозам намерений и рекомендаций. По традиции к воркшопу приурочили небольшое соревнование, посвященное использованию последних наработок в области RecSys. Мы в Tinkoff.AI решили немного развеяться и поучаствовать.

Если вам интересно, как решали поставленные задачи мы и другие участники, добро пожаловать под кат.

+16

Cloudera 31 августа в 13:47

Аудит в CDP Private Cloud Base с использованием внешних систем

Блог компании Cloudera Big Data *Хранение данных *Hadoop *Data Engineering *

Регулируемые отрасли и правительственные организации по всему миру доверяют Cloudera хранение и анализ петабайтов данных - очень важной или конфиденциальной информации о людях, персональных и медицинских данных, финансовых данных или просто служебной информации, конфиденциальной для самого клиента.

Любой, кто хранит информацию о клиентах, медицинскую, финансовую или конфиденциальную информацию, должен убедиться, что приняты необходимые меры для защиты этих данных, включая обнаружение и предотвращение непреднамеренного или злонамеренного доступа. Согласно исследованию Ponemon Institute, за два года в мире средний ущерб от инсайдерских угроз вырос на 31% и достиг 11,45 миллиона долларов, а частота инцидентов за тот же период увеличилась на 47%. В отчете за 2019 год указано, что компании больше всего беспокоятся о непреднамеренных нарушениях со стороны инсайдеров (71%), утечках данных из-за небрежности (65%) и злонамеренных действиях злоумышленников (60%), чем о взломанных учетных записях или машинах (9%).

В этой статье мы разберем как правильно интегрировать платформу CDP с внешними SIEM системами.

164

kucev 31 августа в 10:37

6 правил по обеспечению качества данных для машинного обучения

Data Mining *Big Data *Машинное обучение *Краудсорсинг Софт

Перевод

«Качество — это не действие, а привычка», — сказал великий древнегреческий философ Аристотель. Эта идея справедлива сегодня так же, как и более двух тысяч лет назад. Однако качества добиться не так легко, особенно когда дело касается данных и технологий наподобие искусственного интеллекта (ИИ) и машинного обучения.

В некоторых областях можно почти без проблем использовать данные с высокой частотой ошибок, в других же система даёт сбой при малейших погрешностях в большом датасете. Принцип «мусор на входе, мусор на выходе» нужно воспринимать со всей серьёзностью. Мельчайшая некорректность в наборах данных может иметь большое влияние на модель и приводить к созданию бесполезных результатов. Чистота и целостность данных — ключевой аспект в создании сложных моделей машинного обучения.

Читать дальше →

m31 31 августа в 07:45

DataScience Digest — 31.08.21

Python *Алгоритмы *Big Data *Машинное обучение *Искусственный интеллект

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning подготовленный командой Data Phoenix и не забывайте подписываться на наш Telegram-канал.

Также хочу пригласить всех на сентябрьские вебинары, которые мы проводим в рамках серии "The A-Z of Data":

- 8 сентября - Deploying deep learning models with Kubernetes and Kubeflow
- 16 сентября - Re-usable pipelines for ML projects with DVC
- 22 сентября - From research to product with Hydrosphere

Буду рад видеть всех на наших трансляциях, присоединяйтесь!

1.1K

kucev 30 августа в 10:29

5 этапов, гарантирующих успешную разметку данных

Data Mining *Обработка изображений *Big Data *Машинное обучение *Управление персоналом *

Перевод

Формирование бюджета, создание и масштабирование операций по разметке данных

Недооценка труда, необходимого для разметки данных — это распространённая ошибка, признаваемая даже тяжеловесами отрасли разработки ИИ. Большинство распространённых трудностей, с которыми AI/ML-компании сталкиваются в процессе разметки данных, сводится к неадекватному планированию. Эта проблема может принимать различные формы, например:

Почему мы потратили 100 тысяч долларов на этот набор данных?
Где набор данных, на создание которого у нас ушло пять месяцев?
Почему наш data scientist тратит по 40 часов в неделю на разметку данных?

К счастью, все эти трудности можно решить адекватным планированием. В этой статье мы вкратце изложим ключевые элементы хорошего планирования и прогнозирования. Их можно разбить на пять категорий:

Установка целей
Планирование проекта
Оценка времени и затрат
Оценка партнёров
Назначение менеджера проекта

Читать дальше →

2 3 ...

49 50

Big Data *

Apache Spark: оптимизация производительности на реальных примерах

Какой софт использует ЦРУ и АНБ для дата-майнинга

Как мы планируем работу над проектами в R&D

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Экосистема ваших Big Data-кластеров из решении Apache в Docker-контейнерах на Linux-машинах

Последние обновления моделей распознавания речи из Silero Models

Битва за условное форматирование: дополняем стандартный функционал Power BI

Лучшие инструменты аннотирования для компьютерного зрения в 2021 году

Вебинар «Deploying deep learning models with Kubernetes and Kubeflow»

ClickHouse: Путь джедая, искавшего дом для своих данных

Python-культура в российских* IT-компаниях. Часть 2: Provectus

Ассоциативные связи

Фактор рефакторинга

ИБП для медицинских учреждений

Управление сложностью legacy-кода в Big Data проектах с помощью инструмента Datalog

Как мы в SIGIR-соревновании участвовали

Аудит в CDP Private Cloud Base с использованием внешних систем

6 правил по обеспечению качества данных для машинного обучения

DataScience Digest — 31.08.21

5 этапов, гарантирующих успешную разметку данных

Формирование бюджета, создание и масштабирование операций по разметке данных

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги