Как стать автором
Обновить
126.79

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Медицинские датасеты для машинного обучения: цели, типы и способы применения

Время на прочтение 11 мин
Количество просмотров 405
Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект Здоровье
Перевод

Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.

В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.
Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Новости

Какие профессии выбирают женщины в столице и регионе

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 1.7K
Python *Data Mining *Big Data *Машинное обучение *Статистика в IT

Привет, хабр! Я Алексей, аналитик компании Мегапьютер. Недавно прошел праздник прекрасной половины человечества, и я задумался о женских популярных профессиях.

В настоящее время для женщин нет практически никаких ограничений в выборе профессии, но специфические, такие как программист, крановщик, машинист, выбирают лишь единицы. Многие представительницы прекрасного пола, кажется, до сих пор тяготеют к исконно женским видам деятельности. К ним традиционно относятся следующие профессии: учитель, медсестра, няня, воспитатель детского сада, бухгалтер, секретарь, косметолог, продавец и некоторые другие. Так ли это? Традиционно я решил провести исследование в нашей программе по анализу данных PolyAnalyst.

Анализу подверглись резюме представительниц прекрасного пола столиц и регионов. Аналитики компании загрузили резюме женщин Москвы и Санкт-Петербурга, Иваново и Твери с сайта по поиску работы.

Читать далее
Всего голосов 11: ↑5 и ↓6 -1
Комментарии 12

Откуда есть пошла аналитика и что отличает DS, DA, BA и SA

Уровень сложности Простой
Время на прочтение 18 мин
Количество просмотров 2.5K
Блог компании Яндекс Практикум Анализ и проектирование систем *Big Data *История IT Data Engineering *
Мегапроект

Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.

Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 2

Делать Data Vault руками? НЕТ! Подходы к автоматической генерации при построении Data Vault

Время на прочтение 8 мин
Количество просмотров 612
Блог компании Инфосистемы Джет Анализ и проектирование систем *Big Data *Хранилища данных *Data Engineering *

Привет, меня зовут Виктор Езерский, я работаю в центре управления данными «Инфосистемы Джет». Мы занимаемся построением хранилищ, Data Lake, платформ данных, ETL/EL-T и BI-систем. Последние 5–7 лет при построении хранилищ данных у наших заказчиков одна из часто встречаемых архитектур — Data Vault. Мы участвовали в доработке готовых хранилищ на базе Data Vault и делали Data Vault «с нуля».

Из опыта борьбы я вынес одно правило: Data Vault без фреймворка и автоматической генерации — большая беда. В этом посте расскажу, почему, а также поделюсь нашими подходами к созданию генератора. Сразу предупреждаю, что не дам готовых рецептов, но расскажу о наших основных подходах и что они нам дали.

Узнать всё!
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 0

Истории

Классификация изображений в облачной системе Google Colab

Уровень сложности Сложный
Время на прочтение 43 мин
Количество просмотров 862
Python *Big Data *Машинное обучение *Научно-популярное Искусственный интеллект
Из песочницы

Нейронку можно обучить не только понимать, где на картинке собака, а где кошка. Можно шагнуть дальше, чтобы обучить ее распознавать данные графиков зрачковых реакций на свет и выдавать результат: норма или отклонение.

Эта статья про сверточные нейронные сети, классификацию изображений с помощью моделей глубокого обучения, а также применение Google Colab для написания кода на Python.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 0

«Топ 10» популярных мужских профессий в столице и регионах в 2023 году

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 5.1K
Python *Data Mining *Big Data *Машинное обучение *IT-компании
Из песочницы

Мир не стоит на месте. На смену многим мужским профессиям, что были актуальны полвека назад, приходят новые и более современные. Если раньше нас сковывали рамки малоразвитых технологий и выбор будущей профессии был невероятно мал, то сейчас есть где разгуляться. В преддверии праздника всех мужчин я задумался, а какие профессии, мы мужчины 2023 года, выбираем. Как известно, столица всегда отличалась от периферии и уровнем развития, и доходом, и мне стало интересно, чем наш выбор в данных городах отличается. Отслеживать резюме я решил на сервисе по поиску работы, из столичных городов взял Москву и Санкт-Петербург, в регионе Тверь и Иваново.  Анализ я провел в программе по аналитике данных своей компании, загрузив туда данные из резюме. На первом этапе я выделил самые популярные профессии в Москве и Санкт-Петербурге, ими стали водитель, менеджер, инженер, специалист, кладовщик, юрист, администратор, шеф-повар, управляющий и замыкает десятку профессия начальник участка.

Читать далее
Всего голосов 12: ↑7 и ↓5 +2
Комментарии 8

Инструменты для MLOps: выбираем между вендорскими и Open Source-решениями

Время на прочтение 9 мин
Количество просмотров 1.5K
Блог компании VK Big Data *Машинное обучение *
Обзор


MLOps использует проверенные методы DevOps для автоматизации создания, развертывания и мониторинга конвейеров ML в производственной среде. По мере развития MLOps-инструментов для работы с ним становится больше — как проприетарных, так и Open Source. Из этого разнообразия часто сложно выбрать стек для своего проекта.

Меня зовут Александр Волынский, я технический менеджер Cloud ML Platform в VK Cloud. В этой статье я сравню подходы к работе с MLOps на основе Open Source и проприетарного ПО и расскажу, какие инструменты и почему мы выбрали для Cloud ML Platform.
Читать дальше →
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 3

Локализация и рывок вперед: как мы разработали новый подход к облачному хранению данных для Hoff

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 1.7K
IT-инфраструктура *Big Data *Хранилища данных *Облачные сервисы *Data Engineering *
Из песочницы

Всем привет! Я Слава Жуков, CDO в eCommerce-агентстве Aero. Сегодня я расскажу, как мы сделали облачное хранилище понятным и структурированным источником информации для Hoff: про единые принципы хранения данных, разработка масштабируемой архитектуры, правильная система алертинга для регулярного контроля качества данных и не только.

Читать полностью
Рейтинг 0
Комментарии 9

Data Fusion Contest 2023. Для опыта и не только… Соревнование от ВТБ с призовым фондом в 2 млн рублей

Уровень сложности Средний
Время на прочтение 3 мин
Количество просмотров 1.1K
Информационная безопасность *Python *Big Data *Машинное обучение *Искусственный интеллект
Из песочницы

Я, как новичок, наблюдаю за всем происходящим вокруг, и замечаю, что тренд на IT-специальности огромный. Множество курсов заманивают обещаниями о работе с высокой зарплатой, но спустя полгода после окончания курсов вы понимаете, что на "рынке" полно таких же как вы без опыта, а всем нужны профессионалы. Знакомо?

Я вынужден был изменить свой путь к работе мечты, и я выбрал участие в соревнованиях, чемпионатах и хакатонах, которые приносят не только опыт и знакомства, но и денежные призы и другие бонусы.

В настоящее время проходят два соревнования по машинному обучению с крупным призовым фондом, однако на одном из них такая высокая конкуренция, что для достижения чего-либо нужно тратить на это 24 часа в сутки. Второе же соревнование, Data Fusion Contest 2023, не получило достаточного внимания, хотя формат соревнования непривычный. Это турнир по Adversarial ML между командами атакующих и защищающих ML-моделей на транзакционных данных и содержит две задачи:

🗡 В задаче Атака участники будут создавать атаки на нейросеть, обученную на данных транзакций. 

Читать далее
Всего голосов 11: ↑10 и ↓1 +9
Комментарии 3

Data Mesh: что это такое и для чего он нужен инженерам

Время на прочтение 11 мин
Количество просмотров 2.9K
Блог компании VK Big Data *Хранилища данных *
Перевод


Команда VK Cloud перевела статью о новом подходе к построению архитектуры данных Data Mesh с помощью lakeFS — системы управления версиями данных с открытым исходным кодом, которая преобразует хранилище объектов в Git-подобные репозитории. Разбираем, что такое Data Mesh, суть этого подхода и как с его помощью повысить эффективность работы с данными.
Читать дальше →
Всего голосов 19: ↑17 и ↓2 +15
Комментарии 1

Как устроен виртуальный помощник для data-сервисов в «Магните»

Время на прочтение 6 мин
Количество просмотров 867
Блог компании Магнит Big Data *Хранилища данных *
Кейс

Привет! Меня зовут Александр, я главный системный аналитик в департаменте по работе с данными «Магнита». В этой статье рассказываю про виртуального помощника (чат‑бота), который помогает пользователям корпоративного хранилища данных (КХД) ориентироваться в данных и сервисах департамента и других подразделений, развивающих инструменты для аналитики.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0

Особенности автоматического дифференцирования в PyTorch. Часть 2

Время на прочтение 6 мин
Количество просмотров 745
Блог компании БАРС Груп Python *Big Data *Искусственный интеллект
Перевод

Привет! На связи команда «БАРС Груп», и мы продолжаем разговор о фреймворке PyTorch. Это фреймворк ML для Python с открытым исходным кодом, широко применяемый для решения прикладных задач, связанных с нейросетями. Как правило, фреймворки машинного обучения часто заточены либо на удобство использования, либо на скорость. PyTorch же отличается тем, что сочетает в себе оба преимущества. Он поддерживает код как модель, упрощает отладку и согласуется с другими популярными библиотеками научных вычислений, оставаясь при этом эффективным и поддерживая аппаратные ускорители, такие как графические процессоры. При этом каждый аспект PyTorch — это обычная программа Python, находящаяся под полным контролем пользователя.

Это вторая часть статьи‑перевода от команды разработчиков PyTorch (Адама Пашке, Сэма Гросса и их единомышленников).

Читать далее, узнать более
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 0

Как спрогнозировать спрос на самокаты и не захламить город, версия Whoosh

Уровень сложности Простой
Время на прочтение 11 мин
Количество просмотров 3K
Блог компании Whoosh Big Data *Машинное обучение *
Кейс
🤖 Сезон machine learning

Нельзя просто так взять и расставить электросамокаты в городе. Надо, чтобы они находились в нужное время, в нужном месте и в нужном количестве, чтобы выполнять свою транспортную задачу. Спрос на поездки в разных локациях неодинаковый, поэтому если поставить самокаты ровным слоем на улицах города — будет неэффективно. Нельзя также расставить их только в местах сильного пользовательского притяжения, забыв при этом про периферию.

Нужен хоббит алгоритм, который бы рассчитал, какое количество поездок можно ожидать на определенной парковке в определенный временной промежуток.

Меня зовут Никита Зеленский, я руковожу отделом по работе с данными в Whoosh, разработчике технологических решений и операторе микромобильности. Эту статью мы написали вместе с Иваном Маричевым, дата‑сайнтистом Whoosh. Он же и автор алгоритма, о котором пойдет речь.

Здесь мы расскажем, как мы реализовывали модель прогнозирования спроса на самокаты, с чем сталкивались при прототипировании, какие модели были протестированы, чем наш случай отличается от прогнозирования спроса в каршеринге, спроса для пополнения запасов в дарксторе и т. п. (Самокат, самокаты Whoosh передают привет!)

История получилась про наши подходы и грабли, которые мы в итоге собрали. Чуть‑чуть про технику, чуть‑чуть про бизнес — нескучно и с ветерком (как на самокате).

Whoosh!

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 10

Тысяча и один справочник в Master Data Management Ростелекома Импортозамещение

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 713
Блог компании Ростелеком Big Data *Data Engineering *
Обзор

Всем привет! В предыдущей статье мы рассказали об использовании коробочного продукта Master Data Management и обещали рассказать о дальнейшем развитии подходов управления справочниками в компании. Сегодня мы сдержим свое обещание.

Система MDM - специализированное программное решение, которое помогает унифицировать нормативно-справочную информацию (НСИ) во всех информационных системах предприятия и организовать управление НСИ

Коробочный продукт мы использовали в течение пяти лет. И спустя эти пять лет наша история создания и развития MDM получила логическое продолжение – мы создали свой программный продукт Master Data Management, о котором сегодня и расскажем вам.

Наступило новое время импортозамещения, поменялись платформы в компании, мы активно включились в процесс и разработали концепцию импортозамещенного MDM.

Нам повезло, что за годы использования существующего решения у нас сложилась успешная методика построения MDM в компании. Поэтому методический подход к организации справочников и взаимодействию с системами источниками и подписчиками остался прежним.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 5

Почему буксует трансформация процессов эксплуатации российских телеком-сетей к data-driven network operations

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 704
Big Data *
Мнение

Сегодня у всех без исключения российских телеком‑провайдеров в штате находится солидный отдел, или даже целый департамент, посвященный исключительно «(Биг) Дате». В пресс‑релизах наши операторы соревнуются за звание самой дата‑дривен компании. Но работники сетевой эксплуатации тех же операторов утверждают, что ничего и не слышали о дата‑дривен решениях для них. Автор задается вопросом почему — резюмируя свои беседы с работниками сетевой эксплуатации разных операторов.

Читать далее
Всего голосов 2: ↑0 и ↓2 -2
Комментарии 0

Большие данные мертвы. Это нужно принять

Уровень сложности Средний
Время на прочтение 17 мин
Количество просмотров 54K
Блог компании FirstVDS Облачные вычисления *Big Data *Data Engineering *
Мнение
Перевод

Уже более десяти лет тот факт, что люди с трудом извлекают из своих данных полезную информацию, сбрасывают на чересчур большой размер этих данных. «Объем собираемой информации слишком велик для ваших хилых систем», — такой нам ставили диагноз. А лекарство, соответственно, заключалось в том, чтобы купить какую‑нибудь новую причудливую технологию, которая сможет работать в больших масштабах. Конечно, после того, как целевая группа по Big Data покупала новые инструменты и мигрировала с устаревших систем, компании снова обнаруживали, что у них по‑прежнему возникают проблемы с пониманием своих данных.

В результате постепенно некоторые начинали понимать, что размер данных вообще не был проблемой.

Мир в 2023 году выглядит иначе, чем когда зазвенели первые тревожные звоночки по поводу Big Data. Катаклизм обработки информации, который все предсказывали, не состоялся. Объемы данных, возможно, немного возросли, но возможности аппаратного обеспечения росли еще быстрее. Поставщики услуг все еще продвигают свои возможности масштабирования, но люди, которые сталкиваются с ними на практике, начинают задаваться вопросом, как они вообще связаны с их реальными проблемами.

А дальше будет и того интереснее.

Читать далее
Всего голосов 145: ↑141 и ↓4 +137
Комментарии 76

«Еще умнее — еще проще для пользователя»: CEO Postgres Pro Олег Бартунов о будущем СУБД, open source и астрономии

Время на прочтение 13 мин
Количество просмотров 4.4K
PostgreSQL *Программирование *Big Data *Интервью IT-компании
Мнение

Большие данные — вещь относительная. Посмотрите на любого блогера: он генерирует кучу данных, в его телефоне десятки, а то и сотни гигабайтов изображений и видео. Если он не может обработать их с помощью подручных средств, их вполне можно считать большими данными.

При этом оцифрованная Библиотека конгресса в США совсем маленькая, хранить ее у себя дома может любой. Телескопы, на которых работают в Америке, могут производить несколько десятков терабайт за одну ночь. А радиотелескоп, размер которого квадратный километр, будет производить петабайты.

Читать далее
Всего голосов 28: ↑27 и ↓1 +26
Комментарии 2

Как ускорить пилотные проекты по анализу больших данных

Время на прочтение 11 мин
Количество просмотров 1K
Блог компании Factory5 Data Mining *Big Data *Data Engineering *

Всем привет! Меня зовут Диляра. Я дата‑сайентист команды разработки F5 Platform — low‑code платформы для аналитики данных средних и крупных предприятий. Наша команда разрабатывает математический сервис продукта, алгоритмы обработки данных и модели для пресейл и пилотных проектов, а также занимается их запуском в эксплуатацию.

В статье я расскажу о том, с какими типовыми проблемами мы столкнулись при внедрении F5 Platform, какой инструмент разработали для их преодоления, и как он помог нам ускорить проведение пилотных проектов. Я хочу поделиться историей создания F5 Future — no‑code сервиса приложений, призванного облегчить работу дата‑сайентистов и бизнес‑пользователей при проверке гипотез и проведении пилотных проектов по анализу данных.

Читать далее
Рейтинг 0
Комментарии 0

Реализация мультиоблачной стратегии для Cloud Storage в Битрикс24

Время на прочтение 8 мин
Количество просмотров 675
Блог компании VK Блог компании Битрикс24 Big Data *Хранилища данных *Облачные сервисы *


Битрикс24 — корпоративное SaaS-решение (Software as a Service, программное обеспечение как услуга), которым пользуются компании разного масштаба и профиля для коммуникации между сотрудниками, хранения файлов, документов, ведения CRM. Битрикс24 используют тысячи клиентов, каждый из которых генерирует и хранит на базе сервиса гигабайты и даже терабайты данных. Для их хранения используется объектное S3-хранилище Cloud Storage от VK Cloud.

Директор направления облачных сервисов Битрикс24 Александр Демидов рассказал команде VK Cloud, зачем понадобилось S3-хранилище, как его внедряли и интегрировали в архитектуру облачного сервиса Битрикс24.
Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 0

Особенности автоматического дифференцирования в PyTorch. Часть 1

Время на прочтение 6 мин
Количество просмотров 1.4K
Блог компании БАРС Груп Python *Алгоритмы *Big Data *Искусственный интеллект
Перевод

Привет! На связи команда «БАРС Груп». Мы разработали и совершенствуем российскую BI‑платформу Alpha BI. Это возможно благодаря таким фреймворкам, как PyTorch.

PyTorch активно развивается более пяти лет и представляет собой целую экосистему для создания моделей машинного обучения на основе глубоких нейронных сетей. У подобных ИТ‑продуктов широкий спектр применения. В частности, они помогают научному и бизнес‑сообществу проводить исследования, вести разведку данных и проверять гипотезы. Несмотря на то, что на сегодняшний день это один из самых популярных фреймворков машинного обучения в мире, в рунете пока довольно мало статей о его технических особенностях. Попытаемся это исправить.

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Комментарии 2

Вклад авторов

Работа

Data Scientist
130 вакансий