Как стать автором
Обновить
70.67
Рейтинг

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Реальный путь в data science

Простой Простой
Время прочтения 4 мин
Просмотры 2.5K
Python *Data Mining *Big Data *Карьера в IT-индустрии Data Engineering *
Из песочницы

Эта статья про мой путь до первой работы в DS (data science). Путь был не маленьким и был пройден за 2,5 года. Кого-то эта цифра отпугнет, если бы я знал это в начале, то меня бы тоже отпугнула, кто-то назовет меня неспособным дурачком (и отчасти будет прав), а для кого-то (я надеюсь) эта статья поможет сократить время обучения и пройти этот путь быстрее.

Читать далее
Всего голосов 15: ↑7 и ↓8 -1
Комментарии 0

Новости

Гайд по созданию Big Data-проектов в облаке: технологический стек, этапы и подводные камни

Время прочтения 8 мин
Просмотры 885
Блог компании VK Системное администрирование *Big Data *DevOps *Облачные сервисы *
Туториал


Любой специалист, который когда-либо работал с Big Data знает, что в подобных проектах большой не только объем данных. Также это внушительные вычислительные ресурсы, разветвленный технологический стек и мощная инфраструктура. Поэтому Big Data-проекты часто реализовывают в облаке. 

Меня зовут Алексей Бестужев, я архитектор VK Cloud, и в этой статье мы обсудим нюансы и неочевидные особенности запуска процессов при работе с большими данными в облаке. 

Материал подготовлен на основе нашего совместного вебинара с Кириллом Сливчиковым, управляющим партнером компании 7RedLines. 
Читать дальше →
Всего голосов 15: ↑14 и ↓1 +13
Комментарии 2

Управление на основе данных. Что общего между электронным дневником и базой налоговой?

Время прочтения 7 мин
Просмотры 1K
Блог компании Команда Цифровой Трансформации Татарстана Big Data *Открытые данные *Хранение данных *
Обзор

Сегодня о подходе к управлению, основанному на данных, не говорит только ленивый. Кто уже имеет с этим дело в своей работе, предлагаем сразу переходить к разделу с описанием опыта Татарстана по управлению данными. А для тех, кто этим направлением раньше не интересовался, Центр цифровой трансформации Татарстана дает пару вводных.

Читать далее
Всего голосов 5: ↑3 и ↓2 +1
Комментарии 2

Администрируем сервер Дельта BI, применяя опыт работы с Tableau Server

Время прочтения 7 мин
Просмотры 290
Big Data *Визуализация данных *Хранение данных *Хранилища данных *
Обзор

Головная боль администратора BI сервера пропорциональна масштабу развернутого решения. Начнем с главных ориентиров, следуя которым мы привыкли достигать баланса в работе BI сервера (и улучшать качество ночного сна админа). А дальше разберемся, какой функционал помогает решать эти и другие задачи в Дельта BI — на фоне привычного для Vizuators Tableau Server (TS).

Читать далее
Рейтинг 0
Комментарии 0

Как я создавал свой первый дашборд на Visiology 3 и почему второй буду делать немного позже

Время прочтения 5 мин
Просмотры 1.6K
Блог компании Visiology SQL *Big Data *Визуализация данных *Хранение данных *
Кейс

Привет, Хабр! Меня зовут Салават Сафиуллин, и сегодня я хочу поделиться с вами своим первым опытом создания дашборда на Visiology 3. Это новая версия платформы, которой мы пользуемся уже несколько лет, но она кардинально отличается как архитектурой, так и принципами работы. Дашборды на версии нужно создавать заново и по-другому. Поэтому мне было особенно интересно сделать пробу и подготовить дашборд на базе демонстрационной Visiology 3.0. Под катом — подробный рассказ о моем "пилоте" и некоторые мысли о работе с новой версией Visiology.

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 3

Выжить без cookies: как мы объединили CDP и сквозную аналитику для компании-автопроизводителя

Время прочтения 8 мин
Просмотры 1K
Блог компании ГК ЛАНИТ Big Data *Интернет-маркетинг *Медийная реклама *Повышение конверсии *
Кейс

В этой статье мы расскажем об интеграции платформы для управления собственными данными от нашей компании CleverData с решением для сквозной аналитики Calltouch. Проект проводили для компании‑автопроизводителя с разветвленной дилерской сетью.

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 2

Сравнение систем Machine Learning as a Service: Amazon, Microsoft Azure, Google Cloud AI, IBM Watson

Время прочтения 26 мин
Просмотры 1.3K
Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Большинству компаний машинное обучение кажется чем-то сверхсложным, дорогим и требующим серьёзных специалистов. И если вы намереваетесь создавать новую систему рекомендаций Netflix, то так и есть. Однако тенденция превращения всего в сервис затронула и эту сложную сферу. Начать с нуля проект ML можно без особых инвестиций, и это будет правильным решением, если ваша компания новичок в data science и хочет начать с решения самых простых задач.

Одна из самых вдохновляющих историй об ML — это рассказ о японском фермере, решившем автоматически сортировать огурцы, чтобы помочь своим родителям в этой утомительной работе. В отличие от крупных корпораций, этот парень не имел ни опыта в машинном обучении, ни большого бюджета. Однако ему удалось освоить TensorFlow и применить глубокое обучение для распознавания разных классов огурцов.

Благодаря облачным сервисам машинного обучения вы можете начать создавать свои первые рабочие модели, делая ценные выводы из прогнозов даже при наличии небольшой команды. Мы уже говорили о стратегии машинного обучения. Теперь давайте рассмотрим лучшие на рынке платформы машинного обучения и поговорим об инфраструктурных решениях, которые нужно принять.
Читать дальше →
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 1

Shortgun метагеномика

Время прочтения 3 мин
Просмотры 584
Big Data *Научно-популярное Биотехнологии Биология
Обзор

Технология секвенирования долго применялась для установления последовательности ДНК клеток одного вида (то есть «чистых культур»), а вот при попытке секвенировать материал из природных образцов возникало немало проблем. Пока не появилась метагеномика. Это направление занимается исследованием целых сообществ организмов, населяющих то или иное местообитание. Причем, оперируя метагеномными данными, ученые порой даже не имеют представления о внешнем виде и таксономической принадлежности изучаемых живых существ. Познакомимся с этой темой в деталях.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Как структурировать процессы контроля качества для аннотаций медицинских снимков

Время прочтения 12 мин
Просмотры 1.1K
Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект Здоровье
Перевод

При создании любой модели компьютерного зрения командам разработчиков машинного обучения требуются высококачественные массивы данных с высококачественными аннотациями, чтобы обеспечить хорошую точность модели.

Однако когда дело касается создания моделей искусственного интеллекта для применения в здравоохранении, ставки становятся ещё выше — эти модели могут непосредственно влиять на жизни людей. Их необходимо обучать на данных, аннотированных опытными медицинскими специалистами, у которых не очень много свободного времени. Также они должны удовлетворять высоким научным и нормативным стандартам, поэтому чтобы вывести модель из разработки в продакшен, командам разработчиков ML необходимо обучать их на лучших данных с лучшими аннотациями.

Именно поэтому у любой компании, занимающейся компьютерным зрением (особенно если она создаёт модели для медицинской диагностики), должен существовать процесс контроля качества аннотаций медицинских данных.
Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 1

Зачем мы моделируем импульсные нейронные сети и с помощью чего это делаем

Время прочтения 17 мин
Просмотры 2.7K
Блог компании Росатом Big Data *Машинное обучение *
Обзор

Привет, Хабр! На связи Михаил Киселев, руководитель направления в отделе ИИ компании «Цифрум» (Росатом) и руководитель лаборатории нейроморфных вычислений в Чувашском государственном университете. Сегодня подниму тему импульсных нейронных сетей. Общее представление о том, что такое искусственные нейронные сети, есть, наверное, у всех. Многие представляют, зачем они нужны, как устроены, как работают. Речь пойдет об одной их разновидности – импульсных нейронных сетях (ИНС). Нейросети вообще мыслились их создателями как компьютерные модели ансамблей нервных клеток мозга – это и из их названия следует. У разных типов нейросетей степень этого сходства разная. Так вот, ИНС – это самый похожий на биологический мозг тип нейронных сетей.

За счет этой похожести достигаются немалые преимущества. Прежде всего – энергоэкономичность нейропроцессоров. Почему же тогда мы не видим вокруг себя эти импульсные сети – в смартфонах, камерах, умных часах, умных утюгах?

Читать далее и узнать, почему же
Всего голосов 17: ↑15 и ↓2 +13
Комментарии 47

Виброакустический мониторинг дорожной обстановки

Время прочтения 12 мин
Просмотры 2.4K
Блог компании Haulmont Big Data *Машинное обучение *Будущее здесь
Кейс

В России впервые в мире внедрили систему акустического мониторинга по волоконно-оптическим линиям на действующей автомобильной дороге протяженностью около 240 километров. Система позволяет в режиме реального времени отслеживать большое количество событий на дороге с точностью до 1 метра по акустическим следам от участников дорожного движения. 

Проект был реализован компанией "СМАРТС", за программную часть отвечала ИТ-компания Haulmont. Собственно далее рассказ пойдет от лица разработчиков о сложностях и нюансах этого уникального проекта.

Читать далее
Всего голосов 16: ↑15 и ↓1 +14
Комментарии 24

Заповеди начинающего DS

Время прочтения 9 мин
Просмотры 5.8K
Блог компании OTUS Big Data *Машинное обучение *
Роадмэп

Привет! Меня зовут Mashkka Тихонова. Я - Senior Data Scientist, а еще я активно преподаю все, что связано с ML, DS и DL - помогаю людям начать свой путь в Data Science!

За годы преподавания у меня накопилось много советов для тех, кто только-только начинает свой путь в DS. Этими советами я всегда делюсь со студентами, а теперь решила собрать их в одном посте, написанном по мотивам моей серии постов в tg .

Советы эти совсем простые (уровня не заваливай горизонт на фото, когда фоткаешь пейзаж), но очень часто именно про такие базовые вещи на первых этапах забывают рассказать.В свое время я сама наступала на эти грабли, так как мне их никто не рассказал. Буду рада, если помогу вам этих ошибок избежать!

Читать далее
Всего голосов 20: ↑15 и ↓5 +10
Комментарии 14

Топ-5 трендов управления производственными активами

Время прочтения 6 мин
Просмотры 535
Блог компании Factory5 Data Mining *Big Data *Машинное обучение *Data Engineering *
Обзор

Мы в Factory5 постоянно исследуем рынок и отмечаем тенденции развития не только отечественного, но и зарубежного рынка цифровых решений для промышленности. 2022 год стал поворотным в истории многих предприятий: компаниям приходилось трансформироваться под новые реалии, пробовать новое и принимать быстрые решения. Представляем вашему вниманию обзор актуальных трендов рынка применения систем класса EAM (Enterprise Asset Management). Такие системы применяются для автоматизации бизнес-процессов учета, технического обслуживания и ремонта основных фондов промышленных компаний.

Читать далее
Всего голосов 2: ↑1 и ↓1 0
Комментарии 0

Как не попасть в яму с помощью нейронных сетей: технологии приходят на помощь коммунальщикам

Время прочтения 8 мин
Просмотры 1.1K
Блог компании Сбер Big Data *Машинное обучение *Искусственный интеллект Инженерные системы *

Привет, Хабр! Меня зовут Андрей Соловьёв, я DS в Сбере. Вероятно, практически каждый читатель этой статьи сталкивался с проблемными дорогами, если вы автомобилист, или тротуарами, если вы пешеход. Плохие дороги — одна из актуальнейших проблем любой страны. Сегодня поговорим о том, как технологии могут помочь решить эту проблему.

Задача состоит в распознавании повреждений дорожного покрытия. Общая дорожная сеть Российской Федерации — 1,5 млн км, из которых примерно 75% — дороги общего пользования. При этом около 65% таких дорог имеют твёрдое покрытие, однако 55% из них не соответствуют нормативным требованиям. Иными словами, большинство национальных дорог содержит различные дефекты, и это становится серьёзной опасностью как для владельцев транспортных средств, так и для самого транспорта, а также для пешеходов. Что делать? Конечно же, привлечь нейросети. Как — рассказываю под катом.

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 3

Истории

Обзор книги «Data Science. Наука о данных с нуля», отличная книга для начинающих

Время прочтения 10 мин
Просмотры 8.9K
Python *Big Data *Профессиональная литература *

Всем доброго времени суток! Так как о Data Science мы слышим всё чаще и чаще, предлагаю вам обзор книги, что будет полезна для начинающих.

Публикую обзор книги с моего телеграмм-канала IT-старт t.me/it_begin на книгу "Data Science.Наука о данных для начинающих".

Автор книги Джоэл Грас.

Стоит читать? Да! Почему? Опишу в статье.

Читать далее
Всего голосов 10: ↑8 и ↓2 +6
Комментарии 3

Как в Учи.ру построили платформу для анализа A/B-тестов на ClickHouse

Время прочтения 6 мин
Просмотры 1K
Блог компании Учи.ру SQL *IT-инфраструктура *Big Data *
Кейс

Привет, Хабр! Меня зовут Федор Тюрин, я руководитель команды продуктовой аналитики в Учи.ру. Мы проводим очень много А/Б-тестов (десятки запусков в неделю и сотни в течение года). В таких условиях очень важна автоматизация процесса анализа и подведения итогов теста.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 3

Компьютерное зрение: загрузка и подготовка данных Fashion MNIST

Время прочтения 14 мин
Просмотры 787
Блог компании OTUS Big Data *Машинное обучение *Искусственный интеллект

Глубокое обучение — это набор методов, которые особенно хорошо работают с задачами компьютерного зрения и обработки естественного языка. DL является частью более широкой области, называемой машинным обучением (ML).

В данной практике мы хотим распознавать разные предметы одежды, обученные на наборе данных, содержащем 10 различных типов — по сути, проблема классификации изображений, а не данные, напоминающие что-то вроде набора данных Iris, который мы далее рассмотрим.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 0

Важные исследования в области AI в 2022 г

Время прочтения 12 мин
Просмотры 3.7K
Big Data *Машинное обучение *Natural Language Processing *
Обзор
Перевод

Данная статья представляет собой свободный перевод раздела "Исследования" из доклада State of the Art 2022 (октябрь). Доклад State of the Art публикуется уже пятый год. Это подборка самых интересных вещей в мире AI, (конечно с точки зрения авторов). Отчет включает в себя несколько блоков:

Читать далее
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 4

Интерпретируемость ML-моделей: от инструментов до потребностей пользователя

Время прочтения 7 мин
Просмотры 2.1K
Блог компании Open Data Science Big Data *Машинное обучение *Искусственный интеллект

Интерпретируемость ML-моделей - очень широкая концепция. То, насколько интерпретация хороша, зависит не только от инструментов и отчетов, которые мы предоставляем пользователю, но и от потребностей пользователя и особенностей задач, которые он решает.

В статье разберемся, как эффективно работать с интерпретируемостью ML-моделей в зависимости от потребностей ключевых пользователей.

Читать далее
Всего голосов 22: ↑22 и ↓0 +22
Комментарии 5

Цвет сезона – слива. Что мы сделали с GreenPlum в 2022-м и что планируем в 2023-м

Время прочтения 7 мин
Просмотры 1.8K
Блог компании GlowByte Open source *Big Data *Хранилища данных *

Привет, Хабр! Меня зовут Марк Лебедев, работаю архитектором в GlowByte. В июне 2022 года на митапе DataPeople мы с командой рассказывали о наших планах в части GreenPlum (запись выступления). Если коротко, тогда мы сфокусировались на развитии open-source и собирались выложить в публичный доступ наши наработки относительно мониторинга кластера и мониторинга запросов, плейбуки по инсталляции и наши подходы для нагрузочного тестирования. Собственно про них и хотелось бы поговорить подробно. В этой статье мы подведём итоги, что нам удалось сделать за прошедшие 6 месяцев, и расскажем о планах на будущий год. В конце статьи укажем все ссылки на репозитории.

Читать далее
Всего голосов 15: ↑14 и ↓1 +13
Комментарии 2

Вклад авторов

Работа

Data Scientist
156 вакансий