Как стать автором
Обновить
78.63
Рейтинг

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Что учесть при разработке интеграций информационных систем

Блог компании Юнидата Анализ и проектирование систем *Big Data *Управление разработкой *

Невозможно представить современную информационную систему (далее – ИС), которая бы стояла особняком, и не была бы интегрирована с другими. Особенно, если мы говорим о корпоративных или государственных данных. Вопросу интеграций посвящены целые книги, такие как «Шаблоны интеграции корпоративных приложений» Грегора Хопа. Некоторые издания пытаются рассматривать не только технические, но и организационные вопросы интеграции (например, «Предметно-ориентированное проектирование (DDD)» Эрика Эванса). Между тем, современный уровень технологий и высокий уровень компетентности разработчиков очень сильно снижает технические риски, выставляя на первый план организационные. В этой статье мы рассмотрим интеграции информационных систем именно с точки зрения организационных рисков. 

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 424
Комментарии 0

Новости

9 продуктов для создания дашбордов

Open source *Apache *Big Data *Визуализация данных *DevOps *

Семь Open Source и два low-code-продукта для визуализации BI-аналитики от AFFINAGE

Для решение клиентских задач мы постоянно ищем способы сделать лучше. И очень часто сделать лучше значит сменить продукт. Поэтому мы постоянно анализируем рынок различных nocode-решений. Мы решили поделиться накопленными знаниями о такой важной задаче как построение аналитических дашбордов.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 3.5K
Комментарии 19

Автоматический подбор параметров для Spark-приложений

Блог компании oneFactor IT-инфраструктура *Scala *Big Data *Машинное обучение *

Всем привет! Меня зовут Валерия Дымбицкая, я технический руководитель команды дата-инженеров в OneFactor. В этой статье я расскажу о том, как мы научились автоматически подбирать параметры для Spark-приложений на основе логов.

Проблема, которую мы решали, может встретиться при регулярном, предсказуемом, интенсивном использовании Hadoop-кластера. Я расскажу, как мы простыми средствами сделали рабочую автономную систему тюнинга, сэкономив в итоге 15-16% ресурсов кластера. Вас ждут детали с примерами кода.

В первой половине статьи я расскажу про то, какая перед нами стояла задача, и разберу ключевые пункты для её решения. Во второй половине будет рассказ о том, как это решение подготовить к работе на продуктиве и что мы из этого всего получили.

Зачем нам вообще понадобился автоматический тюнинг?

Начнём с инфраструктуры. Сетап у нас "классический": ограниченный Hadoop-кластер из купленных серверов. В нём на тот момент, когда мы начали всё это делать, было около 30Тб RAM и 5к CPU. В этом кластере запускается множество разноплановых приложений на Apache Spark и в какой-то момент им стало тесновато. Всё больше приложений висели в PENDING значительное время, потребление памяти утроилось за последние 4 месяца. Сохранять такую тенденцию не хотелось.

Довольно много приложений были от продукта Лидогенерация. Базово он устроен так: есть список номеров телефонов (база) и есть Spark ML Pipeline, который каким-то образом отбирает из этой базы лидов абонентов для некоего целевого действия – например, для предложения продукта клиенту. База может меняться от раза к разу. Вот такую пару из

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 450
Комментарии 7

#3 Нейронные сети для начинающих. Работа с изображениями в OpenCV. Алгоритм Canny Edge Detector

Блог компании RUVDS.com Python *Алгоритмы *Big Data *Машинное обучение *
Tutorial


Здесь должна быть шутка
image

Сегодня я хочу представить вам третью статью из серии «Нейронные сети для начинающих». Мы научимся обрабатывать изображения и сохранять результаты в отдельные файлы. Вот небольшой список задач, которые будут разобраны ниже:

  1. Преобразование изображения в оттенки серого.
  2. Уменьшение размерности изображения (в пикселях) в 4 раза.
  3. Нахождение и выделение (рамкой) самого тёмного объекта на изображении.
Читать дальше →
Всего голосов 37: ↑35 и ↓2 +33
Просмотры 3.6K
Комментарии 28

Как понять, что пришло время внедрять платформу для анализа данных?

Блог компании Factory5 Data Mining *Big Data *Машинное обучение *Data Engineering *

Эффективные управленческие решения основаны на качественной аналитике данных. Но информации становится больше, а ее анализ — труднее. Всё чаще на помощь компаниям приходит прогнозная или предиктивная аналитика, позволяющая справиться с экспоненциальным ростом информации благодаря использованию методов машинного обучения.

В этой статье мы рассмотрим предпосылки и признаки необходимости внедрения платформенных решений, а также укажем на аспекты, о которых надо помнить перед или при внедрении системы.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 679
Комментарии 0

Что ждет data-инжиниринг в будущем

Блог компании VK Big Data *Хранилища данных *


Отношение к data-инжинирингу и к профильным специалистам со временем меняется. Возможно ли, что в скором времени data-инженеры перестанут быть востребованными? Команда VK Cloud перевела статью о ближайшем будущем для всех тех, кто работает с данными.

Что такое data-инжиниринг


Давно ли работающие с данными компании открыли новую профессиональную область и мы услышали термин «data-инжиниринг»? Лет десять назад. Когда бизнес осознал, насколько полезными могут быть данные, спрос на data-инженеров резко вырос. По данным Google, отмечается экспоненциальный рост интереса к термину «data-инженер», который достиг пика примерно в 2020 году.



Так что же такое data-инжиниринг, столь стремительно набравший обороты и остающийся востребованным вот уже несколько лет?  В традиционном понимании data-инженерами называют людей, занимающихся перемещением, формированием и преобразованием данных из источников с помощью инструментов извлечения аналитических сведений, которые нужны для работы разных отделов компании.
Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 1.8K
Комментарии 2

Geointellect.Urban — индекс комфортности по кварталам

Геоинформационные сервисы *Big Data *Визуализация данных *
Из песочницы

Привет, Хабр! Я работаю аналитиком в компании “Центр пространственных исследований” и в этой статье расскажу об одном из инструментов, который мы используем при оценке удобства проживания в городе.

Обеспечить комфортную среду проживания - одна из приоритетных целей городского развития. Но для ее достижения нужно заниматься постоянным мониторингом и модернизацией социальной инфраструктуры. К соц инфраструктуре относятся организации, связанные с системами здравоохранения и образования, сферами общественного питания, досуга и отдыха, транспорта и др. Отслеживание проблем в доступности и работе этих объектов нужно для поддержания, улучшения уровня жизни горожан. Поэтому возникает необходимость создания комплексного инструмента, который позволит оценить уровень удобства проживания в городе. Для решения этой задачи и был разработан Geointellect.Urban.

В основе Geointellect.Urban  лежит математическая модель, которая описывает комфортность проживания в кварталах города с точки зрения доступности объектов инфраструктуры, таких как продуктовые магазины, аптеки, школы, детские сады, ТЦ, парки и прочее. Иными словами, он служит оценкой уровня благоустройства города.

Его расчет основывается на построении и нахождении длин маршрутов от центроидов кварталов города до рассматриваемой группы объектов. При этом инструмент учитывает автомобильную или пешеходную доступность к объектам в зависимости от того, каким образом люди обычно до них добираются. Например, до аэропортов или ж/д вокзалов строятся маршруты на автомобиле, а до аптек и продуктовых магазинов - маршруты пешком. Полученное значение времени пути по кварталам нормируется: переводится в шкалу от 0 до 100, где 0 — лучшая доступность, 100 — худшая. Таким образом, мы получаем оценку привлекательности кварталов по разным параметрам. Данный индекс можно рассчитать по любому городу, имея данные о местоположении объектов инфраструктуры, делении города на кварталы, а также графы пешеходных и автомобильных дорог. 

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 580
Комментарии 0

Enterprise Data Warehouse: компоненты, основные концепции и типы архитектур EDW

Data Mining *Amazon Web Services *Big Data *Хранение данных *Хранилища данных *
Перевод
image

Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений.

Наш мозг может и обрабатывать, и хранить информацию, а компаниям для работы с данными требуется множество разных инструментов. И одним из самых важных является корпоративное хранилище данных (enterprise data warehouse, EDW).

В этой статье мы расскажем о том, что же такое EDW, каких типов они бывают и какие функции имеют, а также как они используются в обработке данных. Мы объясним, как корпоративные хранилища отличаются от обычных, какие типы хранилищ данных существуют и как они работают. В первую очередь мы хотим дать вам информацию о ценности для бизнеса каждого архитектурного и концептуального подхода к построению хранилища.
Читать дальше →
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 1.3K
Комментарии 1

Как мы делали МЦОД для самого холодного региона России

Блог компании GreenMDC IT-инфраструктура *Big Data *Хранение данных *Сетевое оборудование

Привет, Хабр! Меня зовут Федор Клименко, я СЕО компании GreenMDC – мы занимаемся разработкой и производством модульных дата-центров. И иногда доставляем и собираем наши МЦОДы в экзотических регионах. Например, в марте запустили МЦОД в Якутске, где зимой столбик термометра опускается до -60 градусов. Сегодня расскажу о том, как мы везли дата-центр за 9 000 км и собирали его при -30, сколько слоев одежды было на монтажниках, как мы нашли работающий при такой погоде кран и избежали пайки фреонопроводов на морозе.

Предыстория

Для начала скажу, что хоть и являюсь гендиром компании, но в душе остаюсь инженером и люблю путешествовать. А потому часто работаю «в полях» и лично принимаю участие в монтаже и запуске МЦОДов, особенно, если проект интересный – такой как в Якутске.

Этот модульный ЦОД мы разработали по заказу «Республиканского центра информационных технологий» Республики Саха (Якутия) и сделали это в рамках проекта по цифровизации региональных госуслуг. Соответственно, МЦОД хранит и обрабатывает информацию, которая касается таких сфер жизни, как здравоохранение, образование, служба МЧС, банковские услуги, сельское хозяйство и др. Здесь, например, разместился портал госуслуг, мониторинг обстановки при ЧС, в том числе лесных пожаров, колл-центр 122, интеллектуальная транспортная система региона и единая система электронного документооборота.

Читать далее
Всего голосов 51: ↑51 и ↓0 +51
Просмотры 6.3K
Комментарии 31

Как уменьшить размер образа Docker для JVM

Блог компании Издательский дом «Питер» Big Data *Хранилища данных *Kubernetes *
Перевод
image

Если вы уже достаточно долго пишете на Kotlin, или Scala, или на любом другом языке, основанном на JVM, то могли заметить: начиная с Java 11 среда Java Runtime Environment (JRE) больше не поставляется в виде отдельного дистрибутива, а распространяется только в составе Java Development Kit (JDK). В результате такого изменения многие официальные образы Docker не предлагают вариант образа «только для JRE». Таковы, например, официальные образы openjdk, образы corretto от Amazon. В моем случае при использовании такого образа в качестве заготовки получался образ приложения, завешивавший на 414 MB, тогда как само приложение занимало всего около 60 MB. Мы стремимся к эффективной и бережливой разработке, поэтому такая расточительность для нас непозволительна.

Давайте же рассмотрим, как можно радикально уменьшить размер Docker-образа для Java.
Читать дальше →
Всего голосов 19: ↑19 и ↓0 +19
Просмотры 5.8K
Комментарии 15

Эволюция архитектуры данных: как потребности бизнеса изменили инструменты для хранения данных

Блог компании VK Big Data *Машинное обучение *Хранилища данных *DevOps *


Команда VK Cloud перевела статью о том, как с течением времени менялась и развивалась архитектура данных и какие инструменты появлялись в ответ на потребности бизнеса.

Введение


Задачи по работе с данными отделяют от бизнес- и других аналитических задач (BI, дата-сайенс, когнитивные решения и т. п.) с тех пор, как появились первые ИТ-системы и бизнес-приложения. Из-за высокой ресурсоемкости рабочие нагрузки по аналитической обработке данных приходится отделять от ИТ-систем, отвечающих за бизнес-операции, иначе они столкнутся со сбоями и нехваткой ресурсов, что приведет к неудобствам для пользователей, работающих с системой.
Читать дальше →
Всего голосов 24: ↑23 и ↓1 +22
Просмотры 2.8K
Комментарии 6

Непрерывное обучение для продакшен-систем

Data Mining *Big Data *Машинное обучение *Управление разработкой *Искусственный интеллект
Перевод
image

Жизненный цикл машинного обучения

Введение


Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований.

Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО.

Но что произойдёт, когда мы осуществим переход к Software 2.0?
Читать дальше →
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 1.2K
Комментарии 0

Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны

Блог компании Selectel IT-инфраструктура *Data Mining *Big Data *Машинное обучение *

Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе.

Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой.

В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом.
Читать дальше →
Всего голосов 41: ↑39 и ↓2 +37
Просмотры 2K
Комментарии 3

Линейный прогноз в Tableau. Терапевтический очерк

Big Data *Визуализация данных *Инфографика

Линейный прогноз. Такой простой, понятный и востребованный, практически, в любой коммерческой отрасли. Казалось бы, посчитать его можно где угодно без особого труда. Но у Tableau на этот счет есть иное мнение...

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 1.5K
Комментарии 0

Анализ временных рядов, применение нейросетей (1 часть)

Data Mining *Big Data *Машинное обучение *Статистика в IT Искусственный интеллект
Tutorial

В этой статье, я опишу некоторые основные понятия в теории анализа временных рядов, классические статистические алгоритмы прогнозирования и интересные алгоритмы машинного обучения, которые применяются для временных рядов

Если Вы готовы погрузиться в одну из очень интересных тем статистики и Вы любитель машинного обучения, продолжайте читать :-)

Читать далее
Всего голосов 15: ↑13 и ↓2 +11
Просмотры 5.7K
Комментарии 8

Как я пошла на хакатон Data Science с нулевым опытом в Data Science

Big Data *Хакатоны Data Engineering *
Из песочницы

23-25 сентября 2022 года проект "Цифровой прорыв. Сезон: Искусственный интеллект" провёл в Москве кейс от ВК "Машинное обучение на графах" на прогнозирование склонности к благотворителей у пользователей ВК.

Всем, кто боится ходить на хакатоны, посвящается.

Мой первый хакатон: опыт, впечатления и выводы, к которым я пришла.

Читать далее
Всего голосов 17: ↑16 и ↓1 +15
Просмотры 10K
Комментарии 11

Next Step: как перейти из продакта в Data Science

Блог компании X5 Tech Big Data *Карьера в IT-индустрии

Кризисное время всегда способствует переменам, в том числе в поиске новой профессии или приобретении опыта. Вот почему мы решили запустить рубрику Next Step о сотрудниках Х5 Tech, которые смогли поменять профессию внутри компании. Михаил Неверов, директор по анализу данных Х5 Tech, специально для нашего блога на Хабре рассказал о кардинальной смене профессии – как он решился на переход из продакта в Big Data, какие сложности пришлось преодолеть, как он справился с синдромом самозванца и каково это – возглавлять и успешно управлять департаментом по анализу данных из 130+ человек.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 1.5K
Комментарии 2

Как заменить Qlik и PowerBI с минимальными потерями: Visiology+Loginom+PostgreSQL

Блог компании Visiology Анализ и проектирование систем *Big Data *Визуализация данных *Хранение данных *

"Что делать, когда ТОПовые BI-системы стали недоступны и перспективы работы с ними оказались сильно ограничены?". Эта дилемма встает сегодня перед многими компаниями. Меня часто спрашивают, можем ли мы взять и перенести уже наработанные практики на другие платформы, доступные в России на сегодняшний день? К счастью, ответ на этот вопрос положительный, и об одном из вариантов его решения я расскажу сегодня.

Читать далее
Всего голосов 21: ↑21 и ↓0 +21
Просмотры 5.3K
Комментарии 22

Big Data + Machine Learning = Love

Блог компании FirstVDS Big Data *Машинное обучение *Искусственный интеллект Data Engineering *

В статье рассмотрим, как машинное обучение помогает обрабатывать большие объемы данных и извлекать ключевую информацию, скрытую в них. И, разумеется, приведем примеры совместного использования Big Data и Machine Learning (ML), а также расскажем об интересных проектах для тех, кто хотел бы начать работать с большими данными и ML.

Читать далее
Всего голосов 7: ↑5 и ↓2 +3
Просмотры 1.3K
Комментарии 0

Плохое качество данных – тихий убийца современных дата-стеков

Блог компании Platforma Big Data *
Перевод

В прошлом месяце мы прочитали любопытный материал в Datafloq, в котором поднимался очень важный вопрос для всех отраслей бизнеса, работающих с большими данными: как проверить качество этих самых данных? Статью мы, разумеется, прочитали  от начала до конца, поделились ею с коллегами, коллеги поделились со своими коллегами и все единогласно заявляли, едва увидев заголовок: контролируемость и отслеживаемость данных — вот камень преткновения в вопросе качества Big Data. Что ж, в принципе, ничего нового, - подумали мы, - но как выстроить процессы, связанные с этой самой отслеживаемостью? Мы перевели для вас этот материал, чтобы вы, как и мы, смогли разобраться в этом вопросе. Согласны ли вы с автором? Будем рады вашему мнению!

Подробнее в переводе Platforma
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.1K
Комментарии 2

Вклад авторов

Работа

Data Scientist
130 вакансий