Как стать автором
Обновить

4 бесплатных онлайн тренинга по MATLAB: Электропривод, ЦОС, нейросети и моделирование временных рядов

Время на прочтение1 мин
Количество просмотров4.1K
Добрый день,

Предистория. В условиях самоизоляции мы решили попробовать провести онлайн тренинг по анализу данных и машинному обучению в MATLAB, состоящий из 3х последовательных стримов с периодичностью раз в неделю. Более 1200 регистраций и много положительных отзывов. Однако, взаимодействие преподаватель-слушатель стало затруднительным в привычном виде, потому эту часть мы вывели в оффлайн.

Подумав малость, мы решили провести еще 4 таких обучения по другим популярным тематикам:
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии3

Калман, Матлаб, и State Space Models

Время на прочтение15 мин
Количество просмотров26K
Недавно kuznetsovin опубликовал пост об использовании Питона для анализа временных рядов в экономике. В качестве модели была выбрана «рабочая лошадка» эконометрики — ARIMA, пожалуй, одна из наиболее распространенных моделей для временных данных. В то же время, главный недостаток АRIMA-подобных моделей в том, что они не приспособлены для работы с нестационарными рядами. Например, если в данных присутствует тренд или сезонность, то математическое ожидание будет иметь разное значение в разных участках серии — , что не есть хорошо. Для избежания этого, АRIMA предполагает работать не с исходными данными, а с их разностью (так называемое дифференцирование — от «taking a difference»). Все бы хорошо, но тут возникают две проблемы — (а) мы возможно теряем значимую информацию беря разницу ряда, и (б) упускается возможность разложить ряд данных на составляющие компоненты — тренд, цикл, и т.п. Поэтому, в данной статье я хотел бы привести альтернативный метод анализа — State Space Modeling (SSM), в русском переводе — Модель Пространства Состояний.
Читать дальше →
Всего голосов 21: ↑21 и ↓0+21
Комментарии7

Kale — open source-инструмент для обнаружения и корреляции аномалий

Время на прочтение7 мин
Количество просмотров17K
Для мониторинга IT-инфраструктуры мы используем множество инструментов, в том числе:
  • Zabbix — о нем написано немало статей здесь на хабре. Нам очень нравятся его возможности низкоуровневого обнаружения, но его возможности визуализации данных оставляют желать лучшего.
  • Graphite — система, которая хранит данные и имеет удобный интерфейс для их отображения. Сейчас мы импортируем в нее метрики из Zabbix и храним историю.
  • Shinken — система мониторинга, которая основана на Nagios и написана на языке Python. Сейчас мы присматриваемся к ней. Нам нравится то, что в нее очень просто импортировать данные из системы документации сети Netdot (о ней я уже писал ранее), а также она легко интегрируется с Graphite.

Можно долго обсуждать преимущества/недостатки тех или иных систем мониторинга, но я хочу остановиться только на одном вопросе — выявлении аномалий. Когда в вашей системе мониторинга количество метрик измеряется сотнями, отследить аномальное поведение одной или нескольких из них не составляет труда. Но когда количество метрик измеряется десятками или сотнями тысяч, вопрос автоматического выявления аномалий становится актуальным. Ни один администратор или группа администраторов не в состоянии вручную отследить поведение сложной системы, состоящей из сотен устройств.
Инженеры из Etsy в свое время столкнулись с этой проблемой и разработали свой инструмент для обнаружения и корреляции аномалий. Называется он Kale и состоит из двух частей:

Читать дальше →
Всего голосов 32: ↑29 и ↓3+26
Комментарии7

Как остановить отток людей с онлайн-курса и заодно попасть на хакатон

Время на прочтение4 мин
Количество просмотров5.8K

Онлайн-курсы, кроме своей удобности и доступности, славятся тем, что на них необычайно легко забивать, что с успехом и делают многие слушатели. Забивать слушателям случается по самым разным причинам — непонятен курс, пропущен дедлайн, не успел набрать баллы, вышел Fallout 4 – у всех свои оправдания. А вот у нас оправданий быть не может: если человек покидает курс, мир теряет потенциального разработчика или специалиста по анализу данных, а ещё киловатт-часы и затраченное нашим героем время.


Самая сложная задача здесь — определить, кто из пользователей убежит, а зная их, уже намного проще предотвратить потери: “предупрежден, значит вооружен”.


В конце статьи вы узнаете, как с помощью решения проблемы попасть на хакатон по анализу данных


image


Читать дальше →
Всего голосов 16: ↑14 и ↓2+12
Комментарии3

Порождение и выбор моделей машинного обучения. Лекция в Яндексе

Время на прочтение11 мин
Количество просмотров22K
Применение машинного обучения может включать работу с данными, тонкую настройку уже обученного алгоритма и т. д. Но масштабная математическая подготовка нужна и на более раннем этапе: когда вы только выбираете модель для дальнейшего использования. Можно выбирать «вручную», применяя разные модели, а можно и этот процесс попробовать автоматизировать.


Под катом — лекция ведущего научного сотрудника РАН, доктора наук и главного редактора журнала «Машинное обучение и анализ данных» Вадима Стрижова, а также большинство слайдов.

Всего голосов 50: ↑49 и ↓1+48
Комментарии1

Агрегация данных временных рядов

Время на прочтение3 мин
Количество просмотров6.3K


В этой статье мы открываем серию публикаций о конкретных задачах, решаемых в рамках внедрения AggreGate, которые, мы надеемся, смогут помочь вам в ваших реальных проектах.

Некоторое время назад к нашим партнёрам, занимающимся изготовлением и обслуживанием комплексных систем энергоснабжения базовых станций, обратился оператор сотовой связи в Африке. Проект был рассчитан на 1000-2000 базовых станций. В рамках этого проекта AggreGate использовался для мониторинга, управления, визуализации и построения отчётов. Входе эксплуатации системы потребовались отчёты, с помощью которых можно быстро посмотреть основные параметры оборудования. Эти отчёты в дальнейшем использовались для формирования KPI работы системы энергоснабжения, подбора оптимальных параметров, определения графика обслуживания и построения маршрута для команды инженеров.

Мы создали гибкий инструмент для AggreGate, позволяющий удобно формировать эту таблицу, используя как исторические данные, так и статистические данные. Функцию summary(). В данной статье мы рассмотрим, как получить таблицу данных по историческим значениям.
Читать дальше →
Всего голосов 10: ↑8 и ↓2+6
Комментарии0

Обзор новых возможностей Mathematica 11 и языка Wolfram Language

Время на прочтение28 мин
Количество просмотров25K

Перевод поста Стивен Вольфрам (Stephen Wolfram) "Today We Launch Version 11!".
Выражаю огромную благодарность Полине Сологуб за помощь в переводе и подготовке публикации




Содержание


Первое, что вы отметите...
3D печать
Машинное обучение и нейронные сети
Аудио
Встроенные данные о чем угодно: от скелетной структуры и продуктов питания до сведений о нашей Вселенной
Вычисления с реальными объектами
Передовые возможности географических вычислений и визуализаций
Не забудем про сложные задачи математического анализа и теоретической физики...
Образование
Совмещение всех функций в одно целое
Визуализация
От строк к тексту
Современный подход к программированию систем
Работа в интернете
Облачные данные
Подключайтесь к любым внешним сервисам: Facebook, Twitter, Instagram, ArXiv, Reddit и многим другим...
WolframScript
Новое в ядре языка Wolfram Language
И еще много нового...



Я рад объявить о выходе новой версии системы Mathematica и 11-й версии языка Wolfram Language, доступной как для Desktop-компьютеров, так и в облачном виде. В течение последних двух лет сотни человек упорно трудились над ее созданием, а несколько тысяч часов и я лично. Я очень взволнован; это важный шаг вперед, имеющий важное значение для многих крупнейших технологических областей.
Узнайте больше о Mathematica 11...
Всего голосов 52: ↑50 и ↓2+48
Комментарии23

Модель полиномиальной регрессии

Время на прочтение3 мин
Количество просмотров54K

Выражаясь простым языком, модель регрессии в математической статистике строится на основе известных данных, в роли которых выступают пары чисел. Количество таких пар заранее определено. Если представить себе, что первое число в паре – это значение координаты $x$, а второе – $y$, то множество таких пар чисел можно представить на плоскости в декартовой системе координат в виде множества точек. Данные пары чисел берутся не случайно. На практике, как правило, второе число зависит от первого. Построить регрессию – это значит подобрать такую линию (точнее, функцию), которая как можно точнее приближает к себе (аппроксимирует) множество вышесказанных точек.


Читать дальше →
Всего голосов 20: ↑15 и ↓5+10
Комментарии9

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI

Время на прочтение5 мин
Количество просмотров6.9K
Попробуем проверить гипотезу о том, являются ли приращения значений индекса DJI статистически независимыми. При этом в качестве референсного источника данных, с которым будем проводить сравнение, возьмем искусственный временной ряд, сгенерированный из собственно приращений исходного ряда, но при этом случайно перемешанных. В качестве меры статистической независимости воспользуемся статистикой взаимной информации.

Читать дальше →
Всего голосов 37: ↑34 и ↓3+31
Комментарии25

Нефтяные ряды в R

Время на прочтение6 мин
Количество просмотров43K
«Графики цен великолепны, чтобы предсказывать прошлое»
Питер Линч



С временными рядами мне как-то не доводилось иметь дело на практике. Я, конечно, читал о них и имел некоторое представление в рамках учебного курса о том, как в общих чертах проводится анализ, но хорошо известно, что то, о чем рассказывают в учебниках по статистике и машинному обучению, не всегда отражает реальное положение дел.
Читать дальше →
Всего голосов 27: ↑25 и ↓2+23
Комментарии30

Автоматически выделяем кусочно-линейные тренды временного ряда

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров5.2K

Меня зовут Антон Сорока, я математик и аналитик данных.

Я хотел бы рассказать об алгоритме, который выделяет кусочно-линейный тренд из временного ряда и сам определяет точки изменения тренда. Другими словами, это алгоритм для автоматического кусочно-линейного приближения любой функции. Это может понадобиться, если вам важно анализировать линейные тренды ряда, но единственная линия явно недостаточно точно описывает ряд, и самостоятельно искать точки, где тренд менялся, неудобно. Реализация этого алгоритма есть в open-source библиотеке для анализа изменений временных рядов, написанной на Python.

Читать далее
Всего голосов 8: ↑8 и ↓0+9
Комментарии9

Временные ряды в R

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.6K

Привет, Хабр!

Сегодня мы поговорим о временных рядах, и как мы можем работать с ними, используя ЯП R. Временные ряды позволяют понять динамику процессов, изменяющихся со временем, и предсказывать тенденции.

Читать далее
Всего голосов 9: ↑8 и ↓1+9
Комментарии0

Временные ряды с Julia с библиотекой TimeSeries.jl

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.6K

Julia позволяет достигать скорости, сравнимой с C, что делает её хрошим выбором для временных рядов.

Пакет TimeSeriesпредоставляет удобные методы для работы с данными временных рядов в Julia.

Читать далее
Всего голосов 10: ↑9 и ↓1+14
Комментарии2

Бутстрап временных рядов

Время на прочтение19 мин
Количество просмотров5.2K

Всем привет! Как и во многих других компаниях, в X5 существует огромное количество данных, зависящих от времени. Такие данные принято называть временными рядами (time-series). Это могут быть данные о продажах в магазинах, об остатках на складах или об удовлетворенности клиентов. Используя эти данные, мы хотим искать инсайты и приносить пользу бизнесу.

Бутстрап является ценным инструментом — он позволяет генерировать множество синтетических выборок из исходных данных, на основе которых мы можем оценить распределение интересующей нас статистики и построить доверительные интервалы. Например, если нужно определить доверительный интервал для медианы или какого-то другого квантиля предсказаний, бутстрап позволяет это сделать, даже когда прямое аналитическое вычисление невозможно.

Для временных рядов бывает полезно оценить границы, в которых находятся параметры модели, из которой получен ряд. Кроме того, часто необходимо посчитать доверительный интервал, в котором находятся предсказания для объекта с использованием моделей машинного обучения. Однако обычные методы бутстрапа не подойдут для временных рядов, так как они не учитывают структуру таких данных.

В нашем обзоре мы рассмотрим, как различные модификации метода бутстрапа учитывают структурные особенности и зависимости в данных временных рядов. Особое внимание будет уделено объяснению, почему нельзя применять стандартный подход бутстрапа к временным рядам без учёта их структуры. Затем мы перейдем к обзору методов, которые позволяют эффективно решить эту проблему.

Читать далее
Всего голосов 9: ↑8 и ↓1+10
Комментарии0

Временные ряды и ARIMA: Как предсказывать будущее без хрустального шара

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.9K

Что такое временной ряд, модель ARIMA и как к ней подбирать параметры.

Простым словами, временной ряд — это просто последовательность событий, которая как-то зависит от времени. Мы для начала будем считать, что ряд самый простецкий и нас просто есть скачущие туда-сюда точки, которые распределены по временной шкале.

Читать далее
Всего голосов 9: ↑8 и ↓1+9
Комментарии25

SARIMAX vs Экспоненциальное сглаживание: Когда простота побеждает

Время на прочтение10 мин
Количество просмотров3.2K

Продолжаю рассказывать про первые шаги в моделировании временных рядов. В этой статье разбираю модели SARIMAX и Экспоненциальное сглаживание, с примерами картинок и кода.

Читать далее
Всего голосов 10: ↑10 и ↓0+16
Комментарии12

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 3: Специализированное машинное обучение

Уровень сложностиСредний
Время на прочтение22 мин
Количество просмотров6.9K

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В предыдущей статье я поделился материалами для подготовки к этапу по классическому машинному обучению.

В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по специализированному машинному обучению.

Читать далее
Всего голосов 5: ↑5 и ↓0+6
Комментарии2

О линейной регрессии: байесовский подход к курсу рубля

Время на прочтение9 мин
Количество просмотров24K


Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы (не такие понятные).

Читать дальше →
Всего голосов 34: ↑33 и ↓1+32
Комментарии24

Выбираем СУБД для хранения временных рядов

Время на прочтение30 мин
Количество просмотров24K


Павел Филонов (Лаборатория Касперского)


Сегодня будем говорить о хранении временных рядов. Я постараюсь рассказать, какие подходы я применял для того, чтобы попытаться как можно больше своего субъективизма выкинуть, заменить его чем-то более объективным, а субъективный взгляд оставить где-нибудь в самом конце.
Всего голосов 21: ↑19 и ↓2+17
Комментарии11

Создание торгового бота используя машинное обучение в анализе временных рядов

Время на прочтение5 мин
Количество просмотров12K
Это не техническая статья, в ней нет подробного анализа методов и теории. Просто как-то я увлекся машинным обучением и как и многие начинающие в этой теме люди, решил сделать торгового бота. Однако это выросло в нечто большее, чем просто тренировочный проект. Вот обо всем этом я и хочу рассказать.
Читать дальше →
Всего голосов 11: ↑6 и ↓5+8
Комментарии8