Как стать автором
Обновить
-0.4
Рейтинг

R *

Язык для статистической обработки данных

Сначала показывать
Порог рейтинга

Мультиканальная атрибуция в EdTech: ожидание/реальность или что мы вынесли из этого опыта

Python *Google API *R *
Из песочницы

В какой-то момент у нас в компании стали приходить запросы от маркетологов, чтобы мы поглубже изучили взаимодействие маркетинговых каналов и попробовали мультиканальные модели атрибуции.

Что и в какой последовательности мы делали, чтобы мультиканальная атрибуция появилась на свет

Обзор инструментов, которые мы использовали

Что в этом опыте оказалось полезным, а что можно было вообще не делать

В этой статье я хочу поделиться:

Читать далее
Рейтинг 0
Просмотры 282
Комментарии 0

Новости

Теория квантовых состояний: из жизни в код

Совершенный код *Assembler *Разработка игр *Go *R *
Recovery mode
Из песочницы

Расскажу вам о моём вИдении правильного программирования любых систем.

Кратко о себе: программист самоучка, примерно в 1992 году начинал с ассемблера, крякая через HIEW (Огромное СПАСИБО автору этого замечательного дизассемблера) всякие DOS-игрухи-проги, и прогая всё, что в голову взбредёт - от игр до вирей (домашних и добрых).

Подробнее о "Теории квантовых состояний" >
Всего голосов 28: ↑13 и ↓15 -2
Просмотры 2.4K
Комментарии 4

Спросим у Google, насколько наша встреча была предначертана судьбой

Глобальные системы позиционирования *Геоинформационные сервисы *R *Визуализация данных *
Перевод

Введение


Когда я познакомилась со своим бойфрендом, я иногда ощущала небольшое сожаление от того, что у нас не было умилительной киношной истории встречи, несмотря на то, что мы пять лет жили в одном и том же городе и учились в одном университете. Наша история не уникальна для многих пар в 2020 году: на спаде между двумя волнами COVID мы начали общаться онлайн, в приложении для знакомств Bumble.

Я подумала, что благодаря истории местоположений Google, втихомолку отслеживающей данные GPS, можно было бы найти ответ на вопрос о том, насколько судьбоносно пересекались наши дорожки до встречи. Насколько близко мы были к тому, чтобы воспроизвести романтическую сцену «среди десятков людей они нашли глазами друг друга»?
Читать дальше →
Всего голосов 92: ↑90 и ↓2 +88
Просмотры 18K
Комментарии 22

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт

PDF R *

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт.

Сегодня я хочу рассказать о том, как я писал отчеты на R, с чем сталкивался и как решал проблемы, которые возникали по ходу разработки. Отчеты были в формате PDF и запускались из Python в Camunda.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 2K
Комментарии 4

Важно ли DS аналитику знать про software development?

Python *Data Mining *R *Управление разработкой *
⚒️ Cезон Data Mining


— Иван Иваныч Иванов с утра ходит без штанов!
— А Иванов Иван Иваныч одевает штаны на ночь!
«Афоня» (1975)


Множество курсов, призванных подготовить DS специалистов «за полгода», создают впечатление, что уж сертифицированным датамайнером стать достаточно просто. А что? Немного основ DS языка, немного по структуре данных, немного по различным преобразованиям данных, немного SQL, немного математики (в ML не погружаемся, только знакомимся), немного визуализации, немного HTML+JS+CSS. Специалист готов?


На практике оказывается, что маловато будет.


Все предыдущие публикации.

Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 2.7K
Комментарии 2

Визуализируем в R данные мониторинга температуры процессора Raspberry PI Zero W

R *Разработка на Raspberry Pi *

Визуализируем данные мониторинга температуры Raspberry PI в R c помощью ggplot2 и отправляем в телеграм через телеграм-бота. Все R-скрипты выполняются на самом Raspberry PI Zero W c предварительно установленным R 4.2.1 и необходимыми пакетами.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 2.3K
Комментарии 0

Логистическая регрессия с помощью tidymodels

Big Data *R *Машинное обучение *
Перевод

В последнее время я публикую заметки, которые демонстрируют работу с пакетом tidymodels . Я разбираю как простые, так и более сложными модели. Сегодняшняя заметка подойдет тем, кто только начинает свое знакомство с пакетом tidymodels

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 1.3K
Комментарии 2

Кластерный анализ в R

R *Машинное обучение *

Кластерный анализ решает задачу разбиения множества на группы (кластеры) по принципу наибольшей однородности.

Подобные задачи возникают во множестве сфер деятельности, в частности это реклама и маркетинг. Ситуация, когда нужно выделить группы клиентов, максимально «похожих» друг на друга или определить локации, в которых преобладают определённые предпочтения.

Рассмотрю подобный пример и расскажу о способах решения вопроса средствами языка R.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 2.2K
Комментарии 1

Jira, Jirа! Повернись к лесу задом, ко мне передом

Python *Data Mining *API *R *Управление разработкой *
⚒️ Cезон Data Mining

*Избушка, Olga Kolopetko. https://illustrators.ru/illustrations/1474142)*
Избушка, Olga Kolopetko. https://illustrators.ru/illustrations/1474142


Повсеместная цифровизация не только в телевизоре. Она теперь повсюду нас окружает, на работе и не только. Типичным представителем являются трекеры действий (системы Сервис Деск, проектные системы, документообороты и пр.). Общей болевой точкой всех этих систем являются сложная объектная и процессная модель и фокус на поддержку операционного обслуживания. Шаг влево или вправо в попытках понять всю картину целиком повергает аналитиков в уныние и порождает безуспешные проекты на многие месяцы. А вопрос этот висит в воздухе, в том или ином виде, почти ежедневно.


Ниже покажу один из возможных подходов по решению подобных задач средствами DS «за час» и «один экран кода». ИТ курсов на несколько месяцев появилось множество, но даже для начинающих подход от конца, когда показываешь решение насущной задачи, а потом раскладываешь его на кубики — куда эффективнее.


Для примера возьмем Jira, как часто используемую в среде разработчиков, обладающую богатым функционалом, длительной историей и хорошим API.


Все предыдущие публикации.

Читать дальше →
Всего голосов 10: ↑8 и ↓2 +6
Просмотры 8.5K
Комментарии 11

Tidymodels: аккуратное машинное обучение в R

R *Машинное обучение *
Перевод
Tutorial

Последнее время пакет tidymodels активно развивается в направлении задач машинного обучения.

Несколько лет назад Мак Кун разработал пакет caret, целью которого было создать единую платформу для моделей машинного обучения, существующих в R. Caret был прекрасен во многих отношениях, но далек от идеала. Но это был прекрасный старт. В связи с этим RStudio пригласила Макса Куна для разработки “аккуратной” версии данного пакета. В итоге, мы получили tidymodels.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 1.2K
Комментарии 0

Как связать Rstudio с Github: актуально для пользователей Mac OS

R *GitHub *
Tutorial

В данной заметке рассмотрим, как связать Rstudio с вашим аккаунтом на Github. Отмечу сразу, данная заметка подойдет тем, кто работает через операционную систему mac os.

Мы будем исходить из трех ограничений.

Читать далее
Всего голосов 8: ↑4 и ↓4 0
Просмотры 1.1K
Комментарии 0

О новом простом методе снижения высокой размерности данных

Блог компании SkillFactory Python *Математика *R *Matlab *
Перевод


О новом методе решения проблемы оценки ковариационной матрицы в данных высокой размерности [научная работа опубликована в 2012 году] рассказываем к старту нашего флагманского курса по Data Science. Подробности — под катом:

Узнать больше
Всего голосов 6: ↑3 и ↓3 0
Просмотры 5K
Комментарии 1

Оценка доверительных интервалов bootstrap на примере суперкубка #TidyTuesday

R *
Из песочницы
Перевод

Данная заметка - это любительский перевод статьи Julia Silge.

Это статья взята из блога Julia Silge, которая демонстрирует использование пакетов tidymodels. В сегодняшней заметке будет продемонстрирована относительно новая функция из пакета rsample - reg_intervals. Данная функция разработана для быстрого поиска доверительных интервалов bootstrap.

Данные: набор #TidyTuesday о рекламных роликах суперкубка.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 488
Комментарии 0

Используем R lang в SQL Server

Блог компании OTUS Microsoft SQL Server *R *Машинное обучение *
Tutorial

В продолжение предыдущей статьи поговорим о том, как использовать SQL Server Machine Learning Services. В этой статье приведены варианты использования на языке R. 

Для чего должна быть установлена R 4.2.1(https://cran.r-project.org/src/base/R-4/) 

Также нам потребуется пакет randomForest, его можно установить в студии (меню) Пакеты -> Установить пакет .Если же у вас тоже windows и это не будет работать как и у меня, скачивайте пакет c CRAN и выбирайте Пакеты -> Установить пакеты из локальных файлов, а затем скаченный архив. 

Некоторые пакеты требуют установки всех зависимостей, поэтому лучше устранить ошибки загрузки пакетов, если они у вас есть. Список ошибок и пути их решения описаны в блоге у Алексея Селезнева.

Для знакомства с возможностями SQL Server в машинном обучении используется датасет с пассажирами Титаника с Kaggle

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 1.1K
Комментарии 0

Истории

Визуализация решает или про иллюстрацию статистических тестов

R *Визуализация данных *

В статье представлены результаты использования пакетов ggstatsplot и ggpmisc, позволяющих визуализировать результаты проверки статистических гипотез и параметры уравнений регрессий.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 1.3K
Комментарии 0

Вглядываясь в зеркала или еще раз о проблеме гетероскедастичности

R *

Рассмотрен функционал пакета skedastic, содержащего 20+ тестов гетероскедастичности различных моделей. Описан функционал пакета и проведен простенький эксперимент по определению эффективности этих тестов.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 1K
Комментарии 3

Круглое катить, прямоугольное тащить. А шестигранник?

Python *Программирование *R *Визуализация данных *


В большинстве случаев в DS предпочитают работать с прямоугольными данными и на то есть масса причин и обоснований. Очень популярна тема парсинга и развертывания вложенных json. Часто дают тестовые задания на приведение к прямоугольному виду.


Но далеко не все задачи сводятся к data.frame и не обязательно весь DS сводить к ML. Есть масса задач, оперирующих, например, с графами или их частным случаем — деревьями. Можно использовать библиотеку igraph или аналоги и не думать о деталях. А можно попробовать чуть заглянуть внутрь алгоритмов.


На примере одной задачки посмотрим на работу с деревьями с альтернативной колокольни.


Все предыдущие публикации.

Читать дальше →
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 4.6K
Комментарии 3

Новости из будущего: прогнозируем поведение пользователя

Блог компании Ростелеком-Солар Информационная безопасность *Алгоритмы *Математика *R *

Привет, Хабр! Сегодня речь пойдет о предсказывании будущего, поведении людей, математике и котиках.  

В повседневной жизни, общаясь с людьми, мы всегда смотрим на поведение собеседника. Поведение человека может много о нем сказать: о его воспитании, привычках, увлечениях, принципах и о личности в целом. Для нас, как для социальных существ, это очень важная информация, так как мы делаем выводы о человеке: можно ли ему доверять, на что обратить внимание, стоит ли с ним вообще иметь дело.  Для нас, как для работников сферы информационной безопасности, это очень важная информация, так как мы можем делать выводы: можно ли ему доверять, на что обратить внимание, стоит ли с ним вообще иметь дело.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 2K
Комментарии 11

В туманности статистических гипотез, или про пакет SHT

R *

Чуть меньше месяца назад в R появился пакет SHT, в котором реализованы несколько интересных видов статистических тестов (если точнее, там реализовано 53 теста). Данная статья – краткий обзор этих тестов и гипотез, проверяемых с их помощью/

Все статтесты разбиты на 16 групп, среди них есть и весьма экзотичные, например, тесты проверки равенства ковариационных матриц, или тест проверки одновременного равенства средних и дисперсий в двух группах. Особый интерес вызывает то, что примерно половина тестов работают и со случаями многих переменных

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 838
Комментарии 0

Оборачиваем API с помощью httr2

Data Mining *API *R *Data Engineering *
Перевод
Tutorial

Обычное использование httr2 — это создание обёртки над каким нибудь API и предоставление его в виде R пакета, в котором каждая конечная точка API (то есть URL-адрес с параметрами) становится функцией. Эта статья поможет разобраться, как начать с очень простого API, не требующего аутентификации, а затем постепенно приводимые примеры будут усложняться. 

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.2K
Комментарии 1

Вклад авторов

Работа

Data Scientist
114 вакансий