Как стать автором
Обновить
36.77

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

А/Б тестирование: множественная проверка гипотез

Время на прочтение10 мин
Количество просмотров1.4K

Хабр, привет! Сегодня обсудим, как проверять много гипотез в одном эксперименте. Разберёмся, почему растут вероятности ошибок. Познакомимся с метриками множественного тестирования и поправками, которые позволяют их контролировать. Узнаем, как оценить необходимый размер групп и повысить чувствительность.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Новости

Сколько зарабатывают разработчики в 2024 году в России и чего ожидать в будущем

Время на прочтение8 мин
Количество просмотров25K

Рынок ИТ до сих пор нуждается в специалистах самых разных направлений. Спрос на айтишников растёт вместе с зарплатами. Так, информационное агентство Известия со ссылкой на данные Авито сообщает, что весной 2024 года спрос на сотрудников в ИТ-отрасли вырос почти в два раза по сравнению с весной 2023 года. Разбираемся, что сейчас происходит на рынке с зарплатами разработчиков.

Читать дальше →
Всего голосов 19: ↑14 и ↓5+11
Комментарии12

Ничья в футболе, водное поло и двумерный Пуассон

Уровень сложностиСложный
Время на прочтение19 мин
Количество просмотров928

Данная статья является разбором статьи 2003 года Dimitris Karlis'а и Ioannis Ntzoufras'а "Analysis of sports data by using bivariate Poisson models".

Данная статья будет интересна в основном тем кто использует или понимает как использовать распределения Пуассона в моделях машинного обучения и для предобработки данных для прогнозирования результатов спортивных событий.

Для моделирования спортивных данных было использовано двумерное распределение Пуассона и его расширения. Двумерное распределение Пуассона позволяет получить корреляцию между результатами соревнующихся команд, что вполне вероятно для некоторых командных видов спорта.

Читать далее
Всего голосов 4: ↑2 и ↓2+4
Комментарии2

Искусственный интеллект в обрабатывающих производствах: инструмент форсирования технологической гонки

Уровень сложностиСредний
Время на прочтение23 мин
Количество просмотров1.7K

Привет! Я, Алексей Мартынов, и продолжаю публиковать отраслевые исследования по применению технологий ИИ. Ранее опубликован мой материал Технологии ИИ: нет ничего искусственного в заботе о здоровье / Хабр (habr.com)

1755 г.: книга — энциклопедия «Театрумъ Махинарумъ, то есть Ясное зрелище махинъ» русского ученого и инженера Андрея Константиновича Нартова, содержащая чертежи, анализ станков и инструментов, и переданная в придворную библиотеку Екатерины II для печати и распространения, пролежала в безвестности почти двести лет.

1898 г.: корабельный инженер Дмитрий Васильевич Скворцов (по заказу великого князя Александра Михайловича Романова), опередив на пять лет «наших западных партнеров» разработал проект броненосца, по своей идее предвосхитивший класс артиллерийских военных кораблей «Дредноут». Русский проект был положен «под сукно» с формулировкой: «За границей такого не делают, стало быть и нам не надо».

Читать далее
Всего голосов 3: ↑2 и ↓1+5
Комментарии2

Истории

Метод оценки вероятности футбольных результатов для стратегии ставок с потенциалом достижения положительной доходности

Уровень сложностиСложный
Время на прочтение19 мин
Количество просмотров3.6K

Наша цель состояла в том, чтобы разработать метод оценки вероятности футбольных результатов с потенциалом достижения положительной ожидаемой доходности при использовании в качестве основы стратегии ставок. Наша базовая модель проста - это двумерное распределение Пуассона для количества голов, забитых каждой командой, с параметрами, связанными с прошлыми достижениями. Наша стратегия ставок элементарна: мы делаем ставки на все исходы, для которых отношение модели к вероятностям букмекеров превышает определенный уровень. Мы показали, что для достаточно высоких уровней эта стратегия дает положительную ожидаемую доходность.

Читать далее
Всего голосов 12: ↑4 и ↓80
Комментарии21

Нужно ли вам красивое резюме? Оцениваем результаты эксперимента с помощью статистики

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров7.6K

Недавно YouTube подкинул мне видео об оценке эффективности резюме. Автор ролика создал пять вариантов, чтобы изучить влияние четырёх факторов: имени соискателя, названия компании, перерыва в работе и оформления. Каждое резюме было отправлено на 100 релевантных вакансий.

Меня зовут Ольга Матушевич, я наставница на курсе «Аналитик данных» в Яндекс Практикуме. В этом тексте я расскажу, какие результаты показал эксперимент из YouTube, и попробую выяснить, являются ли они статзначимыми.

Читать далее
Всего голосов 10: ↑7 и ↓3+8
Комментарии8

Backblaze: надежность жестких дисков продолжает падать

Время на прочтение3 мин
Количество просмотров12K

Привет, Хабр! На связи Даша из МТС, сегодня поговорим про жесткие диски. В феврале мы писали, что качество HDD снижается, причем это актуально для всех производителей. Судя по всему, тенденция сохраняется.

Провайдер облачных сервисов Backblaze продолжает публиковать статистику отказов жестких дисков. В эксплуатации у компании сотни тысяч HDD, так что ее выборка надежна. Работа разных моделей жестких дисков оставляет желать лучшего — улучшений нет. Но зачем вообще Backblaze собирает информацию по надежности HDD? В первую очередь для формирования стратегий замены и миграции HDD внутри своей инфраструктуры. Дальше — под катом.

Читать далее
Всего голосов 36: ↑35 и ↓1+51
Комментарии46

Точность спортивных прогнозов на основе коэффициентов ставок

Уровень сложностиСложный
Время на прочтение20 мин
Количество просмотров2.1K

Существует множество эмпирических свидетельств того, что коэффициенты ставок являются наиболее точным общедоступным источником прогнозов вероятности в спорте. С ростом онлайн-ставок, коэффициенты ставок стали легко доступны для все большего числа и разнообразия спортивных соревнований. Разберём на примерах баскетбола, гандбола, хоккея с шайбой, футбола и волейбола как использовать коэффициенты букмекеров в стратегиях ставок и в качестве переменных в статистических моделях:

(а) Какой метод следует использовать для определения вероятностных прогнозов на основе необработанных коэффициентов ставок?

(b) Имеет ли значение, какую букмекерскую контору или биржу ставок мы выберем, если доступны две или более?

Читать далее
Всего голосов 6: ↑2 и ↓40
Комментарии3

Как и зачем считать сбалансированный precision score

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров595

В машинном обучении при оценке решения задачи классификации precision score может давать неожиданные результаты тогда, когда баланс классов сильно изменяется.

Почему так, почему это может приводить к ошибкам при отладке моделей, и как этого избежать с помощью сбаланированного precision score - в этой заметке.

Читать далее
Всего голосов 1: ↑1 и ↓0+3
Комментарии2

Вы сами это читали: как стать лучшим автором месяца

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров5K

Когда-то давным-давно (почти десять лет назад) мне пришлось писать довольно много статей для разных компаний, которые впервые выходили на Хабр. Среди них были совсем небольшие стартапы, IT-компании побольше, международные корпорации, и все они хотели одного: написать статью, которую все прочитают, запомнят и к которой читатели непременно вернутся. Практически утопия. Идея найти формулу идеальной статьи сродни попыткам отыскать философский камень: вроде все компоненты есть, рецептура есть, но всегда чего-то не хватает. И кажется, что на Хабре волшебную формулу ищут многие. Кто-то пишет статью с самым высоким рейтингом, кого-то добавляют в закладки сотни пользователей, кто-то — мастер вызывать аудиторию на обсуждение и собирает буквально бесконечные ветки комментариев. А если автор опытный, то он периодически миксует суперспособности своих публикаций.

В самом начале июля мы выкатили статистику публикаций для всех авторов Хабра: теперь каждый может не только оценивать рейтинг и просмотры, но и видеть, как именно его статью читают, в какой момент уходят и сколько пользователей решают покинуть страницу почти сразу. Это классная опорная статистика, которая позволяет понять, что нравится аудитории и исходя из этого скорректировать подачу контента. Июль закончился, статистика поднакопилась, мы решили попробовать собрать компоненты успешной статьи и разобраться, как же написать «ту самую» звёздную статью. А заодно посмотреть, что и как писали лучшие авторы месяца.

Читать далее
Всего голосов 38: ↑33 и ↓5+55
Комментарии38

Освобождение труда в ИБ: между кадровым голодом и «черным лебедем» ИИ

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров3.1K

Дефицит кадров на рынке информационной безопасности в России составляет 31%, а это порядка 50 тысяч специалистов по кибербезопасности. К 2027 году общая потребность рынка в специалистах может превысить четверть миллиона, а дефицит вырастет. К таким неутешительным выводам пришли наши эксперты совместно с коллегами из фонда «Центр стратегических разработок «Северо-Запад».

В первом в России исследовании рынка труда в сфере ИБ объясняем, что ждет его основных игроков к 2027 году. Читайте под катом о том, почему система образования не справляется со спросом, почему проблема нехватки кадров останется актуальной, а структуру рынка ждет масштабная трансформация. Мы не оставили без внимания и вероятность труднопредсказуемого фактора, который мог бы перевернуть ситуацию на рынке. С полной версией исследования можно ознакомиться здесь.

Подробнее
Всего голосов 12: ↑9 и ↓3+11
Комментарии3

Толстые хвосты распределений — это загадочно и странно

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров7.3K

Если вы посещали занятия по статистике — вы, возможно, проходили тему «общая теория меры». Там могла идти речь о мере и об интеграле Лебега, а так же — об их связи с другими способами интегрирования. Если на ваших занятиях много внимания уделялось математике (так было у меня), то на них вы вполне могли познакомиться с теоремой Каратеодори о продолжении меры и даже с основами теории операторов на гильбертовых пространствах, а так же — с преобразованиями Фурье и много с чем ещё. Большинство этих математических конструкций нацелено на доказательство одной из самых важных теорем, на которой основана огромная часть статистики. Речь идёт о центральной предельной теореме (ЦПТ).

ЦПТ утверждает, что для широкого класса того, что мы называем в математике «случайными величинами» (которые представляют собой результаты проведения некоего эксперимента, включающего в себя элемент случайности), до тех пор, пока они удовлетворяют определённым условиям (как может показаться — простым), их среднее значение сходится к случайной величине определённого типа, который называют «нормальным» или «Гауссовым».

Читать далее
Всего голосов 38: ↑37 и ↓1+51
Комментарии11

Оценка инсайда в ставках на спорт

Уровень сложностиСложный
Время на прочтение18 мин
Количество просмотров1.4K

Как измерить величину инсайдерской составляющей в текущей линии спортивных ставок и зачем вообще это нужно, если у данного знания какое-то практическое применение?

Данная статья представляет собой попытку измерения инсайда с помощью модели ценообразования на рынке стоимости будущих событий (state-contingent claims). Специфической средой для нашего исследования является рынок ставок на скачках, на котором роль маркетмейкеров берут на себя букмекерские конторы, а трейдеров играют потенциальные игроки.

Читать далее
Всего голосов 7: ↑4 и ↓3+5
Комментарии0

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
14 сентября
Конференция Practical ML Conf
МоскваОнлайн
19 сентября
CDI Conf 2024
Москва
20 – 22 сентября
BCI Hack Moscow
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
25 сентября
Конференция Yandex Scale 2024
МоскваОнлайн
28 – 29 сентября
Конференция E-CODE
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн

На что обратить внимание при выборе ИТ-партнера? 7 критериев, которые не стоит упускать

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.1K

Без отечественных ИТ-решений не обходится ни один бизнес, а от эффективности российского ПО зависит стабильность и развитие компании. Однако тем, кто далек от мира информационных технологий, достаточно сложно оценить качество ИТ-продуктов, а еще сложнее выбрать ИТ-компанию, которая предложит лучший вариант по соотношению “цена-качество”.

Читать далее
Всего голосов 8: ↑2 и ↓60
Комментарии2

Исследование: Миграция IT-специалистов в 2022-2023 гг

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров12K

Всем привет. Меня зовут Алёна, я выпускница магистерской программы "Социология публичной сферы и цифровая аналитика" НИУ ВШЭ. В апреле 2024 г. в рамках работы над своей выпускной работой я провела количественное исследование на тему миграции в IT-сфере - кто, куда уезжал за прошедшие два года, почему и всё в этом духе. Здесь хочу поделиться его результатами. Надеюсь, будет интересно!

Если вам есть, что сказать по поводу прочитанного, оставляйте комментарии. Буду очень рада обсудить, ответить на вопросы или получить обратную связь :)

Читать далее
Всего голосов 56: ↑51 и ↓5+57
Комментарии64

Может ли распределение Пуассона описать статистику футбольных матчей

Уровень сложностиСложный
Время на прочтение12 мин
Количество просмотров3.4K

Некоторые публикации отвергают модель Пуассона для оценки результатов футбольных матчей в пользу отрицательного бинома. Разбираем модель Пуассона, исследуем двумерную пуассоновскую модель. Сравниваем наблюдаемые и ожидаемые частоты забитых мячей, разбираем тесты на соответствие показателям.

Читать далее
Всего голосов 2: ↑2 и ↓0+6
Комментарии2

Бутстрап и доверительные интервалы: от теории к практике на Python

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров4.4K

Привет!

Бутстрап — мощный статистический метод, позволяющий оценить распределение выборочных статистик. В Data Science бутстрап применяется в большом спектре задач.

В статье я постараюсь понятным языком рассказать про особенности, ограничения и сценарии применения бутстрапа, а также я познакомлю вас с различными схемами бутстрапа: Эфронов интервал (простой, но дает смещенную оценку), интервал Холла (несмещенный за счет центрирования) и t-процентильный интервал (несмещенный, шире других, лучшая асимптотика).

Более того, в статье мы реализуем функцию бутстрапа на Python и проведем небольшой эксперимент с помощью разных схем бутстрапирования.

Читать далее
Всего голосов 7: ↑7 и ↓0+11
Комментарии6

Cтатистические критерии для начинающих

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров9.3K

Привет, Хабр! Меня зовут Евгений Узянов, я продуктовый аналитик в команде геймификации Купера (ex СберМаркет). Когда я только начинал изучать методы количественного тестирования, я искал информацию в большом количестве источников: университетские лекции, онлайн-курсы, литература разной степени глубины и, конечно же, ютуб. В значительном количестве случаев при знакомстве с очередной статистикой информация преподносилась в следующем формате:

- Держи страшную формулу

- Вот какие-то графики с хвостами

- Ну а дальше все понятно

- Иди работай

Вместо такого подхода мы разберем по винтикам несколько статистических критериев и попытаемся понять, что лежит за математическими формулами. В процессе вы увидите, что за громоздкими и страшными математическими конструкциями лежат простые и понятные идеи.

Читать далее
Всего голосов 23: ↑22 и ↓1+24
Комментарии11

Изучаем заброшки: почему люди бросают бесплатные и даже платные IT-курсы

Время на прочтение1 мин
Количество просмотров22K

Онлайн-курсы — один из основных поставщиков новых IT-специалистов на рынок. Историй успеха много, но на практике не все ученики добираются до дипломных проектов.

Что заставляет людей бросать обучение на полпути, несмотря на уже вложенные деньги, силы, время и стремления? Мы с Хабром решили разобраться — и для этого нам нужна ваша помощь!

Если вы когда-либо учились на каких бы то ни было IT-курсах и не доходили до конца, то, пожалуйста, пройдите наш небольшой (минут на 5) опрос. Уточним: неважно, какой это был курс: платный или бесплатный, посвящённый программированию или чему-то не техническому, длился он год или неделю, популярный или неизвестный, — всем welcome!

Подробными результатами исследования мы обязательно поделимся чуть позже — следите за анонсами на Хабре.

Читать далее
Всего голосов 21: ↑16 и ↓5+25
Комментарии49

Как поднять мониторинг на новый уровень: опыт Банка ДОМ.РФ

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров3.1K

Привет! Сегодняшняя статья про то, как мы настраивали мониторинг работоспособности отдела поддержки проектного финансирования Банка ДОМ.РФ.

Читать далее
Всего голосов 2: ↑1 и ↓1+2
Комментарии10
1
23 ...