Хабр, привет! Сегодня обсудим, как проверять много гипотез в одном эксперименте. Разберёмся, почему растут вероятности ошибок. Познакомимся с метриками множественного тестирования и поправками, которые позволяют их контролировать. Узнаем, как оценить необходимый размер групп и повысить чувствительность.
Статистика в IT
Статистика, исследования, тенденции
Новости
Сколько зарабатывают разработчики в 2024 году в России и чего ожидать в будущем
Рынок ИТ до сих пор нуждается в специалистах самых разных направлений. Спрос на айтишников растёт вместе с зарплатами. Так, информационное агентство Известия со ссылкой на данные Авито сообщает, что весной 2024 года спрос на сотрудников в ИТ-отрасли вырос почти в два раза по сравнению с весной 2023 года. Разбираемся, что сейчас происходит на рынке с зарплатами разработчиков.
Ничья в футболе, водное поло и двумерный Пуассон
Данная статья является разбором статьи 2003 года Dimitris Karlis'а и Ioannis Ntzoufras'а "Analysis of sports data by using bivariate Poisson models".
Данная статья будет интересна в основном тем кто использует или понимает как использовать распределения Пуассона в моделях машинного обучения и для предобработки данных для прогнозирования результатов спортивных событий.
Для моделирования спортивных данных было использовано двумерное распределение Пуассона и его расширения. Двумерное распределение Пуассона позволяет получить корреляцию между результатами соревнующихся команд, что вполне вероятно для некоторых командных видов спорта.
Искусственный интеллект в обрабатывающих производствах: инструмент форсирования технологической гонки
Привет! Я, Алексей Мартынов, и продолжаю публиковать отраслевые исследования по применению технологий ИИ. Ранее опубликован мой материал Технологии ИИ: нет ничего искусственного в заботе о здоровье / Хабр (habr.com)
1755 г.: книга — энциклопедия «Театрумъ Махинарумъ, то есть Ясное зрелище махинъ» русского ученого и инженера Андрея Константиновича Нартова, содержащая чертежи, анализ станков и инструментов, и переданная в придворную библиотеку Екатерины II для печати и распространения, пролежала в безвестности почти двести лет.
1898 г.: корабельный инженер Дмитрий Васильевич Скворцов (по заказу великого князя Александра Михайловича Романова), опередив на пять лет «наших западных партнеров»
разработал проект броненосца, по своей идее предвосхитивший класс артиллерийских военных кораблей «Дредноут». Русский проект был положен «под сукно» с формулировкой: «За границей такого не делают, стало быть и нам не надо».
Истории
Метод оценки вероятности футбольных результатов для стратегии ставок с потенциалом достижения положительной доходности
Наша цель состояла в том, чтобы разработать метод оценки вероятности футбольных результатов с потенциалом достижения положительной ожидаемой доходности при использовании в качестве основы стратегии ставок. Наша базовая модель проста - это двумерное распределение Пуассона для количества голов, забитых каждой командой, с параметрами, связанными с прошлыми достижениями. Наша стратегия ставок элементарна: мы делаем ставки на все исходы, для которых отношение модели к вероятностям букмекеров превышает определенный уровень. Мы показали, что для достаточно высоких уровней эта стратегия дает положительную ожидаемую доходность.
Нужно ли вам красивое резюме? Оцениваем результаты эксперимента с помощью статистики
Недавно YouTube подкинул мне видео об оценке эффективности резюме. Автор ролика создал пять вариантов, чтобы изучить влияние четырёх факторов: имени соискателя, названия компании, перерыва в работе и оформления. Каждое резюме было отправлено на 100 релевантных вакансий.
Меня зовут Ольга Матушевич, я наставница на курсе «Аналитик данных» в Яндекс Практикуме. В этом тексте я расскажу, какие результаты показал эксперимент из YouTube, и попробую выяснить, являются ли они статзначимыми.
Backblaze: надежность жестких дисков продолжает падать
Привет, Хабр! На связи Даша из МТС, сегодня поговорим про жесткие диски. В феврале мы писали, что качество HDD снижается, причем это актуально для всех производителей. Судя по всему, тенденция сохраняется.
Провайдер облачных сервисов Backblaze продолжает публиковать статистику отказов жестких дисков. В эксплуатации у компании сотни тысяч HDD, так что ее выборка надежна. Работа разных моделей жестких дисков оставляет желать лучшего — улучшений нет. Но зачем вообще Backblaze собирает информацию по надежности HDD? В первую очередь для формирования стратегий замены и миграции HDD внутри своей инфраструктуры. Дальше — под катом.
Точность спортивных прогнозов на основе коэффициентов ставок
Существует множество эмпирических свидетельств того, что коэффициенты ставок являются наиболее точным общедоступным источником прогнозов вероятности в спорте. С ростом онлайн-ставок, коэффициенты ставок стали легко доступны для все большего числа и разнообразия спортивных соревнований. Разберём на примерах баскетбола, гандбола, хоккея с шайбой, футбола и волейбола как использовать коэффициенты букмекеров в стратегиях ставок и в качестве переменных в статистических моделях:
(а) Какой метод следует использовать для определения вероятностных прогнозов на основе необработанных коэффициентов ставок?
(b) Имеет ли значение, какую букмекерскую контору или биржу ставок мы выберем, если доступны две или более?
Как и зачем считать сбалансированный precision score
В машинном обучении при оценке решения задачи классификации precision score может давать неожиданные результаты тогда, когда баланс классов сильно изменяется.
Почему так, почему это может приводить к ошибкам при отладке моделей, и как этого избежать с помощью сбаланированного precision score - в этой заметке.
Вы сами это читали: как стать лучшим автором месяца
Когда-то давным-давно (почти десять лет назад) мне пришлось писать довольно много статей для разных компаний, которые впервые выходили на Хабр. Среди них были совсем небольшие стартапы, IT-компании побольше, международные корпорации, и все они хотели одного: написать статью, которую все прочитают, запомнят и к которой читатели непременно вернутся. Практически утопия. Идея найти формулу идеальной статьи сродни попыткам отыскать философский камень: вроде все компоненты есть, рецептура есть, но всегда чего-то не хватает. И кажется, что на Хабре волшебную формулу ищут многие. Кто-то пишет статью с самым высоким рейтингом, кого-то добавляют в закладки сотни пользователей, кто-то — мастер вызывать аудиторию на обсуждение и собирает буквально бесконечные ветки комментариев. А если автор опытный, то он периодически миксует суперспособности своих публикаций.
В самом начале июля мы выкатили статистику публикаций для всех авторов Хабра: теперь каждый может не только оценивать рейтинг и просмотры, но и видеть, как именно его статью читают, в какой момент уходят и сколько пользователей решают покинуть страницу почти сразу. Это классная опорная статистика, которая позволяет понять, что нравится аудитории и исходя из этого скорректировать подачу контента. Июль закончился, статистика поднакопилась, мы решили попробовать собрать компоненты успешной статьи и разобраться, как же написать «ту самую» звёздную статью. А заодно посмотреть, что и как писали лучшие авторы месяца.
Освобождение труда в ИБ: между кадровым голодом и «черным лебедем» ИИ
Дефицит кадров на рынке информационной безопасности в России составляет 31%, а это порядка 50 тысяч специалистов по кибербезопасности. К 2027 году общая потребность рынка в специалистах может превысить четверть миллиона, а дефицит вырастет. К таким неутешительным выводам пришли наши эксперты совместно с коллегами из фонда «Центр стратегических разработок «Северо-Запад».
В первом в России исследовании рынка труда в сфере ИБ объясняем, что ждет его основных игроков к 2027 году. Читайте под катом о том, почему система образования не справляется со спросом, почему проблема нехватки кадров останется актуальной, а структуру рынка ждет масштабная трансформация. Мы не оставили без внимания и вероятность труднопредсказуемого фактора, который мог бы перевернуть ситуацию на рынке. С полной версией исследования можно ознакомиться здесь.
Толстые хвосты распределений — это загадочно и странно
Если вы посещали занятия по статистике — вы, возможно, проходили тему «общая теория меры». Там могла идти речь о мере и об интеграле Лебега, а так же — об их связи с другими способами интегрирования. Если на ваших занятиях много внимания уделялось математике (так было у меня), то на них вы вполне могли познакомиться с теоремой Каратеодори о продолжении меры и даже с основами теории операторов на гильбертовых пространствах, а так же — с преобразованиями Фурье и много с чем ещё. Большинство этих математических конструкций нацелено на доказательство одной из самых важных теорем, на которой основана огромная часть статистики. Речь идёт о центральной предельной теореме (ЦПТ).
ЦПТ утверждает, что для широкого класса того, что мы называем в математике «случайными величинами» (которые представляют собой результаты проведения некоего эксперимента, включающего в себя элемент случайности), до тех пор, пока они удовлетворяют определённым условиям (как может показаться — простым), их среднее значение сходится к случайной величине определённого типа, который называют «нормальным» или «Гауссовым».
Оценка инсайда в ставках на спорт
Как измерить величину инсайдерской составляющей в текущей линии спортивных ставок и зачем вообще это нужно, если у данного знания какое-то практическое применение?
Данная статья представляет собой попытку измерения инсайда с помощью модели ценообразования на рынке стоимости будущих событий (state-contingent claims). Специфической средой для нашего исследования является рынок ставок на скачках, на котором роль маркетмейкеров берут на себя букмекерские конторы, а трейдеров играют потенциальные игроки.
Ближайшие события
На что обратить внимание при выборе ИТ-партнера? 7 критериев, которые не стоит упускать
Без отечественных ИТ-решений не обходится ни один бизнес, а от эффективности российского ПО зависит стабильность и развитие компании. Однако тем, кто далек от мира информационных технологий, достаточно сложно оценить качество ИТ-продуктов, а еще сложнее выбрать ИТ-компанию, которая предложит лучший вариант по соотношению “цена-качество”.
Исследование: Миграция IT-специалистов в 2022-2023 гг
Всем привет. Меня зовут Алёна, я выпускница магистерской программы "Социология публичной сферы и цифровая аналитика" НИУ ВШЭ. В апреле 2024 г. в рамках работы над своей выпускной работой я провела количественное исследование на тему миграции в IT-сфере - кто, куда уезжал за прошедшие два года, почему и всё в этом духе. Здесь хочу поделиться его результатами. Надеюсь, будет интересно!
Если вам есть, что сказать по поводу прочитанного, оставляйте комментарии. Буду очень рада обсудить, ответить на вопросы или получить обратную связь :)
Может ли распределение Пуассона описать статистику футбольных матчей
Некоторые публикации отвергают модель Пуассона для оценки результатов футбольных матчей в пользу отрицательного бинома. Разбираем модель Пуассона, исследуем двумерную пуассоновскую модель. Сравниваем наблюдаемые и ожидаемые частоты забитых мячей, разбираем тесты на соответствие показателям.
Бутстрап и доверительные интервалы: от теории к практике на Python
Привет!
Бутстрап — мощный статистический метод, позволяющий оценить распределение выборочных статистик. В Data Science бутстрап применяется в большом спектре задач.
В статье я постараюсь понятным языком рассказать про особенности, ограничения и сценарии применения бутстрапа, а также я познакомлю вас с различными схемами бутстрапа: Эфронов интервал (простой, но дает смещенную оценку), интервал Холла (несмещенный за счет центрирования) и t-процентильный интервал (несмещенный, шире других, лучшая асимптотика).
Более того, в статье мы реализуем функцию бутстрапа на Python и проведем небольшой эксперимент с помощью разных схем бутстрапирования.
Cтатистические критерии для начинающих
Привет, Хабр! Меня зовут Евгений Узянов, я продуктовый аналитик в команде геймификации Купера (ex СберМаркет). Когда я только начинал изучать методы количественного тестирования, я искал информацию в большом количестве источников: университетские лекции, онлайн-курсы, литература разной степени глубины и, конечно же, ютуб. В значительном количестве случаев при знакомстве с очередной статистикой информация преподносилась в следующем формате:
- Держи страшную формулу
- Вот какие-то графики с хвостами
- Ну а дальше все понятно
- Иди работай
Вместо такого подхода мы разберем по винтикам несколько статистических критериев и попытаемся понять, что лежит за математическими формулами. В процессе вы увидите, что за громоздкими и страшными математическими конструкциями лежат простые и понятные идеи.
Изучаем заброшки: почему люди бросают бесплатные и даже платные IT-курсы
Онлайн-курсы — один из основных поставщиков новых IT-специалистов на рынок. Историй успеха много, но на практике не все ученики добираются до дипломных проектов.
Что заставляет людей бросать обучение на полпути, несмотря на уже вложенные деньги, силы, время и стремления? Мы с Хабром решили разобраться — и для этого нам нужна ваша помощь!
Если вы когда-либо учились на каких бы то ни было IT-курсах и не доходили до конца, то, пожалуйста, пройдите наш небольшой (минут на 5) опрос. Уточним: неважно, какой это был курс: платный или бесплатный, посвящённый программированию или чему-то не техническому, длился он год или неделю, популярный или неизвестный, — всем welcome!
Подробными результатами исследования мы обязательно поделимся чуть позже — следите за анонсами на Хабре.
Как поднять мониторинг на новый уровень: опыт Банка ДОМ.РФ
Привет! Сегодняшняя статья про то, как мы настраивали мониторинг работоспособности отдела поддержки проектного финансирования Банка ДОМ.РФ.
Вклад авторов
alizar 1438.5DmitrySpb79 681.0marks 435.63Dvideo 398.0VaskivskyiYe 380.0ilusha_sergeevich 331.0ancotir 279.6voodee 276.0tyomitch 275.0