Как стать автором
Обновить
91.52

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Стоит ли идти в тестирование в 2024 году?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров20K

Растут или снижаются зарплаты в тестировании? Какие скилы наиболее востребованы? Сколько вакансий для джунов? Узнали у экспертов, как изменился рынок в 2023 году и какие тренды сохраняются в 2024.

Читать далее
Всего голосов 14: ↑11 и ↓3+13
Комментарии17

Парадоксы в данных, и почему визуализация бывает необходима

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров8.1K

В этой заметке я хочу разобрать несколько «парадоксов» в данных, о которых полезно знать как начинающему аналитику данных, так и любому человеку, кто не хочет быть введенным в заблуждение некорректными статистическими выводами.

За рассматриваемыми примерами не кроется сложной математики помимо базовых свойств выборки (таких, как среднее арифметическое и дисперсия), зато такие кейсы могут встретиться и на собеседовании, и в жизни.

Погнали!
Всего голосов 40: ↑40 и ↓0+41
Комментарии3

Стоит ли становиться Fullstack разработчиком

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров7.3K

Сегодня я кратко (или не очень) изложу свои мысли о том, стоит ли быть fullstack разработчиком, какие плюсы и минусы у такого пути развития и для кого такое направление выгодно.

Читать далее
Всего голосов 7: ↑4 и ↓3+3
Комментарии23

К управлению задачами через статистику

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров1.2K

Данную статью меня побудило написать знакомство с несколькими статьями и видео Павла Ахметчанова (этой, например), коего я и приглашаю в первую очередь к дискуссии. :) Изначально ограничился чисто техническим комментарием к статье, но после более глубокого погружения различных прочих комментариев у меня накопилось столько, что я решил оформить их в лонгрид.

Вперёд к критике!
Всего голосов 4: ↑2 и ↓2+2
Комментарии2

Истории

Стандартное отклонение и стандартная ошибка: две статистики с похожими названиями, но разными смыслами

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров20K

Я читаю курс статистического мышления магистрам, и одна тема вызывает у них явные затруднения — чем стандартное отклонение отличается от стандартной ошибки, и в каких случаях, применять ту или иную статистику. Думаю, будет интересно поговорить об этом в блоге ЛАНИТ.

Читать далее
Всего голосов 35: ↑35 и ↓0+36
Комментарии8

История одной очереди

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров22K

В одно воскресенье довелось мне стоять в очереди на избирательный участок №8134 в Алматы. Простоял я там 4 часа, а некоторые и того больше. И как-то совершенно случайно вспомнил, что в институте я учился на специальности “системы и сети массового обслуживания”, а тут у нас как раз такая сеть, которую можно попробовать рассчитать. А заодно ответить расчётами на некоторые вопросы.

Уважаемые кроты, давайте посчитаем
Всего голосов 95: ↑80 и ↓15+82
Комментарии70

Формула идеального IT-ивента

Время на прочтение2 мин
Количество просмотров4.2K

Привет!

Мы видим, что компании часто публикуют анонсы ивентов для айтишников, а вы, читая их, наверняка думаете: «вроде бы неплохо, но вот если бы это было… (офлайн/покороче/подешевле/на Багамах и т.д.), тогда бы сходил». Нам стало интересно: каким должен быть IT-ивент, чтобы вы перед ним не смогли устоять?

Давайте вместе попробуем вывести формулу самого крутого IT-ивента: для этого просим вас пройти короткий (правда короткий, 14 вопросов) опрос.

В анкете есть открытый вопрос: через пару недель мы поделимся самыми интересными ответами из него в апдейте этой статьи, так что добавьте её в закладки.

Чтобы в ответах вы следовали голосу сердца, а не внутренней «жабы», сразу обозначим, что наш идеальный ивент БЕСПЛАТНЫЙ. Но давайте договоримся: мы хотим, чтобы ивент был вам интересен сам по себе, а не как «под любым предлогом, лишь бы нахаляву на море», ага?

Погнали!

Читать далее
Всего голосов 8: ↑7 и ↓1+12
Комментарии5

Коэффициенты для экстраполяции прогнозов компонент CLTV на 5 лет

Время на прочтение8 мин
Количество просмотров4.6K

Эта статья описывает, как из прогнозов ряда ML-моделей получить ценность клиента с горизонтом в 5 лет. Напомним, что показатель CLTV представляет из себя композицию прогнозов ее компонент (подробнее в статье). В нашей реализации максимальный период прогнозирования моделей - 24 месяца. Важно отметить, что чем выше горизонт прогнозирования, тем менее точный прогноз способна сделать модель. А показатель CLTV интересен бизнесу на более длинном горизонте, в нашем случае - пять лет. Как же из прогнозов на два года получить прогноз на пять лет? Ответ прост: экстраполировать прогнозы.

Основная идея продления (экстраполяции) прогнозов - это разбиение пользователей на несколько групп, а в каждой группе единообразно продлить ряд прогноза. 

Далее мы обсудим:

- подходы к экстраполяции ряда, их достоинства и проблемы
- как выбирать группы и подготовить данные для экстраполяции
- достоинства выбранного подхода к продлению прогнозов на 5 лет, трудности и пути их решения.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии1

«Подземные камни» А/Б-тестирования в e-commerce

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров1.6K

Любой полезный бизнесу продукт меняется со временем: появляются новые функции, улучшаются старые. Возникает потребность оценить влияние таких изменений на пользователей продукта. Необходимо проверить, нет ли ошибок в реализации новой функциональности и справляется ли она с поставленными задачами. 

Первое, что хочется сделать — сравнить показатели работы продукта до внесения изменений и после. Но в таком случае нельзя утверждать, что разница в показателях обусловлена только новой функциональностью, так как на состояние продукта в любой момент времени может повлиять любой внешний фактор. Поэтому принято прибегать к контролируемым рандомизированным экспериментам, которые также называют А/Б-тестами. В том числе и для товарных рекомендаций в e-commerce.

Читать далее
Всего голосов 8: ↑7 и ↓1+7
Комментарии3

А/Б тестирование на маленьких выборках. Построение собственного критерия

Время на прочтение8 мин
Количество просмотров8.2K

Хабр, привет! Сегодня рассмотрим кейс, в котором классические статистические критерии не работают, и разберёмся, почему так происходит. Научимся строить свои собственные критерии по историческим данным. Обсудим плюсы и минусы такого подхода.

Читать далее
Всего голосов 14: ↑14 и ↓0+14
Комментарии4

Основные типы распределений вероятностей в примерах

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров20K

Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения. Рассмотрим их подробнее на наглядных примерах.

Читать далее
Всего голосов 58: ↑58 и ↓0+58
Комментарии11

Как делить пользователей на группы в АБ-тестах: ошибки и рекомендации

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров3.2K

В предыдущих статьях статья 1, статья 2, статья 3 мы рассмотрели основные подводные камни автоматизации и анализу АБ тестов, привели подробный обзор статей по этой теме, а так же рассмотрели типичные задачи аналитика данных. В контексте АБ-тестов одним из ключевых аспектов является механизм разделения на группы, который в терминологии специалистов часто называется сплитовалкой.

Может показаться, что задача элементарная - сгенерировать случайное целое число каждому пользователю с вероятностью 1/n, где n - число групп в АБ тесте. Но на практике, особенно для высоконагруженных сервисов, таких как Ozon, возникает множество архитектурных и платформенных сложностей. В данной статье мы сконцентрируемся на основных принципах деления на группы, принятых в индустрии.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии1

Зарплатные ожидания VS зарплатные предложения в IT: откуда взялся разрыв в 30%

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров27K

Бесконечно можно обсуждать три вещи: экономику, политику и зарплаты айтишников. Из мемов и достоверных источников мы знаем, что они получают 300 000 рублей в наносекунду. Или может они просто оценивают себя намного выше реального рынка?

Читать далее
Всего голосов 24: ↑20 и ↓4+24
Комментарии37

Ближайшие события

Juniorы врут об опыте работы. Проблема ли это для HR?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров20K

Желание собрать отдельную статью появилась на фоне довольно бурных обсуждений в ветке комментариев. Во многом комментарии противоречивы. Споры касаются нюансов, начиная от этики запроса оплаты за тестовые задания до обширных вопросов касательно важности высшего образования.

Поэтому хотел бы пересобрать свой коммент в более расширенном формате + где-то его дополнить на основе новых интервью.

Читать далее
Всего голосов 15: ↑9 и ↓6+4
Комментарии103

Экспресс-исследование корпоративных коммуникаций в России 2023

Время на прочтение6 мин
Количество просмотров1.9K

Результаты опроса 500 верифицированных специалистов, которые внедряют и обслуживают системы видеосвязи и корпоративные мессенджеры. География: 13 городов России.

Читать далее
Всего голосов 1: ↑0 и ↓10
Комментарии6

Аналитика ради аналитики или как выжить в стартапе

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.3K

Всем привет! Я работаю продуктовым аналитиком уже чуть больше двух лет. Мой путь начинался со стартапа и сейчас уже почти год я работаю в так называемом бигтехе. В общем, в познании я немного преисполнился и успел осознать все свои ошибки на первой работе в качестве аналитика. Сразу скажу, эта статья не претендует на премию по технической сложности, она больше для тех, кто впервые оказался в продуктовой команде и не знает, как с этим быть. Итак, приступим.

В чём проблема работать аналитиком в стартапе? Когда это твоя первая работа – примерно во всём.

Читать далее
Всего голосов 10: ↑8 и ↓2+9
Комментарии8

Опросил больше 1000 айтишников: вранье в резюме и котируемость курсов по «вкатыванию в IT»

Время на прочтение7 мин
Количество просмотров130K

Получилось отследить довольно интересные тренды: как размер стажа в индустрии коррелирует с отношением к выдумыванию опыта в резюме, как в IT-среде на самом деле относятся к выпускникам школ в стиле «стань айтишником за год», а также рейтинг самых ненавидимых и респектуемых в среде профи школ.

Читать далее
Всего голосов 167: ↑146 и ↓21+147
Комментарии318

Табуляционные машины Германа Холлерита — вольная реконструкция

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.8K

Перфокартные табуляционные автоматы Германа Холлерита решали задачи обработки больших объемов данных (десятки миллионов записей) в 19-м веке, сэкономили несколько лет труда при подсчете результатов переписи США 1890-го года, быстро проникли во всевозможные организации от стальных фабрик до страховых контор, обеспечили их автору (Герману Холлериту) инженерное признание и коммерческий успех, послужили фундаментом для появления и развития компании IBM.


Здесь остановимся подробнее на технической стороне вопроса. Каким образом устройство в конце 19-го века могло решать задачи, которые принято ассоциировать с 21-м веком. Ведь в те времена люди не имели в распоряжении библиотеки Pandas и платформы Python, не было реляционных субд с языком SQL, и даже электронных компьютеров, которые могли запускать такое программное обеспечение, еще не придумали (не то, что транзисторы, электронные лампы еще не изобрели, а реле хотя уже были в ходу, никто еще не говорил о том, чтобы строить из них универсальные вычислители).


Отдельный повод сделать это именно сегодня: Герман Холлерит родился в 1860-м году 29 февраля.

Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии13

Типичные задачи аналитика. Часть 2. А есть ли тренд?

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров10K

В первой части статьи на Habr мы рассмотрели классические подходы к оценке изменений метрики при условии ее стационарности. В этом контексте статистические критерии, применяемые в A/B тестировании, оказались весьма эффективными.

Однако, если существует стабильный тренд, например, среднемесячная аудитория увеличивается из года в год, оценка разницы средних за два смежных периода времени может быть некорректной. В таком случае среднее значение предыдущего периода всегда будет отличаться от среднего постпериода, и это часто может быть не связано с исследуемым функционалом.

Одна из причин — тренд не всегда зависит от действий компании и часто является следствием внешних условий. Например, рост аудитории может быть связан с увеличением благосостояния населения, масштабированием бизнеса или сезонными факторами.

Таким образом, наличие или отсутствие тренда является важным аспектом анализа данных. Рассмотрим несколько успешных и неудачных подходов, которые можно применять для решения этой задачи.

Читать далее
Всего голосов 22: ↑22 и ↓0+22
Комментарии3

Когда прокачивать стату в танках на примере Tanks Blitz

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3.2K

Игроки в World of Tanks, War Thunder и других подобных игр уверены, что результативность игры конкретного игрока зависит от того, в какое время суток игрок играет и от наличия глобальных игровых событий.


Я проверил, так ли это, на примере Tanks Blitz.

Читать дальше →
Всего голосов 8: ↑7 и ↓1+8
Комментарии3