aikarimov 4 мая 2020 в 15:20

Пандемия COVID-19 глазами математика, или почему классическая модель SEIRD не работает

Из песочницы

Аннотация, или о досуге молодых ученых

Последние несколько недель мы с коллегами заканчиваем рабочий день тем, что соревнуемся в точности прогноза развития эпидемии COVID-19 в России, используя различные методы нелинейной регрессии. И если прогноз на завтрашний день неизбежно оказывается хорош, то предсказание на срок больше одной недели отражает реальность лишь в общих чертах. Казалось бы, все понятно: есть эпидемиологические модели, есть методы оптимизации, есть достаточно подробные данные, — достаточно совместить это воедино и получить точный прогноз на месяц, а то и полгода, вперед. В этой статье я поделюсь своими соображениями, что не так с классической моделью SEIRD и как это исправить. И, конечно, приоткрою завесу тайны, окутывающую наше с вами будущее.

Усаживайтесь поудобнее, нас ждет зубодробительный матан для тех, кто знает, что такое дифференциальные уравнения (для остальных красивые картинки прилагаются).

На рисунке выше приведено общее число подтвержденных случаев COVID-19 в логарифмическом масштабе для России и трех европейских стран, входящих в топ-5 по числу зараженных. Объяснение далее в тексте.

Минутка заботы от НЛО

В мире официально объявлена пандемия COVID-19 — потенциально тяжёлой острой респираторной инфекции, вызываемой коронавирусом SARS-CoV-2 (2019-nCoV). На Хабре много информации по этой теме — всегда помните о том, что она может быть как достоверной/полезной, так и наоборот.

Мы призываем вас критично относиться к любой публикуемой информации

Официальные источники

Cайт Министерства здравоохранения РФ

Cайт Роспотребнадзора

Сайт ВОЗ (англ)

Сайт ВОЗ

Сайты и официальные группы оперативных штабов в регионах

Если вы проживаете не в России, обратитесь к аналогичным сайтам вашей страны.

Мойте руки, берегите близких, по возможности оставайтесь дома и работайте удалённо.

Читать публикации про: коронавирус | удалённую работу

Модель SEIRD

Модель эпидемии SEIRD относится к классу т.н. компартментальных моделей, суть которых состоит в том, чтобы разделить популяцию на несколько групп (англ. compartments), в нашем случае:

$inline$ (англ. susceptible) — восприимчивые,

$inline$ (англ. exposed) — те, у кого болезнь находится в инкубационном периоде,

$inline$ (англ. infectious) — больные,

$inline$ (англ. recovered) — выздоровевшие,

$inline$ (англ. dead) — умершие. Затем, численность каждой из групп сопоставляется с переменной в системе дифференциальных уравнений, решая которую, можно спрогнозировать динамику развития эпидемии. Модификаций модели SEIRD достаточно много, например, SEIR — упрощенная модель, не учитывающая отдельно случаи выздоровления и смерти. Для ознакомления с другими моделями могу порекомендовать неплохую статью на эту тему.

Немного теории

Впервые модель эпидемии в виде системы из трех дифференциальных уравнений для переменных

$inline$ появилась в работе У. Кермака и А. Мак-Кендрика 1927 года.
Эти дифференциальные уравнения имеют вид:

$\begin{align} \frac{dS}{dt }&=-\beta \frac{SI}{N},\\ \frac{dI}{dt}&= \beta \frac{SI}{N}-\gamma I,\\ \frac{dR}{dt}&= \gamma I, \end{align}$

где, помимо знакомых нам переменных фигурируют следующие константы:

$inline$ — общий размер популяции,

$\beta$ — скорость передачи инфекции,

$\gamma$ — скорость выздоровления.

Смысл уравнения Кермака и Мак-Кендрика следующий: число восприимчивых убывает пропорционально их числу, помноженному на среднюю долю инфицированных в популяции

$inline$ , число инфицированных прирастает теми же темпами с поправкой на то, что некоторое их число

$\gamma I$ выздоравливает, и число выздоровевших прирастает за счет убывания числа инфицированных. Стоит отметить, что модель SIR содержит нелинейность

$inline$ , из-за чего аналитическое решение системы уравнений становится в общем случае невозможным, но, благо, методы численного дифференцирования легко справляются с этой задачей.

Добавив сюда еще одну переменную

$inline$ (число людей с болезнью в инкубационном периоде), получим SEIR-модель:

$\begin{align} \frac{dS}{dt }&=-\beta \frac{SI}{N},\\ \frac{dE}{dt}&= \beta \frac{SI}{N}-\kappa E,\\ \frac{dI}{dt}&= \kappa E-\gamma I,\\ \frac{dR}{dt}&= \gamma I, \end{align}$

где появляется еще одна константа

$\kappa$ — скорость перехода болезни из инкубационной стадии в открытую. Рисунок из взят из статьи.

Сразу видно, что SEIR-модель не очень годится для описания COVID-19 хотя бы потому, что в этой модели скрытые носители инфекции

$inline$ незаразны. Исправить этот недостаток можно, введя, вслед за Pengpeng et al., дополнительный параметр

$\theta$ , характеризующий степень заразности латентных носителей инфекции по сравнению с заболевшими. Модифицированная модель SEIR, которую мы попробуем применить к текущей эпидемии, будет иметь вид:

$\begin{align} \frac{dS}{dt }&=-\beta \frac{S(I + \theta E)}{N},\\ \frac{dE}{dt}&= \beta \frac{S(I + \theta E)}{N}-\kappa E,\\ \frac{dI}{dt}&= \kappa E-\gamma I,\\ \frac{dR}{dt}&= \gamma I. \end{align}$

На первый взгляд, полученная модель обещает быть вполне правдоподобной.

Численный эксперимент с моделью SEIR

Для моделирования попробуем взять следующие параметры, ориентируясь на открытые данные. Предполагая, что болезнь в среднем длится 14 дней (по крайней мере, сколько длится легкая форма, на которую приходится до 80% случаев), найдем значение

$\gamma=1/14=0,0714$ . Примем

$\beta=3/14=0,2143$ . Величину

$\theta=0,6$ заимствуем из работы Pengpeng et al. C учетом средней длительности инкубационного периода в 3 дня, возьмем

$\kappa=1/3 = 0,33$ . Население России примем равным

$N = 144,5\cdot10^6$ человек.

В качестве начальных условий используем данные по России на 2 апреля, когда введенные в конце марта меры по ограничению распространения инфекции должны были возыметь свое действие, а именно:

$\begin{align} &S_0=3548,\\ &I_0= 3283,\\ &E_0=0,5 I_0. \end{align}$

Оценку

$inline$ мы взяли относительно произвольно, да это и неважно, поскольку, как вы понимаете, что-то пойдет не так.

В результате моделирования методом Эйлера с шагом в 1 день со 2-го по 24 апреля включительно, получим графики, приведенные ниже: слева в линейном масштабе, справа в логарифмическом.

Круглыми маркерами отмечены реальные данные по общему числу случаев в России, квадратными — по числу больных. На первый взгляд, результаты выглядят неплохо, кроме одного: с параметрами модели мы явно не угадали. И тут нам на помощь приходят методы оптимизации.

Оптимизируй это

Методы оптимизации, если читатель с ними не знаком, — это алгоритмы, позволяющие отыскать минимум некоторой целевой функции. В нашем случае перед нами — задача нелинейной регрессии: как подобрать вектор параметров дифференциального уравнения

$\mathbf{x} = (\beta, \gamma, \kappa, E_0)^\top$ так, чтобы набор точек решения дифференциального уравнения

$inline$ был максимально близок набору точек наблюдения

$\mathcal{F}$ .

Воспользуемся среднеквадратичным отклонением как мерой погрешности модели. Целевая функция примет вид

$f(\mathbf{x}) = \frac{1}{M}\sqrt{\sum_{i=1}^{M}(F_{i} - \mathcal{F}_{i})^2 + \sum_{i=1}^{M}(G_{i} - \mathcal{G}_{i})^2},$

где

$inline$ — число точек,

$inline$ — общее число случаев заражения, которое дает модель,

$\mathcal{F}$ — реальное общее число случаев,

$inline$ — число больных в текущий момент, которое дает модель,

$\mathcal{G}$ — реальное общее текущих активных случаев.

Воспользовавшись Optimization Toolbox в MATLAB, подгоним параметры модели под данные наблюдения. В результате получим решение, приведенное на рисунке ниже.

На первый взгляд, все отлично. Невязка получилась равной

$f(\mathbf{x}) = 131,98$ , да и «на выпуклый морской глаз» подгонка решения вышла на славу. Посмотрим на полученные параметры:

$\begin{align} &\beta = 0,374,\\ &\gamma = 0,0117,\\ &E_0 = 7,84\cdot 10^6,\\ &\kappa = 4,81\cdot 10^{-5}. \end{align}$

Величина почти 8 млн. латентных больных при зарегистрированных порядка 60 тыс. случаев на
24 августа — нечто сомнительное. У нас также получилось, что среднее время перехода в активную фазу болезни равно

$1/\kappa = 2079$ дней.

Почему так вышло? Все станет понятно, если мы проанализируем форму кривой на длительном масштабе времени. Для этого возьмем нашу SEIR-модель с «правдоподобными» параметрами и промоделируем на длительном промежутке времени (в этом опыте я принял новое значение

$\beta=0,186$ ):

Кривая, отвечающая общему числу случаев, имеет характерную S-образную форму в линейном масштабе. Эту-то форму и попыталась придать кривой оптимизационная программа. Кроме того, что сам прогноз с «правдоподобными» параметрами ужасает — по нему, к сентябрю переболеет почти 90% населения страны — он очевидно нереалистичен, если посмотреть результаты по другим странам (та же картинка, что и в начале статьи, только в линейном масштабе):

Здесь я сравниваю три европейские страны, находящиеся в топ-5 по количеству заболевших, и Россию. Видно, что по темпам развития эпидемии мы отстаем примерно на месяц, и что вот уже как месяц рост общего числа случаев во всех трех странах практически линейный (и даже медленнее линейного), в отличие от результатов, полученных в SEIR модели. Отсюда возникают три вопроса:

Почему рост эпидемии замедляется до линейного?
Как изменить классическую модель SEIR, чтобы она снова была релевантной?
Почему, если рост эпидемии линейный, мы все равно не можем ничего уверенно предсказать на месяц или год вперед?

Начну с ответа на третий вопрос. Когда мы что-то прогнозируем, перед нами возникает задача довольно неприятная: данные, на которых мы строим модель, неидеальны — они содержат ошибки, шум, и построенная на их основе модель также содержит некоторую ошибку. Когда мы продолжаем временной ряд нашими модельными точками, ошибка накапливается — и довольно быстро, если мы прогнозируем возрастающую по времени функцию. А это имеет место как раз в нашем случае. Более того, модель на то и модель, что отражает реальную ситуацию весьма ограниченно. Внезапное развитие эпидемии в новом большом городе, применение более эффективного способа лечения, изменение способа сбора информации — все это может внести в реальные данные столько ошибок, что долгосрочный прогноз окажется абсолютно далек от реальности.

Костыли и велосипеды: модифицируем модель SEIR

Попробуем ответить на вопрос, почему рост эпидемии замедляется до линейного. При том количестве зараженных, какое мы имеем сейчас, значительную роль начинает играть эффект масштаба, связанный с ограниченной скоростью коммуникаций между людьми.

Если говорить более точно, то вспомним: число заболевших в модели SEIR прямо пропорционально среднему числу заболевших в популяции

$inline$ . Это правило хорошо работает в небольших популяциях, где каждый может общаться с каждым, а заболевшие распределены равномерно. В реальности, особенно в масштабах десятков и сотен тысяч человек, если взять двух случайных заболевших людей, то окажется, что они не только никогда друг с другом не общались и не видели друг друга, они даже не ездили в одном и том же вагоне метро. Да и вообще живут в разных городах. Все, что их объединяет — цепочка социальных связей, приведшая к тому, что им передался вирус.

В качестве примера я построил модель эпидемии в виде клеточного автомата, где каждая клетка взаимодействует только с 4 соседними. Это эквивалентно тому, что у каждого индивида популяции 4 социальных контакта — это очень маленькое число для человеческой популяции, но тем быстрее проявится эффект ограничения социальных связей. На каждой итерации с вероятностью 0,1 каждый из 4-х соседей зараженной клетки может быть заражен. Болезнь длится в среднем 14 дней. Результаты моделирования для пула из 200x200 клеток представлены на рисунке ниже, где

$inline$ — номер итерации.

Синий цвет обозначает восприимчивых, желтый — заболевших, зеленый — выздоровевших. Самое интересное — как выглядят графики численности заболевших. А выглядят они примерно так, как и планировалось: после недолгой фазы субэкспоненциального роста, прямо как в модели SEIR, наблюдается затяжная фаза линейного роста — прямо как в реальности.

У меня не было цели получить картинку, похожую на реальность количественно. Если хочется большего правдоподобия — могу порекомендовать проект Сергея Потехина, о котором была недавно публикация на Хабре. Для дотошных читателей ниже приведено более строгое доказательство линейности роста.

Доказательство теоремы о линейном росте эпидемии в большой популяции

Возьмем геометрическую интерпретацию: пусть граф социальных связей представлен в виде

$inline$ -мерной решетки. В модели в виде клеточного автомата решетка двумерная. В реальности, при среднем числе ежедневных социальных контактов в 20 (оценка из вышеупомянутой публикации) размерность может быть грубо оценена как

$d \approx 4$ . Каждый носитель инфекции порождает растущий вокруг него

$inline$ -мерной гиперкуб из вторично зараженных. Ребро куба имеет длину

$n^{\frac{1}{d}}$ , и, если контакт с зараженным приводит к заболеванию с вероятностью

$inline$ , то каждый день каждое ребро в среднем удлиняется на

$inline$ . Таким образом, получаем модель роста, выражающуюся рекуррентным соотношением

$n_{k+1}=\left(n_k^{\frac{1}{d}} + 2P \right)^d,$

Представим

$inline$ как функцию времени:

$n_k = n(t_k); n_{k+1} = n(t_k + 1)$ . Продифференцировав предыдущее соотношение, получим:

$n'_{k+1}=n'_{k}\left(1 + \frac{2P}{n_k^{\frac{1}{d}}} \right)^{d-1}.$

Отсюда видно, что при больших значениях

$inline$ производные равны

$n'_{k+1}=n'_{k}$ , следовательно, рост линейный.

Ниже представлено развитие сценария при вероятности заразиться 4% и 16-ти социальных связях одного индивида.

Обратившись к мировой статистике по эпидемии, мы увидим то же самое: вот уже месяц как рост линейный, несмотря на то, что классические модели обещали нам продолжение экспоненциального взлета числа заболевших.

Задачки для любознательных

Зная наклон прямой роста числа случаев COVID-19, вычислите среднее количество offline социальных связей на планете Земля.
Как полученное в п.1 число соотносится с правилом шести рукопожатий?
Используя результаты пп.1 и 2, опубликуйте статью в математическом журнале.

Теперь о модификации модели SEIR. Самое простое, что мы можем сделать — домножить нелинейный компонент на некоторую функцию, зависящую от числа заболевших. При малом числе заболевших эта функция должна быть близка к 1, при большом — должна асимптотически стремится к нулю. Простейшим подходящим кандидатом является

$\mathcal{\varphi}(I,E) = e^{-\alpha(I +\theta E)^{K_0}}.$

Подбором параметров

$\alpha$ и

$inline$ можно компенсировать экспоненциальный рост в оригинальной модели.

Добавим в модель, для большей информативности, и компоненту

$inline$ — число смертей. Получим модифицированный вариант SEIRD-модели:

$\begin{align} \frac{dS}{dt }&=-\beta \frac{S(I + \theta E) \mathcal{\varphi}(I,E)}{N},\\ \frac{dE}{dt}&= \beta \frac{S(I + \theta E) \mathcal{\varphi}(I,E)}{N}-\kappa E,\\ \frac{dI}{dt}&= \kappa E-\gamma I-\mu D,\\ \frac{dR}{dt}&= \gamma I,\\ \frac{dD}{dt}&= \mu D. \end{align}$

Результаты моделирования показаны на рисунке ниже.

Среднеквадратичная погрешность по сравнению с оригинальной моделью почти не изменилась. Величины параметров уже реалистичны. Для удобства я обозначил начальное число зараженных в активной фазе как

$inline$ .

$\begin{align} &\beta = 0,219,\\ &\gamma = 0,0102,\\ &E_0 = 0,13 \cdot I_0,\\ &\kappa = 1/3,\\ &\mu = 1,13\cdot 10^{-3}. \end{align}$

Модель очень хорошо интерполирует и производные — величины ежедневного прироста числа заболевших и количества смертей.

Попробуем сделать прогноз. Возьмем горизонт прогнозирования 2 месяца и продолжим решения модели с найденными оптимизационной программой параметрами.

На первый взгляд, неплохо, но такой прогноз любимой родине не пожелаешь: число новых случаев будет продолжать снижаться, но общее число продолжит расти. Остановить эпидемию в этом случае можно только с помощью вакцины, либо подождав, пока переболеет почти все население. Число новых смертей устанавливается равным примерно 200 в день. Это наглядная иллюстрация того, что будет, если не усиливать меры по борьбе с эпидемией. Неужели нас ожидает именно это? И ради этого не очень светлого будущего многие из нас прилежно сидят дома, закупившись гречкой и туалетной бумагой?

Ниже я рассмотрю два сценария, и глядя на туманную даль грядущих месяцев из 28 апреля 2020 года, не могу точно сказать, по какому из них будут развиваться события дальше. Сейчас, в момент перелома кривой новых случаев, мы находимся в точке, откуда что-либо предсказать вдвойне проблематично.

Сценарий США

Мировой гегемон оказался в крайне незавидном положении. Запоздав с принятием ключевых решений, которые позволили бы замедлить рост эпидемии в начале, он и сейчас не в силах справиться с естественным приростом новых случаев.

Модифицированная модель SEIRD, обученная на первых 33 точках, начиная со 2 марта, плюс-минус реалистично предсказывает течение эпидемии в апреле.

Как видим, рост в апреле практически идеально линейный. Модель немного завышает смертность по апрелю, но общая картина оказывается верной.

На этой картинке показаны данные по ежедневному приросту новых случаев и смертей в США. Очень похоже на то, что предсказывала модель для России.

Сценарий Германии

Дисциплинированные немцы сумели переломить ход кривой в свою пользу, и ее рост происходит медленнее линейного. Более того, чтобы сделать модель релевантной, мне пришлось вручную добавить 6 апреля увеличение коэффициента выздоровления

$\gamma$ в 1,7 раз, иначе такое резкое падение числа случаев в терминах модели SEIRD не объяснить.

Модель обучалась на первых 27 точках, начиная с 10 марта. Также я изменил и нелинейную функцию. Для Германии лучше подошла экспонента, зависящая от времени:

$\mathcal{\varphi}(t) = K_0 e^{-\alpha t}.$

Такой вид функции свидетельствует о кумулятивном нарастании числа прерванных социальных связей и, соответственно, путей распространения инфекции. Вот вам и наглядная иллюстрация пользы самоизоляции.

Выше показаны величины ежедневного прироста новых случаев и смертей. Как и в случае США, реальные данные содержат ясно выраженные колебания с периодом в 7 дней. Это значит, что в выходные дни число контактов увеличивается, а следовательно, растет и число зараженных.

Заключение

Делать прогнозы — как краткосрочные, так и долгосрочные — не просто дань любопытству. В случае эпидемии нужно знать, сколько койкомест следует подготовить, сколько аппаратов ИВЛ произвести, на сколько месяцев сделать запасы средств индивидуальной защиты для медиков. Должностные лица должны понимать, достаточно ли принятых мер, или следует ввести новые запреты и ограничения. В идеале, модель должна настолько хорошо отражать реальность, чтобы по ней можно было увидеть силу действия каждой вновь принятой меры, и тогда можно было бы усиливать полезные меры и отменять решения, оказавшиеся бесполезными.

Хоть и с некоторыми оговорками, но всех, кто пока еще не приобрел иммунитет от COVID-19, действительно можно описать буквой

$inline$ , все многообразие заболевших людей — буквой

$inline$ , и так далее. Более того, с помощью модели SEIRD можно даже кое-что объяснить. Но предсказать что-то в отдаленном будущем она может крайне приблизительно.

Я нарочно привел в статье только негативный сценарий, когда мы повторяем судьбу США в плане динамики эпидемии. Если этот сценарий окажется верным, к концу июня у нас будет более 300 тыс. зарегистрированных случаев заболевания и более 10 тысяч смертей. Хотя есть предпосылки к тому, что этот сценарий не воплотится в реальности, я бы посоветовал отнестись к нему по принципу: «надейся на лучшее, готовься к худшему». Как говорится, если уж за борьбу с эпидемией в США взялись лучшие умы НАСА, значит, дело и правда скверное.

Пока все, что нам остается — меньше посещать общественные места, пользоваться правильными респираторами, мыть руки, не забывать протирать спиртом смартфон после того, как достали его на улице, и соблюдать другие простые рекомендации.

Но все же, есть ли возможность делать более точные предсказания? Да, конечно. Но об этом как-нибудь в другой раз.

Если у вас есть желание поиграть с исходным кодом и самим предложить вариант развития событий, то вот ссылка на гитхаб.

Теги:

Хабы:

Комментарии 65

alan008 4 мая 2020 в 16:01
+2
Как то смущают все эти $$display$$\begin{align}…
в мобильной версии Хабра
Boomburum
- Boomburum 4 мая 2020 в 16:02
  +1
  Что-то правда не отрендерилось, хотя в десктопной версии нормально ) Передал коллегам.
- Boomburum 4 мая 2020 в 16:16
  +4
  Вроде починилось (само) — коллеги сказали, что там была какая-то очередь с отрисовкой svg.
  - alan008 4 мая 2020 в 21:08
    
    0
    Да, спасибо, сейчас ОК
rinaty 4 мая 2020 в 16:01
+3
Интересная статья спасибо.
Мне кажется, в идеальной модели нужно как-то учесть (без понятия правда как):
1) число реально больных больше чем выявленных (не понятно на сколько, можно попробовать опираться на рандомизированнын исследования с антителами, но они дадут информацию только о той стране или вообще только локальной местности), а число выявленных это функция зависящая от общего числа больных, количества проведенных тестов и политики тестирования (которая у каждой страны разная). Например сильный рост в начали эпидемии в штатах и италии возможно объясняется тем что вирус уже сильно успел распространиться, пока тесты никто не делал (точнее делали только тем кто был в зоне риска)
2) учесть самоизоляцию и просто изоляцию (она снижает распространяемость), сразц извиненияюсь если это уже учтено, но я не заметил
3) географические очаги (т. е. вот в москве был экспоненциальный рост, в других регионах было тихо, потом в москве рост начал снижаться, а в других местах полезла экспонента)
4) еще бы добавить массовые мероприятия, которые привели к текущему резкому росту (пасху, очереди в метро, и прочее)
- aikarimov 4 мая 2020 в 19:00
  0
  Спасибо за развернутый комментарий! Все это нужно учитывать, согласен. Скоро попробую модель, учитывающую географию, а там посмотрим и другие пункты. Ход наших с вами мыслей схож. Увы, предиктивные возможности любой модели без очень подробного учета всех факторов весьма ограниченные.
  - aamonster вчера в 10:35
    
    0
    Если не лень – попробуйте и модель, учитывающую, что люди разные (с разным количеством контактов в день). Для простоты можно без «географической» модели – просто либо разбить людей на группы с разным β (получится в несколько раз больше уравнений), либо вообще с плавным распределением β(n) (система ДУ в частных производных)
- novoselov вчера в 13:26
  0
  Слишком много факторов в модели, чтобы можно было описать ее одними и теми же формулами. К тому же расчеты опираются на количество диагностированных случаев и официальных смертей.
  
  Мне кажется вместо подгонки графиков, нужно разбивать кривую на отдельные участки:
  
  1. Этап начала развития эпидемии, когда диагностирования нет и идет скрытое распространение в популяции. В это время количество реальных случаев растет быстрее количества диагностированных, а смертей практически нет. Для covid-19 инкубационный период от 2 до 14 дней (чаще всего 5-6), а R0=3+
  С учетом того что люди контактируют не со всеми подряд упростим до R0=2. Через 5 дней у нас будет 31 бессимптомный больной, а еще через 5 дней будет около 1000 бессимптомных больных и всего несколько десятков явных случаев.
  На этом этапе круг распространения ограничен спецификой социальных связей: кто-то может заразить одного человека за 5 дней, а кто-то троих за 1 день. Но даже с учетом заниженных показателей, 1000 человек за 2 недели кажется реалистичной цифрой.
  В качестве мер борьбы помогает ранний запрет на въезд и/или изоляция на время инкубационного периода при въезде (диагностирование симпотомов менее эффективно).
  Можно приравнять продолжительность этого этапа к длительности инкубационного периода.
  
  2. Этап первоначального тестирования, но карантина еще нет. Тут мы видим постепенный рост, потому что много скрытых больных, а тестов еще мало, но постепенно два этих показателя сходятся. Со временем цифры начинают расти, но вначале они показывают только количество средних и тяжелых случаев. Количество реальных больных изолированных от популяции низкое, многие в легкой форме болеют дома и продолжают заражать окружающих. Еще мало смертей, либо они не попадают в статистику. К этому моменту соотношение зараженных интравертов/экстравертов стабилизирует R0, но начинает играть фактор плотности населения и ограниченная популяция в городах. Кто-то уже начинает избегать скопления людей, но остается вероятность попадании вируса в благоприятную среду поэтому результат может сильно отличаться. По сути этот этап обуславливает финальную картину, которую мы видим сейчас.
  В Москве первый официальный случай был 2 марта, а первые адекватные меры приняты только 23 марта. За это время 1000-кратный рост дает 1 миллион заболевших до введения карантина.
  На этом этапе помогает отслеживание и изолирование всех контактов больного, а также тестирование при подозрении на легкую форму.
  В других странах ситуация похожая, так что можно выделить на этот период 14 дней.
  
  3. Этап введения карантина, за это время ежедневное количество тестов выходит на приемлиемый уровень, а прирост новых реальных случаев постепенно сокращается. При этом как раз тут мы и видим экспоненту, больше тестов — больше выявленных больных. Прибавим к инкубационному периоду еще период вирусовыделения (для covid-19 это 8-20 дней после выздоровления) и получим примерно месяц стабильного роста выявленных случаев. По сути на этом и следующем этапе мы видим лишь проекцию реальной картины на растущее количество проводимых тестов.
  Рост реального числа больных должен прекратиться примерно через месяц после введения карантина
  
  4. Этап выхода на пик эпидемии, когда количество новых реальных заражений резко падает, родных и близких перезаражали, у большинства проявились симптомы в легкой или тяжелой форме. Но количество выявленных больных все еще растет, потому что тестирование отображает реальную картину с некоторой задержкой.
  Если выходить из карантина раньше выздоровления скрытых больных, то мы рискуем попасть на вторую волну с более высокой базой, но меньшим R0, что приведет к карантину с аналогичными цифрами.
  Этот этап можно приравнять к максимальному времени на выздоровление/отсутствия вирусовыделения, а это еще примерно месяц.
  
  Итого для covid-19:
  1. Заражение: 14 дней (инкубационный период)
  2. Реакция: 14+ дней (в зависимости от страны)
  3. Карантин: 1+ месяц (инкубационный период + период вирусовыделения)
  4. Выздоровление: 1 месяц (период выздоровления)
  
  Сейчас Москва должна подходить к пику по реальному количеству заражений и 1 миллион больных не кажется фантастикой. Не факт что мы увидим миллион в официальных цифрах, т.к. к этому моменту большая часть переболеет в легкой форме. Как вариант похожие цифры может показать тестирование на антитела. Общего выздоровления и выхода из карантина не стоит ждать до 1 июня, снятие карантина до этого момента спустя 2 недели приведет к такому же карантину на 1+ месяц.
  
  P.S. оценки этапов лучше проводить не по странам, а по отдельным городам, при этом этапы в городах могут не совпадать по длительности. Также нужно смотреть соотношение тестирования на количество случаев и количество жителей, а также то что данные приходят с задержкой. При расчете скорости распространения необходимо учитывать плотность проживания на километр, а при учете смертности процент пожилого населения и возможности медицинской системы. В общем удачи с расчетами :)
grizzly_8 4 мая 2020 в 16:57
0
Александр Марков у себя в ЖЖ предложил гипотезу «суперраспространителей». После того как они переболеют и перестанут распространять вирус, эпидемия идет на спад. Это можно вставить в модель?
- aikarimov 4 мая 2020 в 18:33
  0
  Можно добавить еще одну переменную, отвечающую за них
KonkovVladimir 4 мая 2020 в 17:08
+3
Доказательство теоремы о линейном росте эпидемии в большой популяции — содержит очевидную ошибку.
К сожалению формулы в статье не пронумированны как того требует научная публикация.
Рассмотрим формулу (приведенную вами), которая описывает распространения эпидемии в однородной d-мерной дискретной среде:
N(k+1) = (N(k)^1/d +2*P) ^d
Извлечем корень d-степени из обоих частей.
N(k+1)^1/d = N(k)^1/d +2*P
Отсюда видно, что линейно от времени зависит не количество носителей — N, а N^1/d, поскольку в этой модели линейно от времени растет геометрический размер гиперкуба (точнее гиперсферы), а объем гиперсферы будет расти как N^d.
- aikarimov 4 мая 2020 в 18:36
  0
  Речь идет о больших n и d > 1. При маленьких n верно и вправду только то, что вы написали. Публикация не научная, а научно-популярная, поэтому формулы не нумеровал.
  - KonkovVladimir 4 мая 2020 в 18:43
    
    +1
    Формула N(k+1)^1/d = N(k)^1/d +2*P верна при любых N и d и она получена без каких либо приближений из вашей формулы.
    - aikarimov 4 мая 2020 в 19:08
      
      +1
      
      Да, все верно. Собственно, это и запись формулами фразы про удлиннение ребра на 2P.
      - KonkovVladimir вчера в 00:24
        
        +1
        
        Это формула говорит, что линейно по времени растет N^1/d, а не N, как вы утверждаете.
      - Druu вчера в 01:35
        
        0
        
        У вас ошибка в том, что n'(k+1) = an'(k), a -> 1 не значит, что (n'(k+1) — n'(k)) -> 0.
        Контрпример элементарный — достаточно взять n'(k+1) = n'(k) + c где c — некоторая константа > 0. Очевидно что n'(k+1) — n'(k) -> c > 0, но при этом мы можем взять a = 1 + c/n'(k) -> 1
        
        В частности, представить в таком виде можно полиномы, с-но ваше доказательство — это не доказательство линейного роста, а доказательство степенного.
        
        BigBeaver вчера в 10:08
        
        0
        
        Но в 2d он таки линейный. Тогда встает вопрос, правда ли нужно интерпретировать число социальных связей через размерность пространства, или же можно обойтись толщиной кольца вокруг заражающего.
        
        Druu вчера в 10:31
        
        0
        
        Тогда встает вопрос, правда ли нужно интерпретировать число социальных связей через размерность пространства
        Через метрическую-то можно, проблема только в том что ее нельзя посчитать — только померить по данным :)
Jef239 4 мая 2020 в 20:53
+5
Ну как обычно — в модели почему-то считается, что восприимчивых 100%. Хотя их явно в 3-5 раз меньше. Невосприимчивы дети — у них мало ACE2. Ну и потом из 36 (если не путаю) вариантов ACE2 вроде бы восприимчивы только 3.

Ну и второе — в модели не учитывается инфицирующая доза. Есть подозрение, что мы видим два кластера. В одной заражение идет малой инфицирующей дохой и вызывает бессимптомное течение с выделением малых доз. В другой — больные с тяжелым течением выделяют дозы в 10**4 раз больше, а зараженные от них имеют тяжелое течение. Кластеры не совсем независимые, старик или больной СПИДом и от малой дозы получит тяжелое течение, а ребенок от большой дозы — легкое. Но все-таки кластеры явно есть.
- shurshur вчера в 01:37
  +1
  > Хотя их явно в 3-5 раз меньше.
  
  Слово «явно» нельзя употреблять по отношению к неизвестным величинам, это ошибка. Весьма вероятно, что на самом деле восприимчивы все или почти все (вирус не просто так настолько заразен — у человека нет против него качественного способа реагирования, чтобы сразу на входе его «рубануть»), а заболеют не 100% исключительно потому, что вирусу с какого-то момента будет сложно находить ещё не переболевших.
  
  Тем более нельзя необоснованные позитивные предположения полагать в стратегии планирования реальных действий. В случае ошибки мы серьёзно огребаем и уже ничего не можем сделать задним числом.
  - Jef239 вчера в 04:20
    
    +5
    у человека нет против него качественного способа реагирования, чтобы сразу на входе его «рубануть»
    
    Когда неспецифический иммунитет не справляется, минимальная инфицирующая доза — несколько вирусов. Как пример — оспа. С другой стороны, когда неспецифический иммунитет справляется, минимальная инфицирующая доза (инфицирующая 1% населения) — бывает и больше 10**11 бактерий. У ковида минимальная инфицирующая доза - 10**3-10**4, я даже где-то видел оценку 10**5. Так что «рубануть на входе» — вполне получается.
    
    Весьма вероятно, что на самом деле восприимчивы все или почти все
    Ну от дозы 10**30 действительно заболеют все, включая привитых, переболевших, людей в противочумных костюмах и даже трупы. :-) Но такую дозу только в лаборатории создать можно.
    
    На самом деле мало восприимчивы дети — у них мало рецепторов ACE2. Плюс восприимчивость зависит от конкретного варианта ACE2 (вот препринт).
    
    В любом случае — есть бритва оккама. Если модель в определенных точках (например пик заболеваемости) дает неверный процент переболевших — значит надо подкручивать восприимчивость, а не придумывать «увеличение коэффициента выздоровления γ в 1,7 раз».
    
    Пока я знаю лишь один пример, когда заразилось 60%. На остальных судах (включая алмазную принцессу со средним возрастом пассажиров 69 лет) предел — заражение прекращалось на 20%. Измерения антител в самых зараженных местностях тоже не дали более 20-30% переболевших.
    
    Тем более нельзя необоснованные позитивные предположения полагать в стратегии планирования реальных действий.
    А не обоснованные негативные по вашему можно? Вы что из секты 35% летальности? Между прочим, ВВП на 8% в любой стране эквивалентно сокращению населения на 5-6 миллионов человек.
    
    То есть ценой спасения лишних 20-30 тысяч будут смерти миллионов. Пока речь идет о том, чтобы не допустить перегрузки здравоохранения и увеличения летальности в десяток раз — цена более-менее оправдана. Когда речь идет о произвольных подгонках в уравнения — цена в сотни раз превышает предотвращаемый ущерб.
    
    Я вам советую обратить внимание на Австрию. С 14 апреля там открылись хозяйственные магазины. С 1 мая работу продолжат торговые центры и парикмахерские.Как видите — число заражений в Австрии медленно падает, несмотря на постепенную отмену карантина. А это означает, что произошло истощение числа восприимчивых.
    
    При 9 миллионах населения в Австрии и 15 тысячах официальных заболевших — это возможно только в случае, если восприимчивы далеко не все. Я вполне верю, что на самом деле переболело 750 тысяч, причем большинство — бессимптомно. А вот в 5 миллионов — уже не верю.
    
    aikarimov — расскажите, сколько раз надо подкручивать вашу модель для Австрии?
    - vedenin1980 вчера в 08:40
      
      0
      
      Пока я знаю лишь один пример, когда заразилось 60%.
      
      Одного примера достаточно, чтобы сказать, что восприимчиво (то есть заболеют при обычных длительных контактах) не менее 60%. В лучшем случае. Говорить о невоспримчивости можно если человек никогда не заразиться при любых обычных контактах (специальное заражение в лаборатории не берем), а пример авианосца показывает — таких не более 40%.
      
      Идея что в гражданской жизни не будет настолько тесных контактов — требует доказательств, скорее всего без карантина половые контакты (и сон в одной постеле с партнером), нахождение на переполненной дискотеке или поезда в метро в час пик — легко дадут не меньшую дозу вируса, чем проживание в одной казарме.
      
      ВВП на 8% в любой стране эквивалентно сокращению населения на 5-6 миллионов человек.
      
      Слово любой легко опровергается одним примером — например ВВП РФ изменялся до 8 раз (в долларах) в разные года. И падание на 40-50% не приводило огромному росту смертей
      - Druu вчера в 08:49
        
        0
        
        Одного примера достаточно, чтобы сказать, что восприимчиво (то есть заболеют при обычных длительных контактах) не менее 60%.
        Нет, конечно. С чего бы?
        
        vedenin1980 вчера в 08:56
        
        0
        
        Потому что выборка более-менее средняя (точнее там более молодые и здоровые). Вероятность случайного совпадения среди 2 тыс человек только более подверженных вирусу — близка к нулю.
        
        Можно пытаться натянуть сову на глобус и пытаться доказывать что французы более воспримчивы, чем другие европейцы или что молодые и здоровые более воспримчивы старых и больных, но никаких подтверждений этому не найдено — скорее набоорот.
      - LonelyDeveloper97 вчера в 16:03
        
        +1
        
        Одного примера достаточно, чтобы сказать, что восприимчиво (то есть заболеют при обычных длительных контактах) не менее 60%. В лучшем случае. Говорить о невоспримчивости можно если человек никогда не заразиться при любых обычных контактах (специальное заражение в лаборатории не берем), а пример авианосца показывает — таких не более 40%.
        
        Одной точки на графике достаточно чтобы делать выводы?)
        
        Каждый корабль — небольшой кластер из подвыборки кораблей.
        Ваша гипотеза «если в одном из кластеров заразилось 60% -> при длительном контакте восприимчиво не менее 60%». Не хотите ее честно проверить?
        
        Возьмите остальные корабли, которые были в примерно похожих условиях, посмотрите на каком количестве из них ваше предсказание сбывается. Затем можно прикинуть вероятность верности вашего утверждения — теорема байеса как раз подойдет.
        
        Например предположим, что у нас 1 такой случай из 5. При этом вы утверждаете, что заражаться должно 60% или больше, ну скажем, с вероятностью 90%(мы же не живем в мире бесконечно вероятных событий, правда?)
        Тогда мы должны наблюдать, что ваше предсказание выполняется на 9/10 кораблей. Но пока что у нас оно выполнилось на одном из 5. Вероятность того, что мы оказались в ситуации, где ваше утверждение верно, а наша выборка сломана — это вероятность того, что мы случайно собрали выборку так, что в ней оказался всего 1 зараженный по вашему правилу корабль. Не буду утруждать себя калькуляциями, но для этого надо 4 раза угадать один из десяти кораблей, не соответствующих вашему правилу. Наши шансы настолько хреново составлять выборку — не велики. А следовательно, скорее всего проблема в вашем утверждении а не нашей выборке.
        
        PS
        Комментарий математический, я данные по кораблям не смотрел и о них ничего не говорил. Если вы по реальным кораблям самостоятельно проведете эти калькуляции, и окажется, что вашей гипотезе соответствуют 4/5 кораблей — это тоже будет отличный результат, которым можно поделиться. Истинность изначального утверждения про 60% я не оспаривал, просто заметил, что если такой корабль действительно один — это весьма маловероятно. Если он не один, или есть другие примеры замкнутых сообществ подтверждающие ваши выводы — отлично, буду рад о них узнать.
        
        vedenin1980 вчера в 16:52
        
        0
        
        Нужно смотреть не как на один корабль, а как 2 тысячи человек оказавшихся в примерно одинаковых условиях. И вот по 2 тысячам случаев уже можно говорить о статистике. А корабль там будет, город или что-то еще — не так важно
        
        4ITEP сегодня в 02:11
        
        0
        
        Посмею напомнить, что оказались они не просто
        в примерно одинаковых условиях
        , а еще и все вместе в закрытом помещении.
        
        корабль там будет, город или что-то еще — не так важно
        
        А вот лично мне кажется, что именно это и есть самым важным фактором.
      - 0xd34df00d вчера в 19:35
        
        0
        
        И падание на 40-50% не приводило огромному росту смертей
        Ну я же в соседнем треде показывал графики. Как раз падение к 94-му году привело к росту смертности на примерно 50%. И, что самое печальное, на предыдущий уровень смертность не вернулась до сих пор.
        
        То есть, конечно, в том же треде пытались это обосновать тем, что за 70 лет до того что-то там в структуре населения изменилось, и отголоски тех событий так совпали с точностью в несколько лет, но это, имхо, несерьёзно.
        
        vedenin1980 вчера в 19:55
        
        0
        
        В 2009 было падение ВВП РФ на 26, с 2013 года было падение в течении 4 лет каждый год на более чем 11% ежегодно (до 44% сумарно в 2016 году).
        
        Если вы утверждаете, что «ВВП на 8% в любой стране эквивалентно сокращению населения на 5-6 миллионов человек.» покажите 20-24 миллионов дополнительный смертей в РФ за эти 4 года.
      - Jef239 сегодня в 03:54
        
        0
        
        Подробно я вам уже ответил в другом посте.
        
        Говорить о невоспримчивости можно если человек никогда не заразиться при любых обычных контактах
        В такой формулировке восприимчивы даже иммунные. Просто иммунные или болеют бессимптомно (с повышением С-реактивного белка и иных показателей) или не болеют (но можно отследить заражение по подъему IgM). Важно-то не это — а то, что иммунные не передают инфекцию дальше. То есть размножение патогена у них не доходит до выделения доз, больших минимально инфицирующей.
        
        Одного примера достаточно, чтобы сказать, что восприимчиво (то есть заболеют при обычных длительных контактах) не менее 60%.
        А китайцы намеряли (по ПЦР) при тесных и семейных контактах шанс 1.3% для детей до 15 лет и 3.5% для взрослых. Это при китайских размерах семьи и китайской скученности. В целом у них вышло шанс заразить хоть кого-то в китайской семье — 15%, что показывает что в среднем у них по 6 человек в семье.
        
        Так что вы не правы, никакого шанса 60% заразится от больного в семье — нет.
        
        Ещё раз повторю, что восприимчивость имеет смысл лишь в контексте инфицирующей дозы. Там, где доза велика (тяжелые больные в тесном помещении) — там восприимчивость больше.
        
        Но тут есть иной момент — тесты по ПЦР показывают прежде всего заразность. А тесты по ИФА дают в 5-10 раз больше число переболевших. То есть китайский результат можно трактовать как восприимчивость 17-35% при том, что лишь 3.5% распространяют вирус дальше.
        
        Например ВВП РФ изменялся до 8 раз (в долларах) в разные года.
        В смысле курс доллара менялся? :-)
        
        реальный ВВП в сопоставимых ценах
        
        А вот график численности населения
        
        А теперь доказывайте, что совпадение провалов случайно. :-)
    - Newm вчера в 09:29
      
      +4
      
      Ну от дозы 10**30 действительно заболеют все, включая привитых, переболевших, людей в противочумных костюмах и даже трупы. :-) Но такую дозу только в лаборатории создать можно.
      
      10 в 30-й штук вирусов — это речь о миллиардах тонн и кубических километрах:). Это далеко не масштаб лабораторий.
      - Jef239 сегодня в 02:58
        
        0
        
        Посчитаем, размер генома — 0.03 мегабаз, то есть 3*10**-5 пикограмм, то есть 3*10**-17 грамм. Таким образом 10**17 вирусов весят 3 грамма, 10**23 — 3 тонны, 10*30 — 10 миллионов тонн.
        
        Размеры — 50-200 нанометров, считаем 100 нм. Тогда в кубометре — 10**27 вирусов, а 10*30 — всего лишь тысяча кубов.
        
        Так что по размеру ошиблись сильно, зато по весу — всего на полтора порядка.
        
        Это далеко не масштаб лабораторий.
        Помнится в одной из лабораторий атомную бомбу сделали. Причем не в единичном экземпляре. :-)
        
        P.S. Как ни странно, российская атомная бомба тоже делалась в лаборатории, причем номер 2.
    - tcapb1 вчера в 12:57
      
      +2
      
      Пока я знаю лишь один пример, когда заразилось 60%. На остальных судах (включая алмазную принцессу со средним возрастом пассажиров 69 лет) предел — заражение прекращалось на 20%. Измерения антител в самых зараженных местностях тоже не дали более 20-30% переболевших.
      
      На алмазной принцессе был карантин и люди сидели в своих каютах безвылазно. И даже в этом случае получилось 20%. Да и Шарль-де-Голль не единственный пример. 60%+ переболевших получается по серологическим тестам в городках на севере Италии. Так что не могу серьёзно воспринимать ваши выводы.
      - Jef239 сегодня в 02:38
        
        0
        
        На алмазной принцессе распространение шло с кухни c R0=14.8. Так что удивительно, что не заразились все. То есть очень похоже, что доза была D20.
        
        В Альцано 12 тысяч человек, в Нембро — 11 тысяч, Сериатте — 21 тысяча. Всего тестов было 1500, то есть тестирование выборочное. При этом поголовное тестирование медиков выявило 23,4%.
        
        Тут большой вопрос — было ли тестирование действительно случайным, бесплатным и не дающим преимуществ или наоборот, на тесты была предварительная запись. Потому что результаты можно прочесть и как «60% переболевших имеют антитела» или «60% тех, кто думает, что переболел, действительно переболели».
        
        Ну как пример — я на подобные тесты пойду одним из первых, так как переболел (неофициально) в начале апреля. И эта справка мне нужна, не только чтобы убедить адептов секты "летальность 35%" среди знакомых, но и чтобы спокойно передвигаться по городу.
        
        Так что "опрос пользователей интернета показал, что 100% пользуются интернетом".
- BigBeaver вчера в 10:13
  0
  Внезапно, в расках статистической модели это не особо важно и косвенно само учитывается в момент обучения модели через дргие параметры. Вас же не смущает, что вероятность заболеть разная для разных стран? Вот как раз потому, что разная восприимчивость, разные стандарты социального взаимодействия/поведения (что как раз влияет на получаемую в среднем дозу [она же вместе с возрастными характеристиками отражена в разной летальности на разных популяциях]) и тд.
  - Jef239 сегодня в 01:48
    
    0
    То есть вам не важно, предсказывает ли модель всплеск при снятии карантина? Ну да, если модель ничего предсказать не может, то модель может быть какой угодно.
    
    А если мы хотим предсказать, что будет при снятии карантина, то у нас разные сценарии для исчерпания числа восприимчивых и для ситуации, когда его не было. Очень существенно разные. И точка, когда можно снимать карантин — года так на 3 гуляет.
- arheops вчера в 13:08
  0
  В Украине в данный момент дети — 10%. Поскольку в Украине тесты делают только тяжелым и медикам(а они очевидно — не дети, их 20%, тоесть без них — 15%), то как минимум не все так очевидно с детьми. В Украине детей — около 21%. Тоесть в общемто не сильно больше, чем % больных детей.
  Возможно, такая статистика связана с тем, что детей просто берегут в других странах(в Украине часть детей все еще играет на улице и власти особо ничего не делают с этим).
  Да, возможно, детям делают больше тестов. Но врятли вот прям в два раза больше.
  - Jef239 сегодня в 01:41
    
    0
    Вы про это? Ну во-первых — 6.9%, во вторых — «дети» в РФ это до 18 лет. Получаем заболеваемость в 3.3 раза меньше.
    
    В третьих — пневмоний у детей намного больше. Ну как пример — у меня порядка 20 пневмоний до 18 лет и всего две позже. А если каждую пневмонию считать ковидной… Ну в общем, даже если пневмония бактериальная, то получить в больнице вдобавок ещё и ковид — легко. Особенно на уровне ПЦР+. То есть ковид — без симптомов, пневмония — бактериальная, по сумме — пишем ковидная пневмония.
    
    Поскольку в Украине тесты делают только тяжелым и медикам
    А остальным пишут ковид вообще на глазок или по КТ?
vics001 4 мая 2020 в 21:07
+1
Как по мне, так кривую надо в первую очередь подгонять под кол-во смертей, потому что очевидно они стабильно выявляются в отличие от случаев.
Возьмите данные NL, которые правильно скорректированы по датам (в отличие от worldmeters.info) — карантин 14 марта:
www.rivm.nl/coronavirus-covid-19/grafieken (ziekenhuis — госпитализации, overledenen — смерти).
Еще можете взять данные по IC (реанимации) — www.stichting-nice.nl.

Дело в том, что брать крупные страны, крайне не выгодно в связи с разными очагами, которые то вспыхивают, то утихают. В этом плане небольшие, но густонаселенные страны могут дать и хорошую статистику и понимание коэффициентов.
- Andy_U 4 мая 2020 в 22:24
  +1
  Как по мне, так кривую надо в первую очередь подгонять под кол-во смертей, потому что очевидно они стабильно выявляются в отличие от случаев.
  
  Я тут уже дня три пытаюсь решить вот такую задачу, используя данные института Хопкинса с github'а, а именно данные на каждый день о заразившихся (confirmed), выздоровевших (recovered) и умерших (deaths).
  - Давайте для простоты предположим, что выздоровевшие выздоравливают за одно и то же (пока неизвестное) число дней dt_recovered.
  - Умершие умирают тоже за одно и тоже количество дней (но другое). dt_death.
  Кстати — этим объясняется, почему мы пока (в России) видим что число выздоровевших на сегодня, заметно меньшее числа заразившихся. Та же история в умершими, которых совсем мало. Причем упрощение о равенстве дней в больнице — не сильное. То же самое произойдет при наличии разброса.
  
  Заодно становится понятно, что утверждение (СМИ и пр.) о малой летальности, вычисляемое как отношение кумулятивных сумм умерших вплоть до сегодняшнего дня к кумулятивной сумме заразившихся снова вплоть до сегодняшнего дня в России — жульничество! Ведь делить надо на кумулятивную сумму до сегодня минус dt_deaths (которое может оказаться и месяцем по оценкам знакомых врачей). Но тогда, в прошлом число заразившихся как бы не на порядок меньше было. А тогда и летальность возрастает на порядок :(
  
  Ладно, вернемся к задаче… Очевидно, что в упрощенной модели число заболевших за какую-то старую дату должно быть равно:
  
  N_confirmed(t) = N_recovered(t+dt_recovered) + N_deaths(t+dt_deaths).
  
  Вот… Данные есть, времена целые. Вроде и дел-то перебрать примерно 30x30 вариантов времен и найти, какая комбинация дает минимум суммы квадратов отклонений:
  
  sum((N_confirmed(t) — N_recovered(t+dt_recovered) — N_deaths(t+dt_deaths))**2/N_confirmed(t)
  
  Веса разные, потому что распределения Пуассона.
  
  Однако, не выходит каменный цветок :( Т.е. минимум (даже несколько) находится, но вот качество воспроизведения кривой N_confirmed(t) совершенно неудовлетворительное.
  
  P.S. Принимаются любые советы…
Nick0las 4 мая 2020 в 22:08
+1
Никогда ранее не занимался моделированием эпидемий, но у меня возникает закономерный вопрос: кто-то вообще оценивал правдоподобность замены стохастических процессов усредненными? Вот есть у нас популяция, у каждого индивида свой граф контактов, свои характерные а может и не характерные маршруты следования, и.т.п. В популяции есть некая вариабильность индивидов. А тут моделирование начинается по сути введения графа состояний и скоростей перехода между состояниями как функций числа индивидов в этих состояниях. Граф переходов то верный, но вероятности перехода для каждого индивида разные. Выше есть ссылка на блог Александра Маркова который предложил гипотезу суперраспространителей. А в реальность есть целый спектр распространителей различного типа. Тут уже целая тема для исследований: сравнить динамическую модель для N индивидов с усредненными моделями.
- BigBeaver вчера в 10:14
  +1
  стохастических процессов усредненными
  Это одно и то же. Если случайный просс правильно смоделирован. Но, в целом, если мы предсказываем макропараметры, то микропараметры в праве оставить любым черным ящиком.
- tangerine вчера в 11:33
  0
  Нет конечно,
  эргодическая гипотеза тут скорей всего не работает.
Druu 4 мая 2020 в 23:45
+4
Автор, классический МНК в таком фитинге применять нельзя, т.к. для корректности классического МНК случайная ошибка должна быть случайной величиной, которая статистически не зависит от факторов. У нас же ошибка в количестве заболевших растет пропорционально самому количеству заболевших — и, с-но, растет при росте факторов, которые влияют на скорость роста количества заболевших. Как минимум, здесь надо переходить к логарифмам приращений (вообще это обязательный первый шаг при анализе подобных процессов) — хотя принципиально это проблему и не решит.

А еще у вас первый фактор по котором проводится фитинг (суммарное число заболевших) может быть существенно больше второго (число активных случаев) — такие факторы надо приводить к одному масштабу.

Nick0las

Никогда ранее не занимался моделированием эпидемий, но у меня возникает закономерный вопрос: кто-то вообще оценивал правдоподобность замены стохастических процессов усредненными?
Эти вопросы в общем-то давно исследованы в рамках матстата — и такая замена корректна, при выполнении определенных условий для статистического распределения.
В случае наличия штук вроде "суперраспространителей" — эти условия вполне могут не выполняться. Но, проблема — в этом случае процесс в принципе становится непрогнозируемым без априорной информации никак вообще. Не будет существовать алгоритма, который бы позволил рассчитать параметры модели по имеющимся выборкам. В таких случаях обычно можно оценить ряд дифференциальных/топологический инвариантов траектории, некоторые ее метрические характеристики — но они обычно представляют исключительно математический интерес и бесполезны в качестве чего-то, на основании чего можно сформировать какой-то вменяемый прогноз.
agalakhov вчера в 01:17
+5
Колебания с периодом в 7 дней с большой вероятностью не колебания заболеваемости, а колебания диагностики. В Германии в среду и пятницу у обычных врачей сокращенные дни, а в субботу и воскресенье принимают только дежурные при экстренных случаях. На это накладывается еще опоздание данных. Если в понедельник пришли отчеты за выходные, то их впишут скорее всего уже понедельником.
Miron11 вчера в 09:11
–4
Не читая статью могу утверждать, что статья это дикий бред, все работает.
Вероятностные расчеты должны вестись отталкиваясь, в свою очередь, от биномиального распределения концентрации патогена в заданном объеме аэрозоли, для вероятности заражения более 0,5.
Поэтому либо домен бинома не правильно оценен.
Возможны как полный провал счетовода, так и недоработки по оценке влияния погоды.
Либо вероятностный расчет не верен.
На самом деле данных для коррекции и того и другого уже в избытке. Отсутствует работа ( труд ) проделанный над материалом.
Модель работает.
YuraLia вчера в 09:44
0
Есть сезонная зависимость динамики распространения респираторных вирусов, и вряд ли этот будет исключением science.sciencemag.org/content/early/2020/04/24/science.abb5793. Так что вашу модель следовало бы скорректировать с учетом этого фактора.
Androniy вчера в 10:11
+2
Количество выявленных случаев зависит от возможностей тестирования (количества тестов) и методики выборки для тестирования. В результате, ошибка определения новых случаев не является нормально распределенной. Как минимум, в модели должно присутствовать количество проведенных тестов (которое еще и меняется со временем). Так же скорость распространения изменяется со временем в зависимости от ограничительных мер. Поэтому любая модель без учета этих параметров в долгосрочной перспективе показывает погоду на Марсе.
- surVrus вчера в 22:31
  0
  Количество выявленных случаев зависит от возможностей тестирования (количества тестов) и методики выборки для тестирования.
  
  Верно, я тоже на это обратил внимание.
  Разница между ростом заболевших и ростом обнаруженных новых заболевших при тестировании — может быть существенная.
  Более интересен показатель «количество смертей в день» для России. Он существенно не меняется с середины апреля.
  Само количество тоже интересное: 1451 (на сегодня).
  При выявленных 155 000 заболевших.
  Получается, что смертность в отношении к выявленным случаям будет 0,93%. Много или мало? На «супер-пупер-мега вирус» — не похоже вроде.
  Оба показателя «умершие» и «выявленные» могут быть неточными.
  
  И теперь анализ и предположение (весьма дикое, кстати).
  Исходные данные:
  относительная стабильность количества смертей в день (колебание 100+-20 в день),
  при росте количества проведенных тестов растет количество выявленных больных
  выявлены не все больные
  причины смерти «от коронавируса» указываются достаточно точно, хотя могут и незначительно искусственно завышаться «на местах»
  
  Предположение:
  «Эпидемия» началась раньше, примерно в 10-11 месяце 2019 года.
  Сейчас видно «плато» по количеству умерших.
  Не стоит принимать в расчет количество выявленных больных, реальное количество больных или уже переболевших, или болеющих без симптомов может быть существенно выше.
  Если взять данные по Германии и США за основу, и в модели по России сдвинуть время на 4 месяца назад, причем скорректировать коэффициенты регрессии по текущим реальным данным смертности в день. Могут получиться более реальные прогнозы… Наверное.
  У меня не хватит квалификации сделать это самому, поэтому выношу на обсуждение.
  Интересно было бы использовать для оценок модели с нечеткой логикой, в которых можно использовать интервалы значений с их вероятностью. Вроде в матлабе все это есть. Я давно туда не лазил…
  
  И немного совсем в иную сторону. Про определение «эпидемия».
  Если выявлено 155 000 больных на территории всей России при населении 144 млн, и данная ситуация считается «эпидемией», то формальный «эпидемический порог» для данного заболевания составляет менее 0,2%. Обычно эпидемией считается заболевание с эпидемическим порогом более 1%. Хотя и не всегда.
  И тут возникает вопрос: или это не эпидемия, или количество больных намного выше, или
  эпидемический порог назначен «с фонаря» (точнее от паники и ВОЗ), или есть еще какой-то неизвестный мне вариант (что скорее всего).
  - Andy_U вчера в 23:56
    
    0
    Получается, что смертность в отношении к выявленным случаям будет 0,93%
    
    Не получается. Умершие заболели примерно от двух недель до месяца назад. Т.е. делить нынешнее количество нужно на число выявленных случаев в то время. Те кого выявили недавно, еще и не выздоровели, и не умерли.
    - surVrus сегодня в 00:30
      
      0
      
      Те кого выявили недавно, еще и не выздоровели, и не умерли.
      
      Тоже верно. При малом интервале так и будет.
Cerberuser вчера в 11:55
+1
Мне ещё вот что стало интересно. В последние дни кривая заболеваемости снова пошла на взлёт — достаточно чётко видно вот здесь на втором графике, что в 20-х числах апреля была как раз та сама прямая, про которую речь в статье, а дальше снова подьём (есть подозрение, что за счёт заразившихся в Пасху — как раз примерно две недели инкубационного периода). Это как-то можно учесть в описываемой модели?
- BigBeaver вчера в 13:19
  0
  Или просто тесты подвезли?
- surVrus сегодня в 00:33
  0
  Или случайное колебание, вызванное неточностью или несвоевременностью данных.
  Или просто ошибка.
Tyusha вчера в 12:24
0
За попытку лайк, но незачёт.

1. Главная проблема полное игнорирование вами «невидимого» сектора заражённых, которых в разы больше. Например у меня нет ни одного знакомого, кто бы находится в больнице с коронавирусом, зато есть троё разных приятелей, которые в апреле тихо лежали дома и никому из медиков не «палились», что у них ковид.

2. Надо понимать, откуда берётся статистика. Есть куча зависимостей типа «если — то»: «Если заболел — то протестировали на вирус». И это первое, что приходит в голову. Тут где-то рядом бродит теорема Байеса.

3. Когда Собянин говорит, что провели выборочный скрининг населения и установили, что заболело или переболело 2% населения Москвы, это же полный трэш. Люди просто безграмотны! Хочется спросить, а точность тестов какая? Собянин не понимает, что для того, чтобы «заметить» хоть со сколько-нибудь приличной сигмой (погрешностью) 2% больных. Точность тестов должна быть в разы лучше 98%. Что очевидно не так.

Пока слова Собянина можно интерпретировать так. Ошибка тестов у нас в районе 2%, поэтому, сколько заболевших мы сказать не можем, но точно не выше 1%, а скорее всего много меньше.
ss-nopol вчера в 12:43
+1
$N
=
S
+
I
+
R$ — общий размер популяции,

Секундочку, а где же невосприимчивые? Они тоже должны входить в сумму.
- Druu вчера в 12:53
  0
  Невосприимчивые — это заболевшие либо переболевшие. Те, кто в принципе изначально не может заболеть, на динамику в данной модели не влияют и потому не учитываются.
amarao вчера в 15:10
0
Я эту статью смотрю 5ого мая. На картинках обещают снижение числа дневных случаев в районе начала мая. А worldometers настаивает, что оно растёт. Кто прав?
- 1c80 вчера в 19:56
  –2
  Ну понятно, же, что у картинок своя жизнь, а у реальности другая, все эти попытки предсказаний очень похожи, на расчёт получения Джек-пота в казино, потому и результат соответствующий.
  Никакая математика тут не справится, нет пока технологий, способных верно решать уравнения, с таким количеством неизвестных.
  Основа науки, это получение более-менее повторяющегося результата, с последующей попыткой подобрать более-менее вменяемой объяснение, под этот результат.
- Druu вчера в 22:16
  0
  Я вам открою секрет, многим неизвестный, — модели того типа, что рассматривается в посте, специалистами никогда и ни при каких условиях не используются для прогнозирования. Они для этого не предназначены и никогда не были предназначены просто by design.
  - surVrus вчера в 22:43
    
    0
    никогда и ни при каких условиях не используются для прогнозирования.
    
    Используются для прогнозирования. Например, если нужно получить гранты для исследований. В общем, для целей получения бабла в том или ином виде.
    Более совершенные модели используются в Германии (описано тут)
    В этой статье используются.
    То, что они не предназначены для этого — не имеет никакого значения. Чем же еще пользоваться? :)
    Мне обычно именно так заявляют экономисты, когда используют еще более примитивные линейные модели, одно параметрические, без учета структуры системы. Да еще и построенные на основании неверных, несвоевременных статистических данных. «Чем же еще пользоваться? Мы иного не знаем...».
    В приведенной выше статье модель вполне адекватная существующим представлениям биологов, медиков и математиков. То, что «Они для этого не предназначены и никогда не были предназначены просто by design.» — тоже верно. Но для теории ad hoc — вполне годиться.
    - Druu сегодня в 03:12
      
      0
      
      Используются для прогнозирования. Например, если нужно получить гранты для исследований. В общем, для целей получения бабла в том или ином виде.
      Так-то конечно да, для того, чтобы бабла с лопухов снять — можно использовать что угодно.
      
      Чем же еще пользоваться? :)
      Тут пункта два:
      
      Вообще пользоваться есть чем, но это сложно, очень. На самом деле, я сомневаюсь что в мире в принципе больше ~десятка специалистов, которые были бы способны нормально решить подобного рода задачу прогнозирования. И под "решением" я подразумеваю не "взял и посчитал" — а то, что такому человеку можно будет некоторый штат выдать в подчинение и потребовать какого-то вменяемого результата во вменяемые сроки. Таких же, что "взял и посчитал" не существует вообще.
      
      Если уж и хочется воспользоваться чем-то заведомо некорректным можно сделать прикидку на глаз или подбросить монетку — прогностическая ценность таких подходов не сильно ниже. Зато гранта не получишь, это да :)
      
      В приведенной выше статье модель вполне адекватная существующим представлениям биологов, медиков и математиков.
      Да, но такие модели используются не для прогнозирования поведения системы, а для качественного анализа режимов ее работы. Например, мы из такой модели можем почерпнуть общий вид кривой и возможный вид соотношений между зависимыми переменными, можем попытаться классифицировать решения (в общем случае это не будет тривиальной задачей). Но вот доводить до чисел смысла нет никакого.
solariserj вчера в 23:05
+1
Как и в случае США, реальные данные содержат ясно выраженные колебания с периодом в 7 дней. Это значит, что в выходные дни число контактов увеличивается, а следовательно, растет и число зараженных.

а может потому что суббота/воскресенье — выходные дни и тесты не делают просто так. У нас лабы тест делали в субботу утром а результат дали в понедельник вечером, если бы делали в будни то было бы быстрее. тут нужно брать недельную среднюю чтоб увидить тренд
middle вчера в 23:38
+2
Учёные: «давайте введём самоизоляцию, при самоизоляции экспоненциальный рост сменяется на полиномиальный»
все: сидят в самоизоляции
aikarimov спустя месяц: «ну и где ваш экспоненциальный рост?»
Vinchi сегодня в 00:08
0
Мусор на входе, мусор на выходе.
Все выкладки тут бесполезны по простой причине — нет на самом деле у вас данных. Текущие данные по выявленным — просто результат тестирования. Чем больше тестов, тем больше выявлено. Реальной картины заболевших никто не знает. Отсюда и артефакты типа линейной зависимости — производство и закупка тестов идет не по экспоненте.
Учтите что много безсимптомных, и они заразны, так что больше всего инфекция сейчас распространяется теми людьми, которые возможно даже не задумывались сделать тесты.
А еще методология в каждой стране своя, свои тесты, периодически методологию меняли. Как у нас например, в ковидные стали записывать не только с тестами а вообще всех с симптомами ОРВИ похожими на ковид.