На сегодняшний день накоплено достаточно данных для проведения заявленного анализа.
Будут использованы данные за октябрь, ноябрь и декабрь 2021 года, поскольку в эти месяцы приходится российская эпидемия.
сезона и однородны по штамму вируса: вариант Дельта был широко распространен в обе страны в этот период. Данные для анализа были взяты из официальных источников в России и США.
Смертность и статус вакцины
Во времена штамма «Дельта» основной причиной повышенной смертности называли непривитое население: дескать, именно они болеют Covid-19 и впоследствии умирают. Определим избыточную смертность как отношение смертей за месяц 2021 г.к тому же месяцу 2020 г.
В этом случае, если построить график избыточной смертности от доли непривитого населения, то мы должны получить растущую прямую линию, начинающуюся примерно от точки (0, 0,8) и дойдя до значения (1, 1).
Действительно, если привито всё население, то текущий уровень смертности должен быть в районе 2019 года (поскольку в этом случае от Covid-19 никто не умирает, а смертность от других причин остаётся прежней), а при полностью непривитом населении , уровень смертности должен повторить значение предыдущего года.
Таким образом, теория определяет растущую прямую с коэффициентом наклона, примерно равным 0,2. В этом разделе публикации мы построим эти графики для обеих стран и сравним их с ранее выдвинутым теоретическим утверждением.
Может показаться, что задача очень проста: необходимо, усредняя по стране за каждый месяц, определить избыточную смертность (координата y) + долю непривитого населения (координата х) и нанести эти точки на график.
график.
Но в этом случае мы будем иметь неявную зависимость от времени, поскольку разные точки одного и того же графика будут относиться к разным месяцам.
Причем в разные месяцы большое количество факторов (погода, питание, спортивная активность, достаток, традиции, принятые ограничительные меры.
) могут иметь разное значение, поэтому мы получим зависимость избыточной смертности от вакцинации и большого количества факторов, косвенно участвующих в форме времени.
Отдельно выделю фактор стадии эпидемии.
процесс, устанавливающий в разные годы разные положения максимумов смертности.
Это приводит к тому, что есть как месяцы с завышенной избыточной смертностью (где был максимум в 2021 году), так и с заниженными (где был максимум в 2020 году).
Например, для Москвы максимальные значения заболеваемости отличаются от фоновых примерно в 3 раза, поэтому избыточная смертность может колебаться в 9 раз! На фоне таких «качаний» избыточной смертности оценки эффективности вакцинации будут содержать большие ошибки.
Казалось бы, из-за действия сильных шумовых факторов проблема превращается в неразрешимую.
Но для подавления шума мы используем ту же технику, которая используется при анализе сильно зашумленного космического излучения.
Представьте себе, что у вас есть небольшой полезный сигнал в виде периодического небольшого «тычка» на фоне в 100 раз превышающего белый шум.
Из этого набора практически невозможно выделить полезный сигнал.
А вот если мы этот шумный сигнал прибавим сам к себе 100 раз, то полезная составляющая увеличится в 100 раз (так как «тычок» имеет постоянное значение), а шум ослабнет (так как он случайный, т.е.
разнонаправленный и подавится сам собой).
.
Таким образом, вы можете получить полезный сигнал из очень зашумленных данных.
Поэтому каждый регион на графике мы будем отображать как отдельную точку, и несмотря на то, что на регионы влияет большое количество переменных факторов, из-за их несовпадения при усреднении мы получим сильно ослабленное шумовое воздействие.
Поэтому точки, представляющие отдельные регионы, не имеют самостоятельного значения, и результатом анализа можно считать лишь наклон линии регрессии (отражающей среднее значение).
Также не следует экстраполировать линию регрессии (до значений абсцисс 0 и 1), так как ее наклон рассчитывается с определенной ошибкой, а экстраполяция умножит эту ошибку.
Россия
В нашей стране есть два независимых источника данных о смертности от Covid-19: сайт стопкоронавирус и официальные отчеты Росстата .Первый дает сильно заниженные данные как по заболеваемости, так и по смертности, поэтому уровень смертности в разных регионах существенно различается из-за таких корректировок.
Данные с сайта стопкоронавирус я считаю недостоверными и буду использовать ежемесячные данные Росстата.
При анализе я не учитывал регионы со смертностью в 2020 году ниже 1000 чел/мес, поскольку в этом случае случайные отклонения могут существенно исказить статистику.
Сайт использовался для получения данных о вакцинации gogov.ru , который детализирует данные по региону и дате.
На этом сайте представлены два номера: привит и полностью привит. При создании отчетов я указал оба значения, но рекомендую опираться на первые, так как их больше и, как следствие, статистика более точная.
При соединении наборов данных были получены графики, каждая точка на которых представляет отдельный регион.
Данные о вакцинации брали за 5 дней до начала соответствующего месяца.
При этом учитывались как временной лаг течения заболевания (-10 дней), так и отставание опубликованных данных от реальной ситуации в регионе (+5 дней).
Синяя область устанавливает пределы 95% уверенности в нахождении линии регрессии.
Уравнения приведены для желаемой регрессии.
Из графиков видно, что для России выдвинутое ранее теоретическое положение (о том, что от Covid-19 умирает в основном непривитое население) не соответствует действительности: в октябре и ноябре наблюдается обратная зависимость численности населения (чем больше непривитых населения региона, тем ниже избыточная смертность).
Декабрь хорошо приближается к желаемой зависимости (выходит из точки (0;0,8) и стремится к точке (1;1)).
Декабрьское увеличение линии регрессии, скорее всего, связано с ревакцинацией, которая временно снижает смертность (во втором разделе данной публикации вы увидите, что в США в декабре также наблюдается отклонение в сторону эффективности вакцинации).
США
Данные о вакцинации взяты с сайта Центры США по контролю и профилактике заболеваний (его роль заключается в предоставлении информации для улучшения решений в области здравоохранения).На этом же сайте в еще один набор Данные предоставляют информацию о смертности от всех причин.
Дополнительным бонусом данных США стало деление населения по возрастным группам как среди привитых, так и среди умерших, что позволяет более детально проанализировать влияние вакцинации.
Позже, анализируя эту разницу, мы получим интересные выводы.
Графики построены по тем же правилам, что и для России.
Для США также не подтверждается ранее выдвинутое теоретическое положение: линия регрессии имеет обратную зависимость (т.е.
чем больше непривитого населения в регионе, тем ниже уровень избыточной смертности).
Идентичность полученных графиков для двух стран позволяет сделать вывод, что все 4 использованных набора данных (2 для России и 2 для США) корректны.
Действительно, если бы хотя бы один набор был неверным, то мы получили бы разные графики для двух стран.
Эта промежуточная «победа» позволяет нам продолжить исследования и сделать ряд дополнительных выводов на основе представленных графиков.
Ээффективность вакцинации
Теперь наконец перейдем к основной теме публикации.Мы уже косвенно оценили, что эффективность вакцинации далека от 1, поскольку исходная теория не справедлива для обеих стран.
Но все же хотелось бы иметь более точные оценки.
Первый способ
Одну оценку можно сделать на основе того факта, что рассматриваемые месяцы являются непрерывными.При этом, если произойдет сдвиг максимального уровня смертности одного года относительно другого, то в следующем месяце это будет учтено.
Те.
Верхний предел эффективности вакцинации можно оценить как максимальную разницу между 1 и средней избыточной смертностью.
Обращаясь к графикам США для тотально вакцинированной группы 65+, мы видим, что минимальное отклонение центра красной линии от 1 составляет 0.2 .
Это первая оценка верхней границы эффективности вакцинации.
Стоит отметить, что на популяцию могут влиять факторы, оказывающие различное воздействие в разные годы, поэтому этот метод дает надежную оценку только в том случае, если все остальные факторы постоянны.
Второй способ
Ранее я говорил о большом количестве факторов, действующих в регионе.Но для данного месяца этот эффект должен быть одинаковым для обеих возрастных групп (65+ и 65-).
Таким образом, анализируя различия в избыточной смертности и долях для центра водоразборной линии, можно сделать вывод, что верхняя граница эффективности вакцинации в ноябре составила примерно 0.3 , а в декабре примерно 0.5 .
Различия за два месяца, скорее всего, объясняются значительной долей населения старше 65 лет, получившей ревакцинацию вакцины в декабре 2021 года (которая до сих пор оказывает сильное воздействие на организм).
Есть у этого метода и недостатки:
- Скорее всего, зависимость эффективности вакцинации от доли привитого населения является нелинейной функцией, поэтому экстраполировать ее прямой линией на небольшой центральный участок неверно.
- Оценка основана на аппроксимации линий двух возрастных групп, каждая из которых содержит достаточно значительную относительную погрешность.
Поэтому окончательная оценка также получается с большой относительной ошибкой (т. е.
она не является устойчивой).
Именно так население США «адаптировалось» к новому вирусу и поэтому в 2021 году смертность должна быть на 10% меньше, чем в 2020 году.
Заключение : Верхний предел эффективности вакцинации против штамма Дельта в России и США лежит в пределах от 15% до 30%.
п.
с.
Проект на тему Гитхаб .
Обновление I: Возражение о возрастной корреляции неверно.
В комментариях было высказано следующее возражение: прямые имеют отрицательный коэффициент наклона, поскольку возрастные интервалы, для которых построены графики (65+ и 65-), имеют разные профили возрастных пирамид для разных регионов.
В результате преобладания молодого населения в регионе (в пределах возрастного диапазона) мы получаем более высокую вероятность того, что они не будут вакцинированы, и меньшую вероятность того, что они умрут. Но в публикации рассматривается не зависимость смертности, а избыточная смертность , который определяется как соотношение смертей в 2021 и 2020 годах.
Если в 2021 году население одного из регионов имеет особенности возрастного профиля, изменяющие его уровень смертности, то в предыдущем году эта особенность была точно такой же.
Дело в том, что возрастной профиль имеет мультипликативный эффект, поскольку при расчете смертности необходима вероятность смертности для каждого возраста умножать от количества людей этого возраста в населении.
В результате влияние особенностей возрастного профиля региона на избыточная смертность отсутствующий.
Например, если текущий уровень смертности занижен (относительно других регионов) в силу особенностей профиля возрастной пирамиды для рассматриваемого региона, то прошлогодний уровень смертности должен быть занижен ровно на такую же величину, а их соотношение, в свою очередь, уже не зависит от возрастного профиля.
Это касается и других мультипликативных факторов, которые сохраняют свое влияние в течение длительных периодов времени (не только возрастной состав) и могут оказывать влияние на смертность (так называемый факторный анализ).
Если на смертность в регионе влияет некий квазипостоянный фактор, увеличивающий/уменьшающий смертность в К раз, то этот фактор также увеличивал/снижал смертность в К раз в предыдущем году.
Конечно, если фактор носит аддитивный характер (например, падение метеорита или цунами в регионе увеличивает разовую смертность), то избыточная смертность почувствует свое влияние.
Но, во-первых, таких влияний существенно меньше (что подтверждает практически нулевой свободный член в Закон Гомпертца ), а во-вторых, мы используем процедуру усреднения, чтобы избавиться от таких случайных влияний.
Все вышеизложенное позволяет сделать вывод, что введенная в публикации избыточная смертность не зависит от каких-либо конкретных мультипликативных квазипостоянных региональных факторов, в том числе от возрастного состава.
ОБНОВЛЕНИЕ II: теория о полной неэффективности вакцинации до определенного порога ложна
В комментариях оппоненты приводили теорию, согласно которой, пока население не достигнет определенного порога вакцинации, эффективность вакцинации будет равна 0. А как только она достигнет его, эпидемия сразу же начнет затухать.Давайте прольем свет на процесс распространения эпидемии; для этого рассмотрим процесс передачи заболевания от одного зараженного человека.
Пусть R0=4, тогда (по определению R0) 1 больной заразит 4 человек.
Но если население будет привито на 25%, то оно уже заразит 3-отличный (поскольку из 4 случайно встреченных людей средний будет привит 1 человек), а у 50% привитых - только 2 человек, а при уровне вакцинации 75% только 1 человек, и эпидемия угаснет. Смертность, в свою очередь, будет пропорциональна числу людей, выздоровевших от заболевания.
Таким образом, рассматривая потенциальных больных как чисто статистические выборки из населения, можно говорить об эффективности вакцинации на любой ее уровень.
Если вы хотите учесть передачу инфекции между привитыми, то вам необходимо ввести коэффициент эффективности вакцинации против заболевания (принимаем его равным 0,2) и умножить на это число привитых, находящихся в окружении больного человека.
коэффициент при подсчете общего числа зараженных.
Допустим, при R0=4 и уровне вакцинации 25% мы получаем 3 + 1*0,2 = 3.2 инфицированы, а при 50% вакцинации 2 + 2*0,2 = 2.4 человек.
Как видите, работает низкий уровень вакцинации (при 25%: 3,2).
< 4), even when adjusted for transmission of disease between vaccinated people. В свою очередь, заболевание среди населения передается последовательно от одного больного человека к другому в течение периода, характерного для Covid-19. Поскольку и число случаев, и период передачи содержат дисперсию, общее количество случаев в популяции за определенный период будет довольно сложной функцией.
Но очевидно одно: чем меньше людей заражает один больной, тем меньше будет общее число заболевших (т.е.
функция возрастает).
Все это позволяет сделать вывод, что мой анализ, основанный на учете избыточной смертности на разных уровнях вакцинации, верен, поскольку вакцинация должна давать эффект на любом из ее уровней.
ОБНОВЛЕНИЕ III: Правильность усреднения по регионам
В моей работе идет усреднение по регионам без учета количества проживающих в них людей (когда я строю линию регрессии).Давайте разберемся, будет ли это ошибкой.
Позвольте мне напомнить вам, что когда распределение сильно отличается от нормального, анализ средних значений использовать нельзя (в этом случае используются медианы) .
Очевидно, что распределение российских регионов сильно отличается от нормального.
Дополнительным бонусом является то, что средние значения без весовых коэффициентов более стабильны, так как меньше зависят от текущих изменений: значения, рассчитанные с региональными весами, будут постоянно «плавать» вместе с крупными регионами, а наша версия будет зависеть только от изменений.
по всей стране в целом.
Косвенно правильность рассуждений в этом разделе можно проверить следующим образом: отсортировать регионы каждой страны по количеству проживающих в ней людей и построить такие же графики для половины наиболее населенных регионов.
Таким образом мы получим крайнюю пропорцию весов (большим регионам присвоим вес 1, а мелким — 0), в свою очередь, все остальные способы «взвешивания» регионов будут лежать между исходным и этим крайним вариантом.
Если новые графики совпадут с графиками, содержащими все регионы, то это подтвердит мои слова о правильности отсутствия взвешивания.
Конечно, необходимо учитывать, что при вдвое меньшем количестве точек алгоритм построения линии регрессии не может так же точно рисовать прямую, поэтому неизбежны отклонения от исходных прямых (доверительный интервал также сильно расширился).
).
Графики для половины крупнейших регионов России
Графики половины крупнейших регионов США
Сравнение двух серий графиков позволяет сделать вывод о корректности использованной в работе методики.
ОБНОВЛЕНИЕ IV : подтверждение выводов публикации текущим распространением штамма Омикрон Лучшим подтверждением любой работы, содержащей теоретическую часть, является практика.
Она является судьей, выносящей окончательный вердикт о правильности проведенного исследования.
Давайте посмотрим на заявления официальных лиц и эпидемиологов по поводу распространения варианта Омикрона, которые, в свою очередь, основаны на настоящий текущая эпидемическая ситуация в мире:
- эффективность вакцин против нового штамма минимальна
- Бустерная доза временно повышает защитные силы организма.
Сегодняшняя практика полностью подтверждает мои расчеты.
И это логично, поскольку оба варианта являются мутациями исходного штамма вируса Альфа, для которого были разработаны все существующие на данный момент вакцины.
Численность населения также не сильно изменилась за последние шесть месяцев.
Следовательно, существенных различий в эффективности вакцинации для этих вариантов быть не должно.
И это логично, поскольку Вселенная не изобилует причинами.
Как правило, законы, лежащие в основе тех или иных процессов, просты и повторяются раз за разом во многих ситуациях с небольшими поправками, вызванными различиями в текущей обстановке.
Именно в этом и состоит цель исследования: найти общие закономерности в разрозненных данных.
Теги: #Машинное обучение #covid-19 #Большие данные #Инженерия данных #Анализ данных #вакцинация
-
Апеес
19 Oct, 24 -
Внимание Клиентам Masterhost/Mastername!
19 Oct, 24 -
20 Полезных Фреймворков Node.js
19 Oct, 24 -
Деньги Для Запуска Web 2.0
19 Oct, 24 -
Sql Server 2017: Теперь С Поддержкой Python
19 Oct, 24 -
Идеи Для Проектов: Радио «Невменоз»
19 Oct, 24