Эффективность вакцин: парадокс Юла — Симпсона, или почему эффективность вакцины не равна среднему арифметическому эффективностей у разных возрастных групп?

Elena Savinova
6 min readNov 24, 2021

--

Большой пост с щепоткой математики. Поскольку я сама не математик, я постараюсь объяснить всё так, что понятно будет любому человеку, кто захочет вникнуть.

Однажды, когда я читала швейцарский отчет-обзор о ковиде [1], мое внимание привлекли графики эффективности вакцин против госпитализации и смерти. Как видно, для каждой из возрастных групп значения эффективности почти всегда не менее 90 %. Однако, если мы рассматриваем эффективность для всех людей, вместе взятых (черные линии), общая эффективность почему-то ниже и совсем не похожа на арифметическое среднее значений для возрастных групп.

Пояснения

  1. Поскольку точные значения не опубликованы, у меня нет возможности построить свой график. Поэтому я взяла оригинальную визуализацию и просто заменила на ней подписи, переведя с немецкого на русский.
  2. Явно не указано, что именно стоит за линией, а что — за точкой. Предполагаю, что линия — это доверительный интервал, а точка — собственно значение эффективности.

Это явление называется парадоксом Юла — Симпсона [2]. В разных группах одной выборки может наблюдаться одна и та же тенденция. Однако из этого необязательно следует вывод о том, что и во всей выборке будет такая же тенденция.

Автор изображений [3]: пользователь „Википедии“ Pace~svwiki

В данном случае речь идет о выборке людей, для которых известны состояния для двух параметров: наличие или отсутствие прививки от ковида и наличие или отсутствие госпитализации из-за ковида. Всех этих людей разделили на возрастные группы и отдельно для каждой из них вычислили эффективность вакцин в предотвращении госпитализации. Почему же эффективность всей выборки ниже эффективностей по возрастным группам?

Давайте взглянем на конкретные числа, расположенные внизу графика.

Все эти числа я перенесла в таблицу [4].

Представим себе, что нам неизвестно, какова вероятность госпитализации у всей выборки, и перед нами стоит задача вычислить эффективность всей выборки на основании значений числа госпитализаций и вероятностей госпитализации по каждой возрастной группе. Кстати, именно с данными значениями есть нюанс. Если сложить значения абсолютного числа госпитализаций по всем возрастным группам, то далеко не всегда будет получаться то же значение, что указано для всей выборки (черным цветом). Скорее всего, во всю выборку также включены люди до 20 лет. Только для этой возрастной категории не приведены их собственные значения вероятности госпитализации.

Как видно, численности возрастных групп довольно отличаются друг от друга. В этом и кроется причина того, что мы не можем просто вычислить среднее арифметическое для значений эффективности вакцины.

Напомню, что вычислять эффективность можно по-разному, о чем я некогда писала [5]. Ссылка дана на большой пост, который является последним в серии из пяти больших постов. Если вы не читали посты об эффективности, то стоит обратить на них внимание, потому что это может дать фундаментальное представление о самом понятии (посты написаны тоже на основании фундаментальных учебников).

В данном случае мы воспользуемся простой формулой

В свою очередь относительный риск рассчитывается так:

Как теперь вычислить вероятность госпитализации для всей выборки на основании вероятностей в каждой из групп? Очевидно, что человек относится к одной из четырех возрастных групп и не может быть одновременно в разных группах.

Значит, вместе все они составляют полную группу событий, и тогда мы сможем сложить вероятности госпитализации в каждой возрастной группе, придав каждой из этих вероятностей вес. Так мы получим вероятность госпитализации по всем группам:

Как найти этот вес? Для этого нам пригодятся значения абсолютного числа госпитализированных:

Собственно, эта вероятность P(agen) и есть искомый коэффициент, или вес, который нужно подставить в формулу вероятности госпитализации по всем группам.

Каждое слагаемое в этом уравнении является результатом умножения двух вероятностей — вероятности того, что человек окажется в той или иной возрастной группе, и вероятности собственно госпитализации в этой возрастной группе.

В общем виде для нашей задачи запись формулы можно упростить с помощью символа суммы:

И это является вариантом записи формулы полной вероятности.

Проверим на конкретном примере. Возьмем значения за все время наблюдения. Начнем с вероятностей госпитализации в каждой возрастной группе у привитых (каждое значение поделено на 100 000, так как в исходных данных указано число госпитализаций на 100 000 населения):

Теперь вычислим вероятности того, что случайно выбранный госпитализированный от ковида и привитый от него относится к той или иной возрастной группе:

А теперь подставим всё это в формулу:

Так мы получили числитель для формулы относительного риска, из которого выводится собственно эффективность. Вычислим теперь знаменатель — риск, или вероятность, госпитализации у непривитых.

Вероятности госпитализации:

Вероятности возрастных групп:

Считаем вероятность госпитализации у непривитых:

Теперь осталось подставить значения вероятностей госпитализации у привитых и непривитых в изначальную формулу эффективности:

Как видно, искомая эффективность вакцинации в предотвращении госпитализации по всем возрастным группам отличается от таких значений эффективности в каждой группе по отдельности. Минимальное значение эффективности — в группе людей от 80 лет, и оно равно 87,23 %. Максимальное значение в группе людей от 40 до 59 лет, и оно равно 95,74 %. А эффективность по всем возрастам 82,71 %.

На самом графике значение немного меньше и равно примерно 79,31 %. Как я написала выше, это связано с тем, что это значение вычислено на основании данных по всем возрастам, включая группу людей до 20 лет. А мы в формулу полной вероятности группу людей до 20 лет не включали, так как значение вероятности госпитализации в этой группе нам неизвестно.

Впрочем, ради любопытства можно вычислить значение эффективности по всем группам, взяв из графика значения вероятности госпитализации:

Также стоит понимать, что на самом деле всё вычисляется намного сложнее. Здесь мы выполнили самое простое приближение, кумулятивно, без учета разного времени наблюдения за испытуемыми, без статистического анализа.

Десять лет назад я написала на своей стене в ВК: „Давно меня ничто так не удивляло, как тот факт, что размерность бывает нецелая“. Пришло время написать вот что: давно меня ничто так не удивляло, как парадокс Юла — Симпсона. Давно меня ничто так не радовало, как элегантное объяснение этого парадокса с помощью формулы полной вероятности.

Источники:

  1. https://sciencetaskforce.ch/wissenschaftliches-update-26-oktober-2021/
  2. https://ru.wikipedia.org/wiki/Парадокс_Симпсона
  3. https://en.wikipedia.org/wiki/Simpson%27s_paradox#/media/File:Simpsons_paradox_-_animation.gif
  4. https://bit.ly/3CSanfW
  5. https://t.me/VaccinesNoNonsense/493

Поддержать АНО по развитию и поддержке вакцинопрофилактики „Коллективный иммунитет“:

https://vaccina.info/donate

--

--

Elena Savinova

German teacher & co-founder of Herd Immunity, a provaccine non-profit. From Russia with dedication. Living in Finland.