„Неудобные факты о вакцинации“: разбор

Elena Savinova
6 min readAug 5, 2020

--

Елена Савинова, “О прививках без истерик” (VK, FB, Telegram)

Последние сутки в ходу новость под названием „Коронавирус неожиданно раскрыл неудобный факт об вакцинации“, где ссылаются на слова доктора медицинских наук, профессора Шафалинова. На ФБ-странице этого врача действительно есть июньская заметка подобного содержания, кстати, снабженная „черной меткой“ „Фейсбука“ о том, что информация частично ложная.

Скриншот ФБ-страницы Шафалинова

Цитирую новость:

В США в период коронавируса проявился любопытный факт. График младенческой смертности показывает динамику за последние годы. Каждую неделю в среднем фиксируется 700 случаев ранней детской смертности на протяжении последних 7 лет. И половина из этих 700 случаев приходится на деток до одного года.

А на протяжении последних трёх месяцев сидения дома не проводилась вакцинация и другие “положенные” процедуры. И оказалось, что детская смертность упала почти в 2 раза, причём за счёт младенческой смертности.

Кратко: новость — утка, потому что она обращается к выдуманным и недостоверным данным. А теперь мой личный длинный разбор с претензиями к методологии и повтором визуализаций.

Начнем с выдуманных данных. Шафалинов не дал ссылку на источник, но я выяснила, что ссылался он на творческое, но претендующее на научность эссе. Шафалинов называет это „исследованием“, однако это такое же исследование, как я — балерина. Оно не опубликовано в научном рецензируемом журнале, а также не имеет ни цели, ни дизайна. Кстати, подробный разбор этого эссе на английском можно прочесть здесь. Впрочем, в нем я не обнаружила претензий к собственно методологии сбора данных, чем я в этом посте и займусь.

Графики, присутствовавшие на скриншоте у Шафалинова и фигурирующие под номером 14 и 15 в этом эссе, неожиданно вообще не имеют ссылки на источник данных. На самом деле для меня ничего необычного нет: противники вакцинации вообще частенько не любят давать ссылки на источники, даже на источники единомышленников.

График № 14 из эссе
График № 15 из эссе

Из названия графиков следует, что они обращаются к общему числу смертей. В общем списке источников к эссе обнаруживаем единственный, который дает информацию о смертях от всех причин: CDC: Weekly counts of deaths by jurisdiction and age group.

Через запрос к этим открытым датасетам CDC, или наборам данных, или базам данных, можно настроить свою визуализацию. Что ж, попробуем построить ту же визуализацию, которая фигурирует в эссе. Любой человек, который умеет формировать запросы в базы данных или визуализировать данные, может повторить все шаги за мной и проверить мою визуализацию.

Что же мы обнаруживаем? Во-первых, в этом датасете вообще нет возможности построить график по возрастной когорте до восемнадцати лет, не говоря уже про когорты до года, от года до четырех и от пяти до четырнадцати лет, как на графике № 15 из эссе. Тип поля возрастные когорты — это текст, и первая когорта — это до двадцати пяти лет.

Во-вторых, я сделала визуализацию с такими же параметрами, как в эссе. По оси абсцисс — календарные недели, по оси ординат — число смертей, при этом данные сгруппированы по годам от 2015 до 2020 с шагом в год. К сожалению, я не поняла, как в визуализационном инструменте CDC отсортировать график хронологически по неделям от 1 до 52 (буду благодарна за подсказку), но в любом случае номера недель на оси абсцисс подписаны. Моя визуализация на основании официального датасета находится здесь (для просмотра на сайте CDC нужно зарегистрироваться).

Чтобы отобразить данные, отсортированные по неделям, я скачала официальный датасет и построила по нему график в Google Data Studio. Полностью отсортировать по неделям не получается из-за неполных данных (см. ниже), но в Data Studio намного хронологичнее, чем на сайте CDC.

Кстати, в датасете CDC для недель 2020 года имеется примечание:

Data in recent weeks are incomplete. Only 60% of death records are submitted to NCHS within 10 days of the date of death, and completeness varies by jurisdiction.

Данные за последние недели неполные. Лишь 60 % записей о смерти сообщаются в Национальный центр статистики здравоохранения США (NCHS) в течение 10 дней со дня смерти, и полнота данных зависит от юрисдикции [здесь — штата; перевод мой].

Как справиться с проблемой неполных данных? Например, можно посмотреть на датасет, не отфильтрованный по возрастам. Запрос в BigQuery для очистки данных от распределения по штатам и агрегации по неделям и годам:

select year, week, age_group, sum(Number_of_Deaths) as number_of_deaths

from DEATHS

group by year, age_group, week

Я получила очищенный и агрегированный датасет и построила по нему еще один график. В нем вы можете выбрать возрастные группы и убедиться, что начиная с 15-й недели, смертность якобы падает во всех возрастных группах. Впрочем, если выбрать в отображении возраст до 25 лет, то никакого падения не наблюдается до 23-й недели. Всё это говорит лишь о том, что данные неполные и надо дождаться, когда они станут полными, а также о том, что никакого падения смертности на самом деле нет.

Внезапно в возрастной когорте до двадцати пяти лет смертность в 2020 году для недель с полными данными никак особо от предыдущих лет не отличается. Никаких красивых линий со снижением числа смертей, начиная с марта.

Хм, тогда на основании каких данных построили графики № 14 и 15, которыми сейчас машут в соцсетях, словно знаменем? В абзаце, предшествующем графику № 14, авторы ссылаются на первый источник, который представляет собой базу данных по смертности от пневмонии и гриппа в США. А при чем здесь смертность от пневмонии и гриппа? Вот и я хочу это узнать. Графики из эссе оперируют данными по общей смертности, а не только смертности от гриппа и пневмонии.

Итак, графики № 14 и 15 не имеют ссылки ни на датасет, ни на источник. В общем списке источников к материалу нет датасетов, по которым можно было бы повторить эти визуализации. Очевидно, что мы имеем дело с дезинфографиками, построенными на данных непонятного происхождения, — скорее всего, взятыми с потолка ангажированными авторами эссе. Оно, конечно, противники вакцинации ринутся возражать, что, дескать, у авторов есть доступ к каким-то особым базам данных, недоступных для простых смертных, но в любом случае их надо явно указывать, даже если они платные.

Совершенно очевидно, что на основании данных, собранных без описанной методологии, нельзя делать никаких выводов, особенно когда эксперимент с повторением получается не в пользу авторов. Впрочем, это также не умаляет прочих претензий, выдвинутых в вышеупомянутом англоязычном разборе, а именно об отсутствии причинно-следственной связи.

Перейдем к недостоверным данным. В новости утверждается следующее: “А на протяжении последних трёх месяцев сидения дома не проводилась вакцинация и другие “положенные” процедуры“. Это ложь, и данную дезинформацию очень легко и быстро проверить:

Routine vaccination is an essential preventive care service for children, adolescents, and adults (including pregnant women) that should not be delayed because of the COVID-19 pandemic.

Рутинная вакцинация является необходимой профилактической мерой для детей, подростков и взрослых (включая беременных женщин), которую не следует откладывать из-за пандемии COVID-19 [перевод мой].

Да, снижение числа привитых снизилось за время пандемии, однако государственная программа вакцинации не останавливалась.

Итак, новость — утка.

На этот пост я потратила восемь часов, поэтому прошу уважительно относиться к моему времени, когда вы присылаете мне очередную ересь: „Елена, а что вы думаете о %bullshit_name“. Если вы не умеете работать с данными, то призываю учиться это делать и критически относиться к той помойной информации, которую на вас льют даже доктора наук. Шафалинов должен был получить не диплом ВМедА с отличием, а „неуд.“ по эпидемиологии и отчисление.

Поддержать некоммерческую организацию по прививкам АНО “Коллективный иммунитет”

Здесь.

Время, затраченное на пост, — восемь часов.

--

--

Elena Savinova

German teacher & co-founder of Herd Immunity, a provaccine non-profit. From Russia with dedication. Living in Finland.