Масочный батл, диванная эпидемиология и подгонка решения под ответ

5 min readApr 2, 2020

Елена Савинова, “О прививках без истерик” (VK, FB, Telegram)

Присказка

Некоторое время назад в телеграм-чате об открытых данных появилась следующая картинка:

Один из участников чата, который ее и разместил, воспринял картинку довольно серьезно. Я же, как только ее увидела, чуть было не сломала от ярости стул. Однако опрос 80 читателей моей страницы во “ВКонтакте” показал, что эту ярость разделяют далеко не все: 28% ответивших сочли, что график нормальный, а 34% затруднились с ответом. 39% решили, что график плохой.

Зачин

Мне хотелось бы подробнее рассказать, почему я считаю, что график никудышный. Недостаточно нарисовать красивый график и опубликовать его в “Твиттере”. Если бы твиты и визуализации диванных эпидемиологов были истинны, то нам были бы не нужны эпидемиологи настоящие, которые могут несколько лет потратить на исследование, позволяющее опубликовать подобный график.

В цикле вебинаров о данных для НКО нам рассказывали об априорном доверии людей к графикам, однако не всё то золото, что блестит, — нужно правильно собрать данные, правильно их визуализировать и интерпретировать. Вы удивитесь, но правильный сбор данных, дизайн исследования и интерпретация занимают много времени.

Как верно заметили в комментариях к моему опросу в ВК, графика здесь на самом деле два, и у кого-то вызывало затруднение дать ответ, потому что было непонятно, какой график я имела в виду. Однако плохи оба графика: и изначальный, который регулярно публикует и обновляет Джон Бёрн-Мёрдок в газете Financial Times, и тот, который опубликовала пользовательница “Твиттера” под ником jperla.

Что не так в графике jperla?

Если ответить кратко, то jperla руководствовалась следующим соображением: “Я прикинул — а неплохо выходит”. Или тем, что в школе называли “подогнать решение задачи под ответ”. Давным-давно я училась в заочной физико-технической школе при МФТИ и нередко, заходя в тупик в решении очередной задачи, выдумывала теорему и решала задачу по авторской теореме. Иногда даже получались верные ответы. Приставленный ко мне аспирант не без юмора разбирал мои тетрадки: “Лена, ход мысли интересный, только зачем вы выдумали теорему?”

Нет нормализации параметров

Вы захотели узнать, какое значение имеет ношение масок к тому, как быстро растет число случаев заболевания. Чтобы вы могли заключить это с какой-то вероятностью, вам нужно сравнить друг с другом хотя бы две группы, находящиеся друг с другом в равных условиях. Иначе говоря, вы должны нивелировать влияние других параметров, которых вообще-то довольно много. В графике jperla они не были нормализованы. Как можно быть уверенными в том, что, например, это не культурные особенности японцев сыграли свою роль в сглаживании кривой? В случае графика jperla не было дизайна исследования, который позволил бы решить эту задачу.

Нет массива данных

Из графика должно быть понятно, на основании какого массива данных он построен. Поскольку на картинке мы видим куролапные кривые, очевидно, что никакого массива нет, а jperla просто взяла и нарисовала синюю и красную линию по щучьему велению в “Пейнте”, если не пальцем на смартфоне. Исследователь, которому нечего скрывать и который не имеет желания натянуть сову на глобус, обязательно даст ссылку, по которой можно будет получить если не сам массив данных, то хотя бы информацию о том, как он собирался. Твит jperla ведет нас на загадочный гуглодокумент, в котором сведений о массиве нет.

Нет описания критериев

Что значат эти Masks / No masks? Нет, интуитивное понимание не годится. Мы сравниваем те страны, в которых выпустили рекомендацию носить маски, с теми, в которых не выпустили? Или речь идет не о рекомендации, а о приказе носить маски? А кому приказали — всему населению, больным, контактным или медработникам? Или же мы сравниваем те страны, где маски носили фактически, с теми, где их фактически не носили, несмотря на наличие рекомендаций? А какой процент населения или какие категории носили? Как долго они носили маски и как часто их меняли? Ни на один из этих вопросов jperla не дает ответа.

Ошибки даже в интуитивном понимании masks / no masks

В завершение к вышеописанным недостаткам jperla не потрудилась провести проверку фактов. Так, китайская политика по ношению масок строже сингапурской, и на этом графике как минимум Китай и Сингапур следовало бы поменять местами, но тогда уже не получится красиво обвести, поэтому для диванных эпидемиологов и так сойдет.

Ну хорошо, с jperla разобрались. А с графиком в Financial Times что не так-то?

Здесь я буду пересказывать учебник по эпидемиологии авторов из университета Джона Хопкинса — того самого, чьи графики по ковиду вы наверняка разглядываете. Кстати, учебник я купила специально для этого поста: Gordis Epidemiology, 6th edition.

Летальность — это отношение числа умерших за определенный период времени после начала заболевания или диагноза к числу людей, имеющих это заболевание.

Проще говоря, сколько людей с определенным заболеванием от него умерло? Казалось бы, всё просто: взяли да поделили.

Однако не всегда бывает просто различить смерти от этого заболевания от смертей по другим причинам. Например, человек с алкогольной зависимостью может погибнуть в ДТП; однако его смерть может быть как связана с алкогольной зависимостью, так и не связана.
Страны и регионы сильно отличаются по качеству данных, указанных в свидетельстве о смерти.

В американском сертификате есть несколько строчек для причин смерти, начиная от непосредственной, например: 1) разрыв миокарда в связи с 2) острым инфарктом миокарда в связи с 3) хронической ишемической болезнью сердца. Для того, чтобы указать инфекционную причину, лежащую в основе, необходимо подтвердить инфекцию лабораторно, однако это может оказаться невозможной задачей, так как, к примеру, в стране или регионе нет подходящих тест-систем / нет на них средств и т. д.

Сбор статистики по ковид-инфекции (как и по другим инфекциям) может происходить разными способами: например, ухитриться поймать нулевого пациента, установить контактных, протестировать их, найти их контактных, протестировать их и так далее, а обо всех положительных отчитываться как о носителях вируса. С другой стороны, можно рекомендовать пациентам с легкими ОРВИ-симптомами оставаться дома и не приходить на тестирование, как это сделано в Финляндии, где я живу. Таким образом в финскую статистику не попадает доля бессимптомных носителей и тех, у кого легкое течение болезни.

Очевидно, что нельзя сравнивать финские данные с данными другой страны, где используется другой подход к выявлению носителей вируса. Летальность заболевания — это показатель, на который оказывает влияние метод сбора данных. Чтобы мы могли сравнивать летальность одного и того же заболевания в разных странах, мы должны одинаково собрать эти данные по всем сравниваемым странам.

Одинакового сбора данных в нынешних чрезвычайных условиях нет. Впрочем, это не значит, что их не надо собирать вовсе — они нужны специалистам и они же будут позже анализироваться учеными, однако без должного подхода к анализу не стоит рисовать графики и тем более делать по ним какие-то выводы.

Концовка

Сейчас вы будете всё больше читать о том, что некое действие / лекарство помогает предотвратить ковид-инфекцию, вылечить ее, уронить кривую и тому подобное. Как бы ни хотелось успокоить мятущуюся душу, невозможно быстро получить нормальный ответ, имеющий научную ценность. С этим нам всем придется смириться, набраться терпения и ждать научных работ, причем не препринтов, а уже отрецензированных и опубликованных. Рассматривайте все эти попытки объяснить происходящее как сеанс групповой психотерапии.

Выразить уважение можно так

Подписывайтесь на мой блог “О прививках без истерик” (VK, FB, Telegram) и помогайте некоммерческой организации АНО “Коллективный иммунитет”, соучредительницей которой я являюсь, чтобы сохранять критическое мышление и не допускать следующих “демоверсий мира без прививок”.