Иерархия доказательств — Как читать научные статьи, часть II

Найти статью — половина дела. Вторая половина — понять, насколько ей можно доверять. Один и тот же клинический вопрос может быть «закрыт» мнением уважаемого профессора на конференции и опровергнут рандомизированным исследованием через пять лет. Эта часть объясняет, почему дизайн исследования определяет вес его выводов, как читаются основные типы исследований и почему в хирургии всё сложнее, чем в терапии.

2.1 Зачем нужна иерархия доказательств

В медицине долго господствовал принцип, который сегодня называют eminence-based medicine — «медицина, основанная на авторитете». Решение о лечении принималось на основании мнения опытного врача, традиции отделения или логики «механизма» («препарат снижает аритмию на ЭКГ — значит, спасёт жизни»). Проблема в том, что интуиция и физиологическая логика регулярно ошибаются, и цена ошибки — здоровье и жизнь пациентов.

Хирургия особенно уязвима к этой ловушке. Многие операции десятилетиями выполнялись на основании клинического опыта и кажущейся очевидности, а при строгой проверке оказывались бесполезными.

Хрестоматийный пример — артроскопический дебридмент и лаваж коленного сустава при остеоартрозе. Процедура выполнялась миллионам пациентов и казалась эффективной: люди сообщали об улучшении. Однако в 2002 году рандомизированное исследование с имитацией операции (sham surgery) показало, что результаты после настоящей артроскопии не отличаются от результатов после фиктивных разрезов кожи без вмешательства в сустав (Moseley et al., NEJM 2002). Весь эффект был эффектом плацебо. Позже это подтвердило второе РКИ и Cochrane-обзор.

Вывод прост: личный опыт врача — ценный, но ненадёжный источник истины. Опыт не может отличить реальный эффект лечения от плацебо, естественного течения болезни или систематической ошибки отбора пациентов. Чтобы ранжировать источники по их устойчивости к ошибкам, и была создана иерархия доказательств.

Идея иерархии заложена в самой основе доказательной медицины: серия JAMA Users' Guides начинается с тезиса о том, что разные типы исследований дают разную степень уверенности в выводах и что клиницист должен уметь различать дизайны (Oxman, Sackett, Guyatt, JAMA 1993).

2.2 Пирамида доказательств

Классический способ изобразить иерархию — пирамида. Снизу вверх растёт защищённость от систематических ошибок (bias), сверху вниз — объём и доступность данных.

Защита от систематических ошибок ↑

СинтезМетаанализ · систематический обзор

ЭкспериментРКИ

НаблюдениеКогортные исследования

НаблюдениеСлучай–контроль

Без контроляСерия и описание случаев

СубъективноМнение эксперта · нарративный обзор · доклинические данные

Объём и доступность данных ↓

Чем выше дизайн, тем сильнее он защищён от искажений — но тем сложнее и дороже его реализовать.

Логика пирамиды интуитивна и в большинстве случаев верна (Murad et al., BMJ EBM 2016). Но у неё есть ограничения, о которых — в разделе 2.5. Пока запомним главный принцип: чем выше дизайн в пирамиде, тем сильнее он защищён от искажений, но тем сложнее и дороже его реализовать. Поэтому по большинству клинических вопросов РКИ просто не существует, и приходится работать с тем, что есть, критически оценивая ограничения.

2.3 Типы исследований: снизу вверх

Пройдём по пирамиде от основания к вершине. Для каждого дизайна — что это, в чём силён, где подводит и на что смотреть при чтении.

Мнение эксперта и нарративный обзор Субъективно

Статья, в которой авторитетный специалист или группа специалистов излагают свой взгляд на проблему: обзор литературы без формальной методологии отбора, редакционная статья, экспертный консенсус.

Такие материалы полезны для знакомства с темой и формирования общей картины. Часто хорошо написаны и читаемы. Главный недостаток — нет защиты от субъективности: автор может (даже неосознанно) подбирать литературу, подтверждающую его позицию (cherry-picking). Нарративный обзор не позволяет проверить, все ли релевантные исследования учтены.

При чтении: важно отличать нарративный обзор (narrative / expert review) от систематического (systematic review). Это совершенно разные жанры с разным весом, хотя оба называются «обзор».

Описание случая и серия случаев Без контроля

Case report — детальное описание одного клинического наблюдения. Case series — описание нескольких похожих случаев без контрольной группы.

Сильные стороны

Незаменимы для редких болезней и неожиданных осложнений
Описывают новые техники и нежелательные реакции
Многие важные сигналы впервые появились именно так
Публикуются быстро

Слабые стороны

Нет группы сравнения
Высокий риск ошибки отбора
Нельзя оценить частоту явления
Нельзя судить об эффективности лечения

Серия случаев с «хорошими результатами» новой операции — это гипотеза, а не доказательство эффективности. Особенно осторожно — к публикациям, где автор описывает успех собственной методики.

Исследование «случай–контроль» Наблюдательное · ретроспективно

Берут группу пациентов с исходом (например, с послеоперационной раневой инфекцией) и группу без него, после чего «оглядываются назад» и сравнивают, чем эти группы различались по воздействиям и факторам риска.

Сильные стороны

Подходят для редких исходов
Хороши при долгом латентном периоде
Относительно дёшевы и быстры

Слабые стороны

Высокий риск ошибки припоминания (recall bias)
Ошибки при отборе контрольной группы
Причинность установить трудно

При чтении проверяйте: как отбирали контрольную группу — она должна происходить из той же популяции, что и случаи; учтены ли вмешивающиеся факторы (confounders).

Когортное исследование Наблюдательное

Берут группу (когорту) людей и наблюдают за ней во времени, сравнивая исходы у тех, кто подвергся воздействию, и у тех, кто нет. Бывают проспективные (наблюдение вперёд) и ретроспективные (по архивным данным).

Позволяют изучать несколько исходов сразу, оценивать заболеваемость и естественное течение болезни. Проспективные когорты надёжнее, чем случай–контроль. Подходят там, где рандомизация невозможна или неэтична (например, нельзя случайно назначить людям курение).

Главная проблема — остаточное смешивание (residual confounding). Группы могут различаться не только воздействием, но и сопутствующими факторами, и часть из них всегда остаётся неучтённой. В хирургии это особенно заметно: пациентов на операцию и на консервативное лечение отбирают по-разному, и это искажает сравнение исходов.

Смотрите: как авторы боролись со смешиванием (статистическая коррекция, propensity score), сопоставимы ли группы исходно и какова полнота наблюдения (много ли пациентов «потерялось»).

Рандомизированное контролируемое исследование (РКИ) Золотой стандарт

Участников случайным образом распределяют в группы (вмешательство и контроль). Это и есть ключевой момент: рандомизация в среднем уравнивает группы по всем факторам — и известным, и неизвестным, — поэтому различие в исходах можно приписать именно вмешательству.

РКИ — единственный дизайн, надёжно устанавливающий причинно-следственную связь. Рандомизация устраняет ошибку отбора, ослепление (когда возможно) защищает от субъективности в оценке исходов. Обратная сторона: дорогие, длительные, иногда неэтичные или практически невыполнимые; строгие критерии включения снижают применимость к реальным пациентам. В хирургии полноценное РКИ затруднено — об этом в 2.4.

Проверяйте: как проводилась рандомизация и было ли скрыто распределение (allocation concealment); было ли ослепление; анализировали ли по принципу «как рандомизировали» (intention-to-treat); совпадает ли заявленный первичный исход с зарегистрированным протоколом (см. Часть I про ClinicalTrials.gov).

Систематический обзор и метаанализ Синтез

Систематический обзор — исследование, в котором по заранее заданному протоколу находят все релевантные исследования по вопросу, оценивают их качество и синтезируют. Метаанализ — статистическое объединение их результатов в общую оценку эффекта.

Обобщают всю доступную доказательную базу, а не одно исследование, и повышают статистическую мощность. При правильном выполнении — наименее предвзятый источник; Cochrane-обзоры считаются методическим стандартом жанра.

Слабое место: качество обзора не выше качества включённых исследований — «мусор на входе, мусор на выходе». Метаанализ разнородных исследований может давать обманчиво точную цифру. Подвержены систематической ошибке публикации: «отрицательные» результаты реже публикуются, и обзор их не находит.

Смотрите: есть ли зарегистрированный протокол (например, в PROSPERO), соответствует ли отчётность стандарту PRISMA, насколько разнородны включённые исследования (гетерогенность, I²) и оценивали ли авторы риск систематической ошибки и публикационный сдвиг.

2.4 Особенности хирургических исследований

Иерархия доказательств создавалась в основном на материале фармакологии, где РКИ — естественный и легко реализуемый формат. В хирургии всё устроено сложнее. Хирургические вмешательства относятся к «сложным вмешательствам» (complex interventions), оценка которых затруднена факторами, зависящими от оператора, команды и обстановки (McCulloch et al., Lancet 2009).

Кривая обучения хирурга (learning curve). Эффективность операции зависит от навыка конкретного хирурга, а навык растёт с числом операций. Если новую методику осваивают по ходу набора пациентов, ранние результаты будут хуже поздних — не из-за методики, а из-за кривой обучения. Это искажает сравнение с устоявшейся операцией.

Ослепление. В фармакологии пациент и врач легко могут не знать, что в таблетке. В хирургии хирург всегда знает, что он делает. Ослепить пациента и тех, кто оценивает исход, иногда возможно, хирурга — почти никогда.

Sham-хирургия (фиктивная операция). Чтобы корректно отделить эффект самой операции от эффекта плацебо, нужна группа сравнения с имитацией вмешательства. Исследование Moseley по артроскопии было устроено именно так: контрольная группа получала разрезы кожи без реального вмешательства в сустав. Sham-хирургия методологически мощна, но порождает серьёзный этический вопрос: допустимо ли подвергать человека наркозу и разрезам без терапевтической цели. Поэтому такие исследования редки.

Равновесие (equipoise). Для этичного РКИ нужно искреннее профессиональное сомнение в том, какой метод лучше. Если хирург убеждён (даже без доказательств), что его метод превосходит, ему психологически трудно рандомизировать пациента в другую группу. Это замедляет набор и искажает исследования.

IDEAL — рамка для оценки хирургических инноваций

Чтобы упорядочить оценку хирургических методик с учётом этих сложностей, в 2009 году в Lancet была предложена рамка IDEAL (McCulloch et al., Lancet 2009). Она описывает пять стадий жизненного цикла хирургической инновации, и на каждой стадии уместен свой тип исследования:

IIdeaпервое применение

DDevelopmentотработка

EExplorationраспространение

AAssessmentпроверка

LLong-termнаблюдение

Ст.НазваниеЧто происходитТипичный дизайн

IIdeaпервое применение у человека, проба концепцииописание случая

DDevelopmentотработка и модификация методикипроспективная серия

EExplorationметодика распространяется, осваивается многимибазы данных, когорты

AAssessmentстрогая проверка против стандартаРКИ (если возможно)

LLong-termдолгосрочная безопасность и редкие исходыреестры, наблюдение

IDEAL помогает понять, уместен ли вообще применённый в статье дизайн для данной стадии. Бессмысленно требовать РКИ от методики, которую только что впервые применили у человека (стадия Idea) — там корректен честный case report. И наоборот: если методика широко внедряется в практику (стадия Assessment), серии случаев уже недостаточно — нужен сравнительный дизайн. Позже появилось расширение IDEAL-D для медицинских устройств (Sedrakyan et al., BMJ 2016).

2.5 GRADE: почему пирамида — это упрощение

Пирамида доказательств удобна как первое приближение, но современная методология ушла дальше простого правила «РКИ всегда лучше когорты». Главная идея в том, что сам по себе дизайн не гарантирует качество — плохо проведённое РКИ может быть менее надёжным, чем хорошо выполненное когортное исследование.

Эту мысль формализует подход GRADE (Grading of Recommendations Assessment, Development and Evaluation) — сегодня самый распространённый метод оценки качества доказательной базы. В GRADE дизайн задаёт лишь стартовую позицию, которую затем корректируют (Murad et al., BMJ EBM 2016; GRADE guidelines, Guyatt et al.).

↓ РКИ можно понизить

старт — высокое качество

риск систематической ошибки (методологические дефекты)
несогласованность результатов между исследованиями (inconsistency)
косвенность — не та популяция или не тот исход (indirectness)
неточность — широкие доверительные интервалы, малая выборка
подозрение на публикационный сдвиг

↑ Наблюдательные — повысить

старт — низкое качество

величина эффекта очень велика (large effect)
есть зависимость «доза — ответ» (dose-response gradient)
все вероятные искажения работали бы против найденного эффекта — а он всё равно есть

В обновлённой «новой пирамиде доказательств» Murad и соавторы предложили два изменения: сделать границы между уровнями не чёткими линиями, а размытыми (качество внутри уровня варьирует), и вынести систематические обзоры из вершины пирамиды — рассматривать их как линзу, через которую оценивают и применяют нижележащие исследования, а не как отдельный высший уровень (Murad et al., BMJ EBM 2016).

Отсюда практический вывод: не стоит оценивать статью по одному ярлыку дизайна. РКИ — не индульгенция, а серия случаев — не всегда мусор. Правильный вопрос не «какой это тип исследования?», а «насколько хорошо это конкретное исследование защищено от систематических ошибок и подходит ли его дизайн к поставленному вопросу?». Этому посвящены следующие части — там разберём, как читать конкретные разделы статьи и оценивать валидность по существу.

Источники

Oxman AD, Sackett DL, Guyatt GH. Users' guides to the medical literature. I. How to get started. JAMA. 1993;270(17):2093–5.
Guyatt GH, Sackett DL, Cook DJ. Users' guides to the medical literature. II. How to use an article about therapy or prevention. JAMA. 1993;270(21):2598–601.
Oxman AD, Cook DJ, Guyatt GH. Users' guides to the medical literature. VI. How to use an overview. JAMA. 1994;272(17):1367–71.
Murad MH, Montori VM, Ioannidis JPA, et al. How to read a systematic review and meta-analysis and apply the results to patient care. JAMA. 2014;312(2):171–9.
Moseley JB, O'Malley K, Petersen NJ, et al. A controlled trial of arthroscopic surgery for osteoarthritis of the knee. N Engl J Med. 2002;347(2):81–8.
Murad MH, Asi N, Alsawas M, Alahdab F. New evidence pyramid. BMJ Evid Based Med. 2016;21(4):125–7.
McCulloch P, Altman DG, Campbell WB, et al. No surgical innovation without evaluation: the IDEAL recommendations. Lancet. 2009;374(9695):1105–12.
Barkun JS, Aronson JK, Feldman LS, et al. Evaluation and stages of surgical innovations. Lancet. 2009;374(9695):1089–96.
Sedrakyan A, Campbell B, Merino JG, et al. IDEAL-D: a rational framework for evaluating and regulating the use of medical devices. BMJ. 2016;353:i2372.
Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ. 2008;336(7650):924–6.

Иерархия доказательств: как устроены типы исследований