Найти статью — половина дела. Вторая половина — понять, насколько ей можно доверять. Один и тот же клинический вопрос может быть «закрыт» мнением уважаемого профессора на конференции и опровергнут рандомизированным исследованием через пять лет. Эта часть объясняет, почему дизайн исследования определяет вес его выводов, как читаются основные типы исследований и почему в хирургии всё сложнее, чем в терапии.

2.1 Зачем нужна иерархия доказательств

В медицине долго господствовал принцип, который сегодня называют eminence-based medicine — «медицина, основанная на авторитете». Решение о лечении принималось на основании мнения опытного врача, традиции отделения или логики «механизма» («препарат снижает аритмию на ЭКГ — значит, спасёт жизни»). Проблема в том, что интуиция и физиологическая логика регулярно ошибаются, и цена ошибки — здоровье и жизнь пациентов.

Хирургия особенно уязвима к этой ловушке. Многие операции десятилетиями выполнялись на основании клинического опыта и кажущейся очевидности, а при строгой проверке оказывались бесполезными.

Хрестоматийный пример — артроскопический дебридмент и лаваж коленного сустава при остеоартрозе. Процедура выполнялась миллионам пациентов и казалась эффективной: люди сообщали об улучшении. Однако в 2002 году рандомизированное исследование с имитацией операции (sham surgery) показало, что результаты после настоящей артроскопии не отличаются от результатов после фиктивных разрезов кожи без вмешательства в сустав (Moseley et al., NEJM 2002). Весь эффект был эффектом плацебо. Позже это подтвердило второе РКИ и Cochrane-обзор.

Вывод прост: личный опыт врача — ценный, но ненадёжный источник истины. Опыт не может отличить реальный эффект лечения от плацебо, естественного течения болезни или систематической ошибки отбора пациентов. Чтобы ранжировать источники по их устойчивости к ошибкам, и была создана иерархия доказательств.

Идея иерархии заложена в самой основе доказательной медицины: серия JAMA Users' Guides начинается с тезиса о том, что разные типы исследований дают разную степень уверенности в выводах и что клиницист должен уметь различать дизайны (Oxman, Sackett, Guyatt, JAMA 1993).

2.2 Пирамида доказательств

Классический способ изобразить иерархию — пирамида. Снизу вверх растёт защищённость от систематических ошибок (bias), сверху вниз — объём и доступность данных.

Защита от систематических ошибок ↑
СинтезМетаанализ · систематический обзор
ЭкспериментРКИ
НаблюдениеКогортные исследования
НаблюдениеСлучай–контроль
Без контроляСерия и описание случаев
СубъективноМнение эксперта · нарративный обзор · доклинические данные
Объём и доступность данных ↓
Чем выше дизайн, тем сильнее он защищён от искажений — но тем сложнее и дороже его реализовать.

Логика пирамиды интуитивна и в большинстве случаев верна (Murad et al., BMJ EBM 2016). Но у неё есть ограничения, о которых — в разделе 2.5. Пока запомним главный принцип: чем выше дизайн в пирамиде, тем сильнее он защищён от искажений, но тем сложнее и дороже его реализовать. Поэтому по большинству клинических вопросов РКИ просто не существует, и приходится работать с тем, что есть, критически оценивая ограничения.

2.3 Типы исследований: снизу вверх

Пройдём по пирамиде от основания к вершине. Для каждого дизайна — что это, в чём силён, где подводит и на что смотреть при чтении.

Мнение эксперта и нарративный обзор Субъективно

Статья, в которой авторитетный специалист или группа специалистов излагают свой взгляд на проблему: обзор литературы без формальной методологии отбора, редакционная статья, экспертный консенсус.

Такие материалы полезны для знакомства с темой и формирования общей картины. Часто хорошо написаны и читаемы. Главный недостаток — нет защиты от субъективности: автор может (даже неосознанно) подбирать литературу, подтверждающую его позицию (cherry-picking). Нарративный обзор не позволяет проверить, все ли релевантные исследования учтены.

При чтении: важно отличать нарративный обзор (narrative / expert review) от систематического (systematic review). Это совершенно разные жанры с разным весом, хотя оба называются «обзор».
Описание случая и серия случаев Без контроля

Case report — детальное описание одного клинического наблюдения. Case series — описание нескольких похожих случаев без контрольной группы.

Сильные стороны
  • Незаменимы для редких болезней и неожиданных осложнений
  • Описывают новые техники и нежелательные реакции
  • Многие важные сигналы впервые появились именно так
  • Публикуются быстро
Слабые стороны
  • Нет группы сравнения
  • Высокий риск ошибки отбора
  • Нельзя оценить частоту явления
  • Нельзя судить об эффективности лечения
Серия случаев с «хорошими результатами» новой операции — это гипотеза, а не доказательство эффективности. Особенно осторожно — к публикациям, где автор описывает успех собственной методики.
Исследование «случай–контроль» Наблюдательное · ретроспективно

Берут группу пациентов с исходом (например, с послеоперационной раневой инфекцией) и группу без него, после чего «оглядываются назад» и сравнивают, чем эти группы различались по воздействиям и факторам риска.

Сильные стороны
  • Подходят для редких исходов
  • Хороши при долгом латентном периоде
  • Относительно дёшевы и быстры
Слабые стороны
  • Высокий риск ошибки припоминания (recall bias)
  • Ошибки при отборе контрольной группы
  • Причинность установить трудно
При чтении проверяйте: как отбирали контрольную группу — она должна происходить из той же популяции, что и случаи; учтены ли вмешивающиеся факторы (confounders).
Когортное исследование Наблюдательное

Берут группу (когорту) людей и наблюдают за ней во времени, сравнивая исходы у тех, кто подвергся воздействию, и у тех, кто нет. Бывают проспективные (наблюдение вперёд) и ретроспективные (по архивным данным).

Позволяют изучать несколько исходов сразу, оценивать заболеваемость и естественное течение болезни. Проспективные когорты надёжнее, чем случай–контроль. Подходят там, где рандомизация невозможна или неэтична (например, нельзя случайно назначить людям курение).

Главная проблема — остаточное смешивание (residual confounding). Группы могут различаться не только воздействием, но и сопутствующими факторами, и часть из них всегда остаётся неучтённой. В хирургии это особенно заметно: пациентов на операцию и на консервативное лечение отбирают по-разному, и это искажает сравнение исходов.

Смотрите: как авторы боролись со смешиванием (статистическая коррекция, propensity score), сопоставимы ли группы исходно и какова полнота наблюдения (много ли пациентов «потерялось»).
Рандомизированное контролируемое исследование (РКИ) Золотой стандарт

Участников случайным образом распределяют в группы (вмешательство и контроль). Это и есть ключевой момент: рандомизация в среднем уравнивает группы по всем факторам — и известным, и неизвестным, — поэтому различие в исходах можно приписать именно вмешательству.

РКИ — единственный дизайн, надёжно устанавливающий причинно-следственную связь. Рандомизация устраняет ошибку отбора, ослепление (когда возможно) защищает от субъективности в оценке исходов. Обратная сторона: дорогие, длительные, иногда неэтичные или практически невыполнимые; строгие критерии включения снижают применимость к реальным пациентам. В хирургии полноценное РКИ затруднено — об этом в 2.4.

Проверяйте: как проводилась рандомизация и было ли скрыто распределение (allocation concealment); было ли ослепление; анализировали ли по принципу «как рандомизировали» (intention-to-treat); совпадает ли заявленный первичный исход с зарегистрированным протоколом (см. Часть I про ClinicalTrials.gov).
Систематический обзор и метаанализ Синтез

Систематический обзор — исследование, в котором по заранее заданному протоколу находят все релевантные исследования по вопросу, оценивают их качество и синтезируют. Метаанализ — статистическое объединение их результатов в общую оценку эффекта.

Обобщают всю доступную доказательную базу, а не одно исследование, и повышают статистическую мощность. При правильном выполнении — наименее предвзятый источник; Cochrane-обзоры считаются методическим стандартом жанра.

Слабое место: качество обзора не выше качества включённых исследований — «мусор на входе, мусор на выходе». Метаанализ разнородных исследований может давать обманчиво точную цифру. Подвержены систематической ошибке публикации: «отрицательные» результаты реже публикуются, и обзор их не находит.
Смотрите: есть ли зарегистрированный протокол (например, в PROSPERO), соответствует ли отчётность стандарту PRISMA, насколько разнородны включённые исследования (гетерогенность, I²) и оценивали ли авторы риск систематической ошибки и публикационный сдвиг.

2.4 Особенности хирургических исследований

Иерархия доказательств создавалась в основном на материале фармакологии, где РКИ — естественный и легко реализуемый формат. В хирургии всё устроено сложнее. Хирургические вмешательства относятся к «сложным вмешательствам» (complex interventions), оценка которых затруднена факторами, зависящими от оператора, команды и обстановки (McCulloch et al., Lancet 2009).

Кривая обучения хирурга (learning curve). Эффективность операции зависит от навыка конкретного хирурга, а навык растёт с числом операций. Если новую методику осваивают по ходу набора пациентов, ранние результаты будут хуже поздних — не из-за методики, а из-за кривой обучения. Это искажает сравнение с устоявшейся операцией.

Ослепление. В фармакологии пациент и врач легко могут не знать, что в таблетке. В хирургии хирург всегда знает, что он делает. Ослепить пациента и тех, кто оценивает исход, иногда возможно, хирурга — почти никогда.

Sham-хирургия (фиктивная операция). Чтобы корректно отделить эффект самой операции от эффекта плацебо, нужна группа сравнения с имитацией вмешательства. Исследование Moseley по артроскопии было устроено именно так: контрольная группа получала разрезы кожи без реального вмешательства в сустав. Sham-хирургия методологически мощна, но порождает серьёзный этический вопрос: допустимо ли подвергать человека наркозу и разрезам без терапевтической цели. Поэтому такие исследования редки.

Равновесие (equipoise). Для этичного РКИ нужно искреннее профессиональное сомнение в том, какой метод лучше. Если хирург убеждён (даже без доказательств), что его метод превосходит, ему психологически трудно рандомизировать пациента в другую группу. Это замедляет набор и искажает исследования.

IDEAL — рамка для оценки хирургических инноваций

Чтобы упорядочить оценку хирургических методик с учётом этих сложностей, в 2009 году в Lancet была предложена рамка IDEAL (McCulloch et al., Lancet 2009). Она описывает пять стадий жизненного цикла хирургической инновации, и на каждой стадии уместен свой тип исследования:

IIdeaпервое применение
DDevelopmentотработка
EExplorationраспространение
AAssessmentпроверка
LLong-termнаблюдение
Ст.НазваниеЧто происходитТипичный дизайн
IIdeaпервое применение у человека, проба концепцииописание случая
DDevelopmentотработка и модификация методикипроспективная серия
EExplorationметодика распространяется, осваивается многимибазы данных, когорты
AAssessmentстрогая проверка против стандартаРКИ (если возможно)
LLong-termдолгосрочная безопасность и редкие исходыреестры, наблюдение

IDEAL помогает понять, уместен ли вообще применённый в статье дизайн для данной стадии. Бессмысленно требовать РКИ от методики, которую только что впервые применили у человека (стадия Idea) — там корректен честный case report. И наоборот: если методика широко внедряется в практику (стадия Assessment), серии случаев уже недостаточно — нужен сравнительный дизайн. Позже появилось расширение IDEAL-D для медицинских устройств (Sedrakyan et al., BMJ 2016).

2.5 GRADE: почему пирамида — это упрощение

Пирамида доказательств удобна как первое приближение, но современная методология ушла дальше простого правила «РКИ всегда лучше когорты». Главная идея в том, что сам по себе дизайн не гарантирует качество — плохо проведённое РКИ может быть менее надёжным, чем хорошо выполненное когортное исследование.

Эту мысль формализует подход GRADE (Grading of Recommendations Assessment, Development and Evaluation) — сегодня самый распространённый метод оценки качества доказательной базы. В GRADE дизайн задаёт лишь стартовую позицию, которую затем корректируют (Murad et al., BMJ EBM 2016; GRADE guidelines, Guyatt et al.).

РКИ можно понизить
старт — высокое качество
  • риск систематической ошибки (методологические дефекты)
  • несогласованность результатов между исследованиями (inconsistency)
  • косвенность — не та популяция или не тот исход (indirectness)
  • неточность — широкие доверительные интервалы, малая выборка
  • подозрение на публикационный сдвиг
Наблюдательные — повысить
старт — низкое качество
  • величина эффекта очень велика (large effect)
  • есть зависимость «доза — ответ» (dose-response gradient)
  • все вероятные искажения работали бы против найденного эффекта — а он всё равно есть

В обновлённой «новой пирамиде доказательств» Murad и соавторы предложили два изменения: сделать границы между уровнями не чёткими линиями, а размытыми (качество внутри уровня варьирует), и вынести систематические обзоры из вершины пирамиды — рассматривать их как линзу, через которую оценивают и применяют нижележащие исследования, а не как отдельный высший уровень (Murad et al., BMJ EBM 2016).

Отсюда практический вывод: не стоит оценивать статью по одному ярлыку дизайна. РКИ — не индульгенция, а серия случаев — не всегда мусор. Правильный вопрос не «какой это тип исследования?», а «насколько хорошо это конкретное исследование защищено от систематических ошибок и подходит ли его дизайн к поставленному вопросу?». Этому посвящены следующие части — там разберём, как читать конкретные разделы статьи и оценивать валидность по существу.

Источники

  1. Oxman AD, Sackett DL, Guyatt GH. Users' guides to the medical literature. I. How to get started. JAMA. 1993;270(17):2093–5.
  2. Guyatt GH, Sackett DL, Cook DJ. Users' guides to the medical literature. II. How to use an article about therapy or prevention. JAMA. 1993;270(21):2598–601.
  3. Oxman AD, Cook DJ, Guyatt GH. Users' guides to the medical literature. VI. How to use an overview. JAMA. 1994;272(17):1367–71.
  4. Murad MH, Montori VM, Ioannidis JPA, et al. How to read a systematic review and meta-analysis and apply the results to patient care. JAMA. 2014;312(2):171–9.
  5. Moseley JB, O'Malley K, Petersen NJ, et al. A controlled trial of arthroscopic surgery for osteoarthritis of the knee. N Engl J Med. 2002;347(2):81–8.
  6. Murad MH, Asi N, Alsawas M, Alahdab F. New evidence pyramid. BMJ Evid Based Med. 2016;21(4):125–7.
  7. McCulloch P, Altman DG, Campbell WB, et al. No surgical innovation without evaluation: the IDEAL recommendations. Lancet. 2009;374(9695):1105–12.
  8. Barkun JS, Aronson JK, Feldman LS, et al. Evaluation and stages of surgical innovations. Lancet. 2009;374(9695):1089–96.
  9. Sedrakyan A, Campbell B, Merino JG, et al. IDEAL-D: a rational framework for evaluating and regulating the use of medical devices. BMJ. 2016;353:i2372.
  10. Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ. 2008;336(7650):924–6.