Найти статью — половина дела. Вторая половина — понять, насколько ей можно доверять. Один и тот же клинический вопрос может быть «закрыт» мнением уважаемого профессора на конференции и опровергнут рандомизированным исследованием через пять лет. Эта часть объясняет, почему дизайн исследования определяет вес его выводов, как читаются основные типы исследований и почему в хирургии всё сложнее, чем в терапии.
2.1 Зачем нужна иерархия доказательств
В медицине долго господствовал принцип, который сегодня называют eminence-based medicine — «медицина, основанная на авторитете». Решение о лечении принималось на основании мнения опытного врача, традиции отделения или логики «механизма» («препарат снижает аритмию на ЭКГ — значит, спасёт жизни»). Проблема в том, что интуиция и физиологическая логика регулярно ошибаются, и цена ошибки — здоровье и жизнь пациентов.
Хирургия особенно уязвима к этой ловушке. Многие операции десятилетиями выполнялись на основании клинического опыта и кажущейся очевидности, а при строгой проверке оказывались бесполезными.
Вывод прост: личный опыт врача — ценный, но ненадёжный источник истины. Опыт не может отличить реальный эффект лечения от плацебо, естественного течения болезни или систематической ошибки отбора пациентов. Чтобы ранжировать источники по их устойчивости к ошибкам, и была создана иерархия доказательств.
Идея иерархии заложена в самой основе доказательной медицины: серия JAMA Users' Guides начинается с тезиса о том, что разные типы исследований дают разную степень уверенности в выводах и что клиницист должен уметь различать дизайны (Oxman, Sackett, Guyatt, JAMA 1993).
2.2 Пирамида доказательств
Классический способ изобразить иерархию — пирамида. Снизу вверх растёт защищённость от систематических ошибок (bias), сверху вниз — объём и доступность данных.
Логика пирамиды интуитивна и в большинстве случаев верна (Murad et al., BMJ EBM 2016). Но у неё есть ограничения, о которых — в разделе 2.5. Пока запомним главный принцип: чем выше дизайн в пирамиде, тем сильнее он защищён от искажений, но тем сложнее и дороже его реализовать. Поэтому по большинству клинических вопросов РКИ просто не существует, и приходится работать с тем, что есть, критически оценивая ограничения.
2.3 Типы исследований: снизу вверх
Пройдём по пирамиде от основания к вершине. Для каждого дизайна — что это, в чём силён, где подводит и на что смотреть при чтении.
Статья, в которой авторитетный специалист или группа специалистов излагают свой взгляд на проблему: обзор литературы без формальной методологии отбора, редакционная статья, экспертный консенсус.
Такие материалы полезны для знакомства с темой и формирования общей картины. Часто хорошо написаны и читаемы. Главный недостаток — нет защиты от субъективности: автор может (даже неосознанно) подбирать литературу, подтверждающую его позицию (cherry-picking). Нарративный обзор не позволяет проверить, все ли релевантные исследования учтены.
Case report — детальное описание одного клинического наблюдения. Case series — описание нескольких похожих случаев без контрольной группы.
- Незаменимы для редких болезней и неожиданных осложнений
- Описывают новые техники и нежелательные реакции
- Многие важные сигналы впервые появились именно так
- Публикуются быстро
- Нет группы сравнения
- Высокий риск ошибки отбора
- Нельзя оценить частоту явления
- Нельзя судить об эффективности лечения
Берут группу пациентов с исходом (например, с послеоперационной раневой инфекцией) и группу без него, после чего «оглядываются назад» и сравнивают, чем эти группы различались по воздействиям и факторам риска.
- Подходят для редких исходов
- Хороши при долгом латентном периоде
- Относительно дёшевы и быстры
- Высокий риск ошибки припоминания (recall bias)
- Ошибки при отборе контрольной группы
- Причинность установить трудно
Берут группу (когорту) людей и наблюдают за ней во времени, сравнивая исходы у тех, кто подвергся воздействию, и у тех, кто нет. Бывают проспективные (наблюдение вперёд) и ретроспективные (по архивным данным).
Позволяют изучать несколько исходов сразу, оценивать заболеваемость и естественное течение болезни. Проспективные когорты надёжнее, чем случай–контроль. Подходят там, где рандомизация невозможна или неэтична (например, нельзя случайно назначить людям курение).
Главная проблема — остаточное смешивание (residual confounding). Группы могут различаться не только воздействием, но и сопутствующими факторами, и часть из них всегда остаётся неучтённой. В хирургии это особенно заметно: пациентов на операцию и на консервативное лечение отбирают по-разному, и это искажает сравнение исходов.
Участников случайным образом распределяют в группы (вмешательство и контроль). Это и есть ключевой момент: рандомизация в среднем уравнивает группы по всем факторам — и известным, и неизвестным, — поэтому различие в исходах можно приписать именно вмешательству.
РКИ — единственный дизайн, надёжно устанавливающий причинно-следственную связь. Рандомизация устраняет ошибку отбора, ослепление (когда возможно) защищает от субъективности в оценке исходов. Обратная сторона: дорогие, длительные, иногда неэтичные или практически невыполнимые; строгие критерии включения снижают применимость к реальным пациентам. В хирургии полноценное РКИ затруднено — об этом в 2.4.
Систематический обзор — исследование, в котором по заранее заданному протоколу находят все релевантные исследования по вопросу, оценивают их качество и синтезируют. Метаанализ — статистическое объединение их результатов в общую оценку эффекта.
Обобщают всю доступную доказательную базу, а не одно исследование, и повышают статистическую мощность. При правильном выполнении — наименее предвзятый источник; Cochrane-обзоры считаются методическим стандартом жанра.
2.4 Особенности хирургических исследований
Иерархия доказательств создавалась в основном на материале фармакологии, где РКИ — естественный и легко реализуемый формат. В хирургии всё устроено сложнее. Хирургические вмешательства относятся к «сложным вмешательствам» (complex interventions), оценка которых затруднена факторами, зависящими от оператора, команды и обстановки (McCulloch et al., Lancet 2009).
Кривая обучения хирурга (learning curve). Эффективность операции зависит от навыка конкретного хирурга, а навык растёт с числом операций. Если новую методику осваивают по ходу набора пациентов, ранние результаты будут хуже поздних — не из-за методики, а из-за кривой обучения. Это искажает сравнение с устоявшейся операцией.
Ослепление. В фармакологии пациент и врач легко могут не знать, что в таблетке. В хирургии хирург всегда знает, что он делает. Ослепить пациента и тех, кто оценивает исход, иногда возможно, хирурга — почти никогда.
Sham-хирургия (фиктивная операция). Чтобы корректно отделить эффект самой операции от эффекта плацебо, нужна группа сравнения с имитацией вмешательства. Исследование Moseley по артроскопии было устроено именно так: контрольная группа получала разрезы кожи без реального вмешательства в сустав. Sham-хирургия методологически мощна, но порождает серьёзный этический вопрос: допустимо ли подвергать человека наркозу и разрезам без терапевтической цели. Поэтому такие исследования редки.
Равновесие (equipoise). Для этичного РКИ нужно искреннее профессиональное сомнение в том, какой метод лучше. Если хирург убеждён (даже без доказательств), что его метод превосходит, ему психологически трудно рандомизировать пациента в другую группу. Это замедляет набор и искажает исследования.
IDEAL — рамка для оценки хирургических инноваций
Чтобы упорядочить оценку хирургических методик с учётом этих сложностей, в 2009 году в Lancet была предложена рамка IDEAL (McCulloch et al., Lancet 2009). Она описывает пять стадий жизненного цикла хирургической инновации, и на каждой стадии уместен свой тип исследования:
IDEAL помогает понять, уместен ли вообще применённый в статье дизайн для данной стадии. Бессмысленно требовать РКИ от методики, которую только что впервые применили у человека (стадия Idea) — там корректен честный case report. И наоборот: если методика широко внедряется в практику (стадия Assessment), серии случаев уже недостаточно — нужен сравнительный дизайн. Позже появилось расширение IDEAL-D для медицинских устройств (Sedrakyan et al., BMJ 2016).
2.5 GRADE: почему пирамида — это упрощение
Пирамида доказательств удобна как первое приближение, но современная методология ушла дальше простого правила «РКИ всегда лучше когорты». Главная идея в том, что сам по себе дизайн не гарантирует качество — плохо проведённое РКИ может быть менее надёжным, чем хорошо выполненное когортное исследование.
Эту мысль формализует подход GRADE (Grading of Recommendations Assessment, Development and Evaluation) — сегодня самый распространённый метод оценки качества доказательной базы. В GRADE дизайн задаёт лишь стартовую позицию, которую затем корректируют (Murad et al., BMJ EBM 2016; GRADE guidelines, Guyatt et al.).
- риск систематической ошибки (методологические дефекты)
- несогласованность результатов между исследованиями (inconsistency)
- косвенность — не та популяция или не тот исход (indirectness)
- неточность — широкие доверительные интервалы, малая выборка
- подозрение на публикационный сдвиг
- величина эффекта очень велика (large effect)
- есть зависимость «доза — ответ» (dose-response gradient)
- все вероятные искажения работали бы против найденного эффекта — а он всё равно есть
В обновлённой «новой пирамиде доказательств» Murad и соавторы предложили два изменения: сделать границы между уровнями не чёткими линиями, а размытыми (качество внутри уровня варьирует), и вынести систематические обзоры из вершины пирамиды — рассматривать их как линзу, через которую оценивают и применяют нижележащие исследования, а не как отдельный высший уровень (Murad et al., BMJ EBM 2016).
Отсюда практический вывод: не стоит оценивать статью по одному ярлыку дизайна. РКИ — не индульгенция, а серия случаев — не всегда мусор. Правильный вопрос не «какой это тип исследования?», а «насколько хорошо это конкретное исследование защищено от систематических ошибок и подходит ли его дизайн к поставленному вопросу?». Этому посвящены следующие части — там разберём, как читать конкретные разделы статьи и оценивать валидность по существу.
Источники
- Oxman AD, Sackett DL, Guyatt GH. Users' guides to the medical literature. I. How to get started. JAMA. 1993;270(17):2093–5.
- Guyatt GH, Sackett DL, Cook DJ. Users' guides to the medical literature. II. How to use an article about therapy or prevention. JAMA. 1993;270(21):2598–601.
- Oxman AD, Cook DJ, Guyatt GH. Users' guides to the medical literature. VI. How to use an overview. JAMA. 1994;272(17):1367–71.
- Murad MH, Montori VM, Ioannidis JPA, et al. How to read a systematic review and meta-analysis and apply the results to patient care. JAMA. 2014;312(2):171–9.
- Moseley JB, O'Malley K, Petersen NJ, et al. A controlled trial of arthroscopic surgery for osteoarthritis of the knee. N Engl J Med. 2002;347(2):81–8.
- Murad MH, Asi N, Alsawas M, Alahdab F. New evidence pyramid. BMJ Evid Based Med. 2016;21(4):125–7.
- McCulloch P, Altman DG, Campbell WB, et al. No surgical innovation without evaluation: the IDEAL recommendations. Lancet. 2009;374(9695):1105–12.
- Barkun JS, Aronson JK, Feldman LS, et al. Evaluation and stages of surgical innovations. Lancet. 2009;374(9695):1089–96.
- Sedrakyan A, Campbell B, Merino JG, et al. IDEAL-D: a rational framework for evaluating and regulating the use of medical devices. BMJ. 2016;353:i2372.
- Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ. 2008;336(7650):924–6.