Методология расчёта объёма выборки в сравнительных контролируемых клинических исследованиях с «неменьшей эффективностью»: сравнение двух пропорций в параллельных группах
Пн, 16 Март 2015
4826

Ляшенко А.А.1,2, Свищева М.С.2
1 — Первый МГМУ им И.М. Сеченова, НИИ молекулярной медицины, г. Москва
2 — ООО «Центр медицинских биотехнологий», г. Москва, www.cmbio.ru

Резюме. Подавляющее большинство клинических исследований генерических препаратов направлены на сравнение терапевтической эффективности тестируемого препарата и препарата сравнения. При этом необходимо доказать, что тестируемый препарат не менее эффективен, чем препарат сравнения.

Подобные дизайны получили название исследо­ваний «неменьшей эффективности»; в основном — это исследования III фазы.

Довольно часто в этих исследованиях в качестве первичного критерия эффективности используются частоты како­го-либо изучаемого признака, как результат анализа бинарных данных. В свою очередь, бинарные данные сравниваются между собой методом сравнения пропорций. При этом одним из важнейших условий правильной интерпретации дан­ных, полученных в ходе клинического исследования, является обеспечение исследования необходимым и достаточным объёмом экспериментальных данных.

Цель этой статьи — показать, как планировать эксперимент, обеспечивая его необходимым и достаточным объёмом выборки, для того, чтобы полученные результаты и выводы были бы достоверными; как интерпретировать данные в сравнительных контролируемых исследованиях, направленных на установление «неменьшей эффективности» при сравнении пропорций в параллельных группах.

Ключевые слова: исследования «неменьшей эффективности», граница «неменьшей эффективности», сравнитель­ные контролируемые исследования в параллельных группах, доверительный интервал, формула подсчёта выборки, сравнение пропорций

The methodology of calculation of sample size in “non-inferiority” comparative controlled clinical trials: a comparison of two proportions in parallel group

Lyashenko A.A.1,2, Svishcheva M.S.2
1 — First MGMU named after I.M. Sechenov, Institute of Molecular Medicine, Moscow
2 — LLC «Center of Medical Biotechnology,» Moscow, www.cmbio.ru

Abstract. The absolute majority of clinical trials of generic drugs aimed to compare the therapeutic efficacy of the tested drug and the drug of an active control. It is necessary to estimate that the test drug is not less effective (or non-inferior) than the control drug. The designs of the aforementioned trials are called “non-inferiority” study; often, these are phase III of clinical trials.

The primary criterions of effectiveness which are quite often used in the clinical trials are frequencies of signs, as a result of the analysis of binary data. Binary data are analyzed by comparing proportions. One of the most important conditions for a correct interpretation of the data obtained during the clinical trials — to provide necessary and suffi cient sample size.

The purpose of this article is to show how to plan the study, how to provide necessary and sufficient sample size to ensure that the results and conclusions would be reliable; how to interpret the data in a comparative controlled study aimed to establish “non­inferiority” using proportions comparing in parallel groups.

Key words: “non-inferiority” trials, “non-inferiority” margins, comparative controlled study in parallel groups, the Confi dence Interval, sample size calculating formulae, proportions comparison

Автор, ответственный за переписку:
Ляшенко Алла Анатольевна — к.б.н., ведущий научный сотрудник НИИ молекулярной медицины 1 МГМУ им И.М. Сеченова, генеральный директор ООО «Центр медицинских биотехнологий», г. Москва. e-mail: allaliachenko@yandex.ru, тел: +7(916) 222-64-51, www.cmbio.ru

 


В современных клинических исследований довольно часто в качестве первичного критерия эффективности выбирается частота какого-либо признака; в сравни­тельных клинических исследованиях эти частоты не­обходимо сравнить, чтобы получить вывод о преиму­ществе какого-либо из сравниваемых препаратов. При сравнении частот признака в таких случаях применяют­ся методы сравнения пропорций. Традиционно часто­ты признака составляют бинарные данные. Примером бинарных данных могут быть следующие: «выздоровел/заболел», «есть симптом/нет симптома», «да/нет», «м/ж»и т.д. Т.е. вариантов изучаемых признаков может быть только два. Здесь мы не будем подробно останавливать­ся на том, как сравнивать пропорции и отсылаем читате­ля к любому программному обеспечению по статистике.

Цель этой статьи — показать, как планировать экспе­римент, чтобы полученные результаты и выводы были бы достоверными, и как их интерпретировать в срав­нительных контролируемых исследованиях, направлен­ных на установление «неменьшей эффективности» при сравнении пропорций.

Одним из важнейших условий правильной интер­претации данных, полученных в ходе клинического ис­следования, является обеспечение исследования необ­ходимым и достаточным объёмом экспериментальных данных. От того, насколько адекватным будет это число, зависит уровень «доверия» к полученным выводам и, следовательно, и их дальнейшее использование.

Нисколько не умаляя важность получения правиль­ных выводов в «неклинических» исследованиях, необ­ходимо помнить, что выводы из результатов, получен­ных из клинического исследования, являются наиболее ответственными среди всех других видов исследований, поскольку от того, насколько они верны, зависит здоро­вье и жизнь человека, принимающего изучаемое лекар­ство. Так как же обезопасить исследование от ошибоч­ных выводов и сделать так, чтобы доверие к полученным результатам было максимальным?

Зачастую при планировании медицинских исследо­ваний исследователи (или спонсоры) пренебрегают (илине учитывают вовсе) такой важный аспект, как объём вы­борки. Объём выборки, строго говоря, подразумевает не­обходимое и достаточное количество пациентов в груп­пах, при котором вероятность принятия правильного решения является максимальной. Зачем нужно планиро­вать эксперимент и нельзя ли ограничиться привычным медицине? Например, взять 30 пациентов, провести с ними исследования и обработать полученные данные? Оказывается, нельзя. И причина здесь вовсе не только в том, что их может «не хватить». Основная причина в том, что при таком подходе мы можем быть увере­ны только в том, что полученные выводы распростра­няются именно на этих 30 пациентов. А «интересы» остальных пациентов с аналогичным диагнозом, ко­торых существенно больше, при таком подходе были как бы «проигнорированы». Стало быть, полученные выводы являются случайными и не могут быть распро­странены на всех пациентов, для которых разработано изучаемое лекарственное средство. С другой стороны, привлечь всех пациентов с конкретной проблемой не­возможно: их точное количество не знает никто, и это количество может варьироваться: одни будут поправ­ляться, а другие — появляться вновь. Пользуясь ста­тистической терминологией, мы не сможем привлечь к исследованиям всю «генеральную совокупность», которую составляют эти пациенты, но при этом хотим распространить на неё все полученные выводы. Для этого существует компромиссный и единственно пра­вильный вариант, — тщательное планирование меди­цинских экспериментов. Планирование является клю­чевым шагом в доказательной медицине и гарантирует, с соблюдением несложных правил, получение выводов, которые можно с уверенностью распространить в даль­нейшем на всю генеральную совокупность, которую в нашем случае составляют все потенциальные пациенты.

Для начала введём необходимые термины, которы­ми обычно оперируют при расчёте объёма выборки. В принципе, эти определения можно найти во множестве литературных источников, посвященных как класси­ческой статистике, так и доказательной медицине. Они приводятся в настоящей статье в несколько «адаптиро­ванном» виде для удобства чтения и восприятия даль­нейшего материала. 

«Ошибка 1 рода» (.) — это вероятность отвергнутьнулевую гипотезу, хотя на самом деле она истинна. Это своеобразная ложно-позитивная ошибка, например, ве­роятность обнаружить отличия между группами, если их на самом деле нет.

«Уровень значимости» — это допустимая вероят­ность ошибки 1 рода. Т.е. насколько мы готовы оши­биться, отклоняя нулевую гипотезу при условии, если она верна. Чаще всего в медико-биологических исследованиях уровень значимости при двусторонних тестах
подходом (происхождение которого, впрочем, авторамдованиях уровень значимости при двусторонних тестах неизвестно), который долгое время использовался в выбирают 5%. Другими словами, мы уверены на 95%, что различия достоверны. В исследованиях «неменьшей эффективности» стандартным подходом при проверке нулевой гипотезы рекомендуется использовать односто­ронний тест при уровне значимости 2,5% (InternationalConference on Harmonization (ICH), E9, 1998). Други­ми словами, достоверность выводов составляет 97,5%. Иногда выбирают и другие, более уровни значимости (0.05, 0.01, 0.001), — их выбор зависит от целей исследо­вания и от задач, которые оно решает.

«Ошибка 2 рода» (.) — это вероятность принять ну­левую гипотезу, если она ложная. Это т.н. ложно-нега­тивная ошибка, например, вероятность принять гипоте­зу о том, что отличий нет, хотя они на самом деле есть. Чаще всего, этот параметр не превышает 0,2.

«Статистическая мощность» — имеет смысл, обрат­ный значению ., — вероятности совершить ошибку 2 рода. Статистическая мощность рассчитывается, как 1-., и чаще всего выбирается не ниже 0,8.
Za и Zв — табличные критические значения нор­мального распределения, соответствующие заданным уровням ошибок 1 рода и выбранного уровня значимо­сти .. Наиболее часто используемые значения величин Za и Zв приведены в табл. 1. Полные таблицы с рас­чётными критическими значениями Z можно найти в специализированной статистической литературе.

 

Таблица 1

Критические значения Z нормального распределения (частичный пример)

α

1-β

Z

0,05

0,95

1,6449

0,025

0,975

1,96

0,1

0,9

1,2816

0,2

0,8

0,8416

«Нулевая гипотеза (Н0)» — это гипотеза, котораятрадиционно проверяется в процессе статистического анализа. Пример: предположение отсутствия различий между сравниваемыми переменными, отсутствие кор­реляции и т.д. Если в процессе статистического анализа гипотеза H0 отвергается, то при этом необходимо при­нять альтернативную гипотезу.

«Альтернативная гипотеза (H1)». В соответствии с предыдущим определением, эта гипотеза принима­ется, если гипотеза H0 отвергается. Например, в ходе клинического исследования, направленного на срав­нение терапевтической эффективности сравниваемых препаратов, использовалась нулевая гипотеза об отсут­ствии различий между ними по основному критерию клинической эффективности Х при уровне значимости p<0.05. По результатам данного исследования было по­лучено, что имеются отличия между препаратами по данному признаку Х (p<0.05). Это означает, что нулеваягипотеза H0 отвергается и принимается альтернативная H1 о существовании различий между препаратами по признаку Х.
Односторонний тест. Односторонние тесты ис­пользуются, если при анализе полученных данных принимается допущение, что показатель одной из срав­ниваемых групп лучше показателя другой. Т.е. заранее определяется направление «влияния вмешательства». Поэтому односторонние тесты используются в исследо­ваниях, направленных как на установление «неменьшей эффективности», так и на установление превосходства.

Двусторонний тест используется, если заранее не­известно о преимуществе сравниваемых показателей, либо нет смысла обозначать преимущество одного по­казателя перед другим. В симметричных исследованиях, направленных на установление эквивалентности (на­пример, исследования биоэквивалентности дженери­ков), используются двусторонние тесты. Проверяемыедвусторонние гипотезы в исследованиях эквивалентно­сти выглядят следующим образом:

H0: p1=p2; H1: p1.p2

От того, какой подход будет выбран, зависит выбор критического значения уровня ошибки I рода Za, и, сле­довательно, и объём выборки.

Исследования «неменьшей эффективности» — это, в основном, сравнительные исследования с препаратом активного контроля, в которых предполагается, что те­стируемый препарат (T) не хуже, чем препарат сравне­ния (C). Для сравнения, в исследованиях превосходстваустанавливается явное преимущество тестируемого препарата над плацебо.

При сравнении двух препаратов (методов леченияи т.п.) в исследовании «неменьшей эффективности»принимается допущение, что тестируемый препарат T не хуже, чем препарат (или метод) активного контроля(C). При этом допускается, что он может быть немногохуже, но не больше, чем на некую величину. Эта некая величина, предел, который позволяет отвергнуть ну­левую гипотезу и принять альтернативную о том, что сравниваемый препарат «не менее эффективен», чем препарат сравнения. В литературе её называют пределом или границей «неменьшей» эффективности (или «non­inferiority margins», .). Для расчётов объёма выборки висследованиях превосходства . всегда положительна, в исследованиях «non-inferiority» — всегда отрицательна.

Эту логику легко понять из рис. 1.

Проверяемые гипотезы для исследования «немень­шей эффективности» будут следующие:

H0: PT-PC≤ -δ; H1: PT-PC >

С учётом вышесказанного, можно отметить, что наиболее логичным для таких исследований было бы название «не большей эффективности» (прим. авторов), но мы будем пользоваться устоявшейся для этого типа дизайна терминологией

Для сравнения, проверяемые гипотезы для исследо- вания превосходства выглядят следующим образом:

H0: PT-PC≤δ; H1: PT-PC

Пример расчёта объёма выборки
Пусть необходимо провести расчёт объёма выборки для сравнительного контролируемого исследования двух препаратов, тестируемого (Т) и препарата сравнения (С).Пусть это будут антибиотики, основной критерий эффек­тивности — доля полного выздоровления пациентов.

Выбираем входные условия, которые необходимы при расчёте:

  • уровень значимости альфа: 2,5%; Z=1,96;
  • уровень статистической мощности: 0,8; Z0,8 =0,84.
  • PС и PТ — клиническая эффективность препаратов, активного контроля и тестируемого, соответствен­но. Пусть известно, что PС (по первичному критериюэффективности) составляет 80%. Данный параметрберётся из предыдущих клинических исследований, в которых эффективность препарата сравнения, вы­ступающего в данном клиническом исследовании в роли активного контроля, сравнивалась с плацебо, либо со стандартной терапией, и показал такой ре­зультат. Пусть желаемая клиническая эффективность тестируемого препарата PT = 60%, границу «немень­шей эффективности» выбираем в 10% (т.е. . = -0.1).

 

Проверяемые гипотезы:

H0: PT-PC≤ -0,1; H1: PT-PC > -0,1

Объём выборки в каждой группе при сравнении про­порций для исследований с неменьшей эффективно­стью рассчитывается по формуле (Dunnett & Gent,1977):

n=(Za+Zb)2×(pc×(1–pc)+pt×(1–pt))/(pc–pt–δ)2

Подставляем данные и получаем, что объём выборки n составит не менее 35 человек в каждой из сравнивае­мых групп. Т.е. всего для участия в клиническом исследо­вании необходимо вовлечь как минимум 70 пациентов. Более точная формулировка — «при уровне значимости 2,5% для сохранения статистической мощности в 0,8 клиническое исследование должны закончить не менее 70 пациентов». Поскольку существует риск, что пациен­ты по каким-то причинам могут отказаться от участия и выйти из клинического исследования, полученный объ­ём выборки целесообразно увеличить на 25-30%.

С уменьшением предела неменьшей эффективности объём выборки существенно возрастает. Т.е. величины предела неменьшей эффективности и объёма выборки обратно пропорциональны: чем меньшее отличие мы стремимся установить, тем больший объём выборки требуется. Приведём здесь несколько готовых расчётов объёма выборки для демонстрации этой важной состав­ляющей клиничес кого исследования (табл. 2).

Несомненно, адекватный выбор границ клиниче­ской эффективности — очень важный параметр. Его величина гарантирует, что в процессе исследования мы не только оценим статистическую значимость результа­тов исследования, выдержав статистическую мощность, но и не потеряем клиническую значимость полученных выводов.

Какими правилами следует руководствоваться при выборе границ неменьшей эффективности? При срав­нении пропорций в исследованиях неменьшей эффек­тивности следует пользоваться рекомендациями от CPMP (2004 г.) и FDA (1992 г.). Данный документ отFDA рекомендует учитывать уровень первичного кри­терия эффективности препарата активного контроля, а CPMP — использовать константу, равную -10. Границы неменьшей эффективности представлены в табл. 3. Не­которые «готовые» решения по выбору границ немень­шей эффективности при анализе разницы пропорций можно также найти в работах Hou с соавт. (Hou et al.,2009 г.) и Julious (Julious, 2010 г.). Общие принципы из­ложены также и в рекомендациях EMEA (E9, 1998 г.;E10, 2001 г.).

Интерпретация и представление результатов

После завершения клинического исследования не­обходимо провести статистический анализ получен­ных результатов. Традиционно для ответа на вопрос, доказана ли «неменьшая эффективность» тестируемого препарата по сравнению с препаратом активного кон­троля, кроме статистических критериев для проверки гипотез, используется оценка значения доверительного интервала (ДИ) разницы полученных эффектов: еслинижняя граница расчётного ДИ больше, чем — ., тогда H0 отвергается и принимается альтернативная гипоте­за о «неменьшей эффективности» тестируемого препа­рата по сравнению с препаратом сравнения. Использу­ется либо двусторонний 95% ДИ, либо односторонний 97,5% ДИ. Иллюстрация возможных вариантов приве­дена на рис. 1 (по Schumi & Wittes, 2011 г.).
Пусть в результате клинического исследования по­лучен односторонний 97,5% ДИ [-8,4; 1]. Выбранный предел «неменьшей эффективности» . равен -10. В дан­ном клиническом исследовании доказана «неменьшая эффективность» опытного препарата.

Допустим, что в результате проведённого клиниче­ского исследования был получен двусторонний 95% ДИ [-6; -1]. Выбранный предел «неменьшей эффективно­сти» выберем -5. В данном случае «неменьшая эффек­тивность» тестируемого препарата не подтверждена.

Заключение

Таким образом, при расчёте объёма выборки при сравнении пропорций в параллельных группах в срав­нительном контролируемом исследовании неменьшей эффективности необходимо выбрать эффективность препарата сравнения из предшествующих клиниче­ских исследований, определиться с эффективностью тестируемого препарата, установить границы немень­шей эффективности ., выбрать уровень значимости и статистической мощности исследования. Интерпре­тация результатов клинического исследования про­водится после определения границ доверительного интервала разницы эффекта от сравниваемых препа­ратов и соотношения полученного ДИ (двустороннего 95% или одностороннего 97,5%) по отношению к вы­бранному пределу неменьшей эффективности. Если левая граница ДИ больше, чем — ., нулевая гипотеза отвергается и признается альтернативная о том, что тестируемый препарат не менее эффективен, чем пре­парат сравнения. 

 


Таблица 2

Расчёты объёма выборки (n) при сравнении двух пропорций для уровня значимости 2,5% и статистической мощ- ности 0,8. Условные обозначения: PC — эффективность препарата сравнения; PT — эффективность  тестируемого препарата; δ – предел неменьшей эффективности; n – объём выборки в каждой из сравниваемых групп.

PC

PT

δ

n

PC

PT

δ

n

PC

PT

δ

n

0,90

0,85

-0,05

171

0,80

0,75

-0,05

273

0,70

0,65

-0,05

343

 

 

-0,10

76

 

 

-0,10

121

 

 

-0,10

153

 

 

-0,15

43

 

 

-0,15

68

 

 

-0,15

86

 

 

-0,20

27

 

 

-0,20

44

 

 

-0,20

55

 

0,80

-0,05

87

 

0,70

-0,05

129

 

0,6

-0,05

157

 

 

-0,10

49

 

 

-0,10

73

 

 

-0,10

88

 

 

-0,15

31

 

 

-0,15

46

 

 

-0,15

57

 

 

-0,20

22

 

 

-0,20

32

 

 

-0,20

39

 

0,75

-0,05

54

 

0,65

-0,05

76

 

0,55

-0,05

90

 

 

-0,10

35

 

 

-0,10

49

 

 

-0,10

57

 

 

-0,15

24

 

 

-0,15

34

 

 

-0,15

40

 

 

-0,20

18

 

 

-0,20

25

 

 

-0,20

29

 

0,70

-0,05

38

 

0,60

-0,05

50

 

0,50

-0,05

58

 

 

-0,10

26

 

 

-0,10

35

 

 

-0,10

40

 

 

-0,15

19

 

 

-0,15

26

 

 

-0,15

29

 

 

-0,20

15

 

 

-0,20

20

 

 

-0,20

23

 


Литература

1. Schumi J., Wittes J.T. Through the looking glass: understanding non­inferiority. // Trials. 2011 May 3;12:106.

2. Dunnett C.W., Gent M. Significance testing to establish equivalence between treatments, with special reference to data in the form of 2X2 tables. // Biometrics.1977 Dec;33(4):593-602.

3. International Conference on (ICH) of technical requirements for registration of pharmaceuticals for human use. // Statistical principles for clinical trials, 1998.

4. Food and Drug Administration (FDA) (1992) Points to consider. Clinical evaluation of Anti-infective drug products.

5. Hou Y., Wu X.Y., Li K. Issues on the selection of non-inferiority margin in clinical trials. // Chin Med J (Engl). 2009 Feb 20;122(4):466-70.

6. Committee for proprietary medicinal products (CPMP) (2004). Points to consider on the choice of non-inferiority margin.

7. Committee for proprietary medicinal products (CPMP) (2000) Points to Consider on Switching Between Superiority and Non-Inferiority.

8. Julious S.A. Sample Sizes for Clinical Trials. CRC Press 2010, p 180.

9. ICH Note for Guidance E9 (Statistical Principles for Clinical Trials) (1998), CPMP/ICH/363/96.

10. ICH Note for Guidance E10 (Choice of Control Group) (2001), CPMP/ ICH/364/96 

Похожие статьи