Рекомендации для подтверждения эквивалентности электронной и бумажной версий «Оценок Результатов Пациентами» (PRO)
Ср, 01 Июнь 2016
983

 

Stephen Joel Coons, PhD1, Chad J. Gwaltney, PhD2, Ron D. Hays, PhD3, J. Jason Lundy, PhD4, Jeff A. Sloan, PhD5, Dennis A. Revicki, PhD6, William R. Lenderking, PhD7, David Cella, PhD8, Ethan Basch, MD, MSc9, on behalf of the ISPOR ePRO Task Force

 

1 Center for Health Outcomes and PharmacoEconomic Research, College of Pharmacy, University of Arizona,Tucson, AZ, USA

2 Brown University, Providence, RI, USA and PRO Consulting, Pittsburgh, PA, USA

3 Division of General Internal Medicine and Health Services Research, Department of Medicine, UCLA School of Medicine, Los Angeles, CA, USA and RAND, Santa Monica, CA, USA

4 Department of Pharmaceutical Sciences, College of Pharmacy, University of Arizona,Tucson, AZ, USA

5 Department of Health Sciences Research, Mayo Clinic, Rochester, MN, USA

6 Center for Health Outcomes Research, United BioSource Corporation, Bethesda, MD, USA

7 Center for Health Outcomes Research, United BioSource Corporation, Lexington, MA, USA

8 Center on Outcomes, Research and Education, Evanston Northwestern Healthcare and Northwestern University Feinberg School of Medicine, Evanston, IL, USA

9 Health Outcomes Research Group, Departments of Biostatistics and Medicine, Memorial Sloan Kettering Cancer Center, New York, NY, USA

 

Переводчик:

Павлыш Андрей Владиславович – к.м.н.. докторант Первого Санкт-Петербургского государственного медицинского университета им. акад. И.П. Павлова, Санкт-Петербург, Российская Федерация

 

Рецензент:

Вербицкая Елена Владимировна – к.б.н., доцент, Первый Санкт-Петербургский государственный медицинский университет им. акад. И.П. Павлова, Санкт-Петербург, Российская Федерация

 

 

Резюме. Справочная информация: Оценки Исходов Пациентами (PROs) являются следствием заболевания и/или его лечения в том виде, как о них сообщил пациент. Важность применения PRO в клинических исследованиях новых лекарственных средств и медицинских устройств была подчеркнута в проекте отраслевого Руководства FDA (Управления по контролю качества пищевых продуктов и лекарственных средств, США) «Измерение оценок исходов пациентами: применение при разработке медицинских технологий для поддержки требований инструкций по применению» (“Patient-Reported Outcome Measures: Use in Medical Product Development to Support Labeling Claims”). Целью руководства было описать, как FDA будет оценивать целесообразность и адекватность применения PRO, используемых в качестве конечных точек оценки эффективности в клинических исследованиях. В ответ на пожелание членов ISPOR уточнить некоторые аспекты проекта руководства, Совет ISPOR по политике в области охраны здоровья (ISPOR’s Health Science Policy Council) создал три целевые группы, одной из которых было поручена работа с определением последствий использования Проекта руководства для сбора данных PRO в электронной форме (ePRO). Целью данного отчета является представление рекомендаций Целевой Группой ISPOR по надлежащей исследовательской практике еPRO в отношении доказательств, необходимых для подтверждения эквивалентности (равнозначности) данных электронных PRO (ePRO) по сравнению с бумажным PRO, на основе которых они были созданы. Методы: Целевая Группа должна состоять из ведущей команды Целевой Группы ISPOR по ePRO и членов другой группы (к примеру, Целевой Группы по совместным разработкам ePRO), которые уже начали разработку рекомендаций по надлежащей исследовательской практике ePRO. В итоге, Целевая Группа в обзоре охватила широкий спектр предпосылок, перспектив и опыта, обогативших разработку этого отчета. Ряд членов Целевой Группы превратился в группу авторов, которые подготовили настоящий отчет. Наряду с презентацией и периодом обсуждения на рабочих встречах ISPOR, черновой вариант полного текста отчета был распространен среди примерно 220 членов группы рецензентов. Группу рецензентов составили лица, которые ответили по электронной почте на приглашение ISPOR принять участие в обсуждении. Этот доклад рабочей группы отражает обширную внутреннюю и внешнюю работу, результаты которой были получены в ходе 16-месячного процесса развития надлежащей исследовательской практики. Результаты/Рекомендации: Электронный опросник ePRO, который был адаптирован из бумажного опросника PRO, должен предоставлять данные, которые эквивалентны или превосходят (например, более надежны) данные, полученные в бумажной версии. Эквивалентность измерений является функцией сопоставимости психометрических свойств, полученных данных с помощью оригинального и адаптированного режима ввода данных. Эта сопоставимость зависит от размера модификации содержания и формата бумажного оригинала опросника PRO, необходимого в процессе адаптации. Величина конкретной модификации определяется со ссылкой на его потенциальное влияние на содержание, смысл или толкование пунктов мер и/или масштабов. На основании величины модификации, доказательства для измерения эквивалентности могут быть получены с помощью следующих комбинаций: когнитивная проверка/тестирование, юзабилити-тестирование, тестирование эквивалентности, или, если были внесены существенные изменения, полное психометрическое тестирование. Пока что в процессе адаптации были сделаны лишь незначительные изменения, и значительный объем существующих данных позволяет предположить, что психометрические свойства исходного варианта будут по-прежнему иметь место и для версии ePRO. Таким образом, оценка ограничивается осознанным подведением итогов, и может быть достаточно только юзабилити-тестирования. Однако там, где в процессе адаптации произошли более существенные изменения, необходимо подтверждение, что в процессе адаптации к формату ePRO не произошли значительные ошибки в ответах, и что эти два пути опросов дают по большей части эквивалентные результаты. Будут предоставлены рекомендации по проекту исследования и статистическим подходам для оценки измерений. Выводы: Использование электронных PRO даёт множество преимуществ по сравнению с бумажной версией. Мы предоставляем общую основу для решений, касающихся уровня доказательств, необходимых для поддержки изменений, которые проводятся в измерениях PRO, в процессе адаптации бумажной версии в ePRO. Ключевые вопросы включают в себя: 1) определение степени модификаций, необходимых для переноса PRO на устройства ePRO и 2) отбор и реализацию эффективной стратегии тестирования мер эквивалентности двух способов введения информации. Мы надеемся, что эти рекомендации по надлежащей исследовательской практике дадут исследователям, заинтересованным в переводе PRO на электронные платформы сбора данных, возможность двигаться вперед.

Ключевые слова: эффективность, оценочные исследования, связанное со здоровьем качество жизни, результаты по отчетам пациентов

 

 

Recommendations on Evidence Needed to Support Measurement Equivalence between Electronic and Paper-Based Patient-Reported Outcome (PRO) Measures: ISPOR ePRO Good Research Practices Task Force Report

 

Abstract. Background: Patient-reported outcomes (PROs) are the consequences of disease and/or its treatment as reported by the patient. The importance of PRO measures in clinical trials for new drugs, biological agents, and devices was underscored by the release of the US Food and Drug Administration’s draft guidance for industry titled “Patient-Reported Outcome Measures: Use in Medical Product Development to Support Labeling Claims.” The intent of the guidance was to describe how the FDA will evaluate the appropriateness and adequacy of PRO measures used as effectiveness endpoints in clinical trials. In response to the expressed need of ISPOR members for further clarification of several aspects of the draft guidance, ISPOR’s Health Science Policy Council created three task forces, one of which was charged with addressing the implications of the draft guidance for the collection of PRO data using electronic data capture modes of administration (ePRO). The objective of this report is to present recommendations from ISPOR’s ePRO Good Research Practices Task Force regarding the evidence necessary to support the comparability, or measurement equivalence, of ePROs to the paper-based PRO measures from which they were adapted. Methods: The task force was composed of the leadership team of ISPOR’s ePRO Working Group and members of another group (i.e., ePRO Consensus Development Working Group) that had already begun to develop recommendations regarding ePRO good research practices. The resulting task force membership reflected a broad array of backgrounds, perspectives, and expertise that enriched the development of this report. The prior work became the starting point for the Task Force report. A subset of the task force members became the writing team that prepared subsequent iterations of the report that were distributed to the full task force for review and feedback. In addition, review beyond the task force was sought and obtained. Along with a presentation and discussion period at an ISPOR meeting, a draft version of the full report was distributed to roughly 220 members of a reviewer group. The reviewer group comprised individuals who had responded to an emailed invitation to the full membership of ISPOR. This Task Force report reflects the extensive internal and external input received during the 16-month good research practices development process. Results/Recommendations: An ePRO questionnaire that has been adapted from a paper-based questionnaire ought to produce data that are equivalent or superior (e.g., higher reliability) to the data produced from the original paper version. Measurement equivalence is a function of the comparability of the psychometric properties of the data obtained via the original and adapted administration mode. This comparability is driven by the amount of modification to the content and format of the original paper PRO questionnaire required during the migration process. The magnitude of a particular modification is defined with reference to its potential effect on the content, meaning, or interpretation of the measure’s items and/or scales. Based on the magnitude of the modification, evidence for measurement equivalence can be generated through combinations of the following: cognitive debriefing/testing, usability testing, equivalence testing, or, if substantial modifications have been made, full psychometric testing. As long as only minor modifications were made to the measure during the migration process, a substantial body of existing evidence suggests that the psychometric properties of the original measure will still hold for the ePRO version. Hence, an evaluation limited to cognitive debriefing and usability testing only may be sufficient. However, where more substantive changes in the migration process has occurred, confirming that the adaptation to the ePRO format did not introduce significant response bias and that the two modes of administration produce essentially equivalent results is necessary. Recommendations regarding the study designs and statistical approaches for assessing measurement equivalence are provided. Conclusions: The electronic administration of PRO measures offers many advantages over paper administration. We provide a general framework for decisions regarding the level of evidence needed to support modifications that are made to PRO measures when they are migrated from paper to ePRO devices. The key issues include: 1) the determination of the extent of modification required to administer the PRO on the ePRO device and 2) the selection and implementation of an effective strategy for testing the measurement equivalence of the two modes of administration. We hope that these good research practice recommendations provide a path forward for researchers interested in migrating PRO measures to electronic data collection platforms.

Key words: effectiveness, evaluation studies, health-related quality of life, patient-reported outcomes

 

Введение

Обзор

Оценка Результатов Пациентом (PRO) предоставляется после заболевания и/или его лечения и является сообщением пациента о своем восприятии здоровья, благополучия, ощущением симптомов, собственного функционирования и удовлетворенности лечением. PRO все чаще используются в дополнение к данным по безопасности, выживаемости и другим традиционным показателям клинической эффективности в исследованиях терапевтических вмешательств [1]. Они обогащают оценку эффективности лечения за счет предоставления результатов с позиции пациента. В некоторых случаях, таких как оценка боли или усталости, PRO может быть единственной жизнеспособной конечной точкой, потому что все прочие наблюдаемые или измеряемые физические, или физиологические маркеры заболевания или действенности лечения отсутствуют [2-4]. В других случаях, когда эта конечная точка не единственная, они могут по-прежнему оказаться одними из самых важных.

В течение последних нескольких лет [5-11] был опубликован ряд работ и совместно разработанных документов, касающихся использования PRO в клинических исследованиях и выполнения требований, предъявляемых к листкам-вкладышам. Регулирующие органы все чаще просят рассматривать и утверждать протоколы, которые включают в себя меры PRO [12, 13]. В 1994 году большинство клинических исследований II-IV фазы собирали некоторые типы данных PRO [14]. В обзоре Willke и др., [12] были рассмотрены конечные точки эффективности, представленные в листках – вкладышах (этикетках) продукции из новых молекулярных субстанций одобренной в FDA, с 1997 по 2002 год и обнаружили, что в 30% случаях из 215 проанализированных листков-вкладышей использовали конечные точки, основывающиеся на PRO. Для 23 продуктов PRO были единственными предоставленными конечными точками.

Одновременно с расширением использования и значимости преимуществ PRO в клинических испытаниях был очевиден устойчивый рост электронного метода сбора данных (EDC). В процессе возникали ошибки, в первую очередь речь идет об отсутствии адекватной технической поддержки для клинических исследователей [15-17]. Адаптация регистрационных форм к электронному формату, включая электронные средства заполнения PRO (ePRO), должна гарантировать, что данные, собранные с помощью различных методов эквивалентны или любые выявленные различия несущественны.

Важность измерения PRO в клинических исследованиях новых препаратов, биологических агентов и устройств была подчеркнута в проекте отраслевого Руководства FDA «Измерения результатов по отчетам пациентов: использование в разработке медицинского продукта для поддержки списка противопоказаний» [18]. Целью руководства было описать, как FDA будет расценивать целесообразность и адекватность измерений PRO, используемых в качестве конечных точек эффективности в клинических исследованиях. Руководство FDA была создано, чтобы сделать процесс разработки и пересмотра измерений PRO более эффективным и прозрачным, как для FDA, так и для спонсоров и клинических исследователей, выделяя основные стандарты оценки. Недавно была опубликована серия статей, комментирующих различные аспекты разработки PRO, отбора, тестирования, анализа и интерпретации, содержащейся в руководстве FDA [19-25]. Тем не менее, этот процесс продолжает разрабатываться и остается непростым в объяснении, в частности, существуют множество возможных способов измерений PRO, потребность в различных языковых и культурных адаптациях, существующих и возможных способов ввода информации. Кроме того, проект руководства поднял конкретные вопросы, связанные с обеспечением сопоставимости электронных и бумажных измерений PRO [18].

Многие измерения PRO изначально были разработаны для работы с бумажным вариантом, но их можно адаптировать в форматы ePRO. Электронная адаптация существующих параметров PRO может привести к уменьшению административной нагрузки, большему удобству для пациента, предотвращению вторичных ошибок при вводе данных, легкого внедрения реализация шаблонов пропуска полей и получению более точных и полных данных [26-31]. FDA заявило о своей открытости к рассмотрению улучшений, возникающих при использовании измерений ePRO в клинических исследованиях [25]. Тем не менее, эти измерения ePRO будут подлежать тому же пристальному рассмотрению, как и измерения в бумажных документах. Будут необходимы эмпирические данные, чтобы продемонстрировать, что при применении измерений ePRO свойства сопоставимы, если даже не превосходят оригинальный формат PRO. Само собой, было бы неразумно рассматривать вопрос о переходе с бумажного варианта PRO в электронный формат для использования в клинических исследованиях, если изначальные варианты не соответствуют стандартам руководства FDA. Кроме того, перенос существующих PRO показателей (переменных) на устройства ePRO должен планироваться, проводиться и оцениваться с разрешения и в сотрудничестве с разработчиком этих показателей при любой возможности.

Целью этого отчета является представление рекомендаций для доказательств, необходимых для поддержки сопоставимости или эквивалентности показателей ePRO показателям бумажных PRO, из которых они были адаптированы. Этот краткий обзор не претендует на всестороннее сравнение и сопоставление различных способов введения ePRO в эксплуатацию. Кроме того, наши рекомендации основываются на предположении, что для использования в клинических исследованиях сбор данных ePRO и инфраструктура хранения данных соответствуют нормативным требованиям к хранению, обслуживанию и обеcпечению доступа к записям спонсора и исследователя. Мы не будем обсуждать этот вопрос в деталях. Требования делопроизводства (рассматриваются в 21 CFR 312,50, 312,58, 312,52, 312,68, 812,140, и 812,145) включают подготовку и поддержание историй болезни, сохранение записей в соответствии с Положением FDA о доступе, копировании и верификации данных [32]. Кроме того, сбор данных ePRO должен соответствовать отраслевому Руководству E6 «Надлежащая клиническая практика» (раздел 5.5.3) [33], отраслевому Руководству «Автоматизированные системы, используемые в клинических исследованиях» [34] и 21 CFR часть 11 [35-37]. Таким образом, записи должны быть представленными в соответствии с базовыми требованиями, изложенными в Федеральном законе США о продуктах питания, лекарственных и косметических средствах, Законе о медицинском обслуживании населения и действующими нормами FDA (кроме части 11).

 

Процесс создания рабочей группы

После выхода проекта Руководства о PRO в феврале 2006 года FDA предложило представить замечания и предложения для информирования о завершении работы над руководством. Члены ISPOR представили свои замечания FDA, указав на необходимость внесения ясности по ряду конкретных вопросов, в том числе ожиданий FDA в отношении использования существующих инструментов PRO и их модификаций, перевода и/или адаптации измерений PRO с одного языка/культуры на другую, и изменений по управлению PRO специально для электронного сбора данных (ePRO).

Основываясь на рекомендации совета ISPOR по политике, здравоохранению и науке за январь 2007, совет директоров ISPOR в марте 2007 одобрил создание трех целевых групп PRO для решения вышеуказанных вопросов. В начале Целевая Группа, которая сейчас называется Целевая Группа ePRO, образовалась из руководящей команды Рабочей группы ISPOR по ePRO (ePRO Working Group ISPOR), председателем которой был профессор Стивен Джоэл Кун. Вскоре после этого к Целевой Группе ePRO присоеденили другую, уже существовавшую Рабочую группу по Достижению консенсуса в ePRO (ePRO Consensus Development Working Group). Таким образом, состав Целевой Группой ePRO охватывает широкий спектр опыта, перспектив и знаний, что обогатило процесс разработки на основе надлежащей научно-исследовательской практики. Начало совместной работы в составе Целевой Группы ePRO стало отправной точкой для создания отчета Целевой Группы ePRO. 

Из членов Целевой Группы сформировался авторский коллектив, который подготовил варианты отчета. Целевой Группой проводились ежемесячные телеконференции для обеспечения обратной связи с авторским коллективом. Кроме того, членами Целевой Группы запрашивались и получались отзывы и рекомендации в работе. Черновая версия первоначальных рекомендаций и направления будущего отчета Целевой Группы ePRO были представлены как часть доклада о PRO в рамках 12-й международной конференции ISPOR в мае 2007 года. Вопросы и предложения от участников конференции на тему PRO были учтены и дополнили содержание доклада Целевой Группы. Как только черновой вариант текста доклада был завершен, он был распространен в ноябре 2007 года среди примерно 220 рецензентов. Группу рецензентов составили лица, которые утвердительно ответили на приглашение по электронной почте от действительных членов ISPOR присоединиться к рабочей группе ePRO. От рецензентов было получено значительное количество отзывов. Благодаря как внутреннему, так и внешнему участию, за 16 месяцев обсуждения отчет претерпел существенные изменения. Этот окончательный вариант отражает вершину этого сложного процесса.

 

Виды устройств/систем сбора данных ePRO

Есть две основные категории платформ управления ePRO: голосовые/аудио аппараты и устройства для вывода текста на экран. Голосовые/аудио устройства, в первую очередь, на основе телефона, как правило, называются интерактивным автоответчиком (IVR). Экранные устройства вывода информации обеспечивают респондентам визуальное изображение текста. Устройства для вывода текста на экран включают в себя настольные и портативные компьютеры, которые могут включать в себя сенсорный экран, планшет или ноутбук с сенсорным экраном, наладонники/карманные компьютеры; и веб-системы. Системы компьютеров с сенсорным экраном отличаются от традиционных компьютерных систем с клавиатурой и мышью; при наличии сенсорного экрана пациент может ответить на вопросы за счет прикосновения пальцем или стилусом. Автономный вариант сенсорного экрана может использоваться с помощью или без помощи клавиатуры или мыши; однако, автономные настольные системы ограничены в подвижности.

Планшетные сенсорные экран или портативные системы, как правило, представляют собой полноценные компьютеры, на которых стоит несколько практических ограничений по количеству вопросов ePRO, графических изображений (например, диаграмм тела, визуальных аналоговых шкал), вычислительной сложности, хранения данных, или вариантов передачи данных. Поскольку у планшетов и портативных компьютеров экран больше, чем у других электронных вариантов, вопрос и текст ответа могут быть представлены более крупным шрифтом и отображаться на одном экране практически на всех языках.

С КПК («наладонников») данные вводятся через сенсорный экран с помощью специального пера/стилуса. Карманные компьютеры удобнее тем, что предлагают самый легкий и портативный вариант вывода текста на экран, но ограниченное пространство экрана – их недостаток. Респонденту, возможно, придется использовать линейку прокрутки, чтобы прочитать вопрос целиком. Это также ограничивает использование большого легко читаемого шрифта. Тем не менее, за счет портативности КПК имеет преимущество, поскольку является потенциально более полезным для оценки в реальном масштабе времени переживаемого пациентом опыта – например, ведения электронного дневника [3, 38].

Веб-системы предлагают преимущество захвата данных PRO в файл данных в то время, как пациент отвечает на опросник. Данные не нужно переносить на центральный сервер, что является стандартным процессом для других систем на основе сенсорных экранов и регулярно создает проблемы для пациентов и медицинского персонала, участвующего в исследовании. Кроме того, веб-системы проще и с меньшими затратами переносят изменения протокола и другие модификации во время самого исследования, нежели другие системы на основе сенсорных экранов, потому что изменения должны быть внесены только в программное обеспечение, находящееся на центральном сервере. Другие системы на основе сенсорных экранов требуют изменений в программах, стоящих на каждом устройства, что может создать большие логистические и технические проблемы. Веб-системам ePRO требуется доступ к компьютеру с Интернетом или устройство с поддержкой доступа к беспроводной сети. В зависимости от протокола исследования, веб-система потенциально может предложить испытуемому вариант заполнения анкеты на дому. Сенсорный экран и преимущества мобильности могут быть потеряны, если компьютер не имеет сенсорного экрана и возможности подключения к Интернету; однако, последнее в большинстве стран все больше становится доступно.

Аудиовизуальные компьютеризованные устройства самостоятельного интервьюирования (A- CASI) – это электронное устройство-гибрид, которое сочетает вывод текста на экран и голосовые/аудио функции в одной платформе. Респондентам предоставляются анкеты на мониторе компьютера, с или без сенсорного экрана, в сопровождении звукового чтения вопросов и ответов. Гибридные устройства могут предложить ответчику на выбор: отключение звукового чтения анкеты и реагирование только на визуальное представление или наоборот, что может быть полезным для оценки особыми группами населения (с низким уровнем грамотности или слабовидящим) [39].

Голосовые/аудио устройства обеспечивают респондентам  аудио-версию вопросов и варианты ответов. В частности, IVR-системы – это автоматизированные системы на основе телефона, которые взаимодействуют с абонентами при использовании предварительно записанных голосовых вопросов и системой регистрации ответов. Некоторые из преимуществ IVR состоят в том, что респонденту не требуется никакого дополнительного оборудования, кроме телефона, более того, не требуется никакого (или очень небольшое) дополнительного обучения респондентов, данные сохраняются непосредственно в центральную базу данных, и IVR-системы могут записывать голосовые ответы. Использование записанных голосовых подсказок показало снижение требований к уровню грамотности участников исследования [40,41]. IVR-системы используют сочетание голосового ввода и выбора клавиатуры телефона с тональным вводом для облегчения заполнения анкет. IVR-системы позволяют респондентам позвонить или системе позвонить респондентам; однако рекомендуется, чтобы исследователи представили письменные дополнительные материалы для вопросов и вариантов ответов в начале исследования, в частности, для длинных опросников. Аудио-презентация IVR-систем отходит от визуальной среды, в которой были разработаны большинство измерений PRO, но это очень похоже на интервью по телефону для сбора данных. В нескольких исследованиях напрямую сравниваются IVR и бумажные версии PRO. Необходимы дальнейшие исследования, чтобы оценить, насколько и при каких условиях (например, длина оценки или элемента, количество вариантов, когнитивные способности респондента) переход от письменных механизмов PRO к IVR дает эквивалентные данные. При выборе между различными платформами ePRO нужно учитывать тип меры PRO адаптируемость, целевую группы населения, сложность требований сбора данных или расчетов, и сроки, предусмотренные для представления пациента (например, немедленно vs. отложено). По всем вышеуказанным устройствам для ePRO, где данные не сохраняются сразу в центральной базе данных, как только данные собраны, они должны быть как можно скорее переданы по интернету, или системе на базе сервера для централизованного хранения и переработки.

 

Сравнение электронных и бумажных вариантов управления PRO в литературе

В ряде исследований непосредственно сравнивают данные, полученные с электронных и бумажных вариантов управления PRO. Гуолтни и др. [42] провели мета-анализ, который включал в себя 46 исследований и более 275 показателей PRO для изучения взаимосвязи между бумажными PRO и ePRO на основе сенсорных экранов. Средняя разница между вариантами была очень небольшой (0,2% от диапазона шкалы или 0,02 баллов из 10-балльной), а средняя корреляция между бумажной версией и ePRO показала избыточность (0,90). Кросс-корреляция вариантов часто похожа на повторное тестирование надежности бумажных данных, которое указывает эквивалентность измерений. В таких условиях, просмотр бумажного варианта, а после него – варианта ePRO, по сути, равняется повторному просмотру бумажного варианта. В рассматриваемой литературе для управления PRO использовалось несколько различных компьютерных устройств на базе сенсорных экранов; в том числе компьютерный сенсорный экран, карманные компьютеры, веб-платформы, а также традиционный компьютерный монитор, клавиатура и мышь. Было недостаточно доказательств, что размер экрана компьютера, возраст респондента или количество опыта работы с компьютером как-то качественно влияли на эквивалентность ePRO [42].

Исследования, в которых IVR системы были использованы для сбора данных, сообщенных пациентами, предоставили поддержку надежности и целесообразности режима сбора данных [43, 44]. Другие исследования сравнивали традиционные клинически управляемые/заполняемые врачами версии опросников с IVR-системами, заполняемыми пациентами [45-47]. Мундт и др. [46] сравнил версию управления IVR со шкалой депрессии Монтгомери-Асберг, чтобы провести клиническую проверку на небольшом количестве (N = 60) пациентов. Выводы подтвердили первоначальное доказательство эквивалентности режимов регистрации на основе отсутствия статистически значимого или клинически значимой разницы среднего результирующего балла. Раш и др. [47] сравнили три режима ввода данных (рейтинг врачом, заполнение пациентом бумажного варианта, а также IVR) из Шкалы быстрой оценки депрессивной симптоматики (QIDS). Они обнаружили, что у не психотических пациентов с большим депрессивным расстройством как IVR, так самоотчеты версии QIDS выполнены так же, как и в версии рейтинга врачом с точки зрения внутренней надежности согласованности ответов, все три версии регистрации предоставляют сопоставимый средний результирующий балл. Согласие между тремя версиями самоотчётности по примеру QIDS относительно предполагаемой реакции на лечение (да/нет) было приемлемым на основе каппа-коэффициентов (0,72 до 0,74).

Есть несколько публикаций, сравнивающих PRO меры, первоначально разработанные для заполнения пациентом бумажной версии, с версией, адаптированной к IVR. Алеми и др. [48] сравнивают IVR с опросником по отдельным результатам для выздоравливающих наркоманов с самоотчётной версией, отправляемой по почте. Они не нашли никаких существенных различий между ответами, собираемыми при помощи двух режимов, но режим IVR имел более высокий уровень отклика. Эйджел и др. [49] сравнили ответы, полученные на версии IVR опросника оценки костно-мышечных функций (SMFA), с полученными в бумажной версии. Основываясь на перекрестной корреляции, не было никаких существенных различий между ответами в разных версиях опросников. Данн и др. [50] испытывали соответствие между первоначальной бумажной версией и IVR-версией изменений в опроснике по изменениям половой функции (CSFQ). Авторы сообщили о высокой корреляции Пирсона между версиями как для общего результирующего балла CSFQ, так и для отдельных подразделов.

Опубликованная литература отсылается к другим типам сравнений ePRO и бумажных PRO, включая время заполнения, удовлетворенность/простоту в использовании и недостающие данные [51]. Хотя время заполнения часто использовалось в качестве меры сравнения между бумажной версией и электронно адаптированными опросниками PRO, результаты неоднозначны и последствия пока не ясны. В некоторых исследованиях респонденты были быстрее при ответе на электронную версию, чем на бумажную [29, 52, 53], а в других исследованиях респонденты быстрее отвечали на бумажную версию [54-56]. Результаты показали, что сложность заполнения ePRO была напрямую связана с небольшим опытом работы с компьютером, пожилым возрастом, плохим физическим состоянием и более низким уровнем образования [29, 56, 57]. Все эти факторы не являются уникальными только для ePRO, за вычетом навыков работы с компьютером. Некоторые исследования показали, что хотя пациенты и потратили больше времени, чтобы заполнить форму ePRO, они сообщили, что по их мнению, для заполнения им потребовалось меньше времени по сравнению с бумажной версией [58].

Другие результаты, использовавшиеся для оценки ePRO, такие как удовлетворенность и простота в использовании, как правило, измеряются через опросы после завершения PRO. Как правило, респондентам был задан вопрос о легкости использования электронного формата, адекватности инструкции, способности читать с экрана и приемлемости времени, необходимого для заполнения опросников. В целом, респонденты сообщили, что они предпочли ePRO бумажной версии PRO [29, 52-56, 59].

Количество отсутствующих данных является еще одним важным элементом сравнения вариантом администрирования бумажных PRO и ePRO [29, 53, 60, 61]. За счёт ePRO обычно возникает меньше недостающих данных, чем в бумажной версии, но необходимо сравнить количество данных, возможных к использованию, в каждом из вариантов. Одной потенциальной проблемой в отношении данных, пропадающих с портативных устройств является то, что сами устройства могут быть утеряны. Чтобы дать респондентам возможность отказаться от ответа на отдельные вопросы, инструменты ePRO должны иметь вариант ответа «предпочту не отвечать» или «пропустить вопрос» или другие возможности продвижения вперед, не отвечая на текущий вопрос. Кроме того, возможность просмотреть и изменить прежние ответы является положительной характеристикой бумажных форм, что может быть реализовано на всех устройствах ePRO.

 

Доказательства, необходимые для поддержки эквивалентности измерений

Определение измерения эквивалентности

Измерения ePRO, основывающиеся на бумажной версии, должны поставлять данные, которые эквивалентны или превосходят (например, более высокой надежностью) данные, полученные в оригинальной бумажной версии. Эквивалентность измерений является функцией сопоставимости психометрических свойств, полученных данных с помощью оригинального и адаптированного режима регистрации. Эта сопоставимость зависит от размера модификации содержания и формата оригинального PRO, требующегося в процессе адаптации. Таким образом, величина изменения, которое происходит во время перехода к электронной платформе/устройству будет диктовать количество доказательств, необходимых для подтверждения, что изменение не привело к ошибкам в ответах и/или негативно не повлияло на психометрические свойства измерений. Как отмечается в проекте Руководства FDA [18, стр. 582-583], «рекомендуемая степень дополнительной проверки зависит от типа внесенных изменений». 

В табл. 1 дана основа для оценки масштабов конкретного изменения и соответствие степени изменения с рекомендованной стратегией для оценки измерения эквивалентности. Величина конкретного изменения определяется со ссылкой на его потенциальное влияние на содержание, смысл, или толкование пунктов измерений и/или масштабов. Обратите внимание, что проект Руководства FDA по PRO не делает различия между незначительными, умеренными или существенными изменениями. Проект Руководства FDA показывает, что дополнительная проверка не требуется, когда "инструмент изменяется по содержанию или формате на один пункт" [18, стр. 619]. Нашей целью должно стать то, сколько дополнительной проверки необходимо с учетом изменения в бумажной версии, чтобы преобразовать его в режим управления ePRO. Полная психометрическая проверка после каждого изменения непрактична и, кроме того, не нужна на основе имеющихся данных.

Таблица 1

Измерение эквивалентности PRO и ePRO: изменения в документах и поддержка доказательствами

Уровень изменения

Что происходит

Примеры

Необходимые доказательства

Незначительное

Изменения могут быть скомпенсированы за счет существующей литературы или базовой логики. Никаких серьезных изменений в содержании или смысле не происходит.

1) Несущественные изменения в инструкциях: от обведения варианта ответа в кружок переходим к выбору за счёт прикосновения к экрану.

2) Несущественные изменения в формате: на странице вместо нескольких элементов будет отображаться один.

Когнитивное разбирательство

Юзабилити-тестирование

Умеренное

Основываясь на текущей эмпирической литературе, не может быть расценено как несущественное. Возможны изменения в содержании или смысле.

1)Изменяется название элемента или более существенное изменение в презентации, которое может повлечь иное восприятие.

2) Изменение в виде администрирования, включая разные когнитивные процессы (например, с бумаги (визуального) на IVR (аудиальный).

Тестирование эквивалентности

Юзабилити-тестирование

Существенное

Нет текущей эмпирической поддержки эквивалентности, очевидны изменения в содержании или смысле

1) Существенные изменения в вариантах ответов

2) Существенные изменения в выборе слов

Полное психометрическое тестирование

Юзабилити-тестирование

 

  1. Незначительные изменения не должны менять содержание или смысл пунктов и масштабы реагирования. Простой перенос шкалы из бумажного формата в формат текста без значительного снижения размера шрифта, изменение содержимого пункта, периода ожидания или вариантов ответа квалифицируются как незначительные изменения. Это включает в себя понимание, что электронный формат «один пункт на экран» отличается от бумажного формата «много пунктов на лист». Большое количество литературы по переносу информации с бумажной платформы на электронную предполагает, что эти распространенные изменения не окажут существенного влияния на результаты действия PRO [42]. Тем не менее, по-прежнему важно обеспечить некоторые доказательства сопоставимости меры ePRO с другими видами сбора данных. В этих случаях, мелкие (5-10 человек) когнитивные опросы [63] и юзабилити-тестирование (см. ниже) могут установить, что участники реагируют на предметы оценки в предполагаемой форме и что программное обеспечение ePRO работает должным образом, когда используется целевой группой населения.
  2. Умеренные изменения могут изменить смысл элементов оценки, но эти изменения могут быть небольшими. Примеры изменений элементов, которые могут подпасть под эту категорию, включают в себя выведение одного элемента на несколько экранов, что значительно снижает размер шрифта и требует, чтобы пациент использовал полосу прокрутки для просмотра всего текста или ответов на вопросы. Другой пример может включать в себя изменение порядка элементов презентации. Когда эти типы модификаций производятся на PRO, желательно, чтобы была формально установлена эквивалентность электронного варианта. Проекты, которые могут быть использованы для установления эквивалентности обсуждаются ниже. Мы включаем переход с бумажных PRO в эту категорию, потому что: 1) остается неясным, есть ли причины для беспокойства об изменениях, связанных с переходом с бумажной версии (например, визуальная или аудио презентация); и 2) необходима доступная литература, поддерживающая эквивалентность между IRV и бумажным вариантом, и этого все еще недостаточно. В дополнение к оценке измерения эквивалентности, среди целевой аудитории должно быть проведено юзабилити-тестирование.
  3. Существенные изменения почти наверняка изменят содержание или смысл оценки. Примеры изменений, которые могут подпасть под эту категорию, включают удаление элементов для уменьшения количества затраченного времени, необходимого для завершения оценки или внесение крупных изменений в текст элементов, таких как удаление ссылок на период времени воспоминаний или привязки к шкалам оценки, чтобы элемент помещался на экран. В этом случае может исчезнуть эквивалентность оценок, и измененные измерения должны рассматриваться как новые. Оценка сопоставимости старых и новых версий может пригодиться для некоторых целей, таких как совмещение показателей [64]. При оценке качества изменений лишь небольшое количество данных о надежности и достоверности исходной меры могут оказаться полезными (а может, и не окажутся вообще). Поэтому исследования, направленные на оценку психометрических характеристик новой меры необходимы наряду с масштабным юзабилити-тестированием целевой группы населения.

Уровни доказательств

Когнитивное разбирательство

Когнитивное разбирательство (оно же когнитивное интервьюирование или когнитивное тестирование) становится все более важным в разработке и тестировании разных видов опросников [63]. Когнитивные методы интервьюирования используются для изучения того, каким образом члены целевой группы населения понимают, мысленно обрабатывают и отвечают на пункты опросника [65]. Хотя когнитивное разбирательство чаще всего связано с разработкой анкеты, оно непосредственно применимо к предварительному тестированию альтернативных способов управления существующими мерами. Когнитивное разбирательство состоит из использования вербального уточнения у интервьюера (например, "А что для вас означает ответ «время от времени»?) и размышления вслух, в котором интервьюер просит респондента выразить словами то, что приходит на ум, в то время как он или она отвечает на вопрос [66].

В этом контексте когнитивное разбирательство будет использоваться для оценки, изменило ли использование ePRO то, как респонденты интерпретируют вопросы, решение об ответе и сами ответы. Кроме того, с его помощью можно определить, были ли инструкции ясными, или осталось ли что-то непонятным. Когнитивное разбирательство должно проводиться с группой от 5 до 10 пациентов [67], но может потребоваться и больше, чтобы адекватно отражать результаты целевой группы. Важно полностью документировать процесс наряду с качественными данными и любыми возникшими изменениями.

Юзабилити-тестирование

Юзабилити-тестирование рассматривает, способны ли респонденты из целевой группы населения использовать программное обеспечение и устройства соответствующим образом. Этот процесс включает в себя формальную документацию способности респондентов к навигации по электронной платформе, следованию инструкциям и ответам на вопросы. Общая цель заключается в демонстрации, что респонденты могут завершить компьютеризированную оценку, как и предполагалось. Масштабы процесса юзабилити-тестирования должны быть основаны на сложности физических и познавательных задач, необходимых для конкретного случая использования ePRO. Характеристики мер PRO (например, количество и формат элементов, типы шкал ответов, количество вариантов ответа) в сочетании с характеристиками устройства/платформы ePRO (например, рекомендации Целевой Группы ISPOR по ePRO 423 об аудио-вариантах против визуальных, сенсорных против кнопочных, стилус против пальца) определяет необходимое количество субъектов тестирования. Юзабилити-тестированию может потребоваться небольшое количество субъектов (от 5 до 10) для устройства ePRO, которое является простым в использовании, или более крупную выборку (20 и более), для более физически/когнитивно сложного устройства.

Юзабилити-тестирование, как описано выше, это не то же самое, что тестирование на удобство для пользователя (UAT). Целью UAT является определение, соответствует ли программное обеспечение письменной спецификации системы или требованиям пользовательского документа. Оно не предназначено исключительно для определения того, как респонденты могут пользоваться системой. UAT является одним из аспектов обширного процесса проверки системы/программного обеспечения, которое выходит за рамки этой статьи.

 

Тестирование эквивалентности

Тестирование эквивалентности проводится для оценки сопоставимости между баллами PRO в электронном и бумажном виде. Цель тестирования состоит в том, чтобы гарантировать, что PRO и ePRO существенно не отличаются по баллам (за вычетом погрешности в измерениях). Существует несколько проектов исследования и статистических методов, которые можно использовать для оценки сопоставимости измерений, полученных в двух (или более) различных случаях. Для начала, обсудим дизайны исследований, за которыми последуют статистические методы тестирования эквивалентности.

Дизайны исследований для измерения эквивалентности тестирования

При необходимости для проверки измерения эквивалентности адаптации ePRO, как и с изменениями второго уровня, перечисленными в Таблице 1, есть два рекомендуемых дизайна исследований: 1) рандомизированный параллельный дизайн группы; и 2) рандомизированный перекрестный дизайн. Выборка исследования должна быть репрезентативной относительно предполагаемой группы пациентов, которые будут использовать ePRO, в частности, по возрасту, полу, расе/этнической принадлежности, образованию и тяжести заболевания.

Рандомизированный параллельный дизайн групп

При рандомизированном параллельном дизайне группы пациенты случайным образом распределяются в одну из двух групп исследования. В этом проекте пациенты, попавшие в один вариант исследования, заполняют оригинальную бумажную версию PRO, а пациенты во втором варианте заполняют опросник в ePRO. Потом между группами можно провести сравнения разницы средних. Случайное распределение адекватного числа пациентов в каждую из двух групп исследования предназначено для получения эквивалентности характеристик этих двух групп. Более сложные исследования, основанные на параллельном дизайне, могут включать в себя более двух групп сравнения (например, бумажный вариант против планшета с ePRO против IVR ePRO) или могут включать в себя повторное проведение тестирования (в пределах одного режима) после двухдневного или двухнедельного интервала. Последнее обеспечит непосредственно сравнимую надежность результатов повторного тестирования для бумажной версии PRO и ePRO. Есть два возможных подхода для тестирования эквивалентности в параллельном дизайне групп: 1) установить предел средней разницы "D", который представлял бы минимальную величину эффекта, свидетельствующую об отсутствии эквивалентности, и рассчитать размер выборки, чтобы обнаружить разницу "D" достаточного размера; или 2) установить уровень различия "D", то есть допустимый максимум, возможный для эквивалентности, проверить гипотезу, позволяющую откинуть различия меньше, чем "D", и рассчитать размер выборки, который потребуется, чтобы исключить присутствие такой разницы. Первый подход был бы ошибочным [68,69]; это присуще логике статистического вывода: построение логического окончательного вывода, когда гипотеза отвергается, а не когда подтверждается. Блэквельдер [70] представляет доступное обобщение проведения процедуры тестирования эквивалентности, и Атертон и Слоан [71] опубликовали удобные SAS макросы алгоритмов для этого дизайна. По сравнению с классической проверкой гипотез, подход эквивалентности будет увеличивать размер выборки, необходимый для демонстрации эквивалентности, на целую треть [69]. Для того, чтобы исключить различия между бумажными PRO и ePRO при оценке стандартного отклонения 0,3 (эффект минимального размера), при использовании двух-выборочного теста Стьюдента, при 80% мощности, 2-х сторонней альтернативе и 5% вероятностью ошибки, потребуется 234 пациента в каждой группе.

 

Рандомизированный перекрестный - дизайн

Использование перекрестного-дизайна в исследованиях эквивалентности ePRO будет включать в себя случайных характер выбора респондентов, заполняющих бумажный PRO или ePRO при первом вводе информации, а затем перевода их в другой режим для повторного администрирования. Между заполнением опросников должно пройти достаточное время, чтобы минимизировать воспоминания или эффекты тестирования от первой пробы (так называемый эффект переноса), но не так много, чтобы основополагающая концепция (например, боль, усталость) могла на самом деле измениться. Эффекты типа опросника и порядка заполнения могут ослабить внутреннюю валидность этого дизайна исследования, но использование обоих опросников на одном и том же респонденте («внутри-респондента» составляющая дисперсии в этом дизайне) обеспечивает большую статистическую мощность и уменьшает требования к размеру выборки. Оба эффекта должны учитываться, как и описано в большинстве статистических учебников по анализу клинических исследований. Подробные статистические методы и примеры исследования описаны вместе с набором вычислительных алгоритмов у Слоуна, Новотны и др. [72] и Слоана и Дика [73].

Включив приведенные оценки дисперсии, которые возникают от использования пациентов для контроля самих себя, методы определения размера выборки для перекрестных исследований являются небольшой модификацией, описанных выше для групп параллельного дизайна. Простой метод оценки размера выборки, необходимого для сравнений при перекрестном-дизайне в двух различных режимах администрирования PRO, надо умножить общий размер выборки, необходимый для параллельного дизайна групп на коэффициент = (1 - R)/2, где R – оценка ожидаемой корреляции между двумя способами введения информации (или, говоря научным языком, оценки нижней границы). Например, как указано выше, параллельный дизайн групп с использованием методологии эквивалентности с 234-мя пациентами в группе может исключить разницу в 0,3 от стандартного отклонения (эквивалент минимального размера эффекта [74]). Если предположить, что ожидаемое значение R = 0,9, то необходимый объем выборки 468 * 0,05 = 23,4 (т.е. 24); если предположить, что ожидаемое значение R = 0,7, то необходимый объем выборки 468 * 0,15 = 70,2 (т.е. 71). Эффективность перекрестный-дизайна объясняет, почему это самый популярный дизайн, о чем свидетельствует мета-анализ, выполненный Гуолтни и др. [43]. Обратите внимание, что расчетные размеры выборки обозначают количество полных пар оценок, необходимых для анализа, соответствующие корректировки должны быть сделаны и для неполных. Приведенные выше расчеты размера выборки и прочего основаны на дизайне с участием сравнения средних баллов. Если конечная точка представляет интерес для внутриклассового коэффициента корреляции (ICC), расчёты размера выборки несколько отличаются. Во-первых, размер выборки в этой ситуации относится только к перекрестный-дизайну, потому что ICC не имеет отношения к параллельному дизайну групп. Во-вторых, гипотеза исследования в этой ситуации заключается в том, является ли ICC выборки достаточно высоким, чтобы указать, что баллы для бумажной версии и ePRO психометрически эквивалентны. Тест основан на стандартной нормальной тестовой статистике (Z-оценка) и на том, является ли односторонний доверительный интервал (нижняя граница) выше заданного порога эквивалентности (например, 0,70). Например, 43 пациента с полным наблюдением пар потребовалось бы для исследования, чтобы оно имело 80% мощности и можно было заявить, что надежность выборки выше 0,70 с уверенностью на 95%, если основной выборки ICC, при использовании методологии Уолтера, составит 0,85. [75]. Альтернативные расчёты возможны на основе согласованности формы ICC [76] или двухстороннем доверительном интервале ICC [77].

 

Статистические методы для оценки измерения эквивалентности

ICC и взвешенный каппа – полезные статистические методы для измерения согласия и, в данном случае, для проверки измерения эквивалентности. Использование коэффициентов корреляции Пирсона или Спирмена по отдельности не рекомендуется, поскольку они не чувствительны к систематическим различиям средних между группами и, в результате, как правило, завышают согласие. Методы, разработанные Бланд и Альтманом [78] комбинируют простые графические методы и методы проверки гипотез для измерения эквивалентности. Несколько примеров применения этих измерений эквивалентности было опубликовано [79-82]. Кроме того, сравнение средних баллов и оценки различного функционирования заданий по отношению к различным группам испытуемых (DIF) (обсуждается ниже) может быть целесообразным для оценки измерения эквивалентности ICC. ICC, который может оценить, как ковариацию и степень согласия между точками распределений, был наиболее часто использован в предыдущих исследованиях, которые изучали эквивалентность бумажных PRO и ePRO [42]. ICC предоставляет средства для оценки надежности баллов, приведенные многократно или разными составителями рейтинга [83]. ICC учитывает, как относительное положение значений в группе, так и величину отклонения выше или ниже среднего в группе [84].

Каппа-коэффициент. Вместо того, чтобы вычислять просто согласие, которое может быть высоким просто вследствие совпадения, коэффициент каппа корректирует это, проверяя отношение доли согласных ответов к доле ответов, которые могли бы получиться только случайно [85]. Традиционный расчет каппа-коэффициента только подсчитывает абсолютное согласие, а не подсчитывает рейтинги, близкие к нему. Тем не менее, в более расширенной версии этот подход называется «взвешенным каппа» и подсчитывает такого рода частичное согласие [86]. Взвешенный каппа и ICC похожи и, в некоторых случаях, эквивалентны [87]. Таким образом, мы рекомендуем использовать ICC в большинстве случаев. Флейсс [88] предполагает, что коэффициент каппа менее 0,40 плохое согласие, от 0,40 до 0,59 слабое, от 0,60 до 0,74 хорошее, и больше, чем 0,74 - превосходное. Для результатов ICC мы рекомендуем следующие коэффициенты в соответствии со стандартами для приемлемых уровней надежности, в частности: не меньше 0,70 для сравнения групп и от 0,85 до 0,95 для приложений на индивидуальных уровнях [89, 90].

           Сравнение средних баллов. Сравнение средних баллов, полученных после двух способов ответов от одного и того же человека [52, 91] или от разных людей из двух эквивалентных групп может быть использовано для оценки измерения эквивалентности. Этот подход является наиболее подходящим, когда расчёт ICC невозможен (т.е. в рандомизированном параллельном дизайне групп). Разница между режимами не должна превышать то, что будет считаться минимально значимым различием для этой меры (MID). Для тех мер, для которых есть установленный MID, средняя разница оценивается по отношению к этому значению. Если MID не описаны в литературе, то требуется определиться и их оценочным значением. Обычно используемое обоснование таких оценок, одобренное в проекте руководства FDA, базируется на правиле большого пальца (правило Коэна) [74]. «Небольшой» размер эффекта (разница между 0,20 SD и 0,49 SD) может иметь смысл и выражает собой MID [92-97]. Таким образом, если разница средних между режимами регистрации находится в пределах данных значений нужно провести дальнейшее исследование, прежде чем делать заключения об эквивалентности.  При оценке измерения эквивалентности, средняя разница между режимами должна быть интерпретирована по отношению к оценке средней разницы при повторном администрировании одного и того же режима. Кроме того, ICC для ePRO по отношению к показателям бумажной версии должны пройти сравнение с повторным тестированием в рамках одного режима. Как отмечалось ранее, устройства ePRO не должны поддерживать более высокие стандарты, чем обычные бумажные PRO. Кроме того, различия режимов могут быть результатом лучших свойств измерительных приборов ePRO.

Различное функционирование заданий по отношению к различным группам испытуемых (Differential Items Functioning) Другой подход к оценке эквивалентности режимов - это использование теории отклика элементов (IRT) или другие подходы к оценке Различного функционирования заданий по отношению к различным группам испытуемых (DIF) [98, 99]. Вероятность ответа каждой категории отклика элемента должна быть инвариантной относительно способа введения информации, зависящего от среднего балла в изучаемой группе. Например, люди, которые, по оценкам, имеют равный уровень физического функционирования, должны иметь одинаковую вероятность выбора ответа «без проблем» на вопрос, могут ли они пробежать милю, вне зависимости от того, отвечают они в бумажном опроснике самоотчётности или через Интернет. Если вероятности отличаются, это является показателем DIF и отсутствие режима эквивалентности. Простым аналогом IRT подхода к DIF является опора на общий балл по группе, а не оценку IRT [100]. Заметим, что для анализа DIF необходимы более крупные размеры выборки (200 минимум, 500 предпочтительно), чем размер выборки, необходимый для ICC или подсчета каппа-коэффициентов.

Другие соображения. Кроме того, должны быть сопоставлены дисперсия и распределение оценок и, при необходимости, надежность внутренней согласованности. Альфа коэффициенты Кронбаха могут быть использованы для оценки внутренней надежности и целостности для различных режимов, кроме того, можно вычислить значимость разницы в надежности между режимами [101]. Как в ICC, коэффициенты внутренней согласованности должны быть не менее 0,70 для групп сравнения, и от 0,85 до 0,95 для приложений на индивидуальном уровне [89, 90]. В то время как DIF может предоставить важную информацию об отсутствии эквивалентности на уровне одного элемента, важно оценить эквивалентность способа кодирования соответствующих ответов. PRO может иметь общий балл и несколько отчетов подшкал (доменов); таким образом, и общая оценка и оценка подшкал должна быть изучена на наличие эквивалентности. Если присутствует элемент уровня DIF, но он работает в разных направлениях, то можно получить измерения эквивалентности на общем уровне.

Полная психометрическая оценка

Когда в процессе переноса PRO происходит существенное изменение, которое потенциально может воздействовать на фундаментальные психометрические свойства, нужно проводить оценку, как будто это новый опросник. Тема разработки опросника PRO и его тестирования в полной мере покрыта в других исследованиях [20, 21, 77, 102] и, вероятно, потребует, как качественных, так и количественных компонентов. Как минимум, исследователи должны будут оценить валидность контента (т.е. концептуальную структуру, используя терминологию из проекта руководства FDA) нового показателя PRO и обеспечить доказательства, подтверждающие внутреннюю согласованность и надежность результатов повторного тестирования, а также конструктная валидность данного показателя [22, 103]. Спонсорам рекомендуется также обратиться к проекту руководства FDA о PRO ознакомления с требованиями к показателям PRO, которые должны быть использованы для удовлетворения требований к листам-вкладышам (этикеткам) [18]. Различные дизайны исследований могут быть использованы оценки измерительных свойств новых ePRO инструментов, хотя чаще всего инструменты PRO оцениваются с помощью автономных наблюдательных исследований или как часть рандомизированных клинических исследований. Подробное описание психометрических методов исследования и дизаны исследований психометрических оценок выходит за рамки настоящего доклада. Тем не менее, основное различие между дизайном исследований эквивалентности и исследований психометрической валидности является необходимость оценить валидность, что требует включения различных измерителей внешних для интересующей нас шкалы. Заинтересовавшиеся читатели могут обратиться к нескольким публикациям о психометрической оценке показателей PRO [22, 77, 102, 104].

 

Обсуждение и выводы

Маловероятно, что каждое конкретное устройство ePRO, адаптированное из PRO, должно будет пройти полное психометрическое тестирование, как если бы это была новая мера. Затраты, связанные с этим процессом, будут высокими, с небольшим (если таковой вообще имеется) потенциалом пользы для науки. Пока в процессе переноса инструмента были сделаны лишь небольшие изменения, значительный объем существующих данных позволяет предположить, что психометрические свойства исходной меры будут по-прежнему иметь место и для версии ePRO; следовательно, можно ограничиться только психометрическим разбором и юзабилити-тестированием. Тем не менее, для каждого отдельного инструмента следует продолжать постоянную оценку надежности и валидности независимо от способа введения информации. Однако там, где в процессе переноса произошли более существенные изменения, необходимо подтверждение, что при адаптации к формату ePRO не произошло никаких значительных ошибок в ответах и что эти два пути введения производят по существу эквивалентные результаты. В этих случаях существует необходимость практического подхода к оценке измерения эквивалентности показателей ePRO исходному бумажному варианту. Хотя это не является правилом, оптимальными для двух режимов регистрации, когда оба режима используются в одном и том же исследовании, такие ситуации бывают, и  могут быть даже предпочтительными (например, при сложных исследованиях с не вполне доступными группами населения, где несколько использующихся режимов ускорят общее получение ответов [105]). Кроме того, сопоставимость с данными из других исследований, в которых была использована оригинальная PRO, может быть полезна.

Эта статья не касается межкультурной адаптации бумажных мер PRO на одном языке на приложениях ePRO для использования на других языках или в других культурах. Когда использовались стандартные межкультурные процедуры переноса и адаптации [106-108] от оригинального опросника PRO, и был подготовлен приемлемый вариант, адаптация этой переведенной версии на платформу ePRO потребовало только того уровня тестирования, которое необходимо сделать в связи с изменениями из-за переноса. Тем не менее, следует признать, что перевод может привести к увеличению длины вопросов или ответов. Таким образом, для малых устройств ePRO размещение элементов или ответов на экране может быть более проблематичным, чем для оригинальной письменной версии. В соответствии с рекомендациями во всех случаях, новая межкультурная ePRO версия должна быть адаптирована и, по крайней мере, пройти юзабилити-тестирование и когнитивное разбирательство для целевого населения до его использования в клинических исследованиях.

Хотя это и не является целью статьи, перенос метода получения информации, разработанный специально для устройств EDC по отношению к бумажным исходным версиям, может оказаться более проблематичным, чем наоборот. Легкость включения шаблона пропуска пунктов, которая абсолютна незаметна для респондентов в EDC, сложнее реализовать в бумажных опросниках. Некоторые респонденты на бумажном носителе могут отвечать на вопросы, которые стоит пропустить, если они не уверены в ответе, и таким образом настоящее мнение респондента теряется. Использование ePRO особыми группами населения (например, с визуальными или когнитивными нарушениями, депрессией, ограничениями мелкой моторики) не был предметно обсужден в нашем отчете, потому что большинство этих потенциальных проблем существует также и с бумажными опросниками. Есть вопросы, которые могут иметь особую остроту с конкретными устройствами ePRO, такими как размер шрифта на карманных компьютерах и уровень звука для людей с нарушениями слуха на системах IVR. Практические соображения, полученные с помощью юзабилити-тестирования и когнитивного разбирательства, могут стать основой для решения об использовании конкретной платформы ePRO на основе целевой группы пациентов [109]. Мы предоставили общую основу для решений, касающихся уровня доказательств, необходимых для поддержки изменений, которые вносятся в меры PRO, когда они переносятся из бумажного варианта на устройства ePRO.

Ключевые вопросы включают в себя: 1) определение степени изменений, необходимых для администрирования PRO на устройстве ePRO и 2) отбор и реализацию эффективной стратегии тестирования измерения эквивалентности двух способов введения информации. Не все особенности можно рассмотреть в контексте данной статьи, но мы пытались перечислить наиболее распространенные обстоятельства. Электронное администрирование мер PRO предлагает множество преимуществ по сравнению с бумажной версией. Мы надеемся, что наши рекомендации укажут путь вперед исследователям, заинтересованным в переносе мер PRO на электронные платформы.

Благодарности

Авторы искренне благодарны следующим членам ISPOR: Elizabeth Molsen, James Pierce, Damian McEntegart, Theron Tabor, Stephen Joel Coons (Chair), Ethan Basch, Laurie B. Burke, Donald M. Bushnell, David Cella, Chad J. Gwaltney, Ron D. Hays, Joy Hebert, William R. Lenderking, Paula A. Funk Orsini, Dennis A. Revicki, James W. Shaw, Saul Shiffman, Jeff A. Sloan, Brian Tiplady, Keith Wenzel и Arthur Zbrozek.

Литература

  1. McHorney C.A. Generic health measurement: past accomplish- ments and a measurement paradigm for the 21st century. Ann Intern Med 1997;127:743–50.
  2. Shiffman S., Hufford M.R. Subject experience diaries in clinical research, Part 2: ecological momentary assessment. Appl Clin Trials 2001;10:42–8.
  3. Shiffman S., Hufford M.R., Paty J. Subject experience diaries in clinical research, Part 1: the patient experience movement. Appl Clin Trials 2001;10:46–56.
  4. Wiklund I. Assessment of patient-reported outcomes in clinical trials: the example of health-related quality of life. Fundam Clin Pharmacol 2004;18:351–63.
  5. Leidy N.K., Revicki D.A., Geneste B. Recommendations for evalu- ating the validity of quality of life claims for labeling and pro- motion. Value Health 1999;2:113–27.
  6. Revicki D.A., Osoba D., Fairclough D., et al. Recommendations on health-related quality of life research to support labeling and promotional claims in the United States. Qual Life Res 2000;9:887–900.
  7. Santanello N.C., Baker D., Cappelleri J.C. Regulatory issues for health-related quality of life—PhRMA Health Outcomes Com- mittee Workshop, 1999. Value Health 2002;5:14–25.
  8. Acquadro C., Berzon R., Dubois D., et al. Incorporating the patient’s perspective into drug development and communication: an ad hoc task force report of the patient-reported out- comes (PRO) harmonization group meeting at the Food and Drug Administration, February 16, 2001. Value Health 2003;5: 521–33.
  9. Revicki D.A. FDA draft guidance and health outcomes research. Lancet 2007;369:540–2.
  10. Revicki D.A., Gnanasakthy A., Weinfurt K. Documenting the rationale and psychometric characteristics of patient reported outcomes for labeling and promotional claims: the PRO evi- dence dossier. Qual Life Res 2007;16:717–23.
  11. Sloan J.A., Halyard M.Y., Frost M.H., et al. The Mayo Clinic manuscript series relative to the discussion, dissemination, and operationalization of the Food and Drug Administration guidance on patient-reported outcomes. Value Health 2007; 10(Suppl. 2):S59–63.
  12. Willke R.J., Burke L.B., Erickson P. Measuring treatment impact: a review of patient-reported outcomes and other efficacy end- points in approved product labels. Control Clin Trials 2004;25: 535–52.
  13. Szende A., Leidy N.K., Revicki D. Health-related quality of life and other patient-reported outcomes in the European central- ized drug regulatory process: a review of guidance documents and performed authorizations of medicinal products 1995 to 2003. Value Health 2005;8:534–48.
  14. Shiffman S. Delivering on the eDiary promise. Appl Clin Trials 2005;14:64.
  15. Wiechers O.A. The move to EDC. Appl Clin Trials 2002;11:38– 40.
  16. Saponjic R.M., Freedman S., Sadighian A. What monitors think of EDC: results of a survey of U.S. monitors. Appl Clin Trials 2003;12:50–2.
  17. Getz K.A. The imperative to support site adoption of EDC. Appl Clin Trials 2006;15:38–40.
  18. US Food and Drug Administration. Guidance for industry: patient-reported outcome measures: use in medical product development to support labeling claims (DRAFT). February 2006. Available from: http://www.fda.gov/cder/guidance/ 5460dft.pdf [Accessed June 1, 2008].
  19. Rothman M.L., Beltran P., Cappelleri J.C., et al. Patient-reported outcomes: conceptual issues. Value Health 2007;10(Suppl 2):S66–75.
  20. Snyder C.F., Watson M.E., Jackson J.D., et al. Patient-reported outcome instrument selection: designing a measurement strat- egy. Value Health 2007;10(Suppl 2):S76–85.
  21. Turner R.R., Quittner A.L., Parasuraman B.M., et al. Patient- reported outcomes: instrument development and selection issues. Value Health 2007;10(Suppl 2):S86–93.
  22. Frost M.H., Reeve B.B., Liepa A.M., et al. What is sufficient evi- dence for the reliability and validity of patient-reported outcome measures? Value Health 2007;10(Suppl 2):S94–105.
  23. Sloan J.A., Dueck A.C., Erickson P.A., et al. Analysis and interpre- tation of results based on patient-reported outcomes. Value Health 2007;10(Suppl 2):S106–15.
  24. Revicki D.A., Erickson P.A., Sloan J.A., et al. Interpreting and reporting results based on patient-reported outcomes. Value 501. Health 2007;10(Suppl 2):S116–24.
  25. Patrick D.L., Burke L.B., Powers J.H., et al. Patient-reported outcomes to support medical product labeling claims: FDA perspective. Value Health 2007;10(Suppl 2):S125–37.
  26. Tourangeau R., Smith T.W. Asking sensitive questions: the impact of data collection mode, question format, and question context. Public Opin Q 1996;60:275–304.
  27. Taenzer P.A., Speca M., Atkinson M.J., et al. Computerized quality-of-life screening in an oncology clinic. Cancer Practice 1997;5:168–75.
  28. Bloom D.E. Technology, experimentation, and the quality of survey data. Science 1998;280:847–8.
  29. Velikova G., Wright E.P., Smith A.B., et al. Automated collection of quality-of-life data: a comparison of paper and computer touch-screen questionnaires. J Clin Oncol 1999;17:998–1007.
  30. Stone A.A., Shiffman S., Schwartz J.E., et al. Patient noncompliance with paper diaries. BMJ 2002;324:1193–4.
  31. Bushnell D.M., Reilly M.C., et al. Validation of electronic data capture of the Irritable Bowel Syndrome—Quality of Life Measure, the Work Productivity and Activity Impairment Ques- tionnaire for Irritable Bowel Syndrome and the EuroQol. Value Health 2006;9:98–105.
  32. US Food and Drug Administration. Code of federal regulations—title 21—food and drugs. Available from: http:// www.fda.gov/cdrh/aboutcfr.html [Accessed June 1, 2008].
  33. US Food and Drug Administration. Guidance for industry: E6 good clinical practice: consolidated guidance. April 1996. Available from: http://www.fda.gov/cder/guidance/959fnl.pdf [Accessed June 1, 2008].
  34. US Food and Drug Administration. Guidance for industry: computerized systems used in clinical investigations. May 2007. Available from: http://www.fda.gov/cber/gdlns/ compclintrial.pdf [Accessed June 1, 2008].
  35. US Food and Drug Administration. Guidance for industry—part 11, electronic records; electronic signatures—scope and applica- tion, August 2003. Available from: http://www.fda.gov/cder/ guidance/5667fnl.pdf [Accessed June 1, 2008].
  36. Raymond S.A., Meyer G.F. Interpretation of regulatory require- ments by technology providers. Appl Clin Trials 2002;11:50–8.
  37. Farrell J, Cooper M. Navigating the new 21 CFR 11 guidelines. Appl Clin Trials 2004;13:67–70.
  38. Dale O., Hagen K.B. Despite technical problems personal digital assistants outperform pen and paper when collecting patient diary data. J Clin Epidemiol 2007;60:8–17.
  39. Hahn E.A., Cella D., Dobrez D., et al. The talking touchscreen: a new approach to outcomes assessment in low literacy. Psychooncology 2004;13:86–95.
  40. Crow J.T. Receptive vocabulary acquisition for reading comprehension. Mod Lang J 1986;70:242–50.
  41. Henriksen B. Three dimensions of vocabulary development. Stud Second Lang Acq 1999;21:303–17.
  42. Gwaltney C.J., Shields A.L., Shiffman S. Equivalence of electronic and paper-and-pencil administration of patient- reported outcome measures: a meta-analytic review. Value Health 2008;11:322–33.
  43. Krystal A.D., Walsh J.K., Laska E., et al. Sustained efficacy of eszopiclone over 6 months of nightly treatment: results of a randomized, double-blind, placebo-controlled study in adults with chronic insomnia. Sleep 2003;26:793–9.
  44. Mundt J.C., Marks I.M., Shear M.K., Greist J.H. The Work and Social Adjustment Scale: a simple measure of impairment in functioning. Br J Psychiatry 2002;180:461–4.
  45. Mundt J.C., Kobak K.A., Taylor L.V., et al. Administration of the Hamilton Depression Rating Scale using interactive voice response technology. MD Comput 1998;15:31–9.
  46. Mundt J.C., Katzelnick D.J., Kennedy S.H., et al. Validation of an IVRS version of the MADRS. J Psychiatr Res 2006;40:243–6.
  47. Rush A., Bernstein I., Trivedi M., et al. An evaluation of the quick inventory of depressive symptomalogy and the hamilton rating scale for depression: a sequenced treatment alternatives to relieve depression trial report. Biol Psychiatry 2006;59:493–501.
  48. Alemi F., Stephens R., Parran T., et al. Automated monitoring of outcomes: application to the treatment of drug abuse. Med Decis Making 1994;14:180–7.
  49. Agel J., Greist J.H., Rockwood T., et al. Comparison of interactive voice response and written self-administered patient surveys for clinical research. Orthopedics 2001;24: 1155–57.
  50. Dunn J.A., Arakawa R., Greist J.H., Clayton A.H. Assessing the onset of antidepressant-induced sexual dysfunction using inter- active voice response technology. J Clin Psychiatry 2007;68: 525–32.
  51. Fricker R.D., Schonlau M. Advantages and disadvantages of internet research surveys: evidence from the literature. Field Methods 2002;14:347–67.
  52. Bushnell D.M., Martin M.L., Parasuraman B. Electronic versus paper questionnaires: a further comparison in persons with asthma. J Asthma 2003;40:751–62.
  53. Ryan J.M., Corry J.R., Attewell R., Smithson M.J. A comparison of an electronic version of the SF-36 General Health Questionnaire to the standard paper version. Qual Life Res 2002;11:19– 26.
  54. . Electronic collection of health-related quality of life data: validity, time benefits, and patient preference. Qual Life Res 2001;10:15–21.
  55. Caro J.J. Sr, Caro I., Caro J., et al. Does electronic implementation of questionnaires used in asthma alter responses compared to paper implementation? Qual Life Res 2001;10:683–91.
  56. Crawley J.A., Kleinman L., Dominitz J. User preferences for com- puter administration of quality of life instruments. Drug Inf J 2000;34:137–44. 14.
  57. Allenby A, Matthews J, Beresford J, McLachlan SA. The appli- cation of computer touch-screen technology in screening for psychosocial distress in an ambulatory oncology setting. Eur J 6. Cancer Care 2002;11:245–53.
  58. Kleinman L., Leidy N.K., Crawley J., et al. A comparative trial of paper-and-pencil versus computer administration of the Quality of Life in Reflux and Dyspepsia (QOLRAD) questionnaire. Med Care 2001;39:181–9.
  59. Cook A.J., Roberts D.A., Henderson M.D., et al. Electronic pain questionnaires: a randomized, crossover comparison with paper questionnaires for chronic pain assessment. Pain 2004;110: 310–7.
  60. Drummond H.E., Ghosh S., Ferguson A., et al. Electronic quality of life questionnaires: a comparison of pen-based electronic questionnaires with conventional paper in a gastrointestinal study. Qual Life Res 1995;4:21–6.
  61. Palermo T.M., Valenzuela D., Stork P.P. A randomized trial of electronic versus paper pain diaries in children: impact on compliance, accuracy, and acceptability. Pain 2004;107:213– 9.
  62. Shields A., Gwaltney C., Tiplady B., et al. Grasping the FDA’s PRO Guidance. Appl Clin Trials 2006;15:69–72.
  63. Willis G.B. Cognitive Interviewing: A Tool for Improving Questionnaire Design. Thousand Oaks, CA: Sage Publications, 2005.
  64. Quigley D., Elliott M.N., Hays R.D., et al. Bridging from the Picker Hospital Survey to the CAHPS® Hospital Survey. Med Care 2008;46:654–61.
  65. Willis G., Reeve B.B., Barofsky I. The use of cognitive interviewing techniques in quality of life and patient-reported outcomes assessment. In: Lipscomb J., Gotay C.C., Snyder C., eds. Outcomes Assessment in Cancer: Measures, Methods, and applications. Cambridge: Cambridge University Press, 2005.
  66. Willis G.B., DeMaio T.J., Harris-Kojetin B. Is the bandwagon 20. headed to the methodological promised land? Evaluating the validity of cognitive interviewing techniques. In: Sirken M.G., Herrmann D.J., Schecter S., et al., eds. Cognition and Survey Research. New York: John Wiley & Sons, 1999.
  67. Ojanen V., Gogates G. A briefing on cognitive debriefing. Good Clin Prac J 2006;12:25–9.
  68. Jones B. Jarvis P., Lewis J.A., Ebbutt A.F. Trials to assess equiva- lence: the importance of rigourous methods. BMJ 1996;313: 36–9.
  69. Fleiss J.L., Kingman A. Statistical management of data in clinical research. Crit Rev Oral Biol Med 1990; 1:54–66. Available from: http://crobm.iadrjournals.org/cgi/reprint/1/1/55 [Accessed June 13, 2008].
  70. Blackwelder W.C. Current issues in clinical equivalence trials. J Dent Res 2004;83(Spec Iss C):C113–5.
  71. Atherton S.P., Sloan J.A. Design and analysis of equivalence trials via the SAS system. SUGI Proc 1998;23:1166–71.
  72. Sloan J.A., Novotny P., Loprinzi C.L., Ghosh M. Graphical and analytical tools for two-period crossover clinical trials. SUGI Proc 1997;22:1312–7. Available from: http://www2.sas.com/ proceedings/sugi22/STATS/PAPER280.PDF [Accessed June 13, 2008].
  73. Sloan J.A., Dueck A. Issues for statisticians in conducting analyses and translating results for quality of life end points in clinical trials. J Biopharm Stat 2004;14:73–96.
  74. Cohen J. Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates, Publish- ers, 1988.
  75. Walter S.D., Eliasziw M., Donner A. Sample size and optimal designs for reliability studies. Stat Med 1998;17:101–10.
  76. Bonett D.G. Sample size requirements for estimating intraclass correlations with desired precision. Stat Med 2002;21:1331–5. 77 Streiner DL, Norman GR. Health Measurement Scales: A Prac- tical Guide to Their Development and Use (3rd ed.). New York: Oxford University Press, 2003. 78 Bland J.M., Altman D.G. Comparing two methods of clinical

measurement: a personal history. Int J Epidemiol 1995;24:7–14.

  1. Gonin R., Lloyd S., Cella D.F. Establishing equivalence between scaled measures of quality of life. Qual Life Res 1996;5:20–6.
  2. Marshall G.N., Hays R.D., Nicholas R. Evaluating agreement between clinical assessment methods. Int J Methods Psychiatr Res 1994;4:249–57.
  3. Sloan J.A. Statistical issues in the application of cancer outcome measures. In: Lipscomb J, Gotay CC, Snyder C, eds. Outcomes Assessment in Cancer: Measures, Methods, and Applications. New York: Cambridge University Press, 2005;362–85.
  4. Smith D.J., Huntington J., Sloan J.A. Choosing the “correct” assessment tool. Curr Probl Cancer 2005;29:272–82.
  5. Shrout P.E., Fleiss J.L. Intraclass correlations: uses in assessing rater reliability. Psychol Bull 1979;86:420–8.
  6. Anastasi A., Urbina S. Psychological Testing (7th ed.). Upper Saddle River, NJ: Prentice Hall, 1996.
  7. Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas 1960;20:37–46.
  8. Cohen J. Weighted kappa: nominal scale agreement provision for scaled disagreement or partial credit. Psychol Bull 1968;70: 213–20.
  9. Fleiss J.L., Cohen J. The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. Educ Psychol Meas 1973;33:613–9.
  10. Fleiss J..L. Statistical Methods for Rates and Proportions (2nd ed.). New York: Wiley, 1981.
  11. Nunnally J.C., Bernstein I.H. Psychometric Theory (3rd ed.). New York: McGraw-Hill, 1994. Theory.
  12. Weiner E.A., Stewart B.J. Assessing Individuals. Boston: Little Brown, 1984.
  13. Ramachandran S., Lundy J.J., Coons S.J. Testing the measurement equivalence of paper and touch-screen versions of the EQ-5D visual analog scale (EQ VAS). Qual Life Res 2008;17:1117–20.
  14. Guyatt G.H., Osoba D., Wu A.W., et al. Clinical Significance Consensus Meeting Group. Methods to explain the clinical sig- nificance of health status measures. Mayo Clin Proc 2002;77: 371–83.
  15. Norman G.R., Sloan J.A., Wyrwich K.W. Interpretation of changes in health-related quality of life: the remarkable universality of half a standard deviation. Med Care 2003;41:582–92.
  16. Sloan J., Symonds T., Vargas-Chanes D., Fridley B. Practical guidelines for assessing the clinical significance of health-related quality of life changes within clinical trials. Drug Information Journal 2003;37:23–31.
  17. Sloan J.A., Cella D., Hays R.D. Clinical significance of patient- reported questionnaire data: another step toward consensus. J Clin Epidemiol 2005;58:1217–9.
  18. Farivar S.S., Liu H., Hays R.D. Half standard deviation estimate of the minimally important difference in HRQOL scores? Expert Rev Pharmacoeconomics Outcomes Res 2004.515–23.4.
  19. Hays R.D., Farivar S.S., Liu H. Approaches and recommendations for estimating minimally important differences for health- related quality of life measures. COPD 2005;2:63–7.
  20. Teresi J.A. Overview of quantitative measurement methods: equivalence, invariance, and differential item functioning in health applications. Med Care 2006;44(Suppl. 3):S39–49.
  21. Teresi J.A., Fleishman J.A. Differential item functioning and health assessment. Qual Life Res 2007;16:33–42.
  22. Crane P.K., Gibbons L.E., Ocepek-Welkson K., et al. A comparison of three sets of criteria for determining the presence of differen- tial item functioning using ordinal logistic regression. Qual Life Res 2007;16:69–84. 32.
  23. Feldt L.S., Woodruff K.J., Saith F.A. Statistical inference for coef- ficient alpha. Appl Psychol Meas 1987;11:93–103.
  24. Hays R.D., Revicki D. Reliability and validity (including respon- siveness). In: Fayers P, Hays RD, eds. Quality of Life Assessment in Clinical Trials (2nd ed.). Oxford, UK: Oxford University Press, 2005.
  25. Lohr K. Assessing health status and quality-of-life instruments: attributes and review criteria. Qual Life Res 2002;11:193–205.
  26. Reeve B.B., Hays R.D., Bjorner J.B., et al. Psychometric evaluation and calibration of health-related quality of life item banks: plans for the Patient-Reported Outcome Measurement Information System (PROMIS). Med Care 2007;45:S22–31.
  27. Hepner K.A., Brown J.A., Hays R.D. Comparison of mail and telephone in assessing patient experiences in receiving care from medical group practices. Eval Health Prof 2005;28:377–89.
  28. Guillemin F., Bombardier C., Beaton D. Cross-cultural adapta- tion of health-related quality of life measures: literature review and proposed guidelines. J Clin Epidemiol 1993;46:1417–32.
  29. Wild D., Grove A., Martin M., et al. Principles of good practice for the translation and cultural adaptation process for patient- reported outcome (PRO) measures: report of the ISPOR Task Force for Translation and Cultural Adaptation. Value Health 2005;8:94–104.
  30. Marquis P., Keininger D., Acquadro C., de la Loge C. Translating and evaluating questionnaires: cultural issues for international research. In: Fayers P, Hays RD, eds. Quality of Life Assessment in Clinical Trials (2nd ed.). Oxford, UK: Oxford University Press, 2005.
  31. Hahn E.A., Cella D. Health outcomes assessment in vulnerable populations: measurement challenges and recommendations. Arch Phys Med Rehabil 2003;84(Suppl):S35–42.

Похожие статьи