Публикация

Скритите последствия от лошото прилагане на статистически методи в клиничните изследвания

Скритите последствия от лошото прилагане на статистически методи в клиничните изследвания

Предлагаме ви едно статистическо изследване на Георги З.Георгиев - специалист, занимаващ се с приложна статистика, с експертен опит в уеб анализа, онлайн контролирани експерименти и изграждане на статистически софтуер:

 

Георги Георгиев

Като човек, който се занимава със статистика в приложната сфера бях доста изненадан да открия, че в много клинични изследвания на лечебни методи и фармацевтични продукти се използват статистически оценки на риска, които не подкрепят изводите от изследванията.  В резултат от една единствена лоша практика, прилагана от повечето изследователи, нерядко не успяваме да идентифицираме правилно както добри лечения така и вредни странични ефекти. Още по-шокиращо за мен беше, че тази практика продължава без да се подлага на съмнение, тъй като се подкрепя от множество научни публикации, учебници и курсове по статистически методи, а в някаква степен се подпомага и насърчава от статистическите ръководства на регулаторите.

В тази статия ще споделя моите наблюдения по възможно най-достъпен начин, като същевременно ще дам връзки към по-подробни и технически издържани обяснения за желаещите да задълбаят в материята.

Измерване на риск чрез клинични изследвания

Когато бъде предложена нова фармацевтична формула или медицинска интервенция, тя следва да бъде подложена на изпитание преди да бъде препоръчана като стандартна лечебна практика. Чрез експеримент (обикновено серия експерименти) се опитваме установим както ефикасността ѝ, така и евентуални нежелани странични ефекти по начин, по който можем да моделираме статистически ефектите на неизвестни фактори и да изолираме причинно-следствена връзка между изпробваната терапия и резултатите на пациентите.

Тъй като всяко научно измерване съдържа грешки, много важно качество на клиничните изпитания е, че те ни позволяват да изчислим не само очаквания ефект, а и вероятностната грешка на това, което измерваме. Например, едно научно изследване ни позволява да кажем, че “ако терапията няма истински позитивен ефект, то ще е много малко вероятно да видим подобни високи нива на подобрение след прилагане на терапия хикс“.

Преди да извършат дадено изследване, научните работници и регулиращата институция се съгласяват относно допустимото ниво на риск като балансират между риска от това погрешно да приемат като ефективно лечение, което има малки или никакви полезни ефекти, и това погрешно да отхвърлят полезно лечение само защото изследването не е било достатъчно чувствително към търсения ефект. Изискването за по-малък риск от приемането за ефективна терапия, която всъщност не е ефективна увеличава риска от погрешното отхвърляне на истински ефективни терапии, или изисква по-дълъг период на изпитания (водещ до отлагане на пускането на формулата на пазара или на приемането на терапията за стандарт), а изпитанията с повече пациенти водят до етични и икономически проблеми.

 

Въпреки, че процесът като цяло е добър, има някои проблеми, като този, върху който ще се съсредоточа в тази статия, а именно употребата на двустранни вместо еностранни статистически тестове.

Статистиката за оценка на риска не е свързана с докладваните резултати

Пример за задаването на допустимо ниво на риск е: “не бихме искали да одобрим тази терапия освен ако измеримия риск тя да е неефективна спрямо текущия стандарт е по-нисък или равен на 5%”. Това е критичната стойност, спрямо която ще бъде сравнена наблюдаваната статистическа значимост (p-стойност) или нивото на сигурност при което ще се изчисли доверителен интервал за диапазон с нива на ефективност, които не могат да бъдат отхвърлени от изпитанието.

 

Това, което се случва при повечето клинични изпитания обаче е, че рискът се измерва не на база на горната дефиниция, а спрямо това „ефектът от терапията да е точно нула“, което води до докладване на оценка на риска, която не отговаря на заключенията на изследването.

 

Например, изследователите може да твърдят, че “терапията подобрява резултатите при пациентите с риск от грешка 1%”,  но всъщност тази вероятност от 1%, която докладват е за твърдението „терапията има или положителен, или отрицателен ефект“, а не за твърдението „терапията подобрява резултатите“. В повечето случаи рискът, съответстващ на твърденията е наполовина на докладвания, в този случаи 0.5% вместо 1% (2 по-нисък измерим риск!).

 

Това, което се случва е, че изследователите не прилагат коректната статистическа процедура, тъй като статистическата хипотеза за разлика в която и да е посока не отговаря на изказаните от тях твърдения за резултат в конкретна посока. Ако използваме статистически термини, изследователите докладват двустранни вероятности и доверителни интервали вместо едностранни такива.

Това объркване не е ограничено до сферата на медицината и клиничните изследвания и е налично в много поведенчески науки като психология, психиатрия, икономика, управление на бизнес риск и други. За целите на текущата статия разглеждам само клиничните изследвания.

Проста грешка със значителни ефекти

Истината е, че това е елементарна и в повечето случаи лесно-отстранима грешка. Може би се чудите къде е големият проблем: в крайна сметка излиза, че сме изложени на по-малко риск, отколкото си мислим, а не на повече, така че къде тогава е вредата? Вредата обаче е много реална и се проявява в няколко посоки.

На първо място имаме отхвърляне на полезни интервенции, тъй като отчетеният риск не покрива изискваните минимални нива. Например, отчетеният риск, използвайки неправилното двустранно изчисление е 6% при изискване за минимум 5%. Обаче използвайки правилното едностранно изчисление виждаме, че реалният риск е 3%, което отговаря на регулаторното изискване за демонстриране на ефикасност.

 

Много подобни примери могат да бъдат намерени в публикуваните изследвания, включително голямо изследване в трета фаза на терапия за рак на гърдата (8381 пациенти), което демонстрира вероятен ефект от до 45% намаляване на пациентите с лош изход (повтаряне на рака или летален изход). Въпреки това терапията се обявява за неефективна като причината, поне отчасти, е прилагането на неадекватна оценка на риска. Ако беше използван правилният статистически метод, то терапията щеше да бъде приета за стандартна практика, ако страничните ефекти (при които действително се отчита увеличение) са в приемливи граници.

Този и още примери, включително от други сфери на науката, коментирам в повече детайл в статията ми на английски “Examples of improper use of two-sided hypotheses”.

 

На второ място имаме подценяване на риска от вредни странични ефекти. Също като измерванията на полезните ефекти, измерването на вредите подлежат на грешка и не е приемливо да обявяваме дадена фармацевтична формула или терапия като вредна, освен ако риска от подобна грешка не се счита за достатъчно нисък. В крайна сметка не искаме неправилно да отхвърлим полезна терапия заради вредни ефекти, които са в рамките на статистическата грешка.

 

Ако обаче използваме неправилен метод за оценка на риска, ще пропуснем да отчетем вредни ефекти, които отговарят на регулаторния риск и които би следвало да спрат одобрението на съответната интервенция. Използвайки двустранна статистическа вероятност може да решим, че наблюдаваната вреда е просто артефакт в измерванията, докато всъщност коректната статистика ще покаже, че превишава приемливото ниво на риск и трябва да се вземе предвид като реален ефект.

На трето място, отчитането на оценка на риска с несъответстващ на твърденията метод ни лишава от възможността правилно да оценим риска когато взимаме решения за курса на лечение. Не само, че изследователите и регулаторите правят грешни заключения, но и вашият лекуващ лекар и вие самите получавате завишени оценки за риск, които могат да ви попречат да вземете информирано решение за терапевтичния подход, който е най-подходящ за вашето състояние и вашата толерантност към този конкретен риск.

Последното е особено важен казус лично за мен, тъй като съм твърд застъпник на това да се правят персонални оценки на риска спрямо потенциалните вреди, както в медицината, така и във всички сфери на живота. Няма двама еднакви хора, няма две еднакви ситуации и там, където един вижда неприемливо висок риск друг вижда добър шанс да подобри положението си. Да ви дадат двойно завишени вероятности за грешка може да има огромен ефект върху вашата преценка.

Как е възможно и защо се случва?

Това е изключително интересен въпрос, който няма просто отговор, особено имайки предвид, че този проблем не е поради грешка в ранната статистическа литература. Бащите на модерната статистика препоръчват и широко използват едностранни статистически тестове. Грешката се появява по-късно при предаването разработените от тях методи.

Имам няколко вероятни обяснения, едното от които е привидния парадокс на едностранните и двустранните тестове (paradox of one-sided vs. two-sided tests) чието решение не е лесно или интуитивно за схващане. Друга причина може да се проследи до лошото графично представяне на статистическите таблици, публикувани в началото на 20-ти век и липсата на обяснения към тях. Този проблем продължава да се проявява и в съвременния статистически софтуер, макар и под различна форма.

Грешките и неподходящите методи на преподаване също водят до грешки като това да се бърка „нулевата хипотеза“ с „хипотеза нулев ефект“, както и да води до погрешното тълкуване на вероятностите за грешка като вероятности свързани с една или друга тълкувателна хипотеза вместо да се интерпретират като характеристики на статистическите процедури, каквито те са. Тези проблеми лесно могат да доведат до погрешна интерпретация при сравнение на резултати от едностранни и двустранни тестове.

 

Каквито и да са причините, факт е, че към днешна дата едностранните тестове биват представяни превратно в книги, учебници и университетски курсове по статистически методи, особено свързаните с медицинска тематика. Клеветенето ги следва и в Wikipedia, както и в множество блогове и други онлайн публикации на тема статистика. Предвид широкото негативно представяне на едностранните тестове, част от което съм документирал тук, не е чудно, че изследователите не ги използват.

Друга причина са неясните насоки от регулаторите, някои от които (напр. щатската Агенция за храните и лекарствата и Европейската медицинска агенция) или не са ясни в изискванията си, или изрично включват твърдения, че едностранните статистики са спорни. Някои насоки препоръчват да има изрична причина за използването на едностранни тестове при положение, че същото не се прави за двустранните такива.

 

Като резултат повечето изследователи избират това, което им изглежда като по-безопасен път: изчисляват се и се докладват двустранни статистически оценки на риска, вероятно понякога въпреки личните им знания и преценка. Натиска от колегите и това, че виждат двустранни вероятности и доверителни интервали в повечето публикувани проучвания в тяхната сфера вероятно потушават всякакви останали съмнения относно практиката.

Как да подобрим това положение

Моят личен принос в борбата с тази скъпоструваща грешка е да образовам изследователите и статистиците чрез проекта Onesided.org. Това е малък сайт със статии, в които обяснявам едностранните тестове за статистическа значимост и доверителни интервали по най-добрия начин, на който съм способен, поправям грешните възприятия, обяснявам парадокси и т.н. Той също така съдържа прости симулации и списък с литература по темата, тъй като изобщо не съм първият, който е забелязал този проблем.

 

Моето голямо предложение е да се приеме стандарт за докладване на вероятности, при който те винаги да са придружавани от нулевата хипотеза, за която са изчислени. Това ще реши проблема със съответствието на статистическия метод и твърденията на изследователите, а също така ще се справи с някои други често срещани грешки при тълкуването на изчисленията на риска.

 

Разбира се, ще е чудесно регулаторите да подобрят препоръките си. Това обаче обикновено е бавен процес, включващ множество страни и основно отразява това, което вече е прието като стандартна практика.

В заключение

Считам, че е важно дас е използват измервания на вероятностни грешки за оценка на риска там, където е възможно, както и че трябва да се използват инструментите, подходящи за конкретната задача. Когато това не се случва, но си мислим, че правим нещата както трябва, жертваме ненужно нашите животи, здраве и богатство, както демонстрирах по-горе. Независимо дали е проучване, спонсорирано от държавата или такова, спонсорирано от частна компания, знам, че в крайна сметка парите излизат от събраното с пот на чело богатство и не виждам причина да не получим най-доброто, на което сме способни.

 

Още по-фрустриращо е когато използването на неправилни статистически методи ни лишава от възможността коректно да приложим собствената си преценка спрямо данните при взимането на решения – както лично от нас, така и от наети от нас експерти.

 

Оптимист съм по отношение на това, че с осветляването на проблема ще се постигне положително развие в посока образоване на изследователите и статистиците. Нямам съмнение, че повечето от тях бързо ще вземат мерки да подобрят практиките си, ако те не са достатъчно добри по една или друга причина.

Забележка: Тази статия е превод на адаптирана версия на https://www.onesided.org/articles/the-hidden-cost-of-bad-statistics-in-clinical-research.php

Коментари