Vylepšená sekundární analýza údajů o přežití: rekonstrukce dat z publikovaných Kaplan-Meierovy křivky přežití

Kaplan-Meier (KM) metoda odhadu

Kaplan-Meier (KM) metoda se používá k odhadu pravděpodobnosti výskytu událostí do času t, SKM(t), z individuálních dat pacientů získaných z RCT, která je předmětem práva-cenzurovat (kde u některých pacientů jsou ztraceny následovat-up, nebo se bez události na konci sledovaného období). Metoda funguje tak, že shrnuje IPD ve formě řady časových intervalů R SKM (t m) v době události t m :

S K M ( t m ) = expertní j = 1 m n j – d j n j = S K M ( t m – 1 ) * n, m – d m n m m = 1 , 2 , … , r
(2)

Kaplan-Meier dat rekonstrukci algoritmus

Datové vstupy nutné

první vstupní datový soubor potřebný pro algoritmus obsahuje extrahované x-osy souřadnic, T k , a y-osa souřadnice, Y k , pro k = 1,…, N bodů na km křivce. K tomu existuje několik softwarových balíčků a zjistili jsme, že software Digitalizeit (http://www.digitizeit.de/) fungoval dobře. KM křivky, extrahované z a .pdf článek, jsou čteny do softwaru, osy jsou definovány, a pak analytik používá kliknutí myší pro výběr bodů odečíst z křivky. Výsledné souřadnice T K A S K se pak exportují do textového souboru. Tato předběžná práce musí být provedena pečlivě. Data by měla být dostatečná: každý krok viděný na obrázcích by měl být zachycen během extrakce dat. Umístění a počet kliknutí jsou proto důležité. Údaje by měly být také konzistentní: pravděpodobnost výskytu události se časem snižuje a mělo by být ověřeno, že tomu tak je vždy u extrahovaných datových bodů. Anomálie mohou nastat kvůli publikační kvalitě křivky a lidské chybě při ovládání kliknutí. Jakékoli anomálie by měly být opraveny před spuštěním níže uvedeného algoritmu. Časy, kdy jsou ohrožená čísla uvedena v publikaci, musí být zahrnuty do těchto počátečních údajů. Jako konvence je první datový bod T1 = 0 a pravděpodobnost výskytu události do času 0 je tedy S1 = 1. Každá km křivka se extrahuje Samostatně.

druhý vstupní datový soubor potřebný pro algoritmus obsahuje informace o hlášených číslech v ohrožení. Křivka je rozdělena na i = 1,.., nint intervalech, pro každého máme nahlášené číslo na riziko, na začátku tohoto intervalu, nrisk jsem , čas, ve kterém počet v ohrožení je za předpokladu, trisk já , první řádek číslo extrahuje souřadnice pro daný časový interval nižší já , a poslední řádek číslo extrahuje souřadnice pro daný časový interval horní části . nrisk jsem a trisk pocházím z původní publikace, zatímco nižší já a vyšší já pocházím z počtu kliknutí provedeno na každém intervalu, s cílem vytvořit první vstupní datový soubor. Pro každé i se nižší i rovná k, když T k = trisk i a horní i se rovná k, když Tk + 1= triski+1.

požadovaná konečná vstupní data jsou celkový počet událostí, totevents.

začneme popisem algoritmu pro případ, kdy je ohrožené číslo hlášeno na začátku studie a alespoň jeden další časový bod a kdy je hlášen celkový počet událostí (případ „všechny informace“). Pak jsme se ukázat, jak tento algoritmus může být upraven, pokud počet v ohrožení je pouze uvedeno na začátku studie (‚žádná čísla rizikové případě), když celkový počet událostí není hlášena (‚ne celkem událostí případě), a když ani jeden z nich jsou hlášena (‚ani‘ případ).

algoritmus pro případ „všechny informace“

počet cenzurovaných jedinců není z nahlášených údajů k dispozici. Proto používáme hlášená čísla v ohrožení, nrisk i, přiblížit počet cenzurovaných jedinců v každém časovém intervalu i. V každém intervalu nemůžeme určit přesný vzorec cenzury, a proto jsme nuceni učinit předpoklad. Předpokládali jsme, že cenzura se vyskytuje konstantní rychlostí v rámci jednotlivých časových intervalech, což se zdá rozumné, pokud cenzurovat vzor je non-informativní (každý předmět má cenzurovat čas, který je statisticky nezávislý na jejich selhání času).

algoritmus se skládá z následujících kroků (také znázorněno na obrázku 3).

Obrázek 3
obrázek 3

vývojový Diagram algoritmu („všechny informace“ případě).

Krok 1. Jsme první forma, počáteční odhad pro počet cenzorovaných na intervalu i. Když tam nebyly žádné osoby cenzurované na intervalu i, pak počet ohrožených na začátku následujícího intervalu, nris k i + 1 n o c e n s o r , bude počet ohrožených na začátku intervalu i, násobí pravděpodobnost výskytu události v intervalu závislé na podmínce, že živý na začátku intervalu i:

n r i s K i + 1 n o c e n s o R = n r i s K i * S l o w e r i + 1 / S l o w e r i

zaokrouhleno na nejbližší celé číslo.

Náš počáteční odhad pro počet cenzorovaných na intervalu i je rozdíl mezi hlásil počet ohrožených na začátku intervalu + 1, nriski+1, a počet ohrožených pod č. cenzurovat:

n c e n ^ s o r i = n r i s k i + 1 n o c e n s o r – n r i s k i + 1 n c e n ^ s o r i = S l o w e r i + 1 / Y l o w e r i * n r i s k i – n r i s k i + 1
(3)

KROK 2. Distribuujeme c=1,…,a n ^ takže r i cenzor krát, ce n ^ t, c , rovnoměrně během intervalu i:

c e n ^ t c = T l o w e r i + c * ( T l o w e r i + 1 – T l o w e r i ) / ( n c e n ^ s o r i + 1 ) c = 1 , … , n c e n ^ s o r i
(4)

počet cenzorovaných pozorování mezi extrahované KM souřadnic k a k + 1 je nalézt tím, počítání počtu odhadovaných cenzurovat krát, ce n ^ t, c , které leží mezi časem T k a Tk+1:

c ê n k = ∑ c = 1 n c e n ^ s o r i ( c e n ^ t c * I { c e n ^ t c ∈ } )
(5)

kde I { c e n ^ t, c ∈ } je indikátor vrací 1, pokud ce n ^ t c leží na intervalu a 0 jinak.

Krok 3. Počet událostí, d ^ K, v každé extrahované KM souřadnici, k, a tedy počet rizikových pacientů v další souřadnici, n ^ k + 1, pak lze vypočítat. Re-uspořádání Eq. 2, dostaneme, že d ^ k je rovno počtu pacientů s rizikem v extrahované KM koordinovat, k, násobí jedna mínus pravděpodobnost výskytu události v extrahované KM koordinovat, k, děleno Þ l a s t ( k ) K M odhadované KM pravděpodobnost přežití v předchozí koordinovat, kde odhadujeme, že došlo k události, poslední(k). Intervaly KM odhady jsou navrženy tak, aby být takové, že alespoň jedna událost nastane na začátku každého intervalu, ale to není nutně případ pro naše extrahuje souřadnice, a tak musíme sledovat čas poslední události:

l a s t ( k ) = 1 i f k = 1 k ‚o t h e r w i s e

, kde k je takové, že d ^ k‘ >0

ale d ^ j =0for j = k + 1,…, k – 1

pomocí ekvalizéru.2, máme:

Ŝ k k M = 1 i f k = 1 Þ l a s t ( k ) K M * ( 1 – d ^ k n ^ k ) o t h e r w i s e

Proto:

d ^ k = n ^ k * ( 1 – S k Þ l a s t ( k ) K M ) k = l o w e r i , … , u p p e r i
(6)

zaokrouhlená na nejbližší celé číslo.

počet rizikových pacientů v každé extrahované koordinaci, k, se pak získá pomocí Eq.1:

n ^ k + 1 = n ^ k – d ^ k – c ê n k k = l o w e r i , … , u p p e r i
(7)

tam, kde na začátku intervalu, který jsme si stanovili n ^ l o w e r i =nris k já . To vytváří odhadované číslo ohrožené na začátku následujícího intervalu nrîs k i + 1 = n ^ u p p e r i + 1 .

Krok 4. Pokud nrîs k i + 1 n NRI k i + 1, upravíme odhadovaný počet cenzurovaných pozorování v intervalu i, ncenoror, o:

n c e n þ ó r i = n c e n ^ s o r i + ( n ^ u p p e r i + 1 – n r i s k i + 1 )
(8)

opakujeme kroky 2-3 iterativně, dokud odhaduje a zveřejněno číslo na riziko zápas (tj. nrîs k i + 1 =nris k i + 1 ).

Krok 5. Pokud i + 1 není poslední interval, opakujeme kroky 1-4 pro následující interval.

Krok 6. V publikovaných RCT, na konci posledního intervalu obecně není zveřejněno žádné rizikové číslo, nint. Poprvé jsme se předpokládat, že počet cenzorovaných na poslední interval je roven celkovému počtu cenzurované odhaduje před poslední interval, ∑ i = 1 n i n t – 1 n c e n þ ó r i , vážené podle zbývající čas, relativní čas již uplynul, zaokrouhlená na nejbližší celé číslo. Pokud však bylo zjištěno, že toto číslo je větší než počet rizikových pacientů na začátku posledního intervalu, bylo místo toho vybráno toto rizikové číslo. Tento předpoklad je formálně napsán v následující rovnici:

n c e n ^ s o r n i n t = min ( T u p p e r n i n t – T l o w e r n i n t T u p p e r n i n t – 1 – T l o w e r 1 * ∑ i = 1 n i n t – 1 n c e n ^ s o r i ; n r i s k n i n t )

A my spustit krok 2-3.

Krok 7. Pak použijeme hlášený celkový počet událostí, kudálosti. Vypočítáme odhadovaný celkový počet událostí získaných začátkem posledního intervalu, ∑ k = 1 u p p e r n i n t-1 d ^ k . Pokud je to větší nebo rovno událostem, předpokládáme, že nedojde k žádným dalším událostem nebo cenzuře:

d ^ k = 0 , c ê n k = 0 , n ^ k = n u p p e r n i n t – 1, k = l o w e r n i n, t , … , u p p e r n i n t

KROK 8. Pokud ∑ k = 1 u p p e r n i n t – 1 d ^ k je menší než totevents jsme re-upravit odhadovaný počet cenzorovaných pozorování v intervalu nint, nce n ^ takže r n i n t o rozdíl v celkovém počtu událostí:

n c e n ^ s o r n i n t = n c e n ^ s o r n i n t + ( ∑ k = 1 u p p e r n i n t d ^ k – t o t e v e n t s )
(9)

pak Jsme se znovu spustit kroky 2-3,8 pro poslední interval, nint, dokud se odhaduje celkový počet událostí, ∑ k = 1 u p p e r n i n t – 1 d ^ k , je rovna uvádí celkový počet událostí, totevents nebo, dokud se odhaduje celkový počet událostí je méně, než uvádí celkový počet akcí, ale celkový počet cenzurovat v posledním intervalu, nce n ^ takže r n i n t , bude rovna nule.

úpravy algoritmu pro případ „žádná čísla v ohrožení“

v tomto případě existuje pouze jeden interval nint = 1. Nejprve předpokládáme, že celkový počet cenzurovaných se rovná nule a pak pokračujeme jako v kroku 8.

Úpravy algoritmu pro ne celkem událostí případě

V tomto případě jsme se přistoupit jako pro „všechny informace“ s výjimkou, že žádné re-nastavení pomocí celkového počtu událostí může být provedeno, a proto jsme se zastavit na krok 6.

Úprava algoritmu pro ‚ani‘

Když ani celkový počet událostí, ani čísla na rizika po zahájení studie jsou hlášeny, předpokládali jsme, že tam byly žádné cenzorovaných pozorování. To je silný předpoklad, ale stejně silný jako jakýkoli jiný předpoklad, který bychom mohli učinit o cenzuře bez dalších informací. Vzhledem k nedostatku informací se očekává nižší kvalita výsledků.

Získávání individuálních dat pacientů (IPD) z rekonstruovaných Kaplan-Meier data

Z našeho rekonstrukci Kaplan-Meier parametry d ^ k ,cê n k , n ^ k pro každou extrahované KM koordinovat k = 1,…, N, můžeme odvodit IPD, které by generovalo tato data. Tento poslední kus kódování je ve skutečnosti docela jednoduché. Pokaždé, když je odhadnuta událost nebo cenzura, je zaznamenán odpovídající čas a indikátor události (jeden pro událost a nula pro cenzuru).

vyhodnocení reprodukovatelnosti a přesnosti

při validačním cvičení bylo použito šest párů Kaplan-Meierových křivek. Ty byly čerpány z podmnožiny publikací, které byly součástí zpětné kontroly metod analýzy doby přežití používaných v ekonomických hodnoceních . Provedli jsme rekonstrukci dvacet dva pravděpodobnosti přežití, sedm medián doby přežití, šesti poměry rizik a čtyři standardní chyby protokolu poměry rizik, které byly hlášeny v těchto čtyřech publikacích. Každý byl rekonstruován při dvou příležitostech stejnými třemi pozorovateli. Dva ze tří pozorovatelů nebyli zapojeni do vývoje algoritmu.

Reprodukovatelnost a přesnost metody byla hodnocena pro každé ze 4 různých úrovní informace („všechny informace“, ne čísla v ohrožení“, „ne celkový události‘ a ‚ani‘). K posouzení rozdílů mezi rekonstruované statistiky a ty původní, přirozené měřítko bylo použito pro přežití pravděpodobnosti, zatímco logaritmická stupnice byla použita pro mediány, Hodin a jejich nejistoty. Kaplan Meierovy křivky a Coxovy HR na základě rekonstruovaných dat byly odhadnuty pomocí rutin R survfit a coxph.

napínací standard two-way ANOVA s opakovaným opatření, aby rozdíly mezi rekonstruované výsledky a původní výsledky, a to buď na přírodní nebo log měřítku v závislosti na statistiky za. Složky rozptylu byly exemplární, pozorovatel, exemplární × pozorovatelská interakce, a chyba uvnitř buňky. Protože hodnota p Z testu poměru F pro interakci byla ve všech případech vyšší než 10%, spojili jsme termín interakce s termínem chyby uvnitř buněk. Zvolený přístup je podobný tomu, co se ve strojírenských aplikacích označuje jako „opakovatelnost a reprodukovatelnost měřidel“.

Reprodukovatelnost představuje chybu, pokud jeden pozorovatel provede jedinou rekonstrukci pro zadanou statistiku. Toto bylo odhadnuto jako součet chyby uvnitř pozorovatele a mezi pozorovatelem. Simulace Monte Carlo z namontovaného modelu ANOVA byla použita k získání 95% intervalů spolehlivosti kolem směrodatných odchylek. Stupně volnosti uvnitř, předpokládalo se, že variace mezi a výsledky budou následovat rozdělení chí-kvadrát. Pro zajištění robustního závěru bylo z každé z těchto distribucí odebráno 150 000 vzorků stupňů volnosti, tj. pro každý zdroj variace. Poté byly vypočteny odhady středních čtverců pomocí součtu čtverců získaných anovou a vzorku získaného simulací pro každý ze 150 000 vzorků a pro každý ze zdrojů variace. Odpovídající 150 000 uvnitř, mezi a výsledek standardní odchylky byly následně odhadnuty a nakonec jsme extrahovali percentily 2.5 a 97.5, abychom získali odhady intervalů spolehlivosti.

pro posouzení přesnosti jsme zkoumali průměrný rozdíl mezi rekonstruovanými statistikami a původními statistikami. Výsledná střední zkreslení nebo střední chyba (ME) odráží systematické přehánění nebo podceňování. 95% intervaly spolehlivosti jsou získány přímo z odhadu směrodatných odchylek daných ANOVA. Zaznamenali jsme také absolutní zkreslení nebo střední absolutní chybu (MAE). To ignoruje směr chyb a měří jejich velikost, což měří absolutní přesnost rekonstruovaných výsledků. K získání 95% intervalů spolehlivosti byla opět použita simulační metoda, která předpokládala, že MEs byly normálně distribuovány. Pro každou statistiku bylo pro zajištění spolehlivého závěru odebráno 150 000 vzorků z normálního rozdělení s pozorovaným průměrem a rozptylem, jak uvádí ANOVA. Poté jsme vypočítali odpovídající absolutní hodnoty 150 000 těchto čísel a nakonec jsme extrahovali percentily 2.5 a 97.5, abychom získali odhady intervalů spolehlivosti.

Konečně jsme zaznamenali změnu v rozdílu mezi rekonstruován a původní statistiky, která byla kvůli výběru vzorků, tj. do 22 přežití pravděpodobnosti, 7 mediány, 6 Hodin a 4 standardní chyby protokolu Hodin. To dává další údaj o přesnosti metody.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

More: