- Kaplan-Meier (KM) estimeringsmetode
- Kaplan-Meier data rekonstruksjon algoritme
- data innganger kreves
- algoritmen for’ all informasjon ‘ – saken
- Justeringer av algoritmen for’ no numbers at risk ‘ – saken
- Justeringer av algoritmen for’ ingen totale hendelser ‘ – saken
- justering av algoritmen for’ verken ‘ – saken
- Innhenting av individuelle pasientdata (IPD) fra de rekonstruerte Kaplan-Meier-dataene
- Evaluering av reproduserbarhet og nøyaktighet
Kaplan-Meier (KM) estimeringsmetode
Kaplan-Meier (KM) – metoden brukes til å estimere sannsynligheten for å oppleve hendelsen til tid t, SKM(t), fra individuelle pasientdata hentet fra EN RCT som er gjenstand for rettighetssensurering (hvor noen pasienter går tapt for oppfølging eller er hendelsesfrie ved slutten av studieperioden). Metoden fungerer ved å oppsummere IPD i form av en serie r tidsintervaller SKM (t m ) ved hendelsestid t m :
Kaplan-Meier data rekonstruksjon algoritme
data innganger kreves
den første inndatafilen som kreves for algoritmen inneholder de ekstraherte x-aksen koordinater, T k , og y-aksen koordinater, S k , for k = 1,…, N punkter PÅ KM-kurven. Flere programvarepakker eksisterer for å gjøre dette, og vi fant ut at programvaren DigitizeIt (http://www.digitizeit.de/) fungerte bra. KM kurver, hentet fra en .pdf-artikkel, leses inn i programvaren, aksene er definert, og deretter bruker analytikeren museklikk for å velge poeng å lese av fra kurven. De resulterende t k og S k koordinatene blir deretter eksportert til en tekstfil. Dette foreløpige arbeidet må utføres nøye. Dataene skal være tilstrekkelige: hvert trinn sett i tallene skal ha blitt fanget under datautvinningen. Plasseringen og antall klikk er derfor viktig. Dataene skal også være konsistente: sannsynligheten for å oppleve hendelsen avtar med tiden, og det bør verifiseres at dette alltid er tilfelle for datapunktene som trekkes ut. Anomalier kan oppstå på grunn av publiseringskvaliteten til kurven, og menneskelig feil i å kontrollere klikkene. Eventuelle uregelmessigheter bør korrigeres før du kjører algoritmen nedenfor. Tidspunktene, hvor tallene i fare er rapportert i publikasjonen, må inkluderes i disse innledende dataene. Som en konvensjon er det første datapunktet T1 = 0, og sannsynligheten for å oppleve hendelsen til tid 0 er Derfor S1 = 1. HVER KM-kurve trekkes ut separat.
den andre inndatafilen som kreves for algoritmen, inneholder informasjon om de rapporterte tallene i fare. Kurven er delt inn i i = 1,.., nint intervaller, for hver har vi det rapporterte tallet i fare ved starten av det intervallet, nrisk i, tidspunktet hvor tallet i fare er gitt, trisk i, det første radnummeret av de ekstraherte koordinatene for det tidsintervallet lavere i, og det siste radnummeret av de ekstraherte koordinatene for det tidsintervallet øvre i . nrisk jeg og trisk jeg kommer fra den opprinnelige publikasjonen, mens nedre jeg og øvre jeg kommer fra antall klikk gjort på hvert intervall, for å lage den første inngangsdatafilen. For hver i er lavere i lik k når T k = trisk i og øvre i er lik k når Tk + 1= triski+1.
de endelige inndataene som kreves er totalt antall hendelser, totevents.
vi begynner med å beskrive algoritmen for det tilfellet hvor antallet som er utsatt rapporteres ved studiestart og minst ett annet tidspunkt og når totalt antall hendelser rapporteres (‘all information’ case). Vi viser deretter hvordan algoritmen kan tilpasses når tallet i risikogruppen bare rapporteres i begynnelsen av studien (‘ingen tall i risikogruppen’), når totalt antall hendelser ikke rapporteres (‘ingen totale hendelser’), og når ingen av disse rapporteres (‘ingen av dem’).
algoritmen for’ all informasjon ‘ – saken
antall sensurerte personer er ikke tilgjengelig fra de rapporterte dataene. Vi bruker derfor de rapporterte tallene i fare, nrisk i, for å tilnærme antall sensurerte personer på hvert tidsintervall i. Vi kan ikke identifisere det nøyaktige sensurmønsteret innenfor hvert intervall, og derfor er vi tvunget til å gjøre en antagelse. Vi har antatt at sensurering skjer med en konstant hastighet innenfor hvert av tidsintervallene, noe som virker rimelig hvis sensurmønsteret er ikke-informativt(hvert fag har en sensurtid som er statistisk uavhengig av deres feiltid).
algoritmen består av følgende trinn (også illustrert i Figur 3).
TRINN 1. Hvis det ikke var noen individer sensurert på intervall i da tallet i fare i begynnelsen av følgende intervall, nris k i + 1 n o c e n s o r, ville være tallet i fare i begynnelsen av intervall i, multiplisert med sannsynligheten for å oppleve hendelsen ved intervall i betinget av å være i live i begynnelsen av intervall i:
avrundet til nærmeste heltall.
vår første gjetning for tallet sensurert på intervall i er forskjellen mellom det rapporterte tallet i risiko ved begynnelsen av intervall i + 1, nriski+1, og tallet i risiko uten sensur:
TRINN 2. Vi distribuerer c=1,…, nce n ^ så r jeg sensurere ganger, ce n ^ t c, jevnt over intervall i:
antall sensurerte observasjoner mellom EKSTRAHERTE KM-koordinater k og k + 1 er funnet ved å telle antall estimerte sensurtider, ce n ^ t c, som ligger mellom Tiden T k og Tk + 1:
hvor i { c e n ^ t c ∈} er en indikator som returnerer 1 hvis ce n ^ t c ligger på intervallet og 0 ellers.
TRINN 3. Antall hendelser, d ^ k, ved hver EKSTRAHERT KM-koordinat, k, og dermed antall pasienter med risiko ved neste koordinat, n ^ k + 1, kan deretter beregnes. Re-arrangere Eq. 2, får vi at d ^ k er lik antall pasienter i fare ved det ekstraherte KM-koordinatet, k, multiplisert med en minus sannsynligheten for å oppleve hendelsen ved det ekstraherte KM-koordinatet, k, dividert Med Ŝ L a s t (k ) K M den estimerte KM overlevelsessannsynligheten ved det forrige koordinatet der vi anslår at en hendelse oppstod, sist (k). Intervaller AV KM estimater er utformet slik at minst en hendelse oppstår ved starten av hvert intervall, men dette er ikke nødvendigvis tilfelle for våre utpakkede koordinater, og så må vi spore tidspunktet for den siste hendelsen:
hvor k’ er slik at d ^ k ‘>0
men d ^ j = 0for j = k ‘ + 1,…, k – 1
Bruke eq.2, vi har:
Derfor:
avrundet til nærmeste heltall.
antall pasienter med risiko ved hver ekstrahert koordinat, k, oppnås deretter Ved Bruk Av Eq.1:
hvor ved starten av intervallet setter vi n ^ l o w e r i =nris k i . Dette gir et estimert antall i risiko ved starten av følgende intervall nrî k i + 1 = n ^ u p p e r i + 1 .
TRINN 4. Hvis nrî k i + 1 ≠nris k i + 1 justerer vi det estimerte antallet sensurerte observasjoner i intervall i, ncenŝ, av:
vi gjentar trinn 2-3 iterativt til estimert og publisert nummer i risikokamp (dvs. nrî k i + 1 =nris k i + 1).
TRINN 5. Hvis jeg + 1 ikke er det siste intervallet, gjentar vi trinn 1-4 for følgende intervall.
TRINN 6. I publiserte Rcter er det generelt ikke noe tall i fare publisert ved slutten av det siste intervallet, nint. Vi antar først at tallet sensurert på det siste intervallet er lik det totale antallet sensurert estimert før det siste intervallet, ∑ i = 1 n i n t-1 n c e n ŝ o r i, vektet av gjenværende tid i forhold til tiden som allerede er gått, avrundet til nærmeste heltall. Men hvis dette tallet ble sett å være større enn antall pasienter som fortsatt var i fare ved begynnelsen av det siste intervallet, ble dette tallet i fare valgt i stedet. Denne antagelsen er formelt skrevet i ligningen nedenfor:
og vi kjører trinn 2-3.
TRINN 7. Vi bruker deretter rapportert totalt antall hendelser, totevents. Vi beregner estimert totalt antall hendelser oppnådd ved begynnelsen av det siste intervallet, ∑ k = 1 u p p e r n i n t-1 d ^ k . Hvis dette er større eller lik totevents, antar vi at det ikke skjer flere hendelser eller sensurering:
TRINN 8. Hvis ∑ k = 1 u p p e r n i n t – 1 d ^ k er mindre enn totevents, justerer vi estimert antall sensurerte observasjoner i intervall nint, nce n ^ så r n i n t, med forskjellen i totalt antall hendelser:
vi kjører deretter trinn 2-3, 8 for det siste intervallet, nint, til det estimerte totale antallet hendelser, ∑ k = 1 u p p e r n i n t-1 d ^ k, er lik det rapporterte totale antallet hendelser, totevents eller til det estimerte totale antallet hendelser er mindre enn det rapporterte totale antallet hendelser, men det totale antallet sensurering i det siste intervallet , nce n ^ så r n i n t, blir lik null.
Justeringer av algoritmen for’ no numbers at risk ‘ – saken
I dette tilfellet er det bare ett intervall nint = 1. Vi antar først at det totale antallet sensurert er lik null, og så fortsetter vi som i trinn 8.
Justeringer av algoritmen for’ ingen totale hendelser ‘ – saken
i dette tilfellet fortsetter vi som for ‘all informasjon’ – saken, bortsett fra at ingen omjustering med totalt antall hendelser kan gjøres, og vi stopper derfor ved trinn 6.
justering av algoritmen for’ verken ‘ – saken
når det ikke er rapportert totalt antall hendelser eller tall i fare utover studiestart, antok vi at det ikke var sensurerte observasjoner. Dette er en sterk antagelse, men like sterk som enhver annen antagelse som vi kunne gjøre om sensureringen uten ytterligere informasjon. På grunn av mangel på informasjon forventes en lavere kvalitet på resultatene.
Innhenting av individuelle pasientdata (IPD) fra de rekonstruerte Kaplan-Meier-dataene
fra våre rekonstruerte Kaplan-Meier-parametere d ^ k ,cê n k , n ^ k for hver ekstraherte KM-koordinat k = 1,…, N, vi kan utlede IPD som ville generere dataene. Denne siste delen av kodingen er faktisk ganske grei. Hver gang en hendelse eller en sensurering estimeres, registreres tilsvarende tid samt en hendelsesindikator (en for hendelse og null for sensurering).
Evaluering av reproduserbarhet og nøyaktighet
Seks Par Kaplan-Meier-kurver ble brukt i valideringsøvelsen. Disse ble hentet fra en undergruppe av publikasjoner som utgjorde en del av en tilbakeblikks gjennomgang av overlevelsestidsanalysemetoder som ble brukt i økonomiske evalueringer . Vi gjennomførte en rekonstruksjon av tjueto overlevelsessannsynligheter, syv median overlevelsestider, seks hazard ratio og fire standardfeil i loggen hazard ratio som ble rapportert i disse fire publikasjonene. Hver ble rekonstruert ved to anledninger av de samme tre observatørene. To av de tre observatørene var ikke involvert i utviklingen av algoritmen.
Reproduserbarhet og nøyaktighet av metoden ble evaluert for hvert av de 4 ulike informasjonsnivåene (‘all informasjon’, ‘ingen tall i fare’,’ ingen totale hendelser ‘og’ingen av dem’). For å vurdere forskjellene mellom den rekonstruerte statistikken og de opprinnelige, ble den naturlige skalaen brukt til overlevelsessannsynlighetene, mens loggskalaen ble brukt til medianer, Timer og deres usikkerheter. Kaplan Meier kurver og Cox Timer basert på rekonstruerte data ble estimert ved Hjelp Av r rutiner survfit og coxph.
vi monterte en standard toveis ANOVA med gjentatte tiltak for forskjellene mellom de rekonstruerte utfallene og de opprinnelige utfallene, enten på den naturlige eller loggskalaen, avhengig av statistikken som ble vurdert. Komponentene i variansen var eksemplar, observatør, eksemplar × observatør interaksjon, og innen-celle feil. Fordi p-verdien fra F-ratio-testen for samspillet i alle tilfeller var over 10%, samlet vi interaksjonsbegrepet med innenfor-cellefeilbegrepet. Tilnærmingen valgt er lik det som er referert til i tekniske applikasjoner som ‘måle repeterbarhet og reproduserbarhet’ .
reproduserbarheten representerer feilen hvis en enkelt observatør gjør en enkelt rekonstruksjon for en spesifisert statistikk. Dette ble estimert som summen av innenfor-observatør og mellom-observatør feil. Monte Carlo-simulering fra den monterte ANOVA-modellen ble brukt til å oppnå 95% konfidensintervaller rundt standardavvikene. Graden av frihet for innenfor, mellom og utfallsvariasjonene ble antatt å følge chi-kvadratfordelinger. For å sikre robust slutning ble det trukket 150 000 prøver av frihetsgrader fra hver av disse fordelingene, dvs. for hver variasjonskilde. Deretter ble de gjennomsnittlige kvadrater estimatene beregnet, ved hjelp av summen av kvadrater oppnådd AV ANOVA og prøven oppnådd ved simuleringen, for hver av de 150 000 prøvene og for hver av variasjonskildene. Tilsvarende 150 000 innen -, mellom-og utfallsstandardavvik ble deretter estimert, og vi tok endelig ut 2,5-og 97,5-persentilene for å oppnå konfidensintervallestimatene.
for å vurdere nøyaktigheten undersøkte vi gjennomsnittlig forskjell mellom den rekonstruerte statistikken og de opprinnelige. Den resulterende mean bias, eller mean error (ME) reflekterer systematisk over-eller undervurdering. 95% konfidensintervallene er hentet direkte fra estimeringen av standardavvikene gitt AV ANOVA. Vi har også registrert absolutt bias eller mean absolute error (MAE). Dette ignorerer retningen av feilene og måler størrelsen deres, noe som gir et mål på den absolutte nøyaktigheten av de rekonstruerte utfallene. En simuleringsmetode ble igjen brukt for å oppnå 95% konfidensintervaller, som antok At MEs var normalfordelt. For hver statistikk, for å sikre robust slutning, ble 150 000 prøver trukket fra normalfordelingen med observert gjennomsnitt og varians, som gitt AV ANOVA. Vi beregnet deretter de tilsvarende 150 000 absoluttverdiene av disse tallene, og vi hentet endelig 2,5 og 97,5 prosentilene for å oppnå konfidensintervallestimatene.
Til slutt registrerte vi variasjonen i forskjellen mellom rekonstruert og original statistikk som skyldtes valg av eksempler, dvs. til de 22 overlevelsessannsynlighetene, 7 medianer, 6 Timer og 4 standardfeil i loggtidene. Dette gir en ytterligere indikasjon på nøyaktigheten av metoden.