- metoda de estimare Kaplan-Meier (KM)
- algoritmul de reconstrucție a datelor Kaplan-Meier
- intrări de date necesare
- algoritmul pentru cazul ‘toate informațiile’
- ajustări ale algoritmului pentru cazul ‘fără numere la risc’
- ajustări ale algoritmului pentru cazul ‘fără evenimente totale’
- ajustarea algoritmului pentru ‘niciunul’ caz
- obținerea datelor individuale ale pacientului (DPI) din datele Kaplan-Meier reconstruite
- evaluarea reproductibilității și preciziei
metoda de estimare Kaplan-Meier (KM)
metoda Kaplan-Meier (KM) este utilizată pentru a estima probabilitatea de a experimenta evenimentul până la ora t, SKM(t), din datele individuale ale pacienților obținute dintr-un TCR care este supus cenzurii corecte (în cazul în care unii pacienți sunt pierduți la urmărire sau nu prezintă evenimente la sfârșitul perioadei de studiu). Metoda funcționează prin rezumarea IPD sub forma unei serii de intervale de timp R SKM (t m ) la ora evenimentului t m :
algoritmul de reconstrucție a datelor Kaplan-Meier
intrări de date necesare
primul fișier de date de intrare necesar algoritmului conține coordonatele axei x extrase, t k și coordonatele axei y , S k, pentru k = 1,…, N puncte pe curba KM. Există mai multe pachete software pentru a face acest lucru și am constatat că software-ul digitize (http://www.digitizeit.de/) a funcționat bine. Curbele KM, extrase din a .PDF articol, sunt citite în software-ul, axele sunt definite, iar apoi analistul Foloseste mouse-ul clicuri pentru a selecta puncte pentru a citi de pe curba. Coordonatele t k și s k rezultate sunt apoi exportate într-un fișier text. Această lucrare preliminară trebuie efectuată cu atenție. Datele ar trebui să fie suficiente: fiecare pas văzut în cifre ar fi trebuit să fie capturat în timpul extragerii datelor. Prin urmare, locația și numărul de clicuri sunt importante. Datele ar trebui să fie, de asemenea, consecvente: probabilitatea de a experimenta evenimentul scade cu timpul și trebuie verificat că acest lucru este întotdeauna cazul punctelor de date extrase. Anomalii pot apărea din cauza calității publicării curbei și a erorii umane în controlul clicurilor. Orice anomalii trebuie corectate înainte de a rula algoritmul de mai jos. Orele la care numerele expuse riscului sunt raportate în publicație trebuie incluse în aceste date inițiale. Ca convenție, primul punct de date este T1 = 0 și probabilitatea de a experimenta evenimentul la timpul 0 este, prin urmare, S1 = 1. Fiecare curbă KM este extrasă separat.
al doilea fișier de date de intrare necesar algoritmului conține informații despre numerele raportate la risc. Curba este împărțită în i = 1,.., intervale nint, pentru fiecare avem numărul raportat la risc la începutul intervalului respectiv, nrisk i, momentul în care este furnizat numărul la risc, trisk i , primul rând al coordonatelor extrase pentru acel interval de timp Inferior I și ultimul rând al coordonatelor extrase pentru acel interval de timp superior i . nrisk I și trisk i provin din publicația originală, în timp ce i inferior și superior i provin din numărul de clicuri efectuate pe fiecare interval, pentru a crea primul fișier de date de intrare. Pentru fiecare I, I inferior este egal cu k când T k = trisk i și superior i este egal cu k când Tk + 1 = triski+1.
datele finale de intrare necesare sunt numărul total de evenimente, totevenimente.
începem prin descrierea algoritmului pentru cazul în care numărul de risc este raportat la începutul studiului și cel puțin un alt moment de timp și când este raportat numărul total de evenimente (cazul’toate informațiile’). Vom arăta apoi modul în care algoritmul poate fi adaptat atunci când numărul la risc este raportat doar la începutul studiului (cazul’fără numere la risc’), când numărul total de evenimente nu este raportat (cazul’fără evenimente totale’) și când niciunul dintre acestea nu este raportat (cazul’niciunul’).
algoritmul pentru cazul ‘toate informațiile’
numărul de persoane cenzurate nu este disponibil din datele raportate. Prin urmare, folosim numerele raportate la risc , nrisk i, pentru a aproxima numărul de persoane cenzurate pe fiecare interval de timp I. Nu putem identifica modelul exact de cenzurare în fiecare interval și, prin urmare, suntem obligați să facem o presupunere. Am presupus că cenzurarea are loc la o rată constantă în fiecare dintre intervalele de timp, ceea ce pare rezonabil dacă modelul de cenzurare este neinformativ (fiecare subiect are un timp de cenzurare care este statistic independent de timpul lor de eșec).
algoritmul este alcătuit din următorii pași (ilustrați și în Figura 3).
pasul 1. Formăm mai întâi o presupunere inițială pentru numărul cenzurat pe intervalul i. dacă nu ar exista indivizi cenzurați pe intervalul i, atunci numărul cu risc la începutul intervalului următor, nris k i + 1 n O c E n s O r, ar fi numărul cu risc la începutul intervalului i, înmulțit cu probabilitatea de a experimenta evenimentul la intervalul i condiționat de a fi în viață la începutul intervalului i:
rotunjit la cel mai apropiat număr întreg.
estimarea noastră inițială pentru numărul cenzurat pe intervalul i este diferența dintre numărul raportat la risc la începutul intervalului i + 1, nriski + 1 și numărul la risc fără cenzură:
pasul 2. Distribuim C=1,…,nce n ^ deci r i Cenzor ori, ce n ^ t c, uniform pe intervalul i:
numărul de observații cenzurate între coordonatele km extrase k și k + 1 se găsește prin numărarea numărului de timpi estimați ai cenzorului, ce n ^ T c, care se află între timpul T k și Tk+1:
unde i { c e n ^ t c XV } este un indicator care returnează 1 Dacă ce n ^ T c se află pe interval și 0 altfel.
Pasul 3. Numărul de evenimente, d ^ k, la fiecare coordonată km extrasă, k și, prin urmare , numărul de pacienți cu risc la următoarea coordonată, n ^ k + 1, poate fi apoi calculat. Re-aranjarea Eq. 2, obținem că d ^ k este egal cu numărul de pacienți cu risc la coordonata km extrasă, k, înmulțit cu unul minus probabilitatea de a experimenta evenimentul la coordonata KM extrasă, k, împărțit la centimetrul L A s t ( k ) K M probabilitatea estimată de supraviețuire KM la coordonata anterioară unde estimăm că a avut loc un eveniment, ultimul(k). Intervalele estimărilor KM sunt concepute astfel încât cel puțin un eveniment să aibă loc la începutul fiecărui interval, dar acest lucru nu este neapărat cazul coordonatelor noastre extrase și, prin urmare, trebuie să urmărim ora ultimului eveniment:
unde k’ este astfel încât d ^ k ‘>0
dar d ^ j = 0pentru j = k ‘ + 1,…, k-1
folosind eq.2, avem:
prin urmare:
rotunjit la cel mai apropiat număr întreg.
numărul de pacienți cu risc la fiecare coordonată extrasă, k, este apoi obținut prin utilizarea Eq.1:
unde la începutul intervalului am setat n ^ l O w E r i = nris k i . Acest lucru produce un număr estimat de risc la începutul următorului interval nrquxs k i + 1 = n ^ u p p e r i + 1 .
pasul 4. Dacă NRC-uri k i + 1 NRI-uri k i + 1, atunci se ajustează numărul estimat de observații cenzurate în intervalul i, ncen-uri, cu:
repetăm pașii 2-3 iterativ până când numărul estimat și publicat la meci de risc (adică nrcqus k i + 1 =NRI k i + 1 ).
pasul 5. Dacă i + 1 nu este ultimul interval, repetăm pașii 1-4 pentru următorul interval.
pasul 6. În RCT-urile publicate, în general nu există un număr la risc publicat la sfârșitul ultimului interval, nint. În primul rând, presupunem că numărul cenzurat pe ultimul interval este egal cu numărul total cenzurat estimat anterior ultimului interval , cu rotunjire la cel mai apropiat număr întreg. Dar dacă acest număr a fost văzut ca fiind mai mare decât numărul de pacienți încă expuși riscului la începutul ultimului interval, acest număr la risc a fost ales în schimb. Această presupunere este scrisă formal în ecuația de mai jos:
Și vom rula pas 2-3.
Pasul 7. Apoi folosim numărul total raportat de evenimente, laevenimente. Calculăm numărul total estimat de evenimente obținute până la începutul ultimului interval de timp, XQX = 1 u p p E r N i N t – 1 d ^ k . Dacă acest lucru este mai mare sau egal cu totevenimente presupunem că nu mai are loc evenimente sau cenzură:
etapa 8. În cazul în care K = 1 u p p e r n i n t – 1 d ^ k este mai mic decât totevenimente se reajustează numărul estimat de observații cenzurate în intervalul nint, nce n ^ so r n i n t, prin diferența în numărul total de evenimente:
apoi reluăm pașii 2-3, 8 pentru ultimul interval, nint, până când numărul total estimat de evenimente, xq = 1 u p p e r n i n t – 1 d ^ k , este egal cu numărul total raportat de evenimente, totevenimente sau până când numărul total estimat de evenimente este mai mic decât numărul total raportat de evenimente, dar numărul total de cenzuri din ultimul interval , nce n ^ so r n i n t, devine egal cu zero.
ajustări ale algoritmului pentru cazul ‘fără numere la risc’
în acest caz există un singur interval nint = 1. Mai întâi presupunem că numărul total cenzurat este egal cu zero și apoi procedăm ca la Pasul 8.
ajustări ale algoritmului pentru cazul ‘fără evenimente totale’
în acest caz, procedăm ca în cazul ‘toate informațiile’, cu excepția faptului că nu se poate face nicio reajustare utilizând numărul total de evenimente și, prin urmare, ne oprim la Pasul 6.
ajustarea algoritmului pentru ‘niciunul’ caz
când nu sunt raportate nici numărul total de evenimente, nici numerele cu risc după începerea studiului, am presupus că nu au existat observații cenzurate. Aceasta este o presupunere puternică, dar la fel de puternică ca orice altă presupunere pe care am putea să o facem cu privire la cenzură fără informații suplimentare. Din cauza lipsei de informații, se așteaptă o calitate mai scăzută a rezultatelor.
obținerea datelor individuale ale pacientului (DPI) din datele Kaplan-Meier reconstruite
din parametrii Kaplan-Meier reconstruiți d ^ k , c NK, n ^ k pentru fiecare coordonată km extrasă k = 1,…, N, putem obține IPD care ar genera aceste date. Această ultimă piesă de codificare este de fapt destul de simplă. De fiecare dată când se estimează un eveniment sau o cenzurare, se înregistrează timpul corespunzător, precum și un indicator de eveniment (unul pentru eveniment și zero pentru cenzurare).
evaluarea reproductibilității și preciziei
șase perechi de curbe Kaplan-Meier au fost utilizate în exercițiul de validare. Acestea au fost extrase dintr-un subset de publicații care au făcut parte dintr-o revizuire retrospectivă a metodelor de analiză a timpului de supraviețuire utilizate în evaluările economice . Am efectuat o reconstrucție a douăzeci și două de probabilități de supraviețuire, șapte timpi mediani de supraviețuire, șase rapoarte de pericol și patru erori standard ale Rapoartelor de pericol jurnal care au fost raportate în aceste patru publicații. Fiecare a fost reconstruit de două ori de aceiași trei observatori. Doi dintre cei trei observatori nu au fost implicați în dezvoltarea algoritmului.
reproductibilitatea și acuratețea metodei au fost evaluate pentru fiecare dintre cele 4 niveluri diferite de informații (‘toate informațiile’, ‘niciun număr la risc’, ‘niciun eveniment total’ și ‘niciunul’). Pentru a evalua diferențele dintre Statisticile reconstruite și cele originale, scara naturală a fost utilizată pentru probabilitățile de supraviețuire, în timp ce scara log a fost utilizată pentru medii, ore și incertitudinile acestora. Curbele Kaplan Meier și Cox HRs pe baza datelor reconstruite au fost estimate folosind rutinele r survfit și coxph.
am montat un ANOVA standard bidirecțional cu măsuri repetate pentru diferențele dintre rezultatele reconstruite și rezultatele originale, fie pe scara naturală, fie pe scara jurnalului, în funcție de statistica luată în considerare. Componentele varianței au fost exemplară, observator, interacțiune exemplară cu observator și eroare în interiorul celulei. Deoarece valoarea p din testul raportului F pentru interacțiune a fost în toate cazurile peste 10%, am combinat termenul de interacțiune cu termenul de eroare din interiorul celulei. Abordarea aleasă este similară cu ceea ce se numește în aplicațiile inginerești repetabilitate și reproductibilitate .
reproductibilitatea reprezintă eroarea dacă un singur observator face o singură reconstrucție pentru o statistică specificată. Aceasta a fost estimată ca suma erorii în interiorul observatorului și între observator. Simularea Monte Carlo de la modelul ANOVA montat a fost utilizată pentru a obține intervalele de încredere de 95% în jurul abaterilor standard. Gradele de libertate pentru interior, între și variațiile de rezultat au fost presupuse a urma distribuții chi-pătrat. Pentru a asigura o inferență solidă, au fost extrase 150 000 de eșantioane de grade de libertate din fiecare dintre aceste distribuții, adică pentru fiecare sursă de variație. Apoi, estimările medii ale pătratelor au fost calculate, folosind suma pătratelor obținute de ANOVA și eșantionul obținut prin simulare, pentru fiecare dintre cele 150 000 de probe și pentru fiecare dintre sursele de variație. Cele 150 000 corespunzătoare în cadrul, între și deviațiile standard de rezultat au fost estimate ulterior și am extras în cele din urmă percentilele 2.5 și 97.5 pentru a obține estimările intervalelor de încredere.
pentru a evalua acuratețea, am examinat diferența medie dintre Statisticile reconstruite și cele originale. Părtinirea medie rezultată sau eroarea medie (ME) reflectă supra – sau subestimarea sistematică. Intervalele de încredere de 95% sunt obținute direct din estimarea abaterilor standard date de ANOVA. De asemenea, am înregistrat părtinire absolută sau eroare absolută medie (MAE). Aceasta ignoră direcția erorilor și măsoară amploarea acestora, oferind o măsură a exactității absolute a rezultatelor reconstruite. O metodă de simulare a fost din nou utilizată pentru a obține intervalele de încredere de 95%, ceea ce presupunea că MEs erau distribuite în mod normal. Pentru fiecare statistică, pentru a asigura o inferență robustă, au fost extrase 150 000 de probe din distribuția normală cu media și varianța observate, așa cum este dată de ANOVA. Am calculat apoi valorile absolute corespunzătoare 150 000 ale acestor numere și am extras în cele din urmă percentilele 2.5 și 97.5 pentru a obține estimările intervalelor de încredere.
în cele din urmă am înregistrat variația diferenței dintre Statisticile reconstruite și cele originale care s-a datorat alegerii exemplarelor, adică celor 22 de probabilități de supraviețuire, 7 medii, 6 ore și 4 erori standard ale Jurnalului ore. Aceasta oferă o indicație suplimentară a acurateței metodei.