- Kaplan-Meier (KM)-estimointimenetelmästä
- Kaplan-Meier-datan rekonstruktioalgoritmi
- vaaditut datasyötöt
- algoritmi ”kaikki tiedot” – tapaukselle
- algoritmiin tehtävät mukautukset tapauksessa ”no numbers at risk”
- algoritmiin tehtävät korjaukset tapauksessa ”ei tapahtumia yhteensä”
- algoritmin Mukauttaminen ”nother” – tapaukselle
- yksilöllisten potilastietojen (IPD) saaminen rekonstruoidusta Kaplan-Meier-tiedosta
- uusittavuuden ja tarkkuuden arviointi
Kaplan-Meier (KM)-estimointimenetelmästä
Kaplan-Meier (KM)-menetelmää käytetään arvioimaan tapahtuman todennäköisyys ajankohtaan t asti, SKM(t), yksittäisistä potilastiedoista, jotka on saatu OIKEASENSOROINNIN alaisesta RCT: stä (jossa osa potilaista ei pääse seurantaan tai on tapahtumattomia tutkimusjakson lopussa). Menetelmä toimii tiivistämällä IPD: n muodossa sarjan R aikavälein SKM (t m ) tapahtuma-aikaan t m :
Kaplan-Meier-datan rekonstruktioalgoritmi
vaaditut datasyötöt
ensimmäinen algoritmia varten vaadittu syötetiedosto sisältää uurretut x-akselikoordinaatit, T k , ja y-akselikoordinaatit, S k , kun K = 1,…, N pistettä KM-käyrällä. Tätä varten on olemassa useita ohjelmistopaketteja, ja totesimme, että Digitointiohjelmisto (http://www.digitizeit.de/) toimi hyvin. KM käyrät, uutettu a .pdf-artikkeli, luetaan ohjelmistoon, akselit määritellään, ja sitten analyytikko käyttää hiiren napsautuksella valita pisteitä lukea pois käyrästä. Tuloksena olevat t k-ja S k-koordinaatit viedään sitten tekstitiedostoon. Tämä esityö on tehtävä huolellisesti. Tietojen pitäisi riittää: jokainen luvuissa näkyvä vaihe olisi pitänyt ottaa talteen tiedonhankinnan aikana. Sijainti ja klikkausten määrä ovat siis tärkeitä. Tietojen olisi myös oltava yhdenmukaisia: tapahtuman kokemisen todennäköisyys pienenee ajan myötä, ja on todennettava, että näin on aina poimittujen datapisteiden kohdalla. Poikkeamia voi esiintyä käyrän julkaisulaadun ja inhimillisen virheen vuoksi klikkausten hallinnassa. Mahdolliset poikkeavuudet on korjattava ennen alla olevan algoritmin ajamista. Näihin alkutietoihin on sisällytettävä ajat, jolloin riskiluvut ilmoitetaan julkaisussa. Konventiona ensimmäinen datapiste on T1 = 0 ja todennäköisyys kokea tapahtuma aikaan 0 on siis S1 = 1. Jokainen KM: n kaarre louhitaan erikseen.
algoritmin edellyttämä toinen syöttötietotiedosto sisältää tiedot ilmoitetuista riskiluvuista. Käyrä on jaettu I = 1,.., nint intervallit, jokaisen osalta meillä on ilmoitettu riskiryhmien lukumäärä kyseisen jakson alussa, nrisk i, ajankohta, jolloin riskiryhmien lukumäärä ilmoitetaan, trisk i, poistettujen koordinaattien ensimmäinen rivi kyseiseltä aikaväliltä alempi i ja poistettujen koordinaattien viimeinen rivi kyseiseltä aikaväliltä ylempi I. nrisk i ja trisk I tulevat alkuperäisestä julkaisusta, kun taas alempi i ja ylempi I tulevat napsautusten lukumäärästä, joka tehdään kullakin aikavälillä, jotta voidaan luoda ensimmäinen syötetietotiedosto. Jokaiselle i: lle alempi i on yhtä kuin k, kun T k = trisk i ja ylempi i on yhtä kuin k, kun Tk+1= triski+1.
lopullinen tarvittava tieto on tapahtumien kokonaismäärä, toteventit.
aloitamme kuvaamalla algoritmin sille tapaukselle, jossa riskiluku ilmoitetaan tutkimuksen alussa ja vähintään yhtenä muuna ajankohtana ja milloin tapahtumien kokonaismäärä ilmoitetaan (”kaikki tiedot” – tapaus). Tämän jälkeen osoitamme, miten algoritmia voidaan mukauttaa, kun riskiluku ilmoitetaan vasta tutkimuksen alussa (”no numbers at risk” – tapaus), kun tapahtumien kokonaismäärää ei ilmoiteta (”no total events” – tapaus) ja kun kumpaakaan näistä ei ilmoiteta (”nother” – tapaus).
algoritmi ”kaikki tiedot” – tapaukselle
sensuroitujen henkilöiden lukumäärää ei ole saatavilla raportoiduista tiedoista. Siksi käytämme raportoituja riskilukuja, nrisk i, likimääräistääksemme sensuroitujen henkilöiden määrän kullakin aikavälillä i. Emme voi tunnistaa tarkkaa sensorointimallia kunkin jakson sisällä, joten meidän on pakko tehdä oletus. Olemme olettaneet, että sensurointi tapahtuu tasaisella nopeudella kunkin aikavälein, mikä näyttää kohtuulliselta, jos sensurointi kuvio on ei-informatiivinen (jokainen aihe on sensurointi aika, joka on tilastollisesti riippumaton niiden epäonnistumisajan).
algoritmi koostuu seuraavista vaiheista (esitetty myös kuvassa 3).
Vaihe 1. Jos ei ollut yksilöitä sensuroitu intervalli i sitten numero vaarassa alussa seuraavan intervallin, nris K i + 1 n o C e n s o r, olisi numero vaarassa alussa intervalli i, kerrottuna todennäköisyys kokea tapahtuman intervalli I ehdollinen on elossa alussa intervalli i:
pyöristettynä lähimpään kokonaislukuun.
Meidän ensimmäinen arvaus numero sensuroitu siitä, väli on ero raportoitu useita vaarassa alussa aikaväli i + 1, nriski+1, ja määrä vaarassa missään sensuroidaan:
VAIHE 2. Jaamme c=1,…,em n ^ joten r i sensuroida kertaa, ce n ^ t c , tasaisesti välin olen:
määrä sensuroitu havaintojen välillä uutettu KM-koordinaatit k ja k + 1 on löytynyt laskemalla arvioitu sensuroida kertaa, ce n ^ t c , jotka ovat välillä aika T k Tk+1:
missä i { c e n ^ t c ∈ } on indikaattori, joka palauttaa arvon 1, Jos ce n ^ T c on Väli ja 0 muuten.
Vaihe 3. Tapahtumien lukumäärä (d ^ k) kullakin erotetulla KM-koordinaatilla (K) ja siten riskipotilaiden lukumäärä seuraavassa koordinaatissa (n ^ k + 1) voidaan laskea. Uudelleen järjestäminen Eq. 2, saamme, että D ^ k on yhtä suuri kuin riskipotilaiden lukumäärä poistetussa KM-koordinaatissa, k, kerrottuna yhdellä miinus todennäköisyys kokea tapahtuma poistetussa KM-koordinaatissa, k, jaettuna Ŝ L a S t (k) K M arvioidulla KM-eloonjäämisodennäköisyydellä edellisessä koordinaatissa, jossa arvioimme tapahtuman tapahtuneen, viimeisenä(k). KM-estimaattien intervallit on suunniteltu siten, että jokaisen intervallin alussa tapahtuu vähintään yksi tapahtuma, mutta näin ei välttämättä ole meidän erotettujen koordinaattiemme kohdalla, joten meidän on seurattava viimeisen tapahtuman ajankohtaa:
missä k” on sellainen, että D ^ k ’>0
mutta D ^ j =0for j = k ’ + 1,…, k-1
käyttäen ekv.2, olemme:
siksi:
pyöristettynä lähimpään kokonaislukuun.
riskipotilaiden määrä kussakin erotetussa koordinaatissa, k, saadaan tämän jälkeen Eq: n avulla.1:
jossa väliajan alussa asetamme n ^ l o w e r i =nris k i . Näin saadaan arvioitu riskiluku seuraavan jakson alussa nrîs k i + 1 = n ^ u p p e r i + 1 .
Vaihe 4. Jos nrîs k i + 1 ≠NRIs k i + 1, korjaamme sensuroitujen havaintojen arvioitua määrää intervallissa i, ncenŝor,:
toistamme vaiheet 2-3 iteratiivisesti, kunnes arvioitu ja julkaistu numero riskikopiossa (eli nrîs k i + 1 =nris k i + 1 ).
vaihe 5. Jos i + 1 ei ole viimeinen väli, toistamme vaiheet 1-4 seuraavalle aikavälille.
Vaihe 6. Julkaistuissa Riskiluvuissa ei yleensä ole viimeisen intervallin lopussa julkaistua lukua nint. Oletamme ensin, että viimeisen jakson aikana sensuroitu luku on yhtä suuri kuin edellisen jakson aikana sensuroitu kokonaisluku, ∑ I = 1 n i n t – 1 n c E n ŝ o r i , painotettuna jäljellä olevalla ajalla suhteessa jo kuluneeseen aikaan pyöristettynä lähimpään kokonaislukuun. Mutta jos tämän luvun nähtiin olevan suurempi kuin niiden potilaiden määrä, jotka olivat vielä riskiryhmässä viimeisen välivaiheen alussa, tämä riskiryhmään kuuluva määrä valittiin sen sijaan. Tämä oletus kirjoitetaan muodollisesti seuraavassa yhtälössä:
johdamme vaihetta 2-3.
Vaihe 7. Sitten käytämme raportoitua tapahtumien kokonaismäärää, toteeventteja. Laskemme viimeisen intervallin alkuun mennessä saatujen tapahtumien estimoidun kokonaismäärän, ∑ k = 1 u p p e r n n t-1 d ^ k. Jos tämä on suurempi tai yhtä suuri kuin toteevents oletamme, että ei enää tapahtumia tai sensurointi tapahtuu:
vaihe 8. Jos ∑ k = 1 u p p e r n i n t – 1 d ^ k on pienempi kuin toteeventit, korjaamme uudelleen sensuroitujen havaintojen estimoitua määrää intervallissa nint , nce n ^ so r n i n t, tapahtumien kokonaismäärän erotuksella:
tämän jälkeen suoritamme uudelleen vaiheet 2-3,8 viimeiselle aikavälille, nint, kunnes arvioitu tapahtumien kokonaismäärä, ∑ K = 1 u p p e r n i n t – 1 d ^ k , on yhtä suuri kuin ilmoitettu tapahtumien kokonaismäärä, toteeventit tai kunnes arvioitu tapahtumien kokonaismäärä on pienempi kuin ilmoitettu tapahtumien kokonaismäärä, mutta viimeisen jakson sensuroinnin kokonaismäärä , nce n ^ so r n i n t, tulee olemaan nolla.
algoritmiin tehtävät mukautukset tapauksessa ”no numbers at risk”
tässä tapauksessa on vain yksi väli nint = 1. Me ensin olettaa, että kokonaismäärä sensuroitu on yhtä suuri kuin nolla ja sitten jatkamme kuin vaiheessa 8.
algoritmiin tehtävät korjaukset tapauksessa ”ei tapahtumia yhteensä”
tässä tapauksessa edetään kuten tapauksessa ”kaikki tiedot”, paitsi että uudelleensäätöä tapahtumien kokonaismäärää käyttäen ei voida tehdä, ja siksi pysähdymme vaiheeseen 6.
algoritmin Mukauttaminen ”nother” – tapaukselle
kun ei raportoida tutkimuksen alun jälkeisten tapahtumien kokonaismäärää eikä riskilukuja, oletimme, että sensuroituja havaintoja ei ollut. Tämä on vahva oletus, mutta yhtä vahva kuin mikä tahansa muu olettamus, jonka voisimme tehdä sensuroinnista ilman lisätietoja. Puutteellisen tiedon vuoksi tulosten laadun odotetaan heikkenevän.
yksilöllisten potilastietojen (IPD) saaminen rekonstruoidusta Kaplan-Meier-tiedosta
rekonstruoidusta Kaplan-Meier-parametreista d ^ k ,cê n k , n ^ k jokaiselle uutetulle KM-koordinaatistolle k = 1,… Voimme johtaa IPD: n, joka tuottaisi tuon datan. Tämä viimeinen koodaus on itse asiassa melko yksinkertaista. Joka kerta, kun tapahtuma tai sensurointi arvioidaan, sitä vastaava aika kirjataan sekä tapahtuma-indikaattori (yksi tapahtuma ja nolla sensurointiin).
uusittavuuden ja tarkkuuden arviointi
validoinnissa käytettiin kuutta paria Kaplan-Meier-käyriä. Nämä tiedot on poimittu julkaisujen osajoukosta, joka oli osa taloudellisissa arvioinneissa käytettyjen selviytymisajan analyysimenetelmien katsausta taaksepäin . Teimme rekonstruktion kahdestakymmenestäkahdesta eloonjäämismahdollisuudesta, seitsemästä mediaanisesta eloonjäämisajasta, kuudesta vaarasuhteesta ja neljästä keskivirheestä login vaarasuhteista, jotka raportoitiin näissä neljässä julkaisussa. Samat kolme tarkkailijaa rekonstruoivat ne kahteen otteeseen. Kaksi kolmesta tarkkailijasta ei osallistunut algoritmin kehittämiseen.
menetelmän toistettavuus ja tarkkuus arvioitiin kaikilla neljällä eri tietotasolla (”kaikki tiedot”, ”ei riskilukuja”, ”ei kokonaistapahtumia” ja ”ei kumpaakaan”). Rekonstruoitujen ja alkuperäisten tilastojen eroavaisuuksien arvioinnissa käytettiin luonnollista asteikkoa selviytymistodennäköisyyksille, kun taas log-asteikkoa käytettiin mediaaneille, HRs: ille ja niiden epävarmuuksille. Rekonstruoituihin tietoihin perustuvat Kaplan Meier-käyrät ja Cox HRs-käyrät estimoitiin R-rutiineja survfit ja coxph käyttäen.
sovitimme standardin kaksisuuntaisen anovan, jossa toistettiin rekonstruoitujen tulosten ja alkuperäisten tulosten välisiä eroja joko luonnollisella tai log-asteikolla riippuen tarkasteltavasta tilastosta. Varianssin komponentit olivat exemplar, observer, exemplar × observer interaction ja within-cell error. Koska vuorovaikutuksen F-suhdetestin p-arvo oli kaikissa tapauksissa yli 10%, yhdistimme interaktiotermin solun sisäisen virhetermin kanssa. Valittu lähestymistapa on samankaltainen kuin mitä kutsutaan teknisissä sovelluksissa ”ulottuman toistettavuudeksi ja uusittavuudeksi”.
toistettavuus tarkoittaa virhettä, jos yksi tarkkailija tekee yhden rekonstruktion tietystä tilastosta. Tämä arvioitiin havaitsijan sisäisen ja havaitsijan välisen virheen summana. Asennetun ANOVA-mallin Monte Carlo-simulaatiolla saatiin 95%: n luottamusväli keskihajontojen ympärille. Vapausasteiden sisäiselle, väliselle ja lopputuloksen vaihtelulle oletettiin seuraavan chi-neliöjakaumaa. Pitävän päättelyn varmistamiseksi jokaisesta näistä jakaumista, eli jokaisesta variaatiolähteestä, otettiin 150 000 vapausasteenäytettä. Tämän jälkeen laskettiin keskimääräiset neliöarviot käyttäen anovan ja simulaatiolla saadun näytteen ruutujen summaa kullekin 150 000 näytteelle ja kullekin variaatiolähteelle. Vastaavat 150 000 sisällä, välillä ja tulos standardipoikkeamat arvioitiin myöhemmin ja lopulta poimimme 2,5 ja 97,5 prosenttipisteet saadaksemme luottamusväliarviot.
tarkkuuden arvioimiseksi tarkastelimme rekonstruoitujen ja alkuperäisten tilastojen keskimääräistä eroa. Tuloksena oleva keskiharha eli keskivirhe (Me) kertoo systemaattisesta yli-tai aliarvioinnista. 95 prosentin luottamusväli saadaan suoraan anovan antamien keskihajontojen estimoinnista. Tallennimme myös absoluuttisen bias-eli absoluuttisen virheen (Mae). Tämä ei huomioi virheiden suuntaa ja mittaa niiden suuruutta, jolloin mitataan rekonstruoitujen tulosten absoluuttista tarkkuutta. 95 prosentin luottamusvälin saavuttamiseksi käytettiin jälleen simulaatiomenetelmää, jossa oletettiin, että markkinatalouskohtelu jakautuu normaalisti. Jotta varmistettaisiin luotettava päätelmä, jokaisesta tilastotiedosta otettiin 150 000 näytettä NORMAALIJAKAUMASTA havaitulla keskiarvolla ja varianssilla, kuten ANOVA antaa. Laskimme sitten näiden lukujen vastaavat 150 000 itseisarvoa ja lopulta poimimme 2,5-ja 97,5-prosenttipisteet saadaksemme luottamusväliarviot.
lopulta kirjasimme rekonstruoidun ja alkuperäisen tilaston eron vaihtelun, joka johtui esimerkkivalinnoista eli log HRs: n 22 eloonjäämismahdollisuudesta, 7 mediaanista, 6 tunnin todennäköisyydestä ja 4 keskivirheestä. Tämä antaa viitteitä menetelmän tarkkuudesta.