- a Kaplan-Meier (KM) becslési módszer
- a Kaplan-Meier adatrekonstrukciós algoritmus
- adatbevitel szükséges
- az ‘összes információ’ eset algoritmusa
- az algoritmus kiigazítása a ‘no numbers at risk’ esethez
- a ‘Nincs összes esemény’ eset algoritmusának kiigazítása
- a ‘None’ eset algoritmusának kiigazítása
- az egyéni betegadatok (IPD) megszerzése a rekonstruált Kaplan-Meier adatokból
- reprodukálhatóság és pontosság értékelése
a Kaplan-Meier (KM) becslési módszer
a Kaplan-Meier (KM) módszert arra használják, hogy megbecsüljék az esemény bekövetkezésének valószínűségét a t időig, SKM(t), egy RCT-től kapott egyedi betegadatokból, amelyeket jobbra cenzúráztak (ahol néhány beteg elveszett a követés során, vagy eseménymentesek a vizsgálati időszak végén). A módszer úgy működik, hogy összefoglalja az IPD-T sorozat formájában r időintervallumok SKM (t m ) eseményidőben t m :
a Kaplan-Meier adatrekonstrukciós algoritmus
adatbevitel szükséges
az algoritmushoz szükséges első bemeneti adatfájl tartalmazza a kibontott x-tengely koordinátákat, T kés y-tengely koordináták , S k, K = 1,…, N pont a KM görbén. Számos szoftvercsomag létezik erre, és azt találtuk, hogy a digitizeit (http://www.digitizeit.de/) szoftver jól teljesített. A KM görbék, kivont a .pdf cikket, olvassa be a szoftver, a tengelyek vannak meghatározva, majd az elemző használ egérkattintással válassza ki a pontokat, hogy olvassa le a görbe. A kapott t k és S K koordinátákat ezután egy szöveges fájlba exportáljuk. Ezt az előzetes munkát gondosan kell elvégezni. Az adatoknak elegendőnek kell lenniük: az adatok kinyerése során az ábrákon látható minden lépést meg kellett volna ragadni. Ezért fontos a hely és a kattintások száma. Az adatoknak következetesnek kell lenniük: az esemény megtapasztalásának valószínűsége az idő múlásával csökken, és ellenőrizni kell, hogy ez mindig így van-e a kinyert adatpontok esetében. Anomáliák fordulhatnak elő a görbe publikációs minősége, valamint a kattintások ellenőrzésének emberi hibája miatt. Az alábbi algoritmus futtatása előtt minden rendellenességet ki kell javítani. A kezdeti adatokba bele kell foglalni azokat az időpontokat, amikor a veszélyeztetett számokat a kiadványban jelentik. Konvencióként az első adatpont T1 = 0, ezért az esemény 0-ig való megtapasztalásának valószínűsége S1 = 1. Minden KM-görbét külön-külön extrahálunk.
az algoritmushoz szükséges második bemeneti adatfájl információkat tartalmaz a jelentett veszélyeztetett számokról. A görbe van osztva i = 1,.., nullint intervallumok, mindegyikhez megvan a bejelentett veszélyeztetett szám az adott intervallum kezdetén, nrisk i , az az idő, amikor a veszélyeztetett számot megadják , trisk i , a kivont koordináták első sorszáma az adott időintervallumra alsó i, és a kivont koordináták utolsó sorszáma az adott időintervallumra felső I . az nrisk i és a trisk az eredeti kiadványból származik, míg az alsó i és a felső az egyes intervallumokon végzett kattintások számából származik az első bemeneti adatfájl létrehozásához. Minden I esetében az alsó I egyenlő k – val, ha T k = trisk i, a felső I pedig K-val, ha Tk+1= triski+1.
a szükséges végső bemeneti adatok az események teljes száma, totevents.
azzal kezdjük, hogy leírjuk annak az esetnek az algoritmusát, amikor a veszélyeztetett számot a vizsgálat kezdetén és legalább egy másik időpontban jelentik, és amikor az események teljes számát jelentik (‘minden információ’ eset). Ezután megmutatjuk, hogyan lehet az algoritmust adaptálni, amikor a veszélyeztetett számot csak a vizsgálat elején jelentik (‘nincs veszélyeztetett szám’ eset), amikor az események teljes számát nem jelentik (‘nincs összes esemény’ eset), és amikor ezek egyikét sem jelentik (‘egyik sem’ eset).
az ‘összes információ’ eset algoritmusa
a cenzúrázott egyének száma nem áll rendelkezésre a jelentett adatokból. Ezért a jelentett veszélyeztetett számokat használjuk , nrisk i, közelíteni a cenzúrázott egyének számát minden egyes időintervallumban i. Nem tudjuk azonosítani a pontos cenzúrázási mintát minden intervallumon belül, ezért kénytelenek vagyunk feltételezni. Feltételeztük, hogy a cenzúra állandó sebességgel történik az egyes időintervallumokon belül, ami ésszerűnek tűnik, ha a cenzúrázási minta nem informatív (minden alanynak van egy cenzúrázási ideje, amely statisztikailag független a kudarc idejétől).
az algoritmus a következő lépésekből áll (a 3.ábrán is látható).
1. lépés. Ha nem lennének cenzúrázott egyének az I intervallumon, akkor a veszélyeztetett szám a következő intervallum elején, nris k i + 1 n o c E n s o r, az I intervallum elején veszélyeztetett szám lenne, szorozva az I intervallum eseményének megtapasztalásának valószínűségével, feltéve, hogy az I intervallum elején életben van:
a legközelebbi egész számra kerekítve.
A kezdeti hiszem a szám cenzúrázott az intervallum csak a különbség az, hogy a jelentett számot kockázat elején intervallum i + 1, nriski+1, valamint a számos veszélyeztetett alatt nem cenzúráz:
2. LÉPÉS. Elosztjuk a c=1,…,nce n ^ so r i cenzúrázási idők, ce n ^ t c , egyenletesen az I intervallum alatt:
a K és k + 1 km koordináták közötti cenzúrázott megfigyelések számát A t k és Tk+1 közötti becsült cenzúraidők (ce n ^ t c) számának megszámlálásával állapíthatjuk meg:
ahol i { c E N ^ t C} egy mutató, amely 1-et ad vissza, ha ce n ^ t c az intervallumon fekszik, egyébként 0.
3.lépés. Ezután kiszámítható az események száma, d ^ k , minden kivont KM-koordinátuson, k, és így a következő koordinátuson veszélyeztetett betegek száma, n ^ k + 1. Az Eq Újrarendezése. 2, megkapjuk, hogy d ^ k egyenlő a veszélyeztetett betegek számával a kivont KM-koordinátán, k, szorozva egy mínusz az esemény megtapasztalásának valószínűsége a kivont KM-koordinátán, k, osztva 6 L A s t ( k ) K M a becsült KM túlélési valószínűség az előző koordinátán, ahol becslésünk szerint egy esemény történt, utolsó(k). A KM-becslések intervallumait úgy tervezték, hogy minden intervallum elején legalább egy esemény bekövetkezzen, de ez nem feltétlenül igaz a kivont koordinátáinkra, ezért nyomon kell követnünk az utolsó esemény idejét:
ahol k’ olyan, hogy d ^ k ‘>0
de d ^ j =0j = k’ + 1,…, k-1
az eq használatával.2, van:
ezért:
a legközelebbi egész számra kerekítve.
az egyes kivont k koordinátáknál veszélyeztetett betegek számát ezután EQ alkalmazásával kapjuk meg.1:
ahol az intervallum elején n ^ l O w e r I =nris k i értéket állítunk be . Ez a következő intervallum kezdetén egy becsült kockázatnak kitett számot eredményez nr ++ k i + 1 = n ^ u p p e r i + 1 .
4.lépés. Ha nr KB k i + 1 KB NRIs k i + 1, akkor újra beállítjuk a cenzúrázott megfigyelések becsült számát az I intervallumban, ncen++, által:
a 2-3. lépést iteratív módon ismételjük, amíg a becsült és közzétett kockázatnak kitett szám meg nem egyezik (pl. nr ons k i + 1 =nris k i + 1 ).
5.lépés. Ha az i + 1 nem az utolsó intervallum, megismételjük az 1-4.
6.lépés. A közzétett RCT-kben általában nincs veszélyeztetett szám, amelyet az utolsó intervallum végén tettek közzé, nint. Először azt feltételezzük, hogy az utolsó intervallumon cenzúrázott szám megegyezik az utolsó intervallum előtt becsült összes cenzúrázott számmal , i = 1 n i n t – 1 n c e N O R I, súlyozva a hátralévő idővel a már eltelt időhöz viszonyítva, a legközelebbi egész számra kerekítve. De ha ez a szám nagyobbnak bizonyult, mint az utolsó intervallum elején még mindig veszélyeztetett betegek száma, akkor ezt a veszélyeztetett számot választották. Ezt a feltételezést formálisan az alábbi egyenlet írja:
és a 2-3. lépést hajtjuk végre.
7.lépés. Ezután a jelentett események teljes számát használjuk, totevents. Kiszámítjuk az utolsó intervallum kezdetéig kapott események becsült teljes számát, kb = 1 u p p e r n i n t-1 d ^ k . Ha ez nagyobb vagy egyenlő a totevents-szel, feltételezzük, hogy nincs több esemény vagy cenzúra:
8.lépés. Ha k = 1 u p p e r n i n t-1 d ^ k kisebb, mint a totevents, akkor a cenzúrázott megfigyelések becsült számát nullint intervallumban módosítjuk, nce n ^ tehát r n i n t, az események teljes számának különbségével:
ezután újra futtatjuk a 2-3, 8 lépéseket az utolsó intervallumra, nullára, amíg az események becsült teljes száma, kb k = 1 u p p e r n i n t – 1 d ^ k, megegyezik a jelentett események teljes számával, totevents vagy amíg az események becsült teljes száma kevesebb, mint a jelentett események teljes száma, de az utolsó intervallum cenzúrázásának teljes száma , nce n ^ tehát r n i n t, nulla lesz.
az algoritmus kiigazítása a ‘no numbers at risk’ esethez
ebben az esetben csak egy intervallum van nulla = 1. Először feltételezzük, hogy a cenzúrázott teljes szám nulla, majd a 8.lépésben folytatjuk.
a ‘Nincs összes esemény’ eset algoritmusának kiigazítása
ebben az esetben az ‘összes információ’ esethez hasonlóan járunk el, azzal a különbséggel, hogy az események teljes számát nem lehet újra beállítani, ezért a 6.lépésnél megállunk.
a ‘None’ eset algoritmusának kiigazítása
amikor sem a teljes események számát, sem a kockázatnak kitett számokat nem jelentették be a vizsgálat kezdete után, feltételeztük, hogy nincsenek cenzúrázott megfigyelések. Ez egy erős feltételezés, de olyan erős, mint bármely más feltételezés, amelyet további információk nélkül megtehetnénk a cenzúrázásról. Az információhiány miatt az eredmények alacsonyabb minősége várható.
az egyéni betegadatok (IPD) megszerzése a rekonstruált Kaplan-Meier adatokból
rekonstruált Kaplan-Meier paramétereinkből d ^ k, C kb n k, n ^ k minden kinyert KM-re k = 1 koordináta,…, N, levezethetjük azt az IPD-t, amely előállítaná ezeket az adatokat. Ez az utolsó darab kódolás valójában meglehetősen egyszerű. Minden alkalommal, amikor egy eseményt vagy cenzúrát becsülnek meg, a megfelelő időt rögzítik, valamint egy eseményjelzőt (egyet az eseményre, a nullát pedig a cenzúrára).
reprodukálhatóság és pontosság értékelése
hat pár Kaplan-Meier görbét használtunk a validálási gyakorlatban. Ezeket a publikációk egy részhalmazából vonták le, amelyek a gazdasági értékelésekben alkalmazott túlélési idő elemzési módszerek visszatekintő áttekintésének részét képezték . Huszonkét túlélési valószínűséget, hét medián túlélési időt, hat relatív hazárdot és négy standard hibát rekonstruáltunk a log relatív hazárdokban, amelyekről ebben a négy publikációban számoltak be. Mindegyiket két alkalommal rekonstruálta ugyanaz a három megfigyelő. A három megfigyelő közül kettő nem vett részt az algoritmus kidolgozásában.
a módszer reprodukálhatóságát és pontosságát az információ mind a 4 különböző szintjén értékelték (‘minden információ’, ‘nincs veszélyeztetett szám’, ‘nincs összes esemény’ és ‘egyik sem’). A rekonstruált statisztikák és az eredetiek közötti különbségek felméréséhez a természetes skálát használták a túlélési valószínűségekhez,míg a log skálát a mediánok, a HR-ek és azok bizonytalanságaihoz. A rekonstruált adatok alapján a Kaplan Meier görbéket és a Cox HR-eket a survfit és a coxph r rutinok segítségével becsülték meg.
standard kétirányú ANOVA-t szereltünk fel ismételt mérésekkel a rekonstruált eredmények és az eredeti eredmények közötti különbségekre, akár a természetes, akár a log skálán, a figyelembe vett statisztikától függően. A variancia-összetevők voltak mintával, megfigyelő, mintával × megfigyelő kölcsönhatás belül-sejt hiba. Mivel az interakcióra vonatkozó F-Arány teszt p-értéke minden esetben meghaladta a 10%-ot, az interakció kifejezést összevontuk a sejten belüli hiba kifejezéssel. A választott megközelítés hasonló ahhoz, amit a mérnöki alkalmazásokban ‘nyomtáv ismételhetőségének és reprodukálhatóságának’ neveznek .
a reprodukálhatóság a hibát jelenti, ha egyetlen megfigyelő egyetlen rekonstrukciót végez egy meghatározott statisztikához. Ezt a megfigyelőn belüli és a megfigyelőn belüli hiba összegeként becsülték meg. Monte Carlo szimuláció a felszerelt ANOVA modellből használtuk a 95% – os konfidencia intervallumok a szórások körül. A belső szabadság fokai, feltételeztük, hogy az eredményváltozások követik a khi-négyzet eloszlásokat. A szilárd következtetés biztosítása érdekében ezen eloszlások mindegyikéből 150 000 mintát vettek a szabadságfokokból, azaz minden variációs forráshoz. Ezután kiszámították az átlagos négyzetbecsléseket az ANOVA és a szimuláció során kapott minta négyzetösszegének felhasználásával a 150 000 minta mindegyikére és az egyes variációs forrásokra. A megfelelő 150 000 belül, között és eredmény szórást később becsültük, és végül kivontuk a 2,5 és 97,5 percentiliseket, hogy megkapjuk a konfidencia intervallumok becslését.
a pontosság értékeléséhez megvizsgáltuk a rekonstruált statisztikák és az eredetiek közötti átlagos különbséget. Az ebből eredő átlagos torzítás vagy átlagos hiba (ME) szisztematikus túl – vagy alulbecslést tükröz. A 95% – os konfidencia intervallumokat közvetlenül az ANOVA által megadott szórások becsléséből kapjuk. Abszolút elfogultságot vagy átlagos abszolút hibát (Mae) is rögzítettünk. Ez figyelmen kívül hagyja a hibák irányát és méri azok nagyságát, megadva a rekonstruált eredmények abszolút pontosságát. A 95% – os konfidencia intervallumok megszerzéséhez ismét szimulációs módszert alkalmaztunk, amely feltételezte, hogy az MEs normálisan eloszlik. A szilárd következtetés biztosítása érdekében minden egyes statisztikához 150 000 mintát vettünk a normál eloszlásból a megfigyelt átlaggal és varianciával, az ANOVA szerint. Ezután kiszámítottuk ezeknek a számoknak a megfelelő 150 000 abszolút értékét, és végül kivontuk a 2,5 és 97,5 százalékos értékeket, hogy megkapjuk a konfidencia intervallumok becslését.
végül feljegyeztük a rekonstruált és az eredeti statisztikák közötti különbség változását, amely a példaválasztásnak, azaz a log óra 22 túlélési valószínűségének, 7 mediánjának, 6 órájának és 4 standard hibájának köszönhető. Ez további jelzést ad a módszer pontosságáról.