Enhanced secondary analysis of survival data: reconstruindo os dados publicados de Kaplan-Meier curvas de sobrevida

A turbina de Kaplan-Meier (KM) método de estimativa

A turbina de Kaplan-Meier (KM) método é utilizado para estimar a probabilidade de experimentar o evento até o tempo t, SKM(t), a partir de dados de pacientes individuais obtidos a partir de um RCT, que está sujeito a direito-censura (onde alguns pacientes são perdidos para follow-up, está livre de eventos no final do período de estudo). O método consiste em resumir o DPI sob a forma de uma série de intervalos de tempo R SKM (t m ) no momento do evento t m :

S K M ( t m ) = ∏ j = 1 m n j – d j n j = S K M ( t m – 1 ) * n m – d m n m m = 1 , 2 , … , r
(2)

A turbina de Kaplan-Meier reconstrução de dados algoritmo

Dados de insumos necessários

O primeiro arquivo de dados de entrada necessários para o algoritmo contém os extraídos x-eixo de coordenadas, T k e y-eixo de coordenadas, S k , para k = 1,…, N pontos na curva KM. Vários pacotes de software existem para fazer isso, e descobrimos que o software DigitizeIt (http://www.digitizeit.de/) teve um bom desempenho. As curvas KM, extraídas de A.artigo pdf, são lidos no software, os eixos são definidos, e então o analista usa mouse-cliques para selecionar pontos para ler a partir da curva. As coordenadas T k E S k resultantes são então exportadas para um ficheiro de texto. Este trabalho preliminar precisa ser realizado com cuidado. Os dados devem ser suficientes: cada passo visto nos números deve ter sido capturado durante a extração de dados. A localização e o número de cliques são, portanto, importantes. Os dados devem também ser coerentes: a probabilidade de experimentar o evento diminui com o tempo, e deve-se verificar que este é sempre o caso dos pontos de dados extraídos. Anomalias podem ocorrer devido à qualidade de publicação da curva, e erro humano no controle dos cliques. Quaisquer anomalias devem ser corrigidas antes de executar o algoritmo abaixo. Os tempos em que os números de risco são comunicados na publicação devem ser incluídos nestes dados iniciais. Como uma convenção, o primeiro ponto de dados é T1 = 0 e a probabilidade de experimentar o evento até o tempo 0 é, portanto, S1 = 1. Cada curva de KM é extraída separadamente.

o segundo ficheiro de dados de entrada necessário para o algoritmo contém informação sobre os números de risco reportados. A curva é dividida em i = 1,.., nint intervalos, para cada um de nós tem o número relatado em risco no início do intervalo, nrisk eu , o tempo em que o número está em risco desde que, trisk i , o primeiro número de linha do extraídas as coordenadas para que intervalo de tempo menor do que eu , e o último número de linha da extraídos coordenadas para que intervalo de tempo superior eu . nrisk I e trisk i vêm da publicação original, enquanto inferior I e superior I vêm do número de cliques feitos em cada intervalo, a fim de criar o primeiro arquivo de dados de entrada. Para cada i, O I inferior é igual a k quando T k = trisk I e o I superior é igual a k quando Tk+1= triski+1.

os dados de entrada finais necessários são o número total de eventos, totoventes.

começamos por descrever o algoritmo para o caso em que o número em risco é reportado no início do estudo e pelo menos outro ponto temporal e quando o número total de Eventos é reportado (caso “toda a informação”). Nós, então, mostrar como o algoritmo pode ser adaptado quando o número em risco somente é relatado no início do estudo (‘não há números em risco caso), quando o número total de eventos não é relatada (‘nenhuma total de eventos’ caso), e quando nenhum destes são reportados como (“nem’ caso).

the algorithm for the’ all information ‘ case

The number of censored individuals is not available from the reported data. Por isso, usamos os números relatados em risco, nrisk i, para aproximar o número de indivíduos censurados em cada intervalo de tempo I. Não podemos identificar o padrão exato de censuração dentro de cada intervalo, e assim somos forçados a fazer uma suposição. Assumimos que a censura ocorre a uma taxa constante dentro de cada um dos intervalos de tempo, o que parece razoável se o padrão de censura é não-informativo (cada sujeito tem um tempo de censura que é estatisticamente independente de seu tempo de falha).

o algoritmo é composto pelos seguintes passos (também ilustrado na Figura 3).

Figura 3
figueiraura3

Fluxograma do algoritmo (“toda a informação de’ caso).

PASSO 1. Primeiro forma uma estimativa inicial para o número censurado no intervalo i. Se não houvesse indivíduos censurados no intervalo e, em seguida, o número em risco no início do seguinte intervalo, inr k i + 1 n a s c e n s o r , gostaria de ser o número em risco no início do intervalo i, multiplicado pela probabilidade de experimentar o evento no intervalo i subordinado à condição de ser vivo, no início do intervalo eu:

n r i s k i + 1 n a s c e n s o r = n r i s k i * S l o w e r i + 1 / S l o w e r i

arredondado para o número inteiro mais próximo.

Nossa estimativa inicial para o número censurado no intervalo i é a diferença entre o número relatado em risco no início do intervalo i + 1, nriski+1, e o número de risco sob nenhuma censura:

n c e n ^ s o r i = n r i s k i + 1 n a s c e n s o r a – n r i s k i + 1 n c e n ^ s o r i = S l o w e r i + 1 / S l o w e r i o r * n o r i a s k i n r i s k i + 1
(3)

PASSO 2. Nós distribuímos o c=1,…,nce n ^ então r i censurar vezes, ce n ^ t c , uniformemente ao longo do intervalo eu:

c e n ^ t c = T l o w e r i + c * ( T l o w e r (i + 1 – T n a n c e i r ) / ( n c e n ^ s o r i + 1 ) c = 1 , … , n c e n ^ s o r i
(4)

O número de observações censuradas entre extraídos KM coordena o k e k + 1 é encontrado através da contagem do número estimado de censurar vezes, ce n ^ t c , que se encontram entre o tempo T e k, Tk+1:

c ê n k = ∑ c = 1 n c e n ^ s ó r i c e n ^ t c * I { c e n ^ t c ∈ } )
(5)

onde eu { c e n ^ t c ∈ } é um indicador de retornar 1 se o ce n ^ t c está no intervalo e 0 caso contrário.

Passo 3. O número de eventos, d ^ k , a cada KM de coordenadas extraídas, k, e, portanto , o número de pacientes em risco na próxima coordenada, n ^ k + 1, pode então ser calculado. Rearranjar QEQ. 2, obtemos que d ^ k é igual ao número de pacientes em risco a extraídos KM coordenar, k, multiplicado por um menos a probabilidade de experimentar o evento no extraídos KM coordenar, k, dividido por Ŝ l a e s t ( k ) K M o estimado KM probabilidade de sobrevivência no anterior coordenar, onde estima-se que um evento ocorreu, por último(k). Os intervalos de estimativas de KM são projetados para ser tal que pelo menos um evento ocorre no início de cada intervalo, mas este não é necessariamente o caso para as nossas coordenadas extraídas, e por isso precisamos rastrear a hora do último evento:

l a e s t ( k ) = 1 i f k = 1 k ‘o u t r o p o l i s e

onde k’ é tal que d ^ k ‘>0

mas d ^ j =0for j = k’ + 1,…, k – 1

usando eq.2, temos:

Ŝ k K M = 1 i f k = 1 Ŝ l a e s t ( k ) K M * ( 1 – d ^ k n ^ k ) o u t r o p o l i s e

Portanto,:

d ^ k = n ^ k * ( 1 – S k Ŝ l a e s t ( k ) K M ) k = l o w e r i o r , … , u p e r i
(6)

arredondado para o número inteiro mais próximo.

o número de doentes em risco em cada coordenada extraída, k, é então obtido utilizando Eq.1:

n ^ k + 1 = n ^ k – d ^ k – c ê n k k = l o w e r i o r , … , u p e r i
(7)

onde no início do intervalo, temos um conjunto de n ^ l o w e r i =inr k eu . Este facto produz um número estimado em risco no início do intervalo seguinte nrîs k i + 1 = n ^ u p e r i + 1 .

Passo 4. Se nrîs k i + 1 ≠nris k i + 1, então reajustamos o número estimado de observações censuradas no intervalo I, ncenŝor, por:

n c e n ŝ ó r i = n c e n ^ s o r i + ( n ^ u p p e r i + 1 – n r i s k i + 1 )
(8)

Nós repita os passos 2-3 iterativamente até estimada e número publicado em risco de correspondência (i.e. nrîs k i + 1 =inr k i + 1 ).

Passo 5. Se i + 1 não é o último intervalo, repetimos os passos 1-4 para o seguinte intervalo.

Passo 6. Nos RCTs publicados, não existe geralmente nenhum número em risco publicado no final do último intervalo, nint. Vamos primeiro supor que o número censurado no último intervalo é igual ao número total censurado estimado antes do último intervalo, ∑ i = 1 n i n t – 1 n c e n ŝ ó r i , ponderadas pelo tempo restante relativo ao tempo já decorrido, arredondado para o número inteiro mais próximo. Mas se este número foi visto como maior do que o número de pacientes ainda em risco no início do último intervalo, este número em risco foi escolhido em vez disso. Esta suposição é formalmente escrita na equação abaixo:

n c e n ^ s o r n i n t = min (t u p e r n i n t – T L O w e r n i n t u p e r n i n t – 1 – T L O w E R 1 * ∑ i = 1 n i n t – 1 N C e n ^ s o r i ; n r i s k n i n t )

e corremos o passo 2-3.

Passo 7. Nós então usamos o número total de eventos relatados, totevents. Calculamos o número total estimado de eventos obtidos no início do último intervalo, ∑ k = 1 u p p e r n i n t – 1 D ^ K. Se isto é maior ou igual a totevents nós assumimos que não ocorrem mais eventos ou censuras:

d ^ k = 0 , c ê n k = 0 , n ^ k = n u p e r n i n t – 1 k = L O w e r n i n t , … , u p e r n i n t

STEP 8. Se ∑ k = 1 u p p e r n i n t – 1 d ^ k é inferior aos totoventes, reajustamos o número estimado de observações censuradas no intervalo nint , nce n ^ so r n i n t, pela diferença no número total de eventos:

n c e n ^ s ó r i o n i n t = n c e n ^ s ó r i o n i n t + ( ∑ k = 1 u p p e r n a i n t e d ^ k – t o t e v e n t o s )
(9)

Nós, em seguida, volte a executar os passos 2-3,8 para o último intervalo, nint, até que o número total estimado de eventos, ∑ k = 1 u p p e r n a i n t – 1 d ^ k , é igual ao relatado número total de eventos, totevents ou até que o número total estimado de eventos é menor do que o relatado número total de eventos, mas o número total de censura no último intervalo, nce n ^ então r o n i a n t o , torna-se igual a zero.

ajustamentos ao algoritmo para o caso “no numbers at risk”

neste caso há apenas um intervalo nint = 1. Primeiro assumimos que o número total censurado é igual a zero e depois procedemos como no Passo 8.

ajustamentos ao algoritmo para o caso “no total events”

neste caso, procedemos como para o caso “toda a informação”, exceto que nenhum re-ajuste usando o número total de eventos Pode ser feito e, portanto, parar na Etapa 6.

Ajuste ao algoritmo para o ‘nem’ caso

Quando nem o número total de eventos, nem números em risco, além do início do estudo, partimos do pressuposto de que não houve observações censuradas. Esta é uma forte suposição, mas tão forte quanto qualquer outra suposição que poderíamos fazer sobre a censura sem mais informações. Devido à falta de informação, espera-se uma menor qualidade de resultados.

Obtaining the individual patient data (IPD) from the reconstructed Kaplan-Meier data

From our reconstructed Kaplan-Meier parameters d ^ k ,cê n k , n ^ k for each extracted KM co-ordinate k = 1,…, N, Nós podemos derivar o IPD que geraria esses dados. Esta última peça de codificação é, de facto, bastante simples. Cada vez, que um evento ou um censor é estimado, o tempo correspondente é registrado, bem como um indicador de evento (um para evento e zero para censurar).

avaliação da reprodutibilidade e precisão

seis pares de curvas Kaplan-Meier foram utilizados no exercício de validação. Estes foram extraídos de um subconjunto de publicações que faziam parte de uma revisão retrospectiva dos métodos de análise do tempo de sobrevivência utilizados nas avaliações económicas . Realizamos uma reconstrução de vinte e duas probabilidades de sobrevivência, sete tempos de sobrevivência medianos, seis rácios de perigo e quatro erros padrão das razões de risco log que foram relatados nestas quatro publicações. Cada um foi reconstruído em duas ocasiões pelos mesmos três observadores. Dois dos três observadores não estavam envolvidos no desenvolvimento do algoritmo.A reprodutibilidade e a precisão do método foram avaliadas para cada um dos quatro níveis diferentes de informação (“todas as informações”, “sem números em risco”, “sem eventos totais” e “nenhum”). Para avaliar as diferenças entre as estatísticas reconstruídas e as originais, a escala natural foi usada para as probabilidades de sobrevivência, enquanto a escala log foi usada para medianos, HRs e suas incertezas. Kaplan Meier curves and Cox hrs based on reconstructed data were estimated using the R routines surffit and coxph.Adaptamos uma ANOVA bidirecional padrão com medidas repetidas para as diferenças entre os resultados reconstruídos e os resultados originais, tanto na escala natural ou log, dependendo da estatística considerada. Os Componentes da variância foram interação exemplar, observador, exemplar × observador, e erro dentro da célula. Uma vez que o valor de p do teste da razão F para a interacção foi, em todos os casos, superior a 10%, juntámos o termo de interacção com o termo de erro dentro das células. A abordagem escolhida é semelhante à que é referida nas aplicações de engenharia como “repetibilidade e reprodutibilidade de gauge”.

a reprodutibilidade representa o erro se um único observador fizer uma única reconstrução para uma estatística especificada. Isto foi estimado como a soma do erro interno-observador e entre-observador. A simulação de Monte Carlo do modelo ANOVA instalado foi usada para obter os intervalos de confiança de 95% em torno dos desvios padrão. Os graus de liberdade para o interior, as variações entre e os resultados foram assumidos para seguir as distribuições de Qui-quadrado. Para garantir uma inferência robusta, foram retiradas 150 000 amostras de graus de liberdade de cada uma destas distribuições, ou seja, para cada fonte de variação. Em seguida, calcularam-se os quadrados médios, utilizando a soma dos quadrados obtidos pela ANOVA e a amostra obtida pela simulação, para cada uma das 150 000 amostras e para cada uma das fontes de variação. Os correspondentes 150 000 desvios-padrão internos, entre os desvios-padrão e os resultados foram subsequentemente estimados e, finalmente, extraímos os percentis 2,5 e 97,5 para obter as estimativas dos intervalos de confiança.Para avaliar a precisão, examinamos a diferença média entre as estatísticas reconstruídas e as originais. O desvio médio resultante, ou erro médio (ME), reflecte uma sobre ou subestimação sistemática. Os intervalos de confiança de 95% são obtidos directamente a partir da estimativa dos desvios-padrão apresentados pela ANOVA. Também registramos viés absoluto ou erro absoluto médio (MAE). Isto ignora a direção dos erros e mede sua magnitude, dando uma medida da precisão absoluta dos resultados reconstruídos. Foi novamente utilizado um método de simulação para obter os intervalos de confiança de 95%, que presumiam que o EEM estava normalmente distribuído. Para cada estatística, para garantir uma inferência robusta, foram colhidas 150 000 amostras da distribuição normal com a média e variância observadas, como indicado pela ANOVA. Calculámos então os correspondentes 150 000 valores absolutos desses números e, finalmente, extraímos os percentis 2,5 e 97,5 para obter as estimativas dos intervalos de confiança.

finalmente registramos a variação na diferença entre as estatísticas reconstruídas e originais que se deveu à escolha de exemplares, ou seja, às 22 probabilidades de sobrevivência, 7 medianos, 6 HRs e 4 erros padrão dos Log HRs. Isto dá uma indicação adicional da exatidão do método.

Deixe uma resposta

O seu endereço de email não será publicado.

More: