- La méthode d’estimation de Kaplan-Meier (KM)
- L’algorithme de reconstruction de données de Kaplan-Meier
- Entrées de données requises
- L’algorithme pour le cas « toutes les informations »
- Ajustements de l’algorithme pour le cas « aucun nombre à risque »
- Ajustements de l’algorithme pour le cas » pas d’événements totaux »
- Ajustement à l’algorithme pour le cas « ni l’un ni l’autre »
- Obtenir les données individuelles de patient (IPD) à partir des données de Kaplan-Meier reconstruites
- Évaluation de la reproductibilité et de la précision
La méthode d’estimation de Kaplan-Meier (KM)
La méthode de Kaplan-Meier (KM) est utilisée pour estimer la probabilité de vivre l’événement jusqu’à l’instant t, SKM(t), à partir des données individuelles des patients obtenues à partir d’un ECR soumis à une censure à droite (où certains patients sont perdus de vue ou sont sans événement à la fin de la période d’étude). Le procédé fonctionne en résumant l’IPD sous la forme d’une série de r intervalles de temps SKM (t m) au temps d’événement t m :
L’algorithme de reconstruction de données de Kaplan-Meier
Entrées de données requises
Le premier fichier de données d’entrée requis pour l’algorithme contient les coordonnées extraites de l’axe des abscisses, T k, et les coordonnées de l’axe des ordonnées, S k, pour k = 1,…, N points sur la courbe KM. Plusieurs progiciels existent pour ce faire, et nous avons constaté que le logiciel DigitizeIt (http://www.digitizeit.de/) fonctionnait bien. Les courbes KM, extraites de a.article pdf, sont lus dans le logiciel, les axes sont définis, puis l’analyste utilise des clics de souris pour sélectionner des points à lire dans la courbe. Les coordonnées T k et S k résultantes sont ensuite exportées dans un fichier texte. Ce travail préliminaire doit être effectué avec soin. Les données doivent être suffisantes: chaque étape vue sur les figures doit avoir été capturée lors de l’extraction des données. L’emplacement et le nombre de clics sont donc importants. Les données doivent également être cohérentes: la probabilité de subir l’événement diminue avec le temps, et il convient de vérifier que c’est toujours le cas pour les points de données extraits. Des anomalies peuvent survenir en raison de la qualité de publication de la courbe et d’une erreur humaine dans le contrôle des clics. Toute anomalie doit être corrigée avant d’exécuter l’algorithme ci-dessous. Les dates auxquelles les chiffres à risque sont signalés dans la publication doivent être incluses dans ces données initiales. Par convention, le premier point de données est T1 = 0 et la probabilité de subir l’événement au temps 0 est donc S1 = 1. Chaque courbe KM est extraite séparément.
Le deuxième fichier de données d’entrée requis pour l’algorithme contient des informations sur les nombres déclarés à risque. La courbe est divisée en i = 1,.., nint intervalles, pour chacun nous avons le nombre déclaré à risque au début de cet intervalle, nrisk i, l’instant auquel le nombre à risque est fourni, trisk i, le premier numéro de ligne des coordonnées extraites pour cet intervalle de temps inférieur i, et le dernier numéro de ligne des coordonnées extraites pour cet intervalle de temps supérieur i. nrisk i et trisk i proviennent de la publication originale, tandis que les i inférieurs et les i supérieurs proviennent du nombre de clics effectués sur chaque intervalle, afin de créer le premier fichier de données d’entrée. Pour chaque i, i inférieur est égal à k lorsque T k = trisque i et i supérieur est égal à k lorsque Tk + 1 = triski + 1.
Les données d’entrée finales requises sont le nombre total d’événements, totevents.
Nous commençons par décrire l’algorithme pour le cas où le nombre à risque est signalé au début de l’étude et au moins un autre moment et lorsque le nombre total d’événements est rapporté (cas « toutes les informations »). Nous montrons ensuite comment l’algorithme peut être adapté lorsque le nombre d’événements à risque n’est signalé qu’au début de l’étude (cas « aucun nombre à risque »), lorsque le nombre total d’événements n’est pas signalé (cas « aucun événement total ») et lorsqu’aucun d’entre eux n’est signalé (cas « aucun « ).
L’algorithme pour le cas « toutes les informations »
Le nombre d’individus censurés n’est pas disponible à partir des données rapportées. Nous utilisons donc les nombres déclarés à risque, nrisk i, pour approximer le nombre d’individus censurés sur chaque intervalle de temps i. Nous ne pouvons pas identifier le modèle de censure exact dans chaque intervalle, et nous sommes donc obligés de faire une hypothèse. Nous avons supposé que la censure se produit à un rythme constant dans chacun des intervalles de temps, ce qui semble raisonnable si le modèle de censure n’est pas informatif (chaque sujet a un temps de censure statistiquement indépendant de son temps d’échec).
L’algorithme est composé des étapes suivantes (également illustrées à la figure 3).
ÉTAPE 1. Nous formulons d’abord une estimation initiale pour le nombre censuré sur l’intervalle i. S’il n’y avait pas d’individus censurés sur l’intervalle i, le nombre à risque au début de l’intervalle suivant, nris k i + 1 n o c e n s o r, serait le nombre à risque au début de l’intervalle i, multiplié par la probabilité de vivre l’événement à l’intervalle i conditionnée à être vivant au début de l’intervalle i:
arrondi à l’entier le plus proche.
Notre estimation initiale pour le nombre censuré sur l’intervalle i est la différence entre le nombre signalé à risque au début de l’intervalle i + 1, nriski + 1 et le nombre à risque sans censure:
ÉTAPE 2. Nous distribuons les c = 1,…, nce n ^ donc r i temps de censure, ce n ^ t c, uniformément sur l’intervalle i:
Le nombre d’observations censurées entre les coordonnées KM extraites k et k+1 est trouvé en comptant le nombre de temps de censure estimés, ce n ^ t c, compris entre le temps T k et Tk +1:
où i {c e n ^ t c ∈} est un indicateur renvoyant 1 si ce n ^ t c se trouve sur l’intervalle et 0 sinon.
ÉTAPE 3. Le nombre d’événements, d ^ k, à chaque coordonnée KM extraite, k, et donc le nombre de patients à risque à la coordonnée suivante, n ^ k + 1, peut alors être calculé. Réarrangement de l’égaliseur. 2, nous obtenons que d ^ k est égal au nombre de patients à risque à la coordonnée KM extraite, k, multiplié par un moins la probabilité de vivre l’événement à la coordonnée KM extraite, k, divisée par Ŝ l a s t (k) K M la probabilité de survie en KM estimée à la coordonnée précédente où nous estimons qu’un événement s’est produit, dernier (k). Les intervalles des estimations de KM sont conçus pour qu’au moins un événement se produise au début de chaque intervalle, mais ce n’est pas nécessairement le cas pour nos coordonnées extraites, et nous devons donc suivre l’heure du dernier événement:
où k ‘ est tel que d ^ k ‘ >0
mais d ^ j = 0pour j = k ‘ + 1, …, k-1
En utilisant l’égaliseur.2, nous avons:
Par conséquent:
arrondi à l’entier le plus proche.
Le nombre de patients à risque à chaque coordonnée extraite, k, est ensuite obtenu en utilisant Eq.1:
où, au début de l’intervalle, nous fixons n^ l o w e r i = nris k i. On obtient ainsi une estimation du nombre à risque au début de l’intervalle suivant nrîs k i +1 = n^u p p e r i +1.
ÉTAPE 4. Si nrîs k i + 1 ≠nris k i + 1 alors nous réajustons le nombre estimé d’observations censurées dans l’intervalle i, ncenŝor, par:
Nous répétons les étapes 2-3 de manière itérative jusqu’à ce que le nombre estimé et publié corresponde au risque (i.e. nrîs k i +1 = nris k i +1).
ÉTAPE 5. Si i + 1 n’est pas le dernier intervalle, nous répétons les étapes 1 à 4 pour l’intervalle suivant.
ÉTAPE 6. Dans les ECR publiés, il n’y a généralement pas de nombre à risque publié à la fin du dernier intervalle, nint. On suppose d’abord que le nombre censuré sur le dernier intervalle est égal au nombre total censuré estimé avant le dernier intervalle, ∑ i = 1 n i n t – 1 n c e n ŝ o r i, pondéré par le temps restant par rapport au temps déjà écoulé, arrondi à l’entier le plus proche. Mais si ce nombre était jugé supérieur au nombre de patients encore à risque au début du dernier intervalle, ce nombre à risque était choisi à la place. Cette hypothèse est formellement écrite dans l’équation ci-dessous:
Et nous exécutons l’étape 2-3.
ÉTAPE 7. Nous utilisons ensuite le nombre total d’événements rapporté, totevents. On calcule le nombre total estimé d’événements obtenus au début du dernier intervalle, ∑ k = 1 u p p e r n i n t – 1 d^k. Si cela est supérieur ou égal à totevents, nous supposons qu’il n’y a plus d’événements ou de censure:
ÉTAPE 8. Si ∑ k = 1 u p p e r n i n t – 1 d ^ k est inférieur à totevents, nous réajustons le nombre estimé d’observations censurées dans l’intervalle nint, nce n ^ donc r n i n t, par la différence du nombre total d’événements:
On recommence ensuite les étapes 2-3, 8 pour le dernier intervalle, nint, jusqu’à ce que le nombre total d’événements estimé, ∑ k = 1 u p p e r n i n t – 1 d ^ k, soit égal au nombre total d’événements rapporté, totevents ou jusqu’à ce que le nombre total d’événements estimé soit inférieur au nombre total d’événements rapporté mais que le nombre total de censures dans le dernier intervalle, nce n ^ donc r n i n t, devienne égal à zéro.
Ajustements de l’algorithme pour le cas « aucun nombre à risque »
Dans ce cas, il n’y a qu’un seul intervalle nint = 1. Nous supposons d’abord que le nombre total censuré est égal à zéro, puis nous procédons comme à l’étape 8.
Ajustements de l’algorithme pour le cas » pas d’événements totaux »
Dans ce cas, nous procédons comme pour le cas » toutes les informations » sauf qu’aucun réajustement utilisant le nombre total d’événements ne peut être effectué et nous nous arrêtons donc à l’étape 6.
Ajustement à l’algorithme pour le cas « ni l’un ni l’autre »
Lorsque ni le nombre total d’événements ni les nombres à risque au-delà du début de l’étude ne sont signalés, nous avons supposé qu’il n’y avait pas d’observations censurées. C’est une hypothèse forte, mais aussi forte que toute autre hypothèse que nous pourrions faire à propos de la censure sans plus d’informations. En raison du manque d’informations, une qualité inférieure des résultats est attendue.
Obtenir les données individuelles de patient (IPD) à partir des données de Kaplan-Meier reconstruites
À partir de nos paramètres de Kaplan-Meier reconstruits d ^ k, cê n k, n ^ k pour chaque coordonnée KM extraite k = 1,…, N, nous pouvons dériver l’IPD qui générerait ces données. Ce dernier morceau de codage est en fait assez simple. Chaque fois qu’un événement ou une censure est estimé, le temps correspondant est enregistré ainsi qu’un indicateur d’événement (un pour l’événement et zéro pour la censure).
Évaluation de la reproductibilité et de la précision
Six paires de courbes de Kaplan-Meier ont été utilisées dans l’exercice de validation. Celles-ci ont été tirées d’un sous-ensemble de publications faisant partie d’un examen rétrospectif des méthodes d’analyse du temps de survie utilisées dans les évaluations économiques. Nous avons procédé à une reconstruction de vingt-deux probabilités de survie, de sept temps de survie médians, de six rapports de risque et de quatre erreurs types des rapports de risque logarithmiques qui ont été rapportés dans ces quatre publications. Chacun a été reconstruit à deux reprises par les trois mêmes observateurs. Deux des trois observateurs n’ont pas participé au développement de l’algorithme.
La reproductibilité et l’exactitude de la méthode ont été évaluées pour chacun des 4 niveaux d’information différents ( » toutes les informations « , » aucun nombre à risque « , » aucun événement total » et » aucun des deux « ). Pour évaluer les différences entre les statistiques reconstituées et les statistiques originales, l’échelle naturelle a été utilisée pour les probabilités de survie, tandis que l’échelle logarithmique a été utilisée pour les médianes, les heures et leurs incertitudes. Les courbes de Kaplan Meier et les heures de Cox basées sur des données reconstruites ont été estimées à l’aide des routines R survfit et coxph.
Nous avons adapté une ANOVA bidirectionnelle standard avec des mesures répétées aux différences entre les résultats reconstruits et les résultats originaux, soit à l’échelle naturelle, soit à l’échelle logarithmique en fonction de la statistique considérée. Les composantes de la variance étaient l’exemple, l’observateur, l’interaction exemple × observateur et l’erreur intra-cellule. Étant donné que la valeur p du test de rapport F pour l’interaction était dans tous les cas supérieure à 10%, nous avons regroupé le terme d’interaction avec le terme d’erreur à l’intérieur de la cellule. L’approche choisie est similaire à ce que l’on appelle dans les applications d’ingénierie « répétabilité et reproductibilité des jauges ».
La reproductibilité représente l’erreur si un seul observateur effectue une reconstruction unique pour une statistique spécifiée. Cela a été estimé comme la somme de l’erreur dans l’observateur et entre les observateurs. La simulation Monte Carlo à partir du modèle ANOVA ajusté a été utilisée pour obtenir les intervalles de confiance de 95% autour des écarts types. Les degrés de liberté pour l’intérieur, l’entre et les variations de résultat ont été supposés suivre les distributions du chi carré. Pour assurer une inférence robuste, 150 000 échantillons de degrés de liberté ont été tirés de chacune de ces distributions, c’est-à-dire pour chaque source de variation. Ensuite, les estimations des carrés moyens ont été calculées, à partir de la somme des carrés obtenus par l’ANOVA et de l’échantillon obtenu par la simulation, pour chacun des 150 000 échantillons et pour chacune des sources de variation. Les écarts types correspondants de 150 000 à l’intérieur, entre et les résultats ont ensuite été estimés et nous avons finalement extrait les percentiles 2,5 et 97,5 pour obtenir les estimations des intervalles de confiance.
Pour évaluer la précision, nous avons examiné la différence moyenne entre les statistiques reconstruites et les statistiques originales. Le biais moyen ou erreur moyenne (ME) qui en résulte reflète une surestimation ou une sous-estimation systématique. Les intervalles de confiance à 95% sont obtenus directement à partir de l’estimation des écarts types donnés par l’ANOVA. Nous avons également enregistré un biais absolu ou une erreur absolue moyenne (EMA). Cela ignore la direction des erreurs et mesure leur ampleur, donnant une mesure de la précision absolue des résultats reconstruits. Une méthode de simulation a de nouveau été utilisée pour obtenir les intervalles de confiance à 95 %, ce qui supposait que les MES étaient normalement distribués. Pour chaque statistique, pour assurer une inférence robuste, 150 000 échantillons ont été tirés de la distribution normale avec la moyenne et la variance observées, telles que données par l’ANOVA. Nous avons ensuite calculé les 150 000 valeurs absolues correspondantes de ces nombres et nous avons finalement extrait les percentiles 2,5 et 97,5 pour obtenir les estimations des intervalles de confiance.
Enfin, nous avons enregistré la variation de la différence entre les statistiques reconstruites et les statistiques originales qui était due au choix des exemples, c’est-à-dire aux 22 probabilités de survie, 7 médianes, 6 HRs et 4 erreurs-types du log HRs. Cela donne une indication supplémentaire de la précision de la méthode.