서바이벌 데이터의 2 차 분석 강화:출판된 카플란-마이어 서바이벌 곡선에서 데이터를 재구성: 카플란-마이어 서바이벌 곡선

카플란-마이어 추정 방법

이 메서드는 일련의 형태로 요약해서 작동합니다. :100,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000

(2)

카플란-마이어 데이터 재구성 알고리즘

필요한 데이터 입력

알고리즘에 필요한 제 1 입력 데이터 파일은 추출된 엑스-축 좌표를 포함한다…,엔 킬로미터 곡선의 포인트. 이를 위해 여러 소프트웨어 패키지가 존재하며 소프트웨어 디지타이저(http://www.digitizeit.de/)가 잘 수행되었음을 발견했습니다. 에서 추출 된 킬로미터 곡선.분석가는 마우스 클릭을 사용하여 곡선에서 읽을 점을 선택합니다. 결과 티 케이 과 에스 케이 좌표 그런 다음 텍스트 파일로 내보냅니다. 이 예비 작업은 신중하게 수행해야합니다. 데이터는 충분해야 합니다:그림에서 볼 수 있는 모든 단계는 데이터 추출 중에 캡처되어야 합니다. 따라서 위치 및 클릭 수가 중요합니다. 또한 데이터는 일관성이 있어야 합니다: 이벤트가 발생할 확률은 시간이 지남에 따라 감소하므로 추출된 데이터 요소에 대해 항상 이러한 현상이 발생하는지 확인해야 합니다. 곡선의 게시 품질 및 클릭을 제어하는 인적 오류로 인해 이상이 발생할 수 있습니다. 아래 알고리즘을 실행하기 전에 모든 예외 사항을 수정해야합니다. 위험에 처한 숫자가 출판물에보고되는 시간은 이러한 초기 데이터에 포함되어야합니다. 규칙으로서 첫 번째 데이터 포인트는 티 1=0 이므로 시간 0 에 대한 이벤트가 발생할 확률은 에스 1=1 입니다. 각 킬로미터 곡선은 별도로 추출됩니다.

알고리즘에 필요한 두 번째 입력 데이터 파일에는 위험에 처한 보고된 숫자에 대한 정보가 포함되어 있습니다. 곡선은 내가=로 분할 1,..,닌트 간격,각각에 대해 우리는 그 간격의 시작 부분에 위험에보고 된 번호를 가지고,리스크 나,위험에 번호가 제공되는 시간,트리스크 나,그 시간 간격에 대한 추출 된 좌표의 첫 번째 행 번호 낮은 나는,그리고 그 시간 간격에 대한 추출 된 좌표의 마지막 행 번호 상단 나는. 리스크 난과 트리스크 나는 원래 출판물에서 온,낮은 동안 나는 상부 나는 각 간격에 수행 클릭 수에서 온,첫 번째 입력 데이터 파일을 생성하기 위해. 각 나는,낮은 나는 같음 케이 때 티 케이=트리스크 나는 과 상단 나는 같음 케이 때 티 케이+1=트리 스키+1.

필요한 최종 입력 데이터는 총 이벤트 수,총 이벤트 수입니다.

우리는 위험에 있는 수가 학문의 시작 및 적어도 1 개의 다른 시간 점에 보고되고 사건의 총계가 보고되는 경우를 위한 산법을 기술해서 시작한다(‘모든 정보’케이스). 그런 다음 위험에 처한 숫자가 연구 시작시에만보고 될 때 알고리즘을 적용 할 수있는 방법을 보여줍니다(‘위험에 처한 숫자 없음’사례),총 이벤트 수가보고되지 않을 때(‘총 이벤트 없음’사례),이들 중 어느 것도 보고되지 않을 때(‘둘 다’사례).

‘모든 정보’사례에 대한 알고리즘

보고 된 데이터에서 검열 된 개인의 수를 사용할 수 없습니다. 따라서 우리는 위험에보고 된 번호를 사용,위험 1,각 시간 간격에 검열 된 개인의 수를 근사 나는. 우리는 각 간격 내에서 정확한 관측 중단 패턴을 식별 할 수 없으므로 가정을해야합니다. 우리는 검열이 각 시간 간격 내에서 일정한 속도로 발생한다고 가정했는데,이는 검열이 아닌 정보(각 피험자는 실패 시간과 통계적으로 독립적 인 검열 시간을 가짐)인 경우 합리적인 것으로 보입니다.

알고리즘은 다음 단계로 구성됩니다(그림 3 에 도시되어 있음).

그림 3
그림 3

알고리즘의 순서도(‘모든 정보’케이스).

1 단계. 우리는 먼저 간격에 대한 검열 수에 대한 초기 추측을 형성합니다 나는.간격에 대한 검열 된 개인이 없다면 나는 다음 간격의 시작 부분에 위험에 처한 숫자가 될 것입니다.:1827>

가장 가까운 정수로 반올림됩니다.

우리의 지정 수에 대한 검열에 간의 차이점은 보고된 번호에서 위험의 시작 부분에는 간격 i+1,nriski+1,수서 위험에 없는 검열:

n c e n^s o r i=r i n s k i+1n o c e n s o r r i n s k i+1n c e n^s o r i=S l o w e r i+1/S l o w e r i*r i n s k i-n r i s k i+ 1
(3)

단계 2. 우리가 배포 c=1,…,nce n^그래서 r 나는 검열 시간,ce n^t c,균일 이상 간격을 나:

c e n^t c=T l o w e r i+c*(T l o w e r i+1-T l o w e r i)/(n c e n^s o r i+1)c=1,…, n c e n^s i o r
(4)

수 검열 관측 사이의 추출 KM 좌표 k k+1 찾을 수를 계산하여 추정 검열 시간,ce n^t c,그 사이의 거짓말 시 T k Tk+1:이 경우,나는 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게∈ } )

(5)

여기서 나는{씨 엔^티 씨 씨 간격에 놓여 있고 그렇지 않으면 0 인 경우 1 을 반환하는 표시기입니다.

단계 3. 이벤트 수,디^케이,추출 된 각 킬로미터 좌표,케이,따라서 다음 좌표에서 위험에 처한 환자 수 엔^케이+1,그런 다음 계산할 수 있습니다. 다시 정렬 식. 2,우리는 얻을 디^케이 위험에 처한 환자의 수와 같습니다 추출 된 킬로미터 좌표,케이,1 을 뺀 확률을 곱한 추출 된 킬로미터 좌표에서 이벤트를 경험할 확률,케이,나누기 엘 ㅏ 에스 티(케이)케이 미디엄 추정 킬로미터 생존 확률 이전 좌표 우리가 이벤트가 발생했다고 추정하는 곳,마지막(케이). 각 구간의 시작 부분에서 적어도 하나의 이벤트가 발생하도록 설계되었지만 추출된 좌표의 경우 반드시 그런 것은 아니므로 마지막 이벤트의 시간을 추적해야 합니다:1827>

여기서 케이는 디^케이’ >0

하지만 디^제이=0 제이=케이’+1,… 1331>식 사용.2,우리는 가지고 있습니다:

따라서,이 경우,나는 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게:

이 경우 두 번째 방정식은 두 번째 방정식이며 두 번째 방정식은 두 번째 방정식이며 두 번째 방정식은 두 번째 방정식이며 두 번째 방정식은 두 번째 방정식이며 두 번째 방정식은 두 번째 방정식이며 두 번째 방정식은 두 번째 방정식이며 두 번째 방정식은 두 번째 방정식이며 두 번째 방정식은 두 번째 방정식이며 두 번째 방정식은 두 번째 방정식입니다.
(6)

가장 가까운 정수로 반올림됩니다.

추출 된 각 좌표에서 위험에 처한 환자의 수,케이,다음을 사용하여 얻을 수 있습니다.1:

이 경우,나는 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것)들에게 그(것
(7)

우리가 설정 한 간격의 시작 부분에서 엔^엘 오 승 아르 자형 나는=리스 케이 나는. 이것은 다음 간격의 시작 부분에 예상되는 위험 수를 생성합니다.

단계 4. 는 경우 nrîs k i+1≠양 k i+1 그 때에 우리는 다시 조정의 추정 번호는 검열에서 관찰 간격 나,ncenŝor 에 의하여,:

n c e n ŝ o r i=n c e n^s o r i+(n^u p p e r i+1-r i n s k i+ 1 )
(8)

우리는 2~3 단계를 반복하여 반복적으로까지 예상 및 발표수 위험에 일치(즉,nrîs k i+1=양 k i+1)입니다.

단계 5. 내가+1 이 마지막 간격이 아니라면 다음 간격에 대해 1-4 단계를 반복합니다.

단계 6. 일반적으로 마지막 간격의 끝에 게시되는 위험에 처한 숫자는 없습니다. 우리는 먼저 마지막 구간에서 관측 중단 된 숫자가 마지막 구간 이전에 추정 된 총 관측 중단 수와 같다고 가정합니다. 그러나 이 수가 마지막 간격의 처음에 위험에 아직도 환자의 수 보다는 더 중대한 보인 경우에,위험에 이 수는 대신 선택되었습니다. 이 가정은 공식적으로 아래 방정식에 작성되었습니다:

n c e n^s o r n i n t=min(T u p p e r n i n t T l o w e r n i n t T u p p e r n i n t-1-T l o w e r1*∑i=1n i n t-1n c e n^s o r i;n r s i k n i n t)

우리는 실행 단계 2-3.

단계 7. 그런 다음 보고된 총 이벤트 수를 사용합니다. 마지막 간격의 시작 부분에 의해 얻은 예상 총 이벤트 수를 계산합니다. 이 값이 전체 이벤트와 크거나 같으면 더 이상 이벤트나 중단이 발생하지 않는다고 가정합니다:1827>

단계 8.본 발명의 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 관측 중단된 관측치의 예상 개수를 구간에서 다시 조정합니다.:

n c e n^s o r n i n t=n c e n^s o r n i n t+(∑k=1u p p e r n i n t d^k-t o t e v e n t s)
(9)

우리는 다시 실행하는 단계 2-3,8 을 위한 마지막 구 nint 이며, 까지 총 예상되는 이벤트,∑k=1u p p e r n i n t-1d^k 은 동일한 보고 총수의 이벤트 totevents 또는까지 추정된 총계의 이벤트가 보다 적은 보고 총수의 사건의 총수는 검열에서 마지막 구 nce n^그래서 r n i n t,동일하게 됩니다.

‘위험에 처한 숫자 없음’사례에 대한 알고리즘 조정

이 경우 하나의 간격=1 만 있습니다. 우리는 먼저 검열 된 총 수가 0 과 같다고 가정 한 다음 8 단계에서와 같이 진행합니다.

‘총 이벤트 없음’사례에 대한 알고리즘 조정

이 경우 총 이벤트 수를 사용하여 다시 조정할 수 없다는 점을 제외하고는’모든 정보’사례로 진행하므로 6 단계에서 중지됩니다.

‘둘 다’경우에 대 한 알고리즘에 조정

이벤트의 총 수 또는 연구의 시작을 넘어 위험에 숫자 보고,우리는 아무 검열 된 관찰 했다 가정. 이것은 강력한 가정이지만,더 이상의 정보 없이 검열에 대해 우리가 할 수 있는 다른 가정만큼 강력합니다. 정보의 부족으로 인해 낮은 품질의 결과가 예상됩니다.

재구성된 카플란-마이어 데이터로부터 개별 환자 데이터 획득

재구성된 카플란-마이어 파라미터로부터 디^케이,씨 엔 케이,엔^케이 추출된 각각의 킬로미터 좌표 케이=1,…,엔,우리는 그 데이터를 생성 할 수 있습니다. 이 마지막 코딩 부분은 실제로 매우 간단합니다. 이벤트 또는 관측 중단이 추정될 때마다 해당 시간은 이벤트 표시기(이벤트에 대해 하나,관측 중단의 경우 0)뿐만 아니라 기록됩니다.

재현성 및 정확도 평가

6 쌍의 카플란-마이어 곡선이 검증 운동에 사용되었습니다. 이들은 경제 평가에서 사용된 생존 시간 분석 방법의 보기 후에 검토의 부분을 형성한 간행물의 부분 집합에서 당겨졌다. 우리는 22 생존 확률,7 평균 생존 시간,6 위험 비율과 이러한 4 개의 간행물에 보고 된 로그 위험 비율의 4 개의 표준 오류의 재건을 실시. 각각 동일한 세 명의 관찰자에 의해 두 차례 재건되었습니다. 세 명의 관찰자 중 두 명은 알고리즘 개발에 관여하지 않았다.

방법의 재현성 및 정확도는 4 가지 수준의 정보(‘모든 정보’,’위험에 처한 숫자 없음’,’총 이벤트 없음’및’둘 다’)각각에 대해 평가되었습니다. 재구성 된 통계와 원래 통계의 차이를 평가하기 위해 자연 척도는 생존 확률에 사용되었으며 로그 척도는 중앙값,시간 및 불확실성에 사용되었습니다. 재구성 된 데이터를 기반으로 한 카플란 마이어 곡선과 콕스 시간은 다음을 사용하여 추정되었습니다.

우리는 고려 된 통계에 따라 자연 또는 로그 규모에서 재구성 된 결과와 원래 결과 사이의 차이에 대한 반복적 인 측정과 함께 표준 양방향 분산 분석을 장착했습니다. 분산의 구성 요소는 예시,관찰자,예시,관찰자 상호 작용 및 세포 내 오류였습니다. 때문에 피-값에서 에프-상호 작용에 대 한 비율 테스트 10%이상의 모든 경우에,우리는 셀 내 오류 용어와 상호 작용 용어를 풀링. 선택한 접근 방식은 엔지니어링 응용 분야에서’게이지 반복성 및 재현성’이라고 불리는 것과 유사합니다.

재현성은 단일 관찰자가 지정된 통계에 대해 단일 재구성을 수행하는 경우 오류를 나타냅니다. 이것은 관찰자 내 및 관찰자 간 오류의 합으로 추정되었습니다. 적합 분산 분석 모델의 몬테카를로 시뮬레이션을 사용하여 표준 편차 주변의 95%신뢰 구간을 확보했습니다. 에 대 한 자유도 이내,사이 및 결과 유사 카이-제곱 분포를 따라 가정 했다. 강력한 추론을 보장하기 위해,자유도의 150 000 샘플은 이러한 분포의 각에서 그려진,즉.변화의 각 소스에 대한. 그런 다음 분산 분석에서 얻은 제곱합과 시뮬레이션에서 얻은 샘플을 사용하여 150,000 개의 샘플 각각에 대해 그리고 각 변동 소스에 대해 평균 제곱 추정치를 계산했습니다. 해당 150 000 내,사이 및 결과 표준 편차가 연속적으로 추정되었으며 마침내 신뢰 구간 추정치를 얻기 위해 2.5 및 97.5 백분위 수를 추출했습니다.

정확도를 평가하기 위해 재구성 된 통계와 원래 통계 간의 평균 차이를 조사했습니다. 결과 평균 편향 또는 평균 오류(나)는 체계적인 과잉 또는 과소 평가를 반영합니다. 95%신뢰 구간은 분산 분석에 의해 주어진 표준 편차의 추정에서 직접 얻습니다. 우리는 또한 절대 바이어스 또는 평균 절대 오차(매)를 기록했습니다. 이것은 오류의 방향을 무시하고 그 크기를 측정하여 재구성 된 결과의 절대 정확도를 측정합니다. 95%신뢰 구간을 얻기 위해 시뮬레이션 방법을 다시 사용했습니다. 각 통계에 대해 강력한 추론을 보장하기 위해 분산 분석에 의해 주어진 바와 같이 관찰 된 평균 및 분산을 가진 정규 분포에서 150,000 개의 샘플을 채취했습니다. 그런 다음이 숫자의 해당 150,000 절대 값을 계산 한 다음 신뢰 구간 추정치를 얻기 위해 2.5 및 97.5 백분위 수를 추출했습니다.

마지막으로 우리 예,즉 22 생존 확률,7 중앙값,6 시간 및 로그 시간의 4 표준 오류의 선택에 기인 했다 재구성 및 원래 통계의 차이에 변화를 기록 했다. 이 방법의 정확성에 대한 추가 표시를 제공합니다.

답글 남기기

이메일 주소는 공개되지 않습니다.

More: