Nov 13, 2023
정확한 자동
네이처커뮤니케이션즈 볼륨
Nature Communications 13권, 기사 번호: 1867(2022) 이 기사 인용
7083 액세스
6 인용
17 알트메트릭
측정항목 세부정보
대규모 개방형 의료 영상 데이터 세트에 정확하고 효율적으로 라벨을 붙일 수 없기 때문에 의료 분야에서 인공 지능 모델의 광범위한 구현이 제한됩니다. 그러나 그러한 공개 데이터베이스의 주석을 자동화하려는 시도는 거의 없었습니다. 예를 들어, 한 가지 접근 방식은 새로운 모델을 훈련하는 데 사용되는 이러한 데이터 세트의 하위 집합에 대한 노동 집약적인 수동 라벨링에 중점을 둡니다. 본 연구에서는 사용자가 원하는 정확도 수준에 대한 정량적 임계값을 지정할 수 있는 이전에 검증된 설명 가능한 AI(xAI) 모델 파생 아틀라스와의 유사성을 기반으로 표준화되고 자동화된 라벨링 방법을 설명합니다(확률 유사성, pSim 메트릭). 우리는 훈련 세트에서 파생된 참조 아틀라스와의 비교를 기반으로 각 임상 출력 레이블에 대한 pSim 값을 계산함으로써 xAI 모델이 사용자가 선택한 높은 수준의 정확도로 외부 데이터 세트에 자동으로 레이블을 지정할 수 있음을 보여줍니다. 인간 전문가의. 또한 재교육을 위해 자동으로 레이블이 지정된 시험을 사용하여 원본 모델을 미세 조정하면 성능이 유지되거나 향상되어 매우 정확하고 보다 일반화된 모델이 생성될 수 있음을 보여줍니다.
일반적인 임상 실습, 특히 방사선 진료에 의료용 인공 지능(AI)을 구현하는 것은 백금 수준 역할을 할 수 있는 매우 큰 영상 데이터 세트를 정확하게 라벨링하는 데 필요한 시간, 비용 및 전문 지식으로 인해 대부분 제한되었습니다. 임상적으로 관련된 AI 모델을 훈련하기 위한 실제 정보입니다. 따라서 사용자가 선택한 정확도 수준으로 대규모 외부 데이터 세트에 자동으로 효율적으로 주석을 추가하는 기능은 부가가치를 제공하고 널리 수용되는 영향력 있고 중요한 의료 AI 모델을 개발하는 데 상당한 가치가 있을 수 있습니다. 의료 커뮤니티. 이러한 접근 방식은 기존 AI 모델의 정확성을 향상시키기 위한 재교육에 도움이 될 수 있을 뿐만 아니라 설명 가능한 모델 파생 아틀라스 기반 방법론1을 사용하여 오픈 소스 데이터 세트의 라벨링을 표준화하는 데 도움이 될 수 있습니다2,3,4,5 , 제공된 라벨이 복잡하거나 부정확하거나 없을 수 있습니다. 이러한 표준화는 초기의 작지만 주석이 잘 달린 데이터 세트에서 정확한 모델 구축, 촉진, 교육 및 재교육에 필요한 데이터 포인트 수를 줄일 수 있습니다1,6.
이 연구에서는 사용자가 원하는 양적 임계값을 지정할 수 있는 모델 파생 아틀라스 기반 접근 방식을 사용하여 이전에 검증된 설명 가능한 AI(xAI) 모델과의 유사성을 기반으로 표준화되고 자동화된 라벨링 방법을 개발하고 시연합니다. 정확도 수준(유사성 확률 또는 pSim 측정항목) pSim 값의 범위는 "기준" 유사성 가능성(pSim = 0, 최소 선택성)부터 '최대' 유사성 가능성(pSim = 1, 가장 선택성)까지입니다. pSim은 테스트 세트에서 파생된 이미지 특징과 모델의 참조 아틀라스(예: 라이브러리)에서 검색된 이미지 특징을 비교하여 계산됩니다. 이 모델 파생 아틀라스는 훈련 세트 사례(그림 1a, b)에서 모델 구축(그림 1a) 중에 구성됩니다. 계산된 pSim 값은 두 모델 관련 매개변수인 "패치 유사성"과 "신뢰도" 사이의 조화 평균을 반영합니다(방법, 그림 1b, c).
xAI 모델 파생 아틀라스 기반 접근 방식을 사용하여 이전에 검증된 5개 라벨 흉부 X선(CXR) 감지 설명 가능한 AI(xAI) 모델과의 유사성을 기반으로 하는 표준화되고 자동화된 라벨링 방법입니다. a 당사의 정량적 모델 파생 아틀라스 기반 설명 가능 AI 시스템은 패치 유사성과 신뢰도 간의 조화 평균을 기반으로 자동 라벨링을 위한 pSim(유사성 확률) 값을 계산합니다. 결과 pSim 메트릭은 "모드 선택" 알고리즘에 적용되어 외부 입력 이미지에 선택된 신뢰 임계값에 대한 레이블을 지정하거나 pSim 값이 선택된 임계값 아래로 떨어진다는 것을 사용자에게 경고할 수 있습니다. b 모델 파생 아틀라스 기반 방법은 각 임상 출력 레이블에 대해 CAM(클래스 활성화 매핑)38,39 및 모델의 예측 확률을 기반으로 패치 유사성과 신뢰도를 계산합니다. c 패치 유사성과 신뢰도 사이의 조화 평균은 모드 선택에서 각 임상 출력 라벨에 대한 pSim을 계산하는 데 사용됩니다.
= pSim threshold value (PPV, NPV = 1): then/p> = pSim threshold value (PPV, NPV = 1): then/p>