기회 검진 열어줄 기술적 전환점  |
| 흉부X선에서 파운데이션 모델이 골다공증 판독을 위해 주목한 영역을 시각화한 이미지. 서울대병원 제공 |
[파이낸셜뉴스] 서울대병원은 흉부 X선 한 장만으로 정상·골감소증·골다공증을 높은 정확도로 예측하는 인공지능(AI) 기술을 개발했다고 28일 밝혔다.
예측 결과뿐 아니라 AI가 실제로 어떤 뼈 구조를 근거로 판단했는지를 정량적으로 검증할 수 있는 ‘설명 가능성(Explainability)’ 평가체계까지 구축해, 임상 현장 적용 가능성을 크게 높였다는 평가가 나온다.
흉부 X선에는 갈비뼈, 쇄골, 흉추 등 골절과 밀접한 주요 뼈 구조가 포함되어 있다. 선별검사(DXA)의 접근성이 낮은 상황에서, 이미 대부분의 검진에서 촬영되는 X선을 활용해 골다공증 위험을 조기에 파악하는 ‘기회 검진(opportunistic screening)’이 가능하다는 점에서 의미가 크다.
서울대병원 가정의학과 박상민 교수팀(김재원 연구원)은 2004~2019년 건강증진센터에서 흉부 X선과 DXA 결과를 모두 확보한 여성 1만4502명의 데이터를 분석했다.
연구팀은 △OpenCLIP △DINOv2(일반 이미지 기반) △CheXagent △RAD-DINO(의료 영상 기반) 등 네 종류의 파운데이션 모델을 기반으로, 세 가지 미세조정 기법(선형 검증·부분 미세조정·LoRA)을 적용해 총 12개 모델을 제작했다.
AI는 X선에서 뼈 구조의 특징을 추출해 정상(T-score ≥ ?1.0), 골감소증(?2.5 < T-score < ?1.0), 골다공증(T-score ≤ ?2.5) 중 어느 범주에 해당하는지를 분류하도록 학습됐다.
이 과정에서 가장 우수한 성능을 낸 모델은 **DINOv2 기반 LoRA 적용 모델(AUC 0.93)**이었다. 연구팀은 “예측력과 설명 가능성 모두에서 균형 잡힌 최적의 모델”이라고 설명했다.
이번 연구의 가장 큰 성과는 AI가 특정 뼈 구조를 실제 근거로 활용하는지를 수치로 평가한 설명 가능성 검증 체계를 구축했다는 점이다. 연구팀은 두 가지 분석 기법을 적용했다.
‘차단 분석’은 모든 뼈 구조를 가린 뒤 특정 뼈를 순차적으로 노출했을 때 성능이 얼마나 향상하는지를 분석한다. ‘유의성 지도 분석’은 Grad-CAM으로 도출한 AI의 주목 영역이 실제 뼈 위치와 얼마나 일치하는지를 평가한다.
이를 통해 AI가 임상적으로 중요한 척추·늑골을 중심으로 예측 근거를 삼고 있음을 확인했다. 단순히 ‘정확도가 높은 모델’이 아니라 판단 근거가 의학적으로 타당한 모델임을 입증한 것이다.
제1저자인 김재원 연구원은 “파운데이션 모델을 의료 영상에 적용할 때는 높은 성능만으로는 충분하지 않다”며 “이번 연구는 임상에서 신뢰받는 AI를 위해 어떤 평가가 필요한지 기준을 제시했다”고 강조했다.
교신저자인 박상민 교수도 “예측 정확도뿐 아니라 판단 근거의 투명성이 확보되어야 실제 임상 적용이 가능하다”며 “파운데이션 모델 선택·활용 전략에 방향성을 제시한 연구”라고 평가했다.
이번 연구 결과는 국제 학술지 ‘Osteoporosis International’ 최신호에 게재됐다.
vrdw88@fnnews.com 강중모 기자
Copyrightⓒ 파이낸셜뉴스. 무단전재 및 재배포 금지.