2007년 IBM 왓슨이 시작된 이래, 인류는 의료 인공지능(AI) 개발을 끊임없이 추구해 왔습니다. 유용하고 강력한 의료 AI 시스템은 현대 의학의 모든 측면을 혁신하여 더욱 스마트하고 정확하며 효율적이며 포괄적인 치료를 가능하게 하고, 의료진과 환자의 웰빙을 증진시켜 인류 건강을 크게 향상시킬 수 있는 엄청난 잠재력을 가지고 있습니다. 지난 16년 동안 의료 AI 연구자들은 다양한 분야에서 축적해 왔지만, 아직 공상과학 소설을 현실로 만들지는 못했습니다.
올해 ChatGPT와 같은 AI 기술의 혁명적 발전으로 의료 AI는 여러 측면에서 큰 진전을 이루었습니다.의료 AI 능력의 전례 없는 돌파구: Nature 저널은 의료용 대규모 언어 모델과 의료 영상 기본 모델에 대한 연구를 지속적으로 시작했습니다.Google은 Med-PaLM과 그 후속 버전을 출시하여 미국 의사 시험 문제에서 전문가 수준에 도달했습니다.주요 학술지는 의료 AI에 초점을 맞출 것입니다: Nature는 일반 의료 AI의 기본 모델에 대한 전망을 발표했습니다.올해 초 AI in Medicine에 대한 일련의 리뷰에 이어 New England Journal of Medicine(NEJM)은 11월 30일에 첫 번째 디지털 건강 리뷰를 발표하고 12월 12일에 NEJM 하위 저널 NEJM AI의 창간호를 출간했습니다.의료 AI 착륙 지대가 더욱 성숙해졌습니다: JAMA 하위 저널은 글로벌 의료 영상 데이터 공유 이니셔티브를 발표했습니다.미국 식품의약국(FDA)은 의료 AI 규제에 대한 초안 지침을 개발하고 있습니다.
아래에서 우리는 2023년에 사용 가능한 의료 AI 방향으로 전 세계 연구자들이 이룬 중요한 진전을 검토합니다.
의료 AI 기본 모델
의료 AI 기본 모델 구축은 의심할 여지 없이 올해 가장 뜨거운 연구 초점입니다. Nature 저널은 올해 의료의 Universal Basic 모델과 의료의 대규모 언어 모델에 대한 리뷰 논문을 발표했습니다. 업계 최고 저널인 Medical Image Analysis는 의료 영상 분석에서 기본 모델 연구의 과제와 기회를 검토하고 기대하며 의료 AI의 기본 모델 연구 개발을 요약하고 안내하기 위해 "기본 모델의 계보"라는 개념을 제안했습니다. 의료를 위한 기본 AI 모델의 미래가 점점 더 명확해지고 있습니다. ChatGPT와 같은 대규모 언어 모델의 성공적인 사례를 바탕으로 더욱 진보된 자기 지도 사전 학습 방법과 방대한 학습 데이터를 사용하여 의료 AI 분야 연구자들은 1) 질병별 기본 모델, 2) 일반 기본 모델, 3) 방대한 매개변수와 뛰어난 기능을 갖춘 광범위한 모드를 통합하는 다중 모드 대규모 모델을 구축하려고 노력하고 있습니다.
의료 데이터 수집 AI 모델
다운스트림 임상 데이터 분석 작업에서 중요한 역할을 하는 대규모 AI 모델 외에도, 업스트림 임상 데이터 수집에서는 생성 AI 모델로 대표되는 기술이 부상했습니다. AI 알고리즘을 통해 데이터 수집 프로세스, 속도, 그리고 품질이 크게 향상될 수 있습니다.
올해 초, 네이처 바이오메디컬 엔지니어링(Nature Biomedical Engineering)은 터키 스트레이츠 대학교(Straits University)의 연구를 발표했는데, 이 연구는 생성적 AI를 활용하여 임상 응용 분야에서 병리학적 영상 보조 진단의 문제점을 해결하는 데 중점을 두었습니다. 수술 중 동결절편 조직의 인공물(artifact)은 신속한 진단 평가에 걸림돌이 됩니다. 포르말린 파라핀 포매(FFPE) 조직은 더 높은 품질의 샘플을 제공하지만, 제작 과정에 시간이 많이 소요되고 12~48시간이 소요되어 수술에 사용하기에 적합하지 않습니다. 따라서 연구팀은 동결절편의 조직을 FFPE와 유사하게 표현할 수 있는 AI-FFPE라는 알고리즘을 제안했습니다. 이 알고리즘은 동결절편의 인공물을 성공적으로 보정하고 영상 품질을 개선하는 동시에 임상적으로 중요한 특징을 유지했습니다. 임상 검증 결과, AI-FFPE 알고리즘은 종양 아형에 대한 병리학자의 진단 정확도를 크게 향상시키고 임상 진단 시간을 크게 단축합니다.
Cell Reports Medicine은 길림대학교 제3임상학원, 복단대학교 부속 중산병원 영상의학과, 상하이과학기술대학교 연구팀이 수행한 연구 결과를 보고합니다[25]. 이 연구에서는 높은 다용성과 유연성을 갖춘 범용 딥러닝 및 반복적 재구성 융합 프레임워크(Hybrid DL-IR)를 제안하여 고속 MRI, 저선량 CT 및 고속 PET에서 우수한 영상 재구성 성능을 보였습니다. 이 알고리즘은 100초 안에 MR 단일 장기 다중 시퀀스 스캐닝을 달성하고, 방사선량을 CT 영상의 10%로 줄이고, 노이즈를 제거하고, PET 획득에서 2~4배 가속으로 작은 병변을 재구성할 수 있으며, 동시에 모션 아티팩트의 영향을 줄일 수 있습니다.
의료진과 협력하는 의료 AI
의료 AI의 급속한 발전으로 의료 전문가들은 임상 프로세스를 개선하기 위해 AI와 협업하는 방법을 진지하게 고려하고 탐구하게 되었습니다.올해 7월, DeepMind와 다기관 연구팀은 CoDoC(Complementary Driven Clinical Workflow Delay)라는 AI 시스템을 공동으로 제안했습니다.진단 프로세스는 먼저 예측 AI 시스템으로 진단하고, 그 다음 다른 AI 시스템이 이전 결과에 대해 판단하며, 의심스러운 경우 최종적으로 임상의가 진단을 내려 진단 정확도를 높이고 효율성을 균형 있게 유지합니다.유방암 검진의 경우 CoDoC는 영국의 현재 "이중 판독 중재" 프로세스와 비교했을 때 동일한 위음성률로 위양성률을 25% 줄이는 동시에 임상의 업무량을 66% 줄였습니다.결핵 분류 측면에서는 독립적인 AI 및 임상 워크플로와 비교했을 때 동일한 위음성률로 위양성률을 5~15% 줄였습니다.
마찬가지로, 영국 런던의 Kheiron Company의 Annie Y. Ng 등은 이중 판독 중재 프로세스에서 리콜 결과가 없을 때 결과를 다시 검토하기 위해 추가 AI 판독기를 도입했습니다(인간 검사자와 협력하여).이를 통해 조기 유방암 검진에서 놓친 탐지 문제가 개선되었고 프로세스에서 거의 거짓 양성이 없었습니다.텍사스 대학교 맥거번 의과대학의 팀이 주도하고 4개의 뇌졸중 센터에서 완료한 또 다른 연구에서는 컴퓨터 단층촬영 혈관조영술(CTA) 기반 AI 기술을 적용하여 대형 혈관 폐쇄성 허혈성 뇌졸중(LVO)을 자동으로 탐지했습니다.임상의와 영상의는 CT 영상이 완료된 후 몇 분 이내에 휴대전화로 실시간 알림을 받아 LVO가 있을 가능성을 알 수 있습니다.이 AI 프로세스는 급성 허혈성 뇌졸중에 대한 병원 내 워크플로를 개선하여 입원에서 치료까지의 시간을 줄이고 성공적인 구조 기회를 제공합니다.이 연구 결과는 JAMA Neurology에 게재되었습니다.
보편적 혜택을 위한 AI 의료 모델
2023년에는 의료 AI를 활용하여 인간의 눈에는 보이지 않는 특징을 쉽게 구할 수 있는 데이터에서 찾아내는 훌륭한 연구가 많이 나올 것으로 예상되며, 이를 통해 보편적 진단과 대규모 조기 검진이 가능해질 것입니다. 올해 초, Nature Medicine은 중산대학교 중산 안과 센터와 푸젠 의과대학 제2부속병원에서 수행한 연구를 발표했습니다. 스마트폰을 애플리케이션 단말기로 사용하여 만화 같은 비디오 이미지를 사용하여 어린이의 시선을 유도하고 시선 행동과 얼굴 특징을 기록했으며, 딥러닝 모델을 사용하여 비정상 모델을 추가로 분석하여 선천성 백내장, 선천성 안검하수, 선천성 녹내장을 포함한 16가지 안과 질환을 평균 85% 이상의 검진 정확도로 성공적으로 식별했습니다. 이는 유아 시각 기능 장애 및 관련 안과 질환의 대규모 조기 검진을 위한 효과적이고 대중화하기 쉬운 기술적 수단을 제공합니다.
네이처 메디신(Nature Medicine)은 연말 상하이 췌장질환 연구소와 저장대학교 제1부속병원을 포함한 전 세계 10개 이상의 의료 및 연구 기관이 수행한 연구를 보고했습니다. 저자는 신체 검진 센터, 병원 등에서 무증상 환자의 췌장암 검진에 AI를 적용하여 육안으로는 발견하기 어려운 일반 CT 영상의 병변 특징을 검출함으로써 효율적이고 비침습적인 췌장암 조기 진단을 달성했습니다. 2만 명 이상의 환자 데이터를 검토한 결과, 이 모델은 임상적으로 간과된 병변 31건을 식별하여 임상 결과를 크게 개선했습니다.
의료 데이터 공유
2023년에는 전 세계적으로 더욱 완벽한 데이터 공유 메커니즘과 성공 사례가 등장하여 데이터 프라이버시와 보안을 보호한다는 전제 하에 다중 센터 협력과 데이터 개방성이 보장됩니다.
첫째, AI 기술 자체의 도움을 받아 AI 연구자들은 의료 데이터 공유에 기여해 왔습니다. 미국 러트거스 대학교의 치 창(Qi Chang) 연구팀은 네이처 커뮤니케이션즈(Nature Communications)에 분산 합성 적대 신경망(DSL) 기반 연방 학습 프레임워크를 제안하는 논문을 게재했습니다. 이 프레임워크는 생성 AI를 사용하여 여러 센터의 특정 생성 데이터를 학습시킨 후, 생성된 데이터로 여러 센터의 실제 데이터를 대체합니다. 데이터 프라이버시를 보호하는 동시에 여러 센터의 빅데이터를 기반으로 AI 학습을 보장합니다. 또한, 같은 연구팀은 생성된 병리 이미지와 해당 주석으로 구성된 데이터 세트를 오픈소스로 공개했습니다. 생성된 데이터 세트를 기반으로 학습된 분할 모델은 실제 데이터와 유사한 결과를 얻을 수 있습니다.
칭화대학교 다이 치옹하이(Dai Qionghai) 연구팀은 npj 디지털 헬스(npj Digital Health)에 릴레이 러닝(Relay Learning)을 제안하는 논문을 발표했습니다. 릴레이 러닝은 로컬 데이터 주권과 교차 사이트 네트워크 연결 없이 다중 사이트 빅데이터를 사용하여 AI 모델을 학습하는 방식입니다. 이 방식은 데이터 보안 및 개인정보 보호 문제를 해결하면서도 AI 성능을 극대화합니다. 이후 같은 연구팀은 광저우 의과대학 제1부속병원 및 전국 24개 병원과 협력하여 연방 학습 기반 흉부 CT 범종격동 종양 진단 시스템인 CAIMEN을 공동 개발하고 검증했습니다. 12가지 흔한 종격동 종양에 적용할 수 있는 이 시스템은 전문가가 단독으로 사용했을 때보다 단독으로 사용했을 때 정확도가 44.9%, 전문가가 보조적으로 사용했을 때 진단 정확도가 19% 향상되었습니다.
한편, 안전하고 전 세계적인 대규모 의료 데이터 세트를 구축하기 위한 여러 이니셔티브가 진행 중입니다. 2023년 11월, 하버드 의대 생의학정보학과의 아구스티나 사엔즈(Agustina Saenz)와 다른 연구진은 랜싯 디지털 헬스(Lancet Digital Health)에 모든 의료를 위한 인공지능 데이터(Artificial Intelligence Data for All Healthcare, MAIDA)라는 의료 영상 데이터 공유를 위한 글로벌 프레임워크를 온라인으로 발표했습니다. 이들은 전 세계 의료 기관들과 협력하여 미국 연방 시범 파트너(FDP) 템플릿을 활용하여 데이터 공유를 표준화하고 데이터 수집 및 비식별화에 대한 포괄적인 지침을 제공하고 있습니다. 전 세계 여러 지역 및 임상 환경에서 수집된 데이터 세트를 점진적으로 공개할 계획입니다. 첫 번째 데이터 세트는 2024년 초에 공개될 예정이며, 파트너십이 확대됨에 따라 더 많은 데이터 세트가 추가될 예정입니다. 이 프로젝트는 전 세계적으로 대규모의 다양한 공개 AI 데이터 세트를 구축하기 위한 중요한 시도입니다.
이 제안에 따라 영국 바이오뱅크(UK Biobank)가 모범 사례를 제시했습니다. 영국 바이오뱅크는 11월 30일, 50만 명의 참여자를 대상으로 전체 유전체 시퀀싱(WGE)을 통해 얻은 새로운 데이터를 공개했습니다. 50만 명의 영국 자원봉사자 각자의 완전한 유전체 시퀀싱을 공개하는 이 데이터베이스는 세계 최대 규모의 인간 유전체 데이터베이스입니다. 전 세계 연구자들은 익명화된 이 데이터에 대한 접근을 요청하여 건강과 질병의 유전적 기반을 탐구하는 데 활용할 수 있습니다. 유전 데이터는 과거에도 검증에 매우 민감한 정보였으며, 영국 바이오뱅크의 이번 역사적인 성과는 개인정보 보호가 보장되는 개방형 글로벌 대규모 데이터베이스 구축이 가능함을 입증합니다. 이 기술과 데이터베이스를 통해 의료 AI는 새로운 도약을 맞이할 것입니다.
의료 AI 검증 및 평가
의료 AI 기술 자체의 급속한 발전에 비해, 의료 AI 검증 및 평가 개발은 다소 더딘 편입니다. 일반 AI 분야의 검증 및 평가는 임상의와 환자의 AI에 대한 실질적인 요구를 간과하는 경우가 많습니다. 기존의 무작위 대조 임상시험은 AI 도구의 빠른 반복을 따라잡기에는 너무 많은 노력이 필요합니다. 의료 AI가 연구 개발을 넘어 임상 단계로 도약할 수 있도록, 의료 AI 도구에 적합한 검증 및 평가 시스템을 조속히 개선하는 것이 가장 중요합니다.
네이처(Nature)에 게재된 구글의 Med-PaLM 연구 논문에서 연구팀은 대규모 언어 모델의 임상 지식 습득 능력을 평가하는 데 사용되는 MultiMedQA 평가 벤치마크를 발표했습니다. 이 벤치마크는 전문 의학 지식, 연구 및 기타 측면을 포괄하는 6개의 기존 전문 의학 Q&A 데이터셋과 의사-환자 온라인 Q&A를 고려한 온라인 검색 의학 질문 데이터베이스 데이터셋을 결합하여 AI를 다방면에서 자격을 갖춘 의사로 훈련시키고자 합니다. 또한, 연구팀은 사실, 이해, 추론 및 가능한 편향의 다차원을 고려하는 인간 평가 기반 프레임워크를 제안합니다. 이는 올해 발표된 의료 분야 AI 평가 연구 중 가장 대표적인 연구 중 하나입니다.
그러나 대규모 언어 모델이 높은 수준의 임상 지식 인코딩을 보인다는 사실이 대규모 언어 모델이 실제 임상 작업에 유능하다는 것을 의미할까요? 전문 의사 시험에 만점으로 합격한 의대생이 단독 주치의와는 거리가 먼 것처럼, 구글이 제안한 평가 기준은 AI 모델에 대한 의료 AI 평가 주제에 대한 완벽한 답이 아닐 수 있습니다. 이미 2021년과 2022년에 연구자들은 임상적 실용성, 안전성, 인적 요소, 투명성/해석 가능성과 같은 요소를 고려하는 조건에서 의료 AI의 초기 개발 및 검증을 안내하고자 Decid-AI, SPIRIT-AI, INTRPRT와 같은 보고 지침을 제안했습니다. 최근 Nature Medicine 저널은 옥스퍼드 대학교와 스탠퍼드 대학교 연구자들이 AI 도구를 검증하기 위해 "외부 검증"을 사용할지 또는 "반복적인 로컬 검증"을 사용할지에 대한 연구를 발표했습니다.
AI 도구의 비편향성 또한 올해 Science와 NEJM 논문에서 주목을 받은 중요한 평가 방향입니다. AI는 훈련 데이터에 국한되어 있기 때문에 편향성을 보이는 경우가 많습니다. 이러한 편향성은 사회적 불평등을 반영할 수 있으며, 이는 알고리즘적 차별로 발전합니다. 미국 국립보건원(NIH)은 최근 1억 3천만 달러 규모의 Bridge2AI 이니셔티브를 출범시켰습니다. 이 이니셔티브는 위에서 언급한 MAIDA 이니셔티브의 목표에 따라 의료 AI 도구의 비편향성을 검증하는 데 사용할 수 있는 다양한 데이터 세트를 구축하기 위한 것입니다. MultiMedQA에서는 이러한 측면을 고려하지 않습니다. 의료 AI 모델을 측정하고 검증하는 방법에 대한 질문은 여전히 광범위하고 심도 있는 논의가 필요합니다.
1월, 네이처 메디신(Nature Medicine)은 텍사스대학교 MD 앤더슨 암센터의 비벡 수비아(Vivek Subbiah)가 쓴 "차세대 근거 기반 의학(The Next Generation Evidence-Based Medicine)"이라는 기고문을 게재했습니다. 이 기고문은 COVID-19 팬데믹 상황에서 드러난 임상 시험의 한계를 검토하고 혁신과 임상 연구 과정 준수 사이의 모순을 지적했습니다. 마지막으로, 이 기고문은 임상 시험 구조 개편의 미래, 즉 인공지능을 활용한 차세대 임상 시험의 미래를 제시합니다. 즉, 방대한 과거 연구 데이터, 실제 데이터, 다중 모드 임상 데이터, 웨어러블 기기 데이터에서 인공지능을 활용하여 핵심 근거를 찾는 것입니다. 이는 미래에 AI 기술과 AI 임상 검증 프로세스가 상호 강화되고 공진화될 수 있음을 의미할까요? 이는 2023년의 열린 질문이자 생각을 자극하는 질문입니다.
의료 AI 규제
AI 기술의 발전은 AI 규제에도 과제를 제기하며, 전 세계 정책 입안자들은 신중하고 신중하게 대응하고 있습니다. 2019년 FDA는 인공지능 의료기기 소프트웨어 변경에 대한 규제 프레임워크 제안(토론 초안)을 처음 발표하여 AI와 머신 러닝 기반 소프트웨어 수정에 대한 시판 전 검토에 대한 잠재적 접근 방식을 자세히 설명했습니다. 2021년 FDA는 "의료기기로서의 인공지능/머신 러닝 기반 소프트웨어 실행 계획"을 제안하여 5가지 구체적인 AI 의료 규제 조치를 명확히 했습니다. 올해 FDA는 기기 소프트웨어 기능의 안전성과 효능에 대한 FDA의 평가를 위한 시판 전 제출 권장 사항에 대한 정보를 제공하기 위해 기기 소프트웨어 기능에 대한 시판 전 제출을 재발행했습니다. 여기에는 머신 러닝 방법을 통해 훈련된 머신 러닝 모델을 사용하는 일부 소프트웨어 기기 기능이 포함됩니다. FDA의 규제 정책은 초기 제안에서 실질적인 지침으로 발전했습니다.
작년 7월 유럽 건강 데이터 공간(European Health Data Space)이 발표된 후 EU는 인공지능법을 다시 제정했습니다. 전자는 건강 데이터를 최대한 활용하여 고품질 의료 서비스를 제공하고, 불평등을 줄이며, 예방, 진단, 치료, 과학적 혁신, 의사 결정 및 법률을 위한 데이터를 지원하는 동시에 EU 시민이 개인 건강 데이터에 대한 더 큰 통제력을 갖도록 하는 것을 목표로 합니다. 후자는 의료 진단 시스템이 고위험 AI 시스템임을 명확히 하며, 목표 지향적인 강력한 감독, 전체 수명 주기 감독 및 사전 평가 감독을 채택해야 합니다. 유럽 의약품청(EMA)은 약물 개발, 규제 및 사용을 지원하기 위한 AI 활용에 대한 반성 논문 초안을 발표했으며, 환자 안전과 임상 연구 결과의 무결성을 보장하기 위한 AI의 신뢰성 향상에 중점을 두었습니다. 전반적으로 EU의 규제 접근 방식은 점차 구체화되고 있으며 최종 구현 세부 사항은 더 자세하고 엄격할 수 있습니다. EU의 엄격한 규제와는 대조적으로, 영국의 AI 규제 청사진은 정부가 완화적인 접근 방식을 취하고 당장은 새로운 법안을 제정하거나 새로운 규제 기관을 설립하지 않을 계획임을 분명히 밝혔습니다.
중국에서는 국가의약품감독관리총국 의료기기기술심사센터(NMPA)가 이미 ‘딥러닝 기반 의사결정 소프트웨어 심사 요령’, ‘인공지능 의료기기 등록 심사 지도 원칙(초안)’, ‘인공지능 의료 소프트웨어 제품 분류 및 정의 지도 원칙에 관한 통지(2021년 제47호)’ 등의 문서를 발표한 바 있다. 올해 "2023년 제1회 의료기기 제품 분류 결과 요약"이 다시 발표되었습니다. 이 문서는 인공지능 의료 소프트웨어 제품의 정의, 분류 및 규제를 더욱 명확하고 운영하기 쉽게 만들어 업계 각 기업의 제품 포지셔닝 및 등록 전략에 대한 명확한 지침을 제공합니다. 이 문서들은 AI 의료기기의 과학적 규제를 위한 틀과 경영 결정을 제공합니다. 12월 21일부터 23일까지 항저우에서 개최되는 중국 의료인공지능대회의 의제에 디지털 의료 거버넌스 및 공공병원의 고품질 발전 특별 포럼과 인공지능 의료기기 시험평가 기술 표준화 산업 발전 포럼이 포함되어 있어 기대를 모읍니다. 당시 국가발전개혁위원회와 국가약품감독관리총국 관계자들이 회의에 참석하여 새로운 정보를 발표할 예정입니다.
결론
2023년, 의료 AI는 병원 데이터 수집, 융합, 분석, 진단 및 치료, 그리고 지역 사회 검진까지 의료의 전 과정에 통합되기 시작했으며, 의료/질병 관리 종사자들과 유기적으로 협력하여 인류 건강에 웰빙을 가져올 잠재력을 보여주고 있습니다. 활용 가능한 의료 AI 연구가 시작되고 있습니다. 앞으로 의료 AI의 발전은 기술 발전 자체뿐만 아니라 산학연의 전폭적인 협력, 그리고 정책 입안자와 규제 기관의 지원이 필수적입니다. 이러한 분야 간 협력은 AI 통합 의료 서비스 실현의 핵심이며, 인류 건강 발전을 확실히 촉진할 것입니다.
게시 시간: 2023년 12월 30일




