페이지_배너

소식

대규모 언어 모델(LLM)은 즉각적인 단어를 기반으로 설득력 있는 기사를 작성하고, 전문 능력 시험에 합격하며, 환자 친화적이고 공감할 수 있는 정보를 작성할 수 있습니다. 그러나 LLM의 허구, 취약성, 그리고 부정확한 사실과 같은 잘 알려진 위험 외에도, AI 모델이 생성 및 사용 과정에서 잠재적으로 차별적인 "인간적 가치"를 포함하고 있다는 점과 같은 해결되지 않은 문제들이 점차 주목받고 있습니다. LLM이 더 이상 콘텐츠를 조작하지 않고 명백히 유해한 출력 결과를 제거하더라도 "LLM 가치"는 여전히 인간의 가치에서 벗어날 수 있습니다.

 

수많은 사례들이 AI 모델을 훈련하는 데 사용되는 데이터가 개인적, 사회적 가치를 어떻게 인코딩하는지 보여주며, 이러한 가치들은 모델 내에서 더욱 강화될 수 있습니다. 이러한 사례에는 흉부 엑스레이 자동 판독, ​​피부 질환 분류, 의료 자원 배분에 대한 알고리즘적 의사 결정 등 다양한 응용 분야가 포함됩니다. 저희 저널의 최근 논문에서 언급했듯이, 편향된 훈련 데이터는 사회에 존재하는 가치와 편향을 증폭시키고 드러낼 수 있습니다. 오히려, 연구에 따르면 AI는 편향을 줄이는 데에도 사용될 수 있습니다. 예를 들어, 연구자들은 무릎 엑스레이 필름에 딥러닝 모델을 적용하여 방사선 전문의가 평가한 표준 중증도 지표에서 간과되었던 무릎 관절 내 요인을 발견하여 흑인과 백인 환자 간의 설명되지 않는 통증 차이를 줄였습니다.

점점 더 많은 사람들이 AI 모델, 특히 학습 데이터 측면에서 편향성을 인식하고 있지만, AI 모델의 개발 및 배포 과정에서 인간의 가치를 구성하는 다른 많은 진입점들은 충분한 고려를 받지 못하고 있습니다. 의료 AI는 최근 인상적인 성과를 거두었지만, 상당 부분 인간의 가치와 위험 평가 및 확률적 추론의 상호작용을 명시적으로 고려하지 않았으며, 모델링도 이루어지지 않았습니다.

 

이러한 추상적인 개념을 구체화하기 위해, 당신이 내분비학자라고 가정해 보겠습니다. 그는 연령대 3 백분위수 미만인 8세 남아에게 재조합 인간 성장 호르몬을 처방해야 합니다. 이 남아의 자극 인간 성장 호르몬 수치는 2ng/mL 미만(기준치 >10ng/mL, 미국 외 여러 국가의 기준치 >7ng/mL)이며, 그의 인간 성장 호르몬 코딩 유전자에서 드문 불활성화 돌연변이가 검출되었습니다. 우리는 이러한 임상 환경에서 인간 성장 호르몬 치료의 적용이 명백하고 의심의 여지가 없다고 생각합니다.

다음과 같은 상황에서 인간 성장 호르몬 치료를 적용하는 것은 논란을 야기할 수 있습니다. 14세 소년의 키가 항상 또래의 10%에 속하고, 자극 후 인간 성장 호르몬의 최고치는 8ng/mL입니다. 키에 영향을 미칠 수 있는 기능적 돌연변이나 저신장의 다른 알려진 원인은 없으며, 그의 골 연령은 15세입니다(즉, 발달 지연이 없습니다). 이러한 논란의 일부는 단독 성장 호르몬 결핍증 진단에 사용되는 인간 성장 호르몬 수치에 관한 수십 건의 연구를 기반으로 전문가들이 정한 역치의 차이에서 비롯됩니다. 환자, 환자 부모, 의료 전문가, 제약 회사 및 지불자의 관점에서 인간 성장 호르몬 치료 사용의 위험-편익 균형에 대해서도 최소한 비슷한 수준의 논란이 있습니다. 소아 내분비과 전문의는 2년 동안 매일 성장 호르몬을 주사하는 경우 드물게 나타나는 부작용을 고려할 수 있으며, 현재와 비교하여 성인의 신체 크기가 전혀 성장하지 않거나 최소한의 성장만 있을 가능성이 높습니다. 남자아이들은 키가 2cm만 자라도 성장호르몬을 주사하는 게 가치 있다고 생각할 수 있지만, 지불자와 제약 회사의 의견은 다를 수 있습니다.

 

크레아티닌 기반 eGFR을 예로 들어 보겠습니다. eGFR은 만성 신장 질환의 진단 및 병기 결정, 신장 이식 또는 기증 조건 설정, 그리고 많은 처방약의 감량 기준 및 금기 사항 결정에 널리 사용되는 신장 기능 지표입니다. EGFR은 기준 표준인 측정된 사구체 여과율(mGFR)을 추정하는 데 사용되는 단순 회귀 방정식이지만, 평가 방법이 비교적 복잡합니다. 이 회귀 방정식은 AI 모델로 간주될 수는 없지만, 인간의 가치관과 확률적 추론에 대한 여러 원리를 보여줍니다.

인간 값이 eGFR에 입력되는 첫 번째 단계는 방정식 적합을 위한 데이터를 선택할 때입니다. eGFR 공식을 설계하는 데 사용된 원래 대기열은 대부분 흑인과 백인 참가자로 구성되어 있으며, 다른 여러 인종 집단에 대한 적용 가능성은 명확하지 않습니다. 이후 인간 값이 이 공식에 입력되는 단계는 다음과 같습니다. 신장 기능 평가의 주요 목표로 mGFR 정확도를 선택하고, 허용 가능한 정확도 수준은 무엇이며, 정확도를 어떻게 측정하고, eGFR을 임상 의사 결정(예: 신장 이식 조건 결정 또는 약물 처방)을 위한 임계값으로 사용하는 것입니다. 마지막으로, 입력 모델의 내용을 선택할 때 인간 값도 이 공식에 입력됩니다.

예를 들어, 2021년 이전 지침에서는 환자의 연령, 성별, 인종(흑인 또는 비흑인으로만 분류)에 따라 eGFR 공식의 크레아티닌 수치를 조정하도록 제안했습니다. 인종에 따른 조정은 mGFR 공식의 정확성을 향상시키기 위한 것이었지만, 2020년 주요 병원들은 환자의 이식 적격성 지연 및 인종을 생물학적 개념으로 구체화하는 등의 이유로 인종 기반 eGFR 사용에 의문을 제기하기 시작했습니다. 연구에 따르면 인종을 기준으로 eGFR 모델을 설계하는 것은 정확도와 임상 결과에 심오하고 다양한 영향을 미칠 수 있습니다. 따라서 정확도에 선택적으로 초점을 맞추거나 결과의 일부에만 초점을 맞추는 것은 가치 판단을 반영하고 투명한 의사 결정을 가릴 수 있습니다. 마지막으로, 국가 실무 그룹은 성과와 공정성 문제의 균형을 맞추기 위해 인종을 고려하지 않고 재구성된 새로운 공식을 제안했습니다. 이 사례는 단순한 임상 공식조차도 인간의 가치에 대한 여러 진입점을 가지고 있음을 보여줍니다.

병원 수술실에서 가상현실을 사용하는 의사. 외과의가 기술적 디지털 미래형 가상 인터페이스인 디지털 홀로그램을 통해 환자의 심장 검사 결과와 인체 해부학을 분석하고 있으며, 이는 과학과 의학 개념에서 혁신적입니다.

예측 지표가 적은 임상 공식과 비교했을 때, LLM은 수십억에서 수천억 개 이상의 매개변수(모델 가중치)로 구성될 수 있어 이해하기 어렵습니다. "이해하기 어렵다"고 말하는 이유는 대부분의 LLM에서 질문을 통해 응답을 이끌어내는 정확한 방식을 매핑할 수 없기 때문입니다. GPT-4의 매개변수 수는 아직 발표되지 않았습니다. 이전 모델인 GPT-3에는 1,750억 개의 매개변수가 있었습니다. 매개변수가 많다고 해서 반드시 더 강력한 기능을 의미하는 것은 아닙니다. 더 많은 계산 주기를 포함하는 작은 모델(예: LLaMA[Large Language Model Meta AI] 모델 시리즈)이나 인간의 피드백을 기반으로 미세하게 조정된 모델이 더 큰 모델보다 성능이 더 좋습니다. 예를 들어, 인간 평가자에 따르면 13억 개의 매개변수가 있는 모델인 InstrumentGPT 모델은 모델 출력 결과를 최적화하는 데 있어 GPT-3보다 성능이 뛰어납니다.

GPT-4의 구체적인 학습 세부 사항은 아직 공개되지 않았지만, GPT-3, InstrumentGPT 및 기타 여러 오픈소스 LLM을 포함한 이전 세대 모델의 세부 사항은 공개되었습니다. 오늘날 많은 AI 모델에는 모델 카드가 포함되어 있습니다. GPT-4의 평가 및 보안 데이터는 모델 생성 회사인 OpenAI에서 제공하는 유사한 시스템 카드에 게시되었습니다. LLM 생성은 크게 두 단계로 나눌 수 있습니다. 초기 사전 학습 단계와 모델 출력 결과 최적화를 위한 미세 조정 단계입니다. 사전 학습 단계에서는 모델에 원본 인터넷 텍스트가 포함된 대규모 코퍼스가 제공되어 다음 단어를 예측하도록 학습합니다. 이처럼 간단해 보이는 "자동 완성" 프로세스는 강력한 기반 모델을 생성하지만, 유해한 동작으로 이어질 수도 있습니다. GPT-4에 대한 사전 학습 데이터를 선택하고 사전 학습 데이터에서 음란물과 같은 부적절한 콘텐츠를 제거하는 등 인간의 가치가 사전 학습 단계에 포함됩니다. 이러한 노력에도 불구하고 기본 모델은 여전히 ​​유용하지 않거나 유해한 출력 결과를 포함할 수 없습니다. 미세 조정의 다음 단계에서는 많은 유용하고 무해한 행동이 나타날 것입니다.

미세 조정 단계에서 언어 모델의 동작은 종종 지도 미세 조정과 인간 피드백 기반 강화 학습을 통해 크게 변경됩니다. 지도 미세 조정 단계에서는 고용된 계약직 직원이 프롬프트 단어에 대한 응답 예시를 작성하고 모델을 직접 학습합니다. 인간 피드백 기반 강화 학습 단계에서는 인간 평가자가 모델 출력 결과를 입력 콘텐츠 예시로 분류합니다. 그런 다음 위의 비교 결과를 적용하여 "보상 모델"을 학습하고 강화 학습을 통해 모델을 더욱 개선합니다. 놀랍도록 낮은 수준의 인간 참여를 통해 이러한 대규모 모델을 미세 조정할 수 있습니다. 예를 들어, InstrumentGPT 모델은 크라우드소싱 웹사이트에서 모집한 약 40명의 계약직 직원으로 구성된 팀을 활용하여 다양한 인구 집단의 선호도에 민감한 주석 작성자 그룹을 선정하기 위한 선별 테스트를 통과했습니다.

간단한 임상 공식[eGFR]과 강력한 LLM[GPT-4]이라는 두 가지 극단적인 사례에서 알 수 있듯이, 인간의 의사결정과 가치관은 모델 출력 결과를 형성하는 데 필수적인 역할을 합니다. 이러한 AI 모델은 환자와 의사의 다양한 가치를 포착할 수 있을까요? 의료 분야에서 AI 적용을 어떻게 공개적으로 안내할 수 있을까요? 아래에서 언급했듯이, 의료 의사결정 분석을 재검토하는 것이 이러한 문제에 대한 원칙적인 해결책을 제시할 수 있을 것입니다.

 

의학적 의사결정 분석은 많은 임상의에게 익숙하지 않지만, 확률적 추론(그림 1에 나타난 논란의 여지가 있는 임상 상황에서 성장 호르몬 투여 여부와 같은 의사결정 관련 불확실한 결과에 대한 추론)과 고려 요소(이러한 결과에 부여된 주관적 가치, 즉 남성의 키가 2cm 증가하는 것과 같은 "효용"으로 정량화되는 가치에 대한 추론)를 구분하여 복잡한 의학적 의사결정에 대한 체계적인 해결책을 제공합니다. 의사결정 분석에서 임상의는 먼저 각 결과와 관련된 모든 가능한 의사결정과 확률을 파악한 다음, 각 결과와 관련된 환자(또는 다른 당사자)의 효용을 통합하여 가장 적절한 옵션을 선택해야 합니다. 따라서 의사결정 분석의 타당성은 결과 설정이 포괄적인지, 효용 측정 및 확률 추정이 정확한지에 달려 있습니다. 이상적으로, 이러한 접근 방식은 의사결정이 근거 기반이고 환자의 선호도에 부합하도록 보장하여 객관적인 데이터와 개인적 가치 간의 격차를 줄이는 데 도움이 됩니다. 이 방법은 수십 년 전 의학 분야에 도입되어 개별 환자의 의사결정과 인구 건강 평가에 적용되었는데, 예를 들어 일반 대중에게 대장암 검진에 대한 권장 사항을 제공하는 데 사용되었습니다.

 

의료 의사결정 분석에서는 효용을 얻기 위해 다양한 방법이 개발되었습니다. 대부분의 전통적인 방법은 개별 환자로부터 가치를 직접 도출합니다. 가장 간단한 방법은 환자가 특정 결과에 대한 선호도를 디지털 척도(예: 1에서 10까지의 선형 척도)를 사용하여 평가하는 평가 척도를 사용하는 것입니다. 이때 가장 극단적인 건강 결과(예: 완전한 건강 및 사망)가 양 끝에 위치합니다. 시간 교환법은 또 다른 일반적인 방법입니다. 이 방법에서 환자는 건강이 좋지 않은 기간 동안 얼마나 많은 건강한 시간을 보낼 의향이 있는지 결정해야 합니다. 표준 도박법은 효용을 결정하는 또 다른 일반적인 방법입니다. 이 방법에서 환자는 두 가지 선택지 중 어느 것을 선호하는지 질문받습니다. 특정 확률(p)(t)로 정상 건강 상태로 특정 기간 동안 살거나, 1-p 확률로 사망 위험을 감수하거나, 교차 건강 상태에서 t년 동안 살거나, 두 가지 선택지 중 어느 것을 선호하는지 질문받습니다. 환자가 어떤 선택지에 대한 선호도도 보이지 않을 때까지 서로 다른 p-값을 사용하여 여러 번 질문하여 환자의 반응을 기반으로 효용을 계산합니다.
개별 환자의 선호도를 이끌어내는 방법 외에도, 환자 집단의 효용을 확보하기 위한 방법들이 개발되었습니다. 특히, 포커스 그룹 토론(환자들을 모아 특정 경험에 대해 논의하는 것)은 환자의 관점을 이해하는 데 도움이 될 수 있습니다. 집단 효용을 효과적으로 집계하기 위해 다양한 구조화된 집단 토론 기법이 제안되었습니다.
실제로 임상 진단 및 치료 과정에 유용성을 직접 도입하는 데는 많은 시간이 소요됩니다. 이 문제를 해결하기 위해 일반적으로 무작위로 선정된 모집단에 설문지를 배포하여 모집단 수준의 유용성 점수를 얻습니다. 몇 가지 예로는 EuroQol 5차원 설문지, 6차원 유용성 가중치 단축형, 건강 유용성 지수, 그리고 유럽 암 연구 및 치료 기구(ECRO)의 암 관련 삶의 질 설문지 코어 30 도구가 있습니다.


게시 시간: 2024년 6월 1일