세상만사 이야기

Large language models encode clinical knowledge

무열이 서로구독 구해요 2023. 7. 17. 13:00
728x90



우리나라와 달리

외국에서는 참 다양한 분야에 엄청난 성과가 다양하게 보여집니다

참 따라가기 힘들정도로 대단한분들 많음


ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ



역시 구글의 Med-PaLM 정도 되면 네이처에 실리는군요.

제목: Large language models encode clinical knowledge

요약
대규모 언어 모델(LLM)은 인상적인 기능을 입증해 왔지만 임상 적용에 대한 기준은 높습니다. 모델의 임상 지식을 평가하려는 시도는 일반적으로 제한된 벤치마크에 기반한 자동화된 평가에 의존합니다. 여기에서는 이러한 한계를 해결하기 위해 전문 의학, 연구 및 소비자 질문에 걸친 6개의 기존 의료 질문 답변 데이터세트와 온라인에서 검색된 새로운 의료 질문 데이터세트인 HealthSearchQA를 결합한 벤치마크인 MultiMedQA를 소개합니다. 사실성, 이해도, 추론, 피해 가능성, 편견 등 여러 축에 따라 모델 답변에 대한 인적 평가 프레임워크를 제안합니다. 또한 5,400억 개의 파라미터로 구성된 언어 모델1(PaLM)과 그 명령어 튜닝 변형인 Flan-PaLM2를 MultiMedQA에서 평가합니다. Flan-PaLM은 여러 가지 프롬프트 전략을 조합하여 모든 MultiMedQA 객관식 데이터 세트(MedQA3, MedMCQA4, PubMedQA5 및 대규모 다중 작업 언어 이해(MMLU) 임상 주제 측정6)에 대해 최첨단 정확도를 달성하며, 특히 MedQA(미국 의사 면허 시험 스타일 문제)의 정확도는 67.6%로 이전 기술을 17% 이상 능가합니다. 하지만 사람이 직접 평가하면 몇 가지 부족한 점이 드러납니다. 이 문제를 해결하기 위해 몇 가지 예시를 사용하여 LLM을 새로운 영역에 맞게 조정하는 매개변수 효율적인 접근 방식인 명령어 프롬프트 튜닝을 도입했습니다.


그 결과 Med-PaLM이라는 모델이 고무적인 성과를 보였지만 임상의에 비해서는 여전히 열등합니다. 모델 규모와 지시 프롬프트 튜닝을 통해 이해력, 지식 회상 및 추론 능력이 향상되어 의학에서 LLM의 잠재적 유용성을 시사합니다. 인간 평가는 오늘날 모델의 한계를 드러내며 임상 적용을 위한 안전하고 유용한 LLM을 만드는 데 있어 평가 프레임워크와 방법 개발이 모두 중요하다는 점을 강조합니다.

링크: https://www.nature.com/articles/s41586-023-06291-2
출처

https://m.facebook.com/story.php?story_fbid=pfbid028Qvm8KkPxuGqQFwgWHjvYKtsQeStWFsqTfauBHvZzW1ceN9tSokdWVSAgh7wDm1Yl&id=683301409&mibextid=Nif5oz

728x90
반응형
그리드형