사용할 데이터 : clinical data + medical image ⇒ MIMIC Database
Clinical data mining
Clinical data : 임상 데이터
의료기관이 환자를 진료하며 생성하는 data
- 환자 정보 + 의료 기록 ⇒ 데이터 분석 기법을 적용해 유용한 정보를 추출, 지식을 발견
특징
- 데이터 다양성
- 다양한 형태의 의료분야를 다루며 환자 정보, 의료 기록, 검사 결과 생체 신호 등을 포함
- 이러한 다양한 데이터 유형을 통합하여 종합적 분석 수행
- 대규모 분석
- 통계적 유의성 파악 및 복잡한 패턴 식별
- 패턴 인식
- 데이터 마이닝 및 머신 러닝 기술을 사용해 숨겨진 패턴, 상관 관계, 규칙 발견
- 예측 분석
- 과거 데이터 기반 미래 결과 예측 ⇒ 환자의 예후 예측 가능
Multimodal foundation model
- foundation model?
- Multimodal?
foundation model
GPT-3와 같이 대규모 데이터로 사전학습된, 전이학습이 일어나는 딥러닝 모델
= ‘대형 언어모델’ or ‘사전학습된 언어모델’
Emergence는 ‘출현’, ’창발’로 연구자가 직접 설계, 제어한 측면이 아닌데도 나타난 특성
ML은 how?를 창발하게 됨 ⇒ 입력과 출력의 매핑을 알아내는 것
DL은 특징들을 창발하게 됨 ⇒ 어떤 곳에 중점을 두어야하는지 학습 가능
FM은 기능을 창발하게 됨 ⇒ ‘번역’, ‘물체 탐지’ 등의 기능을 데이터를 통해 유도
Homogenization는 ‘균질화’, ’동질화’로 ai 시스템 구축 시 출어야할 문제 형태에 독립적 풀이방법
ML은 학습 알고리즘은 동질화 가능 ⇒ 구체적으로 특징을 어떻게 정하느냐, 문제를 풀 때 더 강력한 알고리즘은 없는지를 정할 때는 사람이 해줘야함
DL은 신경망 모델들의 구성을 모든 문제에 동일하게 적용할 수 있음
FM은 문제에 맞춘 특정한 구성조차도 필요
Multimodal
전통적 모델 : single modality of data (Language, Image, Speech and so on)
멀티모달 모델 : input = 다양한 타입의 데이터 학습, output = 다양한 타입의 데이터 동시 고려
GPT-4, LLM 기반으로 범용적 언어모델을 생성하였고, 이 모델이 커버할 수 있는 범위가 기대 이상으로 넓었음 ⇒ 이미지에 대해 텍스트로 주석을 달고, 해당 텍스트 기반으로 이미지라는 output 도출 가능
위 방법을 통해 multimodal 분야에 있는 블랙박스를 풀었음
: 상호 다른 타입의 데이터의 메커니즘과 그 인터페이스