본문 바로가기

Paper Review/Multimodal Learning

Multimodal foundation model 기본 개념

사용할 데이터 : clinical data + medical image ⇒ MIMIC Database

 

Clinical data mining

Clinical data : 임상 데이터

의료기관이 환자를 진료하며 생성하는 data

  • 환자 정보 + 의료 기록 ⇒ 데이터 분석 기법을 적용해 유용한 정보를 추출, 지식을 발견

특징

  • 데이터 다양성
    • 다양한 형태의 의료분야를 다루며 환자 정보, 의료 기록, 검사 결과 생체 신호 등을 포함
    • 이러한 다양한 데이터 유형을 통합하여 종합적 분석 수행
  • 대규모 분석
    • 통계적 유의성 파악 및 복잡한 패턴 식별
  • 패턴 인식
    • 데이터 마이닝 및 머신 러닝 기술을 사용해 숨겨진 패턴, 상관 관계, 규칙 발견
  • 예측 분석
    • 과거 데이터 기반 미래 결과 예측 ⇒ 환자의 예후 예측 가능
    주요 과제 : 데이터 품질 & 프라이버시 보호 문제

Multimodal foundation model

  1. foundation model?
  2. Multimodal?

foundation model

GPT-3와 같이 대규모 데이터로 사전학습된, 전이학습이 일어나는 딥러닝 모델

= ‘대형 언어모델’ or ‘사전학습된 언어모델’

여러 도메인의 데이터를 학습시켜 사전학습된 언어모델을 만든 후 각종 과제에 쉽게 적용

 

Emergence는 ‘출현’, ’창발’로 연구자가 직접 설계, 제어한 측면이 아닌데도 나타난 특성

ML은 how?를 창발하게 됨 ⇒ 입력과 출력의 매핑을 알아내는 것

DL은 특징들을 창발하게 됨 ⇒ 어떤 곳에 중점을 두어야하는지 학습 가능

FM은 기능을 창발하게 됨 ⇒ ‘번역’, ‘물체 탐지’ 등의 기능을 데이터를 통해 유도

Homogenization는 ‘균질화’, ’동질화’로 ai 시스템 구축 시 출어야할 문제 형태에 독립적 풀이방법

ML은 학습 알고리즘은 동질화 가능 ⇒ 구체적으로 특징을 어떻게 정하느냐, 문제를 풀 때 더 강력한 알고리즘은 없는지를 정할 때는 사람이 해줘야함

DL은 신경망 모델들의 구성을 모든 문제에 동일하게 적용할 수 있음

FM은 문제에 맞춘 특정한 구성조차도 필요

 

Multimodal

전통적 모델 : single modality of data (Language, Image, Speech and so on)

멀티모달 모델 : input = 다양한 타입의 데이터 학습, output = 다양한 타입의 데이터 동시 고려

GPT-4, LLM 기반으로 범용적 언어모델을 생성하였고, 이 모델이 커버할 수 있는 범위가 기대 이상으로 넓었음 ⇒ 이미지에 대해 텍스트로 주석을 달고, 해당 텍스트 기반으로 이미지라는 output 도출 가능

위 방법을 통해 multimodal 분야에 있는 블랙박스를 풀었음

                                                                    : 상호 다른 타입의 데이터의 메커니즘과 그 인터페이스