Paper Review/Multimodal Learning
2024. 11. 8.
[Paper Review] Caption Re-ranking Evaluation Using Ensembled CLIP and Consensus
이미지에 대한 캡션 평가 및 순위를 매기는 new framework: ECO(Ensembled Clip score and cOnsensus score) 주어진 이미지에 대해 후보 캡션들 중 가장 정확하고 포괄적인 캡션을 식별하는 것을 목표로 하는 대회→ 이미지를 정확하고 철저하게 설명할 수 있는 캡션 선택 NICE 데이터셋20,000개 이미지각 이미지에 대한 60개 후보 캡션→ 제로샷 평가 데이터셋평가스코어CIDEr : 주어진 캡션이 여러 참조 캡션과 얼마나 일치하는가 캡션의 단어 조합의 가중치를 계산해 중요 단어가 얼마나 잘 표현되었는지 측정SPICE : 캡션의 의미론적 구조 분석, 평가 단순한 단어 일치보다 객체, 관계, 속성 등 이미지의 의미적 내용이 얼마나 잘 묘사되었는가MET..