SOLUTION
home
OGQ GYN AI for Image
home
🖼️

OGQ GYN Developers Day #22 : ViT-CoMer

게시일
2024/06/15
관련 태그
ViT-CoMer
Multi-Scale Convolutional feature modul
ViT base
Segmentation
Detection
게시자
Woo JaeHyeon
Woo JaeHyeon
1 more property
OGQ GYN Developers Day는 OGQ GYN의 모델 개발 과정 및 논문 등을 많은 기업 분들께 발표하는 자리로, 매월 마지막 주 수요일에 진행되고 있습니다.
이번 컨퍼런스에선 ViT-CoMer 논문을 소개합니다.

Contents

Conference 개요

일시 : 2024년 06월 05일 13:00 ~ 14:00
장소 : Zoom 미팅
참여기업 (가나다순)
베스트디지탈 BEST DIGITAL
웹게이트 WEBGATE
한국씨텍
순서
1.
참여 업체 소개
2.
OGQ GYN 발표
사회자: OGQ GYN 우재현 연구원
발표자: OGQ GYN 우재현 연구원
3.
Q&A

1. Previous Presentation Summary

지난 MobileNet v1, v2, v3에 대해 리뷰하는 시간을 가졌습니다.
Standard Convolution 필터를 Depth-Wise Separable Convolution으로 변경
연산량과 성능 사이의 trade-off에서 적은 성능 손실로 연산량을 획기적으로 줄임
Inverted residual를 제안
Inverted residual 에 residual connection으로 Pooling으로 feature의 중요한 정보를 추출하였음
Hard-Swish 제안
NAS 적용
이상으로 Mobilenet v1, v2, v3의 주요 포인트들이 있었습니다.

2. Problem

이번에는 CVPR Highlight 논문인 ViT-Comer 에 대해서 알아보려 합니다.
알아보기 전에 ViT는 무엇인지, CNN가 무엇이 다른지 그 배경을 알아볼 필요가 있습니다.
과거에는 이미지에 대해 Convolution을 도입하여 딥러닝 모델을 만드는 것이 보편화되어 있었으며 Transformer는 단어, 문장과 같은 text를 이해할 수 있는 딥러닝 모델을 만드는 것이 보편화되었습니다.

ViT란?

ViT는 ‘성능이 좋은 Transformer를 이미지에 대해 적용할 수 있지 않을까?’ 라는 물음에서 시작된 모델입니다.
ViT의 이름 유래 또한 Transformer의 이름 앞에 Vision이 들어갑니다.
Vision Transformer(ViT)는 이미지를 Patch 단위로 분리하여 Transformer의 입력으로 들어갈 수 있는 이미지 Patch는 백터화와 Position Embedding이 적용되었습니다.
다음과 같이 구성한 모델이 기존의 CNN 보다 높은 성능을 달성함으로써 ViT 모델이 이미지 관련 문제를 해결할 수 있는 큰 기준으로 자리잡게 됩니다.

ViT-Comer Abstract

ViT와 CNN은 각각의 장단점이 있으며, 둘의 가장 큰 차이는 파라미터와 bias의 유무입니다.
ViT는 큰 파라미터와 bias가 없으며 bias가 없기 때문에, 특정 데이터셋의 편향을 학습하지 못하므로 학습 시에 아주 많은 학습데이터를 필요로 합니다.
CNN은 비교적 적은 파라미터와 bias가 있으므로 일반적인 학습에 용이합니다.
ViT-Comer는 ViT와 CNN의 각 장점을 활용할 수 있는 방안에 대해 얘기합니다. 아래 두 가지가 논문의 가장 큰 contribution입니다.
ViT뿐만 아니라 Convolution Multi-scale feature를 활용하도록 ViT에 CNN branch를 추가
기존의 ViT에 Convolution Feature를 적용하려는 시도는 많았지만 Open-source의 weight를 사용하며 Multi-scale feature를 사용할 수 있는 기술을 적용

2. Method

다음으로는 실제로 어떻게 해당 모델을 구현했는지 방법입니다.
Open-Source weight를 활용할 수 있도록 ViT branch의 ViT는 구조 변경없이 그대로 사용하였습니다.
MRFP (Multi-Receptive Field Feature Pyramid module)와 CTI (CNN-Transformer Bidirectional Fusion Interaction module)를 제안하여 CNN feature와 Transformer feature 결합하여 사용합니다.
CTI를 bi-directional 설계를 통해 CNN feature와 ViT feature를 결합하여 CNN/ViT Branch에 붙였습니다.
성능에 큰 기여를 한 MRFP, CTV 모듈을 살펴보면,
MRFP는 MRC(Multi Receptive Field Convolution)을 적용하는 구조를 제안합니다.
DepthWise Convolution을 활용하여 연산량 및 k * k 필터를 사용하여 multi-feature 정보를 얻음
CTI는 CNN-Transformer feature를 Interaction하기 위한 모듈입니다.
F_4 feature를 기준으로 ViT와 feature를 결합한 후에 Multi-Scale Self-Attention을 통해 F_3, F_5에도 ViT Information을 결합하였음
CTI를 bi-directional 설계를 통해 CNN feature와 ViT feature를 결합하여 CNN/ViT Branch에 붙였습니다.

3. Result

다음으로는 Method로 구현한 모델에 대한 Result입니다.
Object Detection과 Instance Segmentation에서 제안한 ViT-Comer가 ViT에 비해 성능이 훨씬 높습니다.
DINOv2 weight를 사용했을 때는 훨씬 성능이 높아집니다.
MM - DeiT weight, SSL – Dinov2 weight : Open-Source Weight를 사용하는 것이 확실히 성능이 높습니다.
ViT 계열의 다른 구조들과 비교했을때, 성능이 더 높습니다.
MRFP, CTI 구조가 성능 향상에 기여했으며 특히 CTI를 bi-directional 하게 설계한 것이 가장 성능 향상이 큽니다.
Table 9 : Interaction Modules (MRFP + CTI) 구조를 반복한 회수에 따른 성능으로 N이 증가한다고 계속 성능이 높아지진 않습니다.
Table 10 : MRFP의 MRC의 Convolution kernel size에 따른 모델 결과로 k를 3,5 로만 구성했을때의 성능이 제일 높습니다.

3. Result

본 논문은 Pre-trained weight를 사용할 수 있는 standard ViT base인 ViT-CoMer를 제안합니다.
Multi-Scale Convolutional feature modul를 Adapter 처럼 붙여서 CNN의 장점을 효과적으로 활용하였습니다.
ViT-CoMer은 Detection, Segmentation와 같은 다양한 task에서 기존 ViT base 모델들보다 우수한 성능을 보여주고, 특히 pre-trained weight를 활용했을때 SOTA 성능을 보여줍니다.
Search
OGQ GYN Developers Day #22 : ViT-CoMer
OGQ GYN Developers Day #22 : ViT-CoMer
OGQ GYN의 기술블로그를 비상업적으로 사용 시 출처를 남겨주세요. 상업적 용도를 원하실 경우 문의 부탁드립니다. E-mail. tech@gynetworks.com
OGQ Corp. All right reserved.