🖼️

OGQ GYN Developers Day #22 : ViT-CoMer

게시일

2024/06/15

세미나 개요

•

일시 : 2024년 06월 05일 13:00 ~ 14:00

•

장소 : Zoom 미팅

•

참여기업 (가나다순)

◦

베스트디지탈 BEST DIGITAL

◦

웹게이트 WEBGATE

◦

한국씨텍

•

순서

참여 업체 소개

OGQ GYN 발표

•

사회자: OGQ GYN 우재현 연구원

•

발표자: OGQ GYN 우재현 연구원

Q&A

1. Previous Presentation Summary

지난 MobileNet v1, v2, v3에 대해 리뷰하는 시간을 가졌습니다.

•

Standard Convolution 필터를 Depth-Wise Separable Convolution으로 변경

•

연산량과 성능 사이의 trade-off에서 적은 성능 손실로 연산량을 획기적으로 줄임

•

Inverted residual를 제안

•

Inverted residual 에 residual connection으로 Pooling으로 feature의 중요한 정보를 추출하였음

•

Hard-Swish 제안

•

NAS 적용 

이상으로 Mobilenet v1, v2, v3의 주요 포인트들이 있었습니다.

2. Problem

이번에는 CVPR Highlight 논문인 ViT-Comer 에 대해서 알아보려 합니다.

알아보기 전에 ViT는 무엇인지, CNN가 무엇이 다른지 그 배경을 알아볼 필요가 있습니다.

과거에는 이미지에 대해 Convolution을 도입하여 딥러닝 모델을 만드는 것이 보편화되어 있었으며 Transformer는 단어, 문장과 같은 text를 이해할 수 있는 딥러닝 모델을 만드는 것이 보편화되었습니다.

ViT란?

ViT는 ‘성능이 좋은 Transformer를 이미지에 대해 적용할 수 있지 않을까?’ 라는 물음에서 시작된 모델입니다.

ViT의 이름 유래 또한 Transformer의 이름 앞에 Vision이 들어갑니다.

Vision Transformer(ViT)는 이미지를 Patch 단위로 분리하여 Transformer의 입력으로 들어갈 수 있는 이미지 Patch는 백터화와 Position Embedding이 적용되었습니다.

다음과 같이 구성한 모델이 기존의 CNN 보다 높은 성능을 달성함으로써 ViT 모델이 이미지 관련 문제를 해결할 수 있는 큰 기준으로 자리잡게 됩니다.

ViT-Comer Abstract

ViT와 CNN은 각각의 장단점이 있으며, 둘의 가장 큰 차이는 파라미터와 bias의 유무입니다.

•

ViT는 큰 파라미터와 bias가 없으며 bias가 없기 때문에, 특정 데이터셋의 편향을 학습하지 못하므로 학습 시에 아주 많은 학습데이터를 필요로 합니다.

•

CNN은 비교적 적은 파라미터와 bias가 있으므로 일반적인 학습에 용이합니다.

ViT-Comer는 ViT와 CNN의 각 장점을 활용할 수 있는 방안에 대해 얘기합니다. 아래 두 가지가 논문의 가장 큰 contribution입니다.

•

ViT뿐만 아니라 Convolution Multi-scale feature를 활용하도록 ViT에 CNN branch를 추가

•

기존의 ViT에 Convolution Feature를 적용하려는 시도는 많았지만 Open-source의 weight를 사용하며 Multi-scale feature를 사용할 수 있는 기술을 적용

2. Method

다음으로는 실제로 어떻게 해당 모델을 구현했는지 방법입니다.

•

Open-Source weight를 활용할 수 있도록 ViT branch의 ViT는 구조 변경없이 그대로 사용하였습니다.

•

MRFP (Multi-Receptive Field Feature Pyramid module)와 CTI (CNN-Transformer Bidirectional Fusion Interaction module)를 제안하여 CNN feature와 Transformer feature 결합하여 사용합니다.

•

CTI를 bi-directional 설계를 통해 CNN feature와 ViT feature를 결합하여 CNN/ViT Branch에 붙였습니다.

성능에 큰 기여를 한 MRFP, CTV 모듈을 살펴보면,

•

MRFP는 MRC(Multi Receptive Field Convolution)을 적용하는 구조를 제안합니다.

◦

DepthWise Convolution을 활용하여 연산량 및 k * k 필터를 사용하여 multi-feature 정보를 얻음

•

CTI는 CNN-Transformer feature를 Interaction하기 위한 모듈입니다.

◦

F_4 feature를 기준으로 ViT와 feature를 결합한 후에 Multi-Scale Self-Attention을 통해 F_3, F_5에도 ViT Information을 결합하였음

•

CTI를 bi-directional 설계를 통해 CNN feature와 ViT feature를 결합하여 CNN/ViT Branch에 붙였습니다.

3. Result

다음으로는 Method로 구현한 모델에 대한 Result입니다.

•

Object Detection과 Instance Segmentation에서 제안한 ViT-Comer가 ViT에 비해 성능이 훨씬 높습니다.

•

DINOv2 weight를 사용했을 때는 훨씬 성능이 높아집니다.

•

MM - DeiT weight, SSL – Dinov2 weight
: Open-Source Weight를 사용하는 것이 확실히 성능이 높습니다.

•

 ViT 계열의 다른 구조들과 비교했을때, 성능이 더 높습니다.

•

MRFP, CTI 구조가 성능 향상에 기여했으며 특히 CTI를 bi-directional 하게 설계한 것이 가장 성능 향상이 큽니다.

•

Table 9 : Interaction Modules (MRFP + CTI) 구조를 반복한 회수에 따른 성능으로 N이 증가한다고 계속 성능이 높아지진 않습니다.

•

Table 10 : MRFP의 MRC의 Convolution kernel size에 따른 모델 결과로 k를 3,5 로만 구성했을때의 성능이 제일 높습니다.

3. Result

•

본 논문은 Pre-trained weight를 사용할 수 있는 standard ViT base인 ViT-CoMer를 제안합니다.

•

Multi-Scale Convolutional feature modul를 Adapter 처럼 붙여서 CNN의 장점을 효과적으로 활용하였습니다.

•

ViT-CoMer은 Detection, Segmentation와 같은 다양한 task에서 기존 ViT base 모델들보다 우수한 성능을 보여주고, 특히 pre-trained weight를 활용했을때 SOTA 성능을 보여줍니다.

List

NIA 초거대AI 확산 생태계 조성 사업 선정/미디어·콘텐츠 비식별화 및 클린본 데이터

IITP 정보통신·방송 기술개발사업 및 표준개발지원사업 선정/VLM 지능형 영상 보안 관제 기술 개발

NIPA AI 미디어·문화 향유 확산 사업 선정/생성형AI 기반 미디어 창작지원 서비스 개발

제2회 네이버 오지큐마켓 인공지능 경진대회

OGQ GYN Developers Day #23 : Super Resolution

OGQ GYN Developers Day #22 : ViT-CoMer

OGQ GYN Developers Day #21 : MobileNet

OGQ GYN Developers Day #20 : DHR 기반 EN675 화재 고도화

OGQ GYN Developers Day #19 : 하루 5억 건 대규모 트래픽을 고려한 Tag API 구축 방법 - 고려할 점 3가지

OGQ GYN Developers Day #18 : OGQ GPT / EN675 고도화

OGQ GYN Developers Day #17 : OGQ GYN Aloha

제1회 네이버 오지큐마켓 인공지능 경진대회

OGQ GYN Developers Day #16 : MARS

OGQ GYN Developers Day #15 : NPU+GPU Combination

OGQ GYN Developers Day #14 : PointWSSIS

OGQ GYN Developers Day #13 : Inpainting Sample

OGQ GYN Developers Day #12 : Blended Diffusion

OGQ GYN Developers Day #11 : AuxAdapt

OGQ GYN Developers Day #10 : EN675+Server

OGQ GYN Developers Day #9 : StreamYOLO

OGQ GYN Developers Day #8 : MCUNet

OGQ GYN Developers Day #7 : TinyViT

OGQ GYN Developers Day #6 : Knowledge Distillation

OGQ GYN Developers Day #5 : Fire Classification with EN675

OGQ GYN Developers Day #4 : Fire Detection with EN675

OGQ GYN의 기술블로그를 비상업적으로 사용 시 출처를 남겨주세요. 상업적 용도를 원하실 경우 문의 부탁드립니다. E-mail. tech@gynetworks.com

OGQ GYN Developers Day #22 : ViT-CoMer

Contents

세미나 개요

1. Previous Presentation Summary

2. Problem

ViT란?

ViT-Comer Abstract

2. Method

3. Result

3. Result