OGQ GYN Developers Day는 OGQ GYN의 모델 개발 과정 및 논문 등을 많은 기업 분들께 발표하는 자리로, 매월 마지막 주 수요일에 진행되고 있습니다.
이번 세미나에선 Super Resolution task에 대한 소개와 Super Resolution 모델인 ESRGAN에 대해 발표했습니다.
Contents
세미나 개요
•
일시 : 2024년 09월 25일 13:00 ~ 14:00
•
장소 : Zoom 미팅
•
참여기업 (가나다순)
◦
베스트디지탈 BEST DIGITAL
•
순서
1.
참여 업체 소개
2.
OGQ GYN 발표
•
사회자: OGQ GYN 우재현 연구원
•
발표자: OGQ GYN 최규영 연구원
3.
Q&A
1. Previous Presentation Summary
지난 컨퍼런스에서는 ViT와 CNN의 단점을 상호 보완한 CVPR Highlight 논문인 ViT-Comer에 대해 소개해 드렸습니다.
2. Super Resolution
•
Super Resolution은 저해상도 이미지를 고해상도로 변환해주는 task 입니다
•
기존에 이미지를 업스케일링 할 때 단순히 주변 픽셀들의 평균값을 이용해 빈 픽셀을 채우는 Interpolation 방식을 사용했습니다
•
하지만 계단현상이 발생한다는 문제가 있어서 이를 딥러닝으로 해결하려는 연구가 많이 이루어지고 있습니다
•
그 중 GAN 기법을 적용하여 큰 성능향상을 이룬 ESRGAN에 대해 소개해 드리겠습니다.
2. ESRGAN
Introduction
•
ESRGAN은 Enhanced Super Resolution GAN으로 SRGAN의 성능향상을 이룬 논문입니다.
•
기존 연구는 Network & Upsample module 만을 활용했었는데 SRGAN을 GAN 기법을 Super Resolution에 도입해서 성능향상을 이루었습니다.
•
GAN은 크게 Generator와 Discriminator 총 두 가지의 네트워크로 이루어져 있습니다.
•
Generator는 랜덤한 노이즈로 부터 이미지를 생성해서 Discriminator를 속이고 Discriminator는 들어온 이미지가 생성 이미지인지 정답 이미지인지 판별하게 됩니다.
•
서로 경쟁적으로 학습해서 Generator가 실제 같은 이미지를 생성하는 네트워크가 GAN입니다.
•
SRGAN과 GAN의 차이점은, Generator에 저해상도 이미지로 입력을 받아 고해상도로 변환을 해주고 Discriminator가 생성 고해상도 이미지인지 실제 고해상도 이미지인지 판별하게 됩니다.
•
이를 통해 Generator가 보다 더 품질이 좋은 고해상도 이미지를 생성합니다
Method
•
ESRGAN에선 SRGAN과의 변경점이 크게 3가지가 있습니다
1.
네트워크 구조 개선
2.
Generator & Discriminator Loss 개선
3.
Perceptual Loss 개선
네트워크 구조
•
SRGAN에서는 Batch Normalization을 사용했는데, Batch Normalization은 학습 데이터 셋의 한 배치에 대한 평균, 분산을 통해 정규화 하게 됩니다.
•
이때 학습 데이터 셋에 없는 데이터가 들어왔을 때 성능 저하가 발생한다는 문제가 있습니다.
•
이러한 이유로 ESRGAN에서는 Batch Normalization을 제거했습니다.
•
또한 ResNet의 Residual Connection을 도입해서 성능을 올리려는 시도가 있습니다.
Generator, Discriminator Loss
•
기존의 Discriminator는 이미지가 들어왔을 때 생성 이미지인지 실제 이미지인지 판별하게 됩니다
•
ESRGAN에서는 RaGAN을 도입해 어느 이미지가 보다 더 실제 이미지 같은지 판별해서 Generator, Discriminator Loss에 적용했습니다
•
Generator가 잘 생성한 경우 가 0이 나오게 되고 뒷 항은 반대이므로 1이 나와서 Loss가 0으로 수렴하게 됩니다.
•
Generator가 잘못 생성한 경우 가 1이 나오게 되고 뒷 항은 반대이므로 0이 나와서 Loss가 무한으로 발산하게 됩니다.
•
Discriminator가 잘 판별한 경우 가 1이 나오게 되고 뒷 항은 반대이므로 0이 나와서 Loss가 0으로 수렴하게 됩니다.
•
Generator가 잘못 판별한 경우 가 0이 나오게 되고 뒷 항은 반대이므로 0이 나와서 Loss가 무한으로 발산하게 됩니다.
Perceptual Loss
•
Perceptual Loss는 생성한 이미지와 원본 이미지가 얼마나 같은지를 VGG 네트워크를 통과한 각각의 feature map 간의 차이를 계산해서 Loss에 반영합니다.
•
SRGAN에서는 activation function을 거친 후의 feature map을 사용했었는데, feature가 spatial 해진다는 문제가 있습니다.
•
이러한 문제를 해결하기 위해 activation function을 거치기 전의 feature map을 사용했습니다.
•
activation을 거치기 전의 feature map을 사용한 것이 보다 더 세밀한 부분을 잘 표현하고, 밝기도 원본과 더 유사하게 잘 표현한 것을 볼 수 있습니다.
3. OGQ SR
•
OGQ SR은 ESRGAN과 같은 최신 연구들을 참조해서 구성한 OGQ 자체 Super Resolution 모델입니다.
•
ESRGAN과 비교했을 때 추론 시간, 성능 면에서 모두 우수한 모습을 보입니다.
Search
OGQ GYN의 기술블로그를 비상업적으로 사용 시 출처를 남겨주세요.
상업적 용도를 원하실 경우 문의 부탁드립니다.
E-mail. tech@gynetworks.com
OGQ Corp. All right reserved.