안녕하세요. OGQ 입니다.
이번 회차는
OGQ가 참여하게 된 R&D 프로젝트 소식을 전해 드립니다.
과학기술정보통신부 산하 한국지능정보사회진흥원(NIA)이 추진하는
‘초거대AI 확산 생태계 조성 사업’의 06번 ‘미디어·콘텐츠 비식별화 및 클린본 데이터’ 과제에
OGQ가 주관기관으로 선정되어 2025년 하반기(7–12월) 수행을 시작합니다.
K-콘텐츠의 글로벌 유통을 가속하는 클린본 데이터
OGQ는 방송 미디어 데이터에 내재된 얼굴·번호판·로고·자막 등 식별/상업 요소를 자동 비식별화하고,
글로벌 유통과 AI 학습에 바로 활용 가능한 클린본 영상/이미지를 체계적으로 구축합니다.
이번 과제에서 축적되는 데이터와 모델은 OGQ의 콘텐츠 IP 관리·보호, 편집 자동화, 데이터 서비스와 연결되어 실사용 현장으로 빠르게 확장될 예정입니다.
해결하고자 하는 문제
방송과 OTT로 유통되는 원천 콘텐츠에는 얼굴과 차량 번호판, 간판·브랜드 로고, 과도한 CG 자막 등 다양한 식별·상업 요소가 공존합니다. 이러한 요소들은 글로벌 유통과 리패키징, 그리고 생성형 AI 학습·평가에 이르는 전 주기에서 권리·프라이버시 이슈를 유발하며, 사업화 속도를 떨어뜨리는 가장 큰 제약으로 작용합니다.
또한 대규모·고품질의 비식별 처리 데이터와 자막 제거 ‘클린본’ 데이터가 절대적으로 부족해 모델의 일반화 성능과 서비스 자동화를 안정적으로 끌어올리기 어렵습니다. 산업 현장에서 즉시 활용 가능한 수준의 정합성, 캡션 정확도, 자막 유형 커버리지를 갖춘 데이터셋이 필요합니다.
법·윤리 준수와 현장 적용을 동시에 만족시키는 표준화된 품질관리와 거버넌스의 부재도 문제입니다. 본 과제는 이 세 가지 장벽인 권리·프라이버시, 데이터 품질, 운영 표준을 한 번에 해소하는 것을 목표로 합니다.
핵심 목표
1.
미디어 콘텐츠 비식별처리 데이터(07)
a.
방송 원천 영상 3,000건(≥500시간)에서 얼굴·번호판·로고 등 객체를 선별해 객체 이미지 20,000건 이상을 구축합니다. 각 샘플에는 Segmentation 마스크와 한/영 캡션(5문장, 50토큰 이상)을 포함하고, 객체 유형 분포는 중첩률 50% 목표로 설계해 다양성과 균형을 확보합니다.
2.
K-콘텐츠 클린본 데이터(08)
a.
CG 자막이 포함된 클립 15,000건을 수집하고, 동일 수량의 자막 제거 클린본 15,000건과 자막 마스크 영상 15,000건을 생성합니다. 검색·리뷰 편의를 위해 썸네일 30,000장도 함께 제공합니다.
3.
법·윤리·보안 준수
a.
개인정보보호법 가이드라인을 반영한 비식별·검수 워크플로와 NAS 스냅샷·백업을 포함한 데이터 거버넌스를 구축합니다.
4.
산업 활용 확장
a.
자막 제거 API와 비식별 처리 솔루션을 제품화해 방송사·OTT·플랫폼의 현지화/개인화 서비스와 편집 자동화를 지원합니다.
참여 컨소시엄
이번 프로젝트는 오지큐(OGQ)가 총괄 주관을 맡아 데이터 수집·정제·가공과 자동화 툴·AI 모델 개발을 이끕니다.
에이치씨아이플러스(HCI+)는 가공데이터 검수와 품질관리를 담당하고, 
트위그팜(Twigfarm)은 데이터 수집·정제·가공과 클린본 생성, 메타 라벨링을 수행합니다.
티사이언티픽(Tscientific)은 개인정보보호법 검토와 비식별화 실행·검수를 맡으며,
서울대학교는 위탁기관으로 데이터 유효성 검증과 AI 학습모델 적용·성능 평가를 진행합니다.
원천 데이터는 저작권과 초상권 확보를 완료한 “SBS/MBN 방송 콘텐츠 원본(드라마·예능·뉴스·교양)”입니다.
SBS 원본 데이터, 권리 문제 없는 안전한 수집
이 과제는 ‘SBS/MBN 방송 원본을 권리 문제 없이 안전하게 수집·가공’ 합니다.
SBS 및 MBN가 보유한 원본 중 저작권·초상권·전송권 등 권리관계가 정리된 소재만 선별해 제공받고, 수집 전 권리 검토 체크리스트와 제공 내역 기록으로 소스, 범위, 열람 권한을 투명하게 관리합니다.
개인정보와 상업 요소는 전 공정에 투입되기 전에 폐쇄망 환경에서 자동 탐지·마스킹·인페인팅·페이스스와핑 등으로 처리합니다. 원본은 접근 통제 하에 보존하며 외부 반출은 허용하지 않습니다.
처리의 모든 단계는 개인정보보호법·저작권법 가이드라인을 준수합니다. 비식별 위험이 높은 사례는 전면 제거 또는 대체 처리해 잔여 위험을 낮춥니다.
향후 계획
OGQ는 이번 과제로 축적되는 비전·생성 AI 역량과 데이터 파이프라인을 클린 콘텐츠 생태계 전반으로 확장합니다. 방송사와 OTT의 글로벌 유통·다국어 현지화를 뒷받침하고, 저작권·초상권 보호가 내재화된 데이터·API 제품으로 편집 자동화와 창작 지원 서비스를 고도화하겠습니다.
2025년 하반기에는 파일럿을 통해 자막 제거 API와 비식별 처리 솔루션의 상용화를 준비하고, 윤리·법규 범위 내에서 학계·산업계와의 데이터 공유를 추진합니다. 나아가 영상·이미지를 넘어 음향·문서 등 멀티모달 데이터로 확장해 표준과 품질 지표를 지속적으로 고도화할 계획입니다.
AI가 선도하는 차세대 콘텐츠 생태계를 만들어가겠습니다. 많은 관심과 응원 부탁드립니다.
감사합니다.

