메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

GPT-4o가 그린 세상… 창작과 침해 사이에서

논리적 이미지 구성 능력 주목
작풍 모방, 침해 논란 확산
AI 학습 투명성 공백 여전

오픈AI가 공개한 GPT-4o 기반 이미지 생성 AI 모델이 논리와 맥락을 바탕으로 이미지를 만들 수 있게 되면서 큰 관심을 받고 있다. 그러나 특정 스타일을 재현할 수 있게 되면서 저작권 논란도 불거졌다. /AI 생성 이미지

오픈AI가 GPT-4o 기반의 이미지 생성 기능을 공개하면서 전 세계적으로 폭발적인 관심을 끌고 있다. GPT-4o 이미지 생성은 기존 DALL·E와는 전혀 다른 방식의 생성형 엔진으로, 멀티모달(Multi-Modal) 통합 모델을 기반으로 한 현존 최고 수준의 이미지 생성 AI로 평가된다.

 

30일 <메트로경제신문> 취재를 종합해보면, 지난 25일 GPT-4o 이미지 생성 기능이 추가된 이후 오픈AI 서버에 과부하가 발생할 정도로 사용자 수요가 몰렸다. 샘 올트먼 오픈AI CEO는 자신의 SNS를 통해 "이미지 생성 AI의 인기가 폭주하며 GPU가 녹아내릴 지경"이라며 "실제로 GPU가 녹고 있다. 이용자가 급증하며 과부하가 발생하고 있다"고 밝혔다.

 

현재 GPT-4o는 챗GPT 플러스 사용자 기준으로 분당 1, 2장, 시간당 30∼50장 수준의 생성 제한이 적용되고 있으며, 오픈AI는 과도한 트래픽으로 인해 해당 기능의 무료 계정 적용은 유보한 상태다.

 

GPT-4o 이미지 생성 AI가 '가장 진보한 모델'로 평가받는 이유는 뛰어난 멀티모달 언어 이해 능력에 있다. GPT-4o는 텍스트로 전달된 객체 간의 의미 관계와 맥락을 정밀하게 해석하고, 이를 기반으로 논리적인 이미지 구성을 구현할 수 있는 능력을 갖췄다. 이는 기존 이미지 생성 모델들, 예컨대 DALL·E나 미드저니(Midjourney)가 개별 객체나 문맥 해석, 시점 유지 등에서 한계를 보여온 것과 비교되는 차별점이다.

 

특히 GPT-4o는 '논리 기반의 구성'과 '대화형 맥락 유지' 기능을 통해 구조적 배치, 텍스트 삽입, 레이아웃 반복 등 정밀한 이미지 생성이 가능하다는 점에서 주목받는다.

 

논리 기반의 이미지 구성 능력이 강화되면서, 컷 만화 제작 또한 한층 간편해졌다. GPT-4o 이전의 이미지 생성 AI는 각 이미지를 독립적으로 해석하는 구조였기 때문에 동일 인물의 반복 생성, 시점 고정, 장면 연결에 어려움이 있었다. 그러나 GPT-4o는 언어적 맥락과 내러티브 구조를 파악해 레이아웃 반복, 캐릭터 연속성, 장면 전환 기법 등 만화 제작에 필요한 핵심 요소들을 반영할 수 있다.

 

기술 발전과 함께 저작권에 대한 우려의 목소리도 커지고 있다. AI가 특정 캐릭터를 모티브로 이미지를 생성하거나, 기성 작품의 작풍을 모방하는 행위가 지식재산권 침해로 이어질 수 있다는 지적이다. 이는 작가나 스튜디오가 개발한 화풍, 색채, 붓터치, 표현 방식 등이 고유한 창작물로 간주될 수 있다는 입장에서 비롯된다. AI가 이러한 스타일을 학습 데이터로 이용해 작풍을 무단으로 추출·재현하더라도, 원저작권자에게는 아무런 보상이나 수익이 돌아가지 않는다는 점이 문제로 제기된다.

 

실제로 생성형 AI는 개별 이미지를 단순 모사하는 수준을 넘어, 방대한 학습 데이터를 통해 특정 작가나 스튜디오의 화풍, 색감, 붓터치, 인물 비례 등 '스타일 그 자체'를 학습한다.

 

이 과정에서 사용되는 대표적인 기술이 '디퓨전 모델(Diffusion Model)'이다. 이는 처음에는 완전히 무작위적인 노이즈 이미지에서 시작해, 훈련된 AI가 수천~수만 단계에 걸쳐 점진적으로 이미지를 재구성하는 방식이다. 마치 흐릿한 스케치를 점차 선명하게 다듬듯, AI는 학습한 스타일을 바탕으로 새로운 이미지를 만들어낸다.

 

특히 스테이블 디퓨전(Stable Diffusion) 기반 모델들에서는 'LoRA(Low-Rank Adaptation)'나 '드림부스(DreamBooth)' 같은 세부 기법을 통해 특정 인물이나 스타일을 수십 장의 이미지로 학습시키는 것도 가능하다. 이러한 방식은 단순한 스타일 유사성을 넘어서 'A 작가가 그렸다고 해도 믿을 만큼 정밀한 화풍 복제'로 이어질 수 있다.

 

GPT-4o 역시 자체적으로 멀티모달 언어 이해 능력을 활용해, 사용자가 묘사한 스타일의 의미를 파악하고, 이를 기반으로 기존과 유사한 화풍이나 시각 구성을 생성하는 방식으로 작동한다.

 

예를 들어 사용자가 "지브리 스타일의 배경에, 수채화 질감과 붓터치를 더해줘"라고 입력하면, GPT-4o는 단순히 수치적 스타일이 아니라 그 문맥적 조합을 이해한 뒤 스타일을 구현한다.

 

이는 단순한 사진 필터나 변환과는 차원이 다른 접근으로, 창작인지 모방인지를 구분하기 어려운 이미지 생성으로 이어질 수 있다.

 

현재로서는 AI가 어떤 데이터를 학습했는지를 사용자나 창작자가 확인할 방법이 없다는 점에서, 논란은 앞으로도 계속될 것으로 보인다. 대부분의 AI 기업이 학습 데이터셋을 비공개로 유지하고 있으며, 관련 법적 규제나 투명성 확보 장치는 아직까지 마련되지 않았다.

 

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr