[스탠포드 황승진 교수님 칼럼] AI는 지브리풍 이미지를 어떻게 만들어낼까?

최근 ChatGPT를 활용한 지브리풍 이미지 생성이 큰 화제를 모으고 있습니다. ChatGPT 4.o 모델의 이미지 생성 기능이 업그레이드되면서, 이전보다 훨씬 정밀하게 사용자의 의도에 맞춘 이미지 생성이 가능해졌는데요.
섬세한 붓터치와 특유의 색감을 살린 지브리 스타일 이미지까지 만들어낼 수 있게 되면서,
지브리풍 이미지를 개인 메신저의 프로필 이미지로 설정하는 것이 하나의 트렌드로 떠오를 만큼 큰 관심을 끌고 있습니다.
텍스트 기반으로 답변하던 생성형 AI가 어떻게 이미지를 만들 수 있게 된 걸까요?
한국인 최초의 스탠포드 종신 교수이자, 현재 스탠포드 경영 대학원 명예교수로 활동 중인 황승진 교수님의 칼럼을 통해, 생성형 AI가 이미지를 만들어내는 원리와, 이 기술을 비즈니스 어떻게 적용할 수 있는지에 대한 인사이트를 살펴보겠습니다.
이미지 AI

새로운 인공지능(AI)은 글, 그림, 음성을 모두 읽고 쓸 수 있는 여섯 가지 기능을 갖추고 있다. 기존의 LLM(대규모 언어 모델)은 언어를 중심으로 작동했지만, 이제는 이미지 처리 기술까지 익히며 발전하고 있다.
그 결과, 최근에는 ChatGPT나 Gemini의 응답 안에서 이미지나 표 형태의 정보를 함께 확인할 수 있게 되었다.
이미지 생성 기술 역시 빠르게 확산 중이다. DALL·E, Imagen, Stable Diffusion, Leonardo.ai, Midjourney와 같은 모델들이 대표적이며, 이들의 공통된 기반은 ‘텍스트 투 이미지(text-to-image)’이다. 즉, 사용자가 문장을 입력하면 그에 해당하는 이미지를 자동으로 생성해주는 방식이다.
예를 들어 vrew.ai 같은 웹사이트에서는 “아침 식사로 피해야 할 다섯 가지 식품”이라는 제목만 입력해도, 해당 주제를 바탕으로 텍스트, 이미지 시퀀스, 배경 음악, 음성 내레이션이 결합된 영상을 자동으로 제작할 수 있다.
전문 지식이나 디자인 능력, 영상 편집 경험이 없어도 누구나 콘텐츠를 생성할 수 있게 된 것이다.
이와 같은 기술은 유튜브 영상뿐 아니라 파워포인트, 광고 포스터, TV 광고 등 다양한 형태의 콘텐츠에 적용되며, 반자동 콘텐츠 제작 환경을 더욱 빠르게 확산시키고 있다.
한 단계 더 나아가, 최근에는 Sora(소라), Veo(비오), Kling(킬링)과 같은 AI가 등장하며 텍스트 명령만으로 동영상을 생성하는 기능까지 구현되고 있다.
예컨대, Sora(소라)에 “스타일리시한 여성이 따뜻하게 빛나는 네온사인과 애니메이션 간판으로 가득 찬 도쿄 거리를 걷고 있다.
그녀는 검은색 재킷, 롱 드레스, 검은 부츠를 착용하고 있다”라는 문장을 입력하면, 해당 장면을 영상으로 생성해주는 것이다.
생성형 AI는 어떻게 이미지를 만들어 낼 수 있을까?
기계가 이미지를 읽고, 또 직접 그릴 수 있는 능력은 여전히 놀라움을 안겨준다. 도대체 어떻게 기계가, 수치로 변환된 이미지 데이터를 인식할 수 있을까?
컬러 이미지의 각 픽셀은 빨강(R), 초록(G), 파랑(B) 세 가지 색상 성분으로 구성되며, 예를 들어 (30, 100, 9)와 같은 RGB 값으로 표현된다. 이러한 픽셀 100×100개가 모여 하나의 컬러 이미지를 형성한다.
이미지를 수치화한 후, 라벨을 부착해 신경망에 학습시키는 방식이 일반적이다. 예를 들어 고양이 사진에 “이것은 고양이”라는 정답 라벨을 붙여 입력하면, 신경망은 반복 학습을 통해 이미지를 인식하는 능력을 키운다.
이 과정에서 수많은 학습과 합성곱 신경망(CNN) 등 복잡한 알고리즘을 활용하면, 기계는 점차 이미지 간의 차이를 구분할 수 있게 된다.
이러한 이미지 인식의 핵심은 신경망의 ‘은닉층(hidden layer)’에 있다. 입력값과 출력값 사이에 존재하는 이 은닉층은 다양한 가중치 조정을 통해 이미지 속 특징(feature)을 포착하고 계층적으로 저장하는 역할을 한다.
예를 들어, 첫 번째 은닉층은 이미지의 ‘직선’이나 ‘색상’과 같은 특징을 감지하고, 그다음 은닉층에서는 ‘눈’, ‘귀’와 같은 더 세밀한 형태를 인식하게 된다. 즉, 은닉층은 이미지 인식 과정의 ‘특징 추출’ 단계를 담당하며, CNN이나 U-Net과 같은 알고리즘은 이러한 특징을 효과적으로 관리한다.
더 나아가, 인식 단계를 넘어 생성 단계로 진입하면, 요구되는 기술은 훨씬 더 복잡해진다. 예를 들어 “개의 이미지를 그려 주세요”라는 요청을 처리하려면, CNN은 요청받은 특징에 맞춰 임베딩을 할당하고, 기계는 사전에 학습한 이미지들로부터 추출한 특징들(예컨대 ‘뾰족한 귀’나 ‘흰 털’과 같은 시각적 요소)을 벡터 임베딩 형태로 표현한다.
이후, 이러한 벡터들을 조합하거나 재구성함으로써 새로운 이미지를 생성할 수 있어야 한다.
생성 요청이 들어오면, 기계는 해당 임베딩을 기반으로 이미지를 검색하거나, 수정하거나, 완전히 새롭게 생성할 수 있다. 예를 들어, “사진 속의 심각한 표정의 남자를 웃는 얼굴로 바꿔 주세요”라는 요청은 기존 이미지에 ‘웃는 얼굴’이라는 특징 벡터를 더해 이미지 결과를 바꾸는 방식으로 수행된다.
생성형 AI가 지브리 이미지를 생성하는 과정
‘검은 안경 착용’, ‘늙음’, ‘남성’, ‘금발’ 등 다양한 시각적 요소들도 각각 고유한 ‘특징 벡터(feature vector)’를 갖는다. 이러한 벡터는 이미지에 더하거나 빼는 방식으로 조작할 수 있으며, 이를 통해 기존 이미지를 변형하거나 새로운 이미지를 생성하는 것이 가능해진다.
결국 이미지 변환 또는 생성은 임베딩 조작의 문제로 볼 수 있다.
또한, 신경망의 구조상 이미지를 그대로 외워 저장하는 것이 아니라, 느슨하게 기억한 특징을 기반으로 나중에 유사한 형태를 모방할 수 있도록 학습하는 것이 핵심이다.
최근 인기를 끌고 있는 "이 사진을 지브리 스타일로 바꿔주세요"와 같은 이미지-투-이미지(image-to-image) 요청에 대해, OpenAI는 ‘디퓨전(diffusion)’이라는 독특한 이미지 생성 기법을 활용하고 있다.
이 방식은 먼저 입력된 원본 이미지에 무작위적인 잡음을 다량으로 주입하여 이미지를 의도적으로 훼손한 뒤, 역방향으로 잡음을 제거해가며 원하는 스타일로 복원하는 과정을 거친다.
이는 기존 이미지를 단순히 복제하는 것이 아니라, 학습된 특징을 기반으로 새로운 스타일로 재구성하는 방식이다. 겉보기에 비효율적으로 보일 수 있지만, 이러한 ‘지웠다가 다시 그리는 방식’은 실제로 매우 효과적이다.
AI 이미지 생성 기술, 비즈니스에 어떻게 적용할 수 있을까?
“이러한 비전 능력을 비즈니스에 어디에 활용할 수 있을까?” 한번 생각해보자. 소비자가 온라인 쇼핑에서 원하는 물건을 찾는 방식은 크게 두 가지로 나뉜다. 바로 ‘브라우즈(Browse)’와 ‘서치(Search)’다.
브라우즈는 특정 제품을 정하지 않고 이것저것 둘러보다가 마음에 드는 것을 발견하는 방식이다. 예를 들면 '다음 주 동창회에 입을 옷'처럼 추상적인 니즈를 가지고 쇼핑을 시작하는 경우다.
반면, 서치는 원하는 상품이 명확한 상태에서 이를 정확히 입력해 찾는 방식이다. 예를 들어 “핑크색 V넥 스웨터”처럼 구체적인 조건을 갖고 검색한다. 대부분의 온라인 쇼핑몰은 이 두 가지 중 하나를 중심으로 웹사이트와 데이터베이스 구조를 설계한다.
서치 모델은 제품 정보를 속성 중심으로 정리해 저장하고 찾기 좋게 설계된 디지털 구조다. 브라우즈 모델은 브랜드별 혹은 분위기별로 상품을 이미지 중심으로 나열하는, 비교적 아날로그적인 UI/UX 구조를 갖는다.
브라우즈 방식은 충동구매로 이어질 가능성이 높아 판매 측면에서는 유리하지만, 정확한 검색 조건이 있는 사용자의 요구에는 잘 대응하지 못한다. 반대로, 서치 방식은 정확한 분석에는 적합하지만 감성적인 쇼핑 경험을 제공하기는 어렵다.
어떤 쇼핑몰은 브라우즈 중심의 서비스를 택했다. 하지만 검색 기능의 한계를 보완하기 위해 수백 명의 인력을 고용해 상품을 수작업으로 분류하고 태그를 부여한다.
예를 들어, "스웨터 / 캐시미어 / V넥 / 빨간색에 흰 줄" 같은 식이다. 이는 이미지 기반 데이터를 텍스트로 번역해 디지털화하는 작업이며, 비용이 많이 들고 번역의 정확성도 떨어진다. 여기에서 새로운 AI는 새로운 가능성을 열어 준다.
이제는 브라우즈 모델에서도, 수작업으로 설명을 넣지 않고도, 직접 텍스트나 이미지로 찾을 수 있다. 소비자가 인터넷의 사진을 가리키며 말한다. “이 여자가 입은 것 같은 드레스를 찾아 주세요.“
황 승 진
한국인 최초의 스탠포드 석좌교수
스탠포드 경영 대학원 잭디프 로시니 싱 명예교수
'알토스벤처'와 ‘길리아드’ 등 20여 개 기업의 사회 이사 역임
[한국인 최초 스탠포드 종신 교수, 황승진의 인공지능 칼럼]
‘지브리풍 이미지를 AI는 어떻게 만들어낼까?’은 한국인 최초로 스탠포드 경영 대학원 석좌 명예교수로 임명된 황승진 교수님의 인공지능 칼럼 '이미지 AI'를 이랜서에서 재편집한 글입니다. 황승진 교수님의 인공지능 칼럼은 총 20회에 걸쳐, AI 혁신과 비즈니스 변화를 심층적으로 다룹니다.

