[해외DS] AI로 옛날 사진을 새로 찍은 사진처럼 만들 수 있다고?

텐센트, 저해상도 사진 복원하는 AI GFP-GAN 발표 텐센트 자체 모델과 엔비디아 StyleGAN-2 동시에 이용, “현실성과 충실도” 잘 조화시켜 어두운 피부색이나 다양한 인종에도 잘 적용되지만 피부색 어두워지는 경향 있어

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

GFP-GAN으로 복원한 사진/사진=Louis Bouchard

지난 4월 오픈AI는 이미지 생성 AI DALL-E 2를 공개해 전 세계의 이목을 끌었습니다. 전작보다 화질도 좋아지고 이미지 편집 및 변형 기능까지 추가됐으니 당연한 결과였는데요, 이런 상황에서 중국 기업 텐센트(Tencent)가 손상된 저해상도 사진을 복원해 주는 AI를 발표해 또 다른 열풍을 불러왔습니다.

이 프로그램의 이름은 GFP-GAN으로, ‘Generative Facial Prior-Generative Adversarial Network’의 약자입니다. 참고로 여기서 뒤에 나오는 GAN(Generative Adversarial Network; 생성적 적대 신경망)은 딥페이크 등에 이용되는 기술로 잘 알려져 있습니다. 프로그램은 현재 깃헙(GitHub)을 통해 누구나 무료로 다운로드 및 사용할 수 있습니다.

GFP-GAN는 텐센트의 자체 모델과 엔비디아(Nvidia)에서 만든 모델인 StyleGAN-2를 모두 사용합니다. StyleGAN-2는 엔비디아의 자체 이미지 생성 모델 GauGAN을 개발할 때 사용한 시스템과 유사합니다.

텐센트 AI 팀은 GFP-GAN 작동 방식을 설명하는 논문을 통해 두 모델을 함께 사용한 결과 오래된 이미지의 ‘누락된 부분’을 효과적으로 채웠으며, 단 몇 초 만에 저품질 이미지를 새롭고 더 나은 이미지로 바꿀 수 있었다고 밝혔습니다.

다른 모델과 GFP-GAN의 성능 비교/사진=텐센트 연구진의 논문 Towards Real-World Blind Face Restoration with Generative Facial Prior

해당 논문에 따르면 기존에는 이미지 복원을 할 때 특정한 세부 사항을 재현하기 위한 기준점이 필요했습니다. 하지만 GFP-GAN은 엔비디아 모델에 포함된 사전에 훈련된 얼굴 이미지와 복원하기 위해 입력된 사진의 데이터를 결합해 ‘현실성과 충실도’가 잘 조화된 이미지를 만들어냅니다.

논문에 따르면 사전에 생성된 얼굴(generative facial prior)과 섬세한 디자인 덕분에 GFP-GAN은 단 한 번의 ‘싱글 포워드 패스(single forward pass)’만으로 얼굴의 세부적인 부분을 복원하고 색감을 높일 수 있습니다. 반면 기존의 GAN 인버젼(GAN inversion)으로는 추론 과정에서 이미지별 최적화를 해야하기 때문에 계산 비용 측면에서 손해를 많이 봐야했습니다. 전문가들은 GFP-GAN이 합성 및 실제 데이터 모두에서 기존의 기술보다 우수한 성능을 보인다고 평가했습니다.

한편 논문에 따르면 사전 훈련 데이터와 입력 이미지 데이터가 조합되면서 모델의 성능은 가장 어두운 피부색을 지닌 얼굴 이미지와 다양한 인구 그룹에서도 뛰어납니다.

연구진은 또한 입력된 데이터에 충분한 색상 정보가 포함돼 있지 않기 때문에 입력된 사진에 찍힌 인물의 실제 피부색이 회색조 이미지에 표현된 피부 톤보다 밝을 수 있다는 점을 언급했습니다. 그러니까 회색조 이미지를 컬러 이미지로 변환하면 실제 피부색보다 좀 어둡게 나온다는 겁니다. 연구진은 이 부분을 수정해 모델의 잠재력을 완전히 실현하기 위해서는 다양하고 균형 잡힌 데이터 셋이 필요하다고 전했습니다.

AI 그리고 이미지

앞서 언급했듯이 GFP-GAN은 DALL-E 2가 텍스트 프롬프트에서 이미지를 생성하는 능력으로 소셜 미디어에서 크게 화제가 된 시기에 발표된 바 있습니다.

DALL-E 2는 네덜란드 출신의 유명 화가 요하네스 베르메르(Johannes Vermeer)의 대표작 ‘진주 귀걸이를 한 소녀’, 잡지 코스모폴리탄(Cosmopolitan)의 표지 그리고 세계적인 식품 업체 하인즈(Heinz)의 케첩 상표에 기반한 재해석 이미지를 만들어내기도 했습니다.

[embedyt] https://www.youtube.com/watch?v=LFmpVy6eGXs[/embedyt]


Move over DALL-E 2, a new AI model is grabbing attention – GFP-GAN.

The model, whose full name is Generative Facial Prior-Generative Adversarial Network, can restore damaged and low-resolution pictures.

Developed by researchers from Chinese company Tencent, the tool is free to use and can be downloaded via GitHub.

The tool uses both Tencent’s own model and a pre-trained StyleGAN-2 model from Nvidia – similar to the system used to develop GauGAN, Nvidia’s image generative model.

In a paper outlining how the model works, Tencent’s AI team used the two models to effectively fill in the missing elements of an old image. In just seconds, the combined power of two models can turn low-quality images into new and better ones.

The paper suggests that previously, image restoration required a reference point to recreate specific details. GFP-GAN, however, works by combining pre-trained faces from Nvidia’s model with the data input from the photo being restored to create an image that has “a good balance of realness and fidelity.”

“Thanks to the powerful generative facial prior and delicate designs, our GFP-GAN could jointly restore facial details and enhance colors with just a single forward pass, while GAN inversion methods require image-specific optimization at inference,” the paper reads.

“Extensive experiments show that our method achieves superior performance to the prior art on both synthetic and real-world datasets.”

The paper suggests that the model “performs well on most dark-skinned faces and various population groups” due to a combination of pretrained data and data from the input image.

Tencent’s team did note that the color of the person in an input portrait may appear lighter than the original skin tone from a gray-scale image as “the inputs do not contain sufficient color information.” To rectify this further, the paper’s authors suggest the need for a diverse and balanced dataset to fully realize the potential of the model.

AI and images

GFP-GAN comes as DALL-E 2 made waves on social media for generating images from text prompts.

Developed by OpenAI, the model has been used to generate alternative versions of Johannes Vermeer’s Girl with a Pearl Earring, the cover image for an issue of the magazine Cosmopolitan and images of ketchup for condiment brand Heinz.

Similar Posts