안찬용 포바이포 팀장 인터뷰
AI로 가상인간 ‘루시’ 만든 전문가
“말소리·입모양 일치 가장 어려워”
단어에 맞는 시선 처리도 ‘고난도’
“진화한 딥페이크 잡는 기술 개발”
최근 미국에서는 소셜미디어(SNS) 엑스(옛 트위터)에 조 바이든 미국 대통령을 흉내 낸 조작 영상이 올라와 논란이 됐다. 사진은 바이든 대통령이 안면 경련을 일으켜 혀가 축 처져 있는 것처럼 보이게 한 딥페이크 영상.
엑스 캡처
엑스 캡처
인공지능(AI) 영상기술 전문기업 포바이포에서 버추얼유튜버(버튜버, V튜버) 태스크포스(TF)를 이끄는 안찬용(36) 팀장의 전공 분야인 가상인간을 바로 딥페이크 기술로 만든다. 딥페이크는 ‘딥러닝’과 ‘가짜’(fake)의 합성어로, 실제 인물의 이미지나 영상, 음성을 학습한 AI를 이용, 현실과 흡사한 가짜를 만들어 내는 기술이다. 그는 롯데홈쇼핑의 가상인간 ‘루시’ 제작을 총괄했으며 그의 팀은 지난해 말 ‘청아린’이라는 버튜버를 선보였다. 현재는 2호, 3호 버튜버 출시를 준비 중이다.
안 팀장은 “가상인간은 ‘20대가 가장 호감을 느끼는 얼굴 표본’처럼 실제로는 존재하지 않는 인물을 컴퓨터로 만들어 학습시킨다”며 “만일 같은 기술로 실존하는 정치인이나 연예인 등을 학습시켜 만든 가짜 인물을 통해 허위 정보를 유포하거나 특정인의 명예를 훼손하면 큰 문제가 된다”고 설명했다.
이 같은 우려는 지난달 미국에서 실제로 일어났다. 가수 테일러 스위프트를 딥페이크 기술로 합성한 음란 사진이 소셜미디어(SNS)에 유포됐다. 뉴햄프셔주 예비선거를 앞두고는 조 바이든 미국 대통령을 가장한 딥페이크 음성 전화가 유권자들에게 걸려 오기도 했다.
안찬용 포바이포 팀장
가상인간을 만드는 딥페이크 전문가는 허위 영상을 판별하는 요령을 알지 않을까. 안 팀장은 “가상인간을 만들 때 말소리와 입모양을 일치(싱크)시키는 작업이 가장 어렵다”면서 “조악한 영상들은 입모양을 자세히 보면 일반인도 구분할 수 있다”고 말했다. 또 “단어의 의미나 문장의 맥락에 맞는 표정이나 자연스러운 시선 처리도 구현하기 어려운 부분”이라면서 “이런 것들 중 하나라도 이상하다고 느껴진다면 가짜 영상임을 의심해볼 수 있다”고 말했다.
하지만 이런 요령도 시간이 지나면 소용이 없어질 가능성이 있다. 안 팀장은 “후반 보정 작업을 정교하게 여러 번 거치면 얼마든지 표가 나지 않게 만들 수 있다”며 “갈수록 정교해지는 결과물을 재학습한 더 강력한 AI 모델이 반드시 등장할 것”이라고 설명했다. 다만 “‘기술’의 문제를 해결할 수 있는 것은 역시 ‘기술’인 만큼 딥페이크의 문제도 우리 딥페이크 기술자들이 해결할 것”이라고 말했다.
2024-02-27 20면