Post

동물들이 나오는 팟캐스트 AI 영상 만들기

자동화툴로 여러 AI 서비스를 버무리기

동물들이 나오는 팟캐스트 AI 영상 만들기

요새(라고 하기도 이미 꽤나 됐지만)들어, AI가 만든 영상을 어렵지 않게 찾아볼 수 있다. 그 중에서도 내눈을 사로잡은 것은 동물들이 나오는 팟캐스트 형식의 영상이었다. 이 것들로 유튜브 영상을 좀 만들어보고 싶다는 생각에 이런저런 정보를 찾아보게 됐다.

AI 도구들 사용해보기

제일 먼저 hands on 해본 서비스는 Veo3 모델이다. 대학교 이메일을 가지고 무료 사용을 하게된 구글 Gemini Pro 플랜을 통해 무료로 사용해봤는데 원하는 퀄리티만큼의 영상은 얻을 수 없었다. 그래도 다양하게 테스트해보며 image to video 변환시 프롬프트를 어떻게 작성하면 좋은지 감이 좀 잡히는 느낌이었다.

그 다음 흔히 ‘나노 바나나(nano banana)’라고 불리는 flash2.5 모델도 테스트 해봤다. text to image 툴로 이미지를 생성 혹은 기존 이미지를 편집할 수 있는데, 특히 편집 대상의 일관된 모습 유지(character consistency) 기능에 특화돼있다 한다. 흥미롭긴 했는데 이 두가지 모델만으로 팟캐스트 영상을 만들기는 쉽지 않아 보인다.

그래서 동물 팟캐스트는 어떻게?

팟캐스트 영상을 만드려면 동영상에 실제 목소리가 들어가야 하니 TTS(text to speech)도 필요하고 영상과 Lip sync 도 맞춰야 하는데, 어떻게 이런 작업들을 편하게 할 수 있을까 찾아봤다. AI 영상 만드는 방법이 ‘영업비밀’ 같은 건줄 알았는데 유튜브에 찾으니 친절하게 알려줘서 한 큐에 궁금증을 해소할 수 있었다.

img-description How to Create the Viral Talking Animal AI Podcast Videos on Autopilot (No-Code n8n Tutorial)

자동화툴 n8n

예전에 회사 업무로 이런 툴이 있고, 요새 많이들 쓴다 정도로 들었던 것이다. 동물 팟캐스트 영상을 만들기 위해서 여러 단계가 필요한데 이를 자동화해주는 툴이다. AI 동영상 파이프라인을 만들어 영상 생성 작업단계를 일일이 손대지 않을 수 있도록 한다.

워크플로우

위 동영상 캡쳐 사진을 요약해보면 아래와 같다.

  1. 팟캐스트 오디오를 ElevenLabs 통해서 생성
    • 팟캐스트에 쓰일 스크립트를 ChatGPT 로 생성 → 스크립트를 ElevenLabs 통해 오디오 에셋 생성
  2. 팟캐스트 이미지를 ChatGPT 통해서 생성
    • ChatGPT 프롬프트로 팟캐스트 영상을 만들기 위한 이미지 생성 → 이미지 에셋 생성
  3. 오디오와 이미지를 합쳐서 팟캐스트 영상 생성
    • 1번, 2번 단계에서 만든 오디오, 이미지 에셋을 Hedra 에서 합성
  4. Hedra 에서 생성한 동영상을 클라우드 및 유튜브로 업로드

결론

동물 팟캐스트와 같은 비슷한 성격의 바이럴 영상들을 어떻게 만드는지 소개 영상을 몇 개 보고나니, 결국 어떤 서비스를 어떻게 조합하느냐의 문제같다. 코딩도 필요없고 특별히 도메인 지식이 필요한 것 같지 않고, AI 서비스(혹은, 모델)들을 살펴보니 보통 사람들이 많이 쓰는 것들이 있다. TTS 는 ElevenLabs 또는 ChatterBox 이런 식으로 말이다.

결국, 이래저래 많이 결과물을 만들어보며 프롬프트 활용 등의 노하우가 쌓일 필요가 있는 작업으로 보인다. 생각보다 특별한 작업이 필요한 것은 없어서 처음 흥미를 갖고 찾아볼 때보다 흥미가 줄어버렸다. 당장 n8n 서비스 플랜 돈내고 쓰긴 좀 그러니깐 테스트를 해봐야겠다.

기타

회사 동료분이 알려주셔서 구글 스터디 잼 X 잇츠 스터디 - 개인 트랙을 통해 강의도 들어봤다 – Build Real World AI Applications with Gemini and Imagen. 항상 AWS 페이지만 보다가 구글 클라우드 UI 에 새로 적응하려니 영 어색했다. n8n 쓰지 않고 LangGraph 로 직접 나노바나나 같은 API 호출하는 식으로 어플리케이션(혹은, 워크플로우) 만들어 볼수도 있겠다. 귀찮겠지만..


This post is licensed under CC BY 4.0 by the author.