랜덤 노이즈 시드와 ANSE 비교 (사진=아카이브)
• 삼성리서치는 텍스트 기반 비디오 생성 모델의 품질을 높이는 새로운 프레임워크 'ANSE(Active Noise Selection for Generation)' 를 개발하여 논문으로 발표했습니다.
• ANSE는 비디오 생성 초기 단계의 노이즈 시드를 기존의 무작위 선택 방식 대신, 모델의 어텐션 불확실성을 활용하여 BANSA(Bayesian Active Noise Selection via Attention) 알고리즘으로 최적의 시드를 선택하는 기술을 적용함으로써, 더욱 안정적이고 의미에 부합하는 고품질 비디오 생성을 가능하게 합니다.
• 특히 ‘베르누이 마스킹(Bernoulli-masked attention)’ 기법을 활용해, 반복 연산 없이도 다양한 노이즈 시드에 대한 모델 반응을 효율적으로 평가할 수 있도록 했습니다.
• 실험 결과, CogVideoX-2B 및 CogVideoX-5B 모델에서 ANSE 적용 시 VBench 점수와 의미 일치도가 향상되었으며, 추론 시간 증가는 미미해 효율성도 높았습니다. 예를 들어, '피아노 치는 코알라'나 '달리는 얼룩말' 등 다양한 프롬프트에서 더 자연스럽고 해부학적으로 타당한 움직임을 표현한 영상이 생성되었습니다.
• BANSA 점수와 생성 품질 사이에는 뚜렷한 상관관계가 관찰되었으며, 낮은 점수를 가진 시드를 선택했을 때 비디오 품질이 향상되었고, 반대로 점수가 높은 시드를 선택할 경우 품질이 크게 떨어졌습니다.
• 또한, BANSA 반복 횟수를 10번으로 설정했을 때 가장 안정적인 성능을 기록했으며, 이는 최적 반복 횟수 설정이 성능에 중요한 영향을 준다는 점을 시사합니다.
• 다만 ANSE는 비디오 생성 과정 자체를 바꾸는 것이 아니므로 모든 경우에 완벽한 결과를 보장하지는 않으며, 이에 따라 삼성리서치는 향후 정보 이론 기반 분석과 능동 학습(active learning) 기법을 접목하여 ANSE의 성능을 더욱 개선할 계획이라고 밝혔습니다.
랜덤 시드 생성 ‘피아노를 치는 코알라’ (사진=삼성리서치)
ANSE 생성 ‘피아노를 치는 코알라’ (사진=삼성리서치)
랜덤 시드 생성 ‘폭발하는 장면’ (사진=삼성리서치)
ANSE 생성 ‘폭발하는 장면’ (사진=삼성리서치)