EdgeFusion: On-device Text-to-Image Generation
서론
텍스트-이미지 생성을 위한 SD(Stable Diffusion)의 계산 집약적인 특성은 실제 배포에 걸림돌이 됩니다. 최근 연구에서는 LCM(Latent Consistency Model)에서와 같이 샘플링 단계를 줄이고 가지치기 및 지식 증류와 같은 아키텍처 최적화를 적용하여 이 문제를 해결하고 있습니다. 저희는 컴팩트한 BK-SDM SD 변형에서 출발하는 EdgeFusion을 제안합니다. 일반적으로 사용되는 웹 크롤링 데이터 세트에 LCM을 BK-SDM에 직접 적용하면 만족스럽지 못한 결과를 얻을 수 있습니다. 이를 극복하기 위해 저희는 (1) 선도적인 생성 모델의 고품질 합성 이미지-텍스트 쌍을 활용하고 (2) LCM에 맞는 고급 증류 프로세스를 설계하는 두 가지 핵심 전략을 개발했습니다. 또한, 온디바이스 배포를 위해 모델 레벨 타일링과 양자화를 적용하고, 엣지퓨전 모델을 통해 노이즈 제거 단계를 단 두 단계로 줄여 사실적인 텍스트 정렬 이미지를 빠르게 생성하며, NPU와 같이 리소스가 제한된 엣지 디바이스에서 1초 미만의 지연 시간을 구현합니다. 그림 1은 EdgeFusion의 전반적인 성능을 보여줍니다.
이 논문은 CVPR 2024 Workshop on Efficient and On-Device Generation (EDGE)에 채택되었습니다.

그림 1. T2I 생성 결과. 개선된 데이터로 학습된 엣지퓨전은 몇 단계의 노이즈 제거만으로 까다로운 프롬프트에서 고품질 이미지를 생성할 수 있습니다.
논문의 주요 메시지
• EdgeFusion은 선도적인 생성 모델의 고품질 이미지-텍스트 쌍을 활용하여 컴팩트한 SD 모델 성능을 개선합니다.
• EdgeFusion은 LCM에 맞게 조정된 고급 증류 프로세스를 통해 고품질의 몇 단계 추론을 가능하게 합니다.
• 모델 수준의 타일링과 양자화를 통해 EdgeFusion은 삼성 Exynos NPU에서 1초 만에 사실적인 이미지를 생성합니다.
논문의 의의/중요성
이 연구는 포괄적인 최적화 전략을 제안함으로써 리소스가 제한된 환경(예: NPU)에서 SD 모델을 실제로 배포하는 문제를 다룹니다. 이 논문은 NPU의 고유한 계산 한계와 메모리 제약을 해결하여 엣지 디바이스에서 효율적인 텍스트-이미지 생성을 위한 새로운 인사이트를 제공합니다.