노타 AI CVPR 2024 엑시노스 최적화 온디바이스 이미지 생성모델 발표

본문

안드로이드 정보

[하드웨어] 노타 AI, CVPR 2024 엑시노스 최적화 온디바이스 이미지 생성모델 발표

시무라오바상 (5264466)

활동내역 작성글 쪽지 마이피 타임라인

출석일수 : 2316일 | LV.53

Exp.87%

추천 2 | 조회 1424 | 비추력 32931

작성일 2024.06.10 (17:45:31)

IP : (IP보기클릭)211.234.***.***

프로필 열기/닫기

시무라오바상 (5264466)

2 | 0 | 1424 | 비추력 32931

프로필 열기/닫기

2024.06.10 (17:45:31)

마지막 수정 시간: 24.06.10 19:55

EdgeFusion: On-device Text-to-Image Generation

서론

텍스트-이미지 생성을 위한 SD(Stable Diffusion)의 계산 집약적인 특성은 실제 배포에 걸림돌이 됩니다. 최근 연구에서는 LCM(Latent Consistency Model)에서와 같이 샘플링 단계를 줄이고 가지치기 및 지식 증류와 같은 아키텍처 최적화를 적용하여 이 문제를 해결하고 있습니다. 저희는 컴팩트한 BK-SDM SD 변형에서 출발하는 EdgeFusion을 제안합니다. 일반적으로 사용되는 웹 크롤링 데이터 세트에 LCM을 BK-SDM에 직접 적용하면 만족스럽지 못한 결과를 얻을 수 있습니다. 이를 극복하기 위해 저희는 (1) 선도적인 생성 모델의 고품질 합성 이미지-텍스트 쌍을 활용하고 (2) LCM에 맞는 고급 증류 프로세스를 설계하는 두 가지 핵심 전략을 개발했습니다. 또한, 온디바이스 배포를 위해 모델 레벨 타일링과 양자화를 적용하고, 엣지퓨전 모델을 통해 노이즈 제거 단계를 단 두 단계로 줄여 사실적인 텍스트 정렬 이미지를 빠르게 생성하며, NPU와 같이 리소스가 제한된 엣지 디바이스에서 1초 미만의 지연 시간을 구현합니다. 그림 1은 EdgeFusion의 전반적인 성능을 보여줍니다.

이 논문은 CVPR 2024 Workshop on Efficient and On-Device Generation (EDGE)에 채택되었습니다.

그림 1. T2I 생성 결과. 개선된 데이터로 학습된 엣지퓨전은 몇 단계의 노이즈 제거만으로 까다로운 프롬프트에서 고품질 이미지를 생성할 수 있습니다.

논문의 주요 메시지

• EdgeFusion은 선도적인 생성 모델의 고품질 이미지-텍스트 쌍을 활용하여 컴팩트한 SD 모델 성능을 개선합니다.

• EdgeFusion은 LCM에 맞게 조정된 고급 증류 프로세스를 통해 고품질의 몇 단계 추론을 가능하게 합니다.

• 모델 수준의 타일링과 양자화를 통해 EdgeFusion은 삼성 Exynos NPU에서 1초 만에 사실적인 이미지를 생성합니다.

논문의 의의/중요성

이 연구는 포괄적인 최적화 전략을 제안함으로써 리소스가 제한된 환경(예: NPU)에서 SD 모델을 실제로 배포하는 문제를 다룹니다. 이 논문은 NPU의 고유한 계산 한계와 메모리 제약을 해결하여 엣지 디바이스에서 효율적인 텍스트-이미지 생성을 위한 새로운 인사이트를 제공합니다.

출처 : https://www.nota.ai/community/edgefusion-on-device-text-to-image-generation

글쓰기

댓글 | 총 0 개

로그인이 필요합니다.

글쓰기

본문

애플 정보

안드로이드 정보

모바일 게임 정보

기타모바일 정보

예판/핫딜 정보

휴대폰 핫딜

앱 추천/홍보

게임 이야기

스크린샷

동영상

거래 게시판

안드로이드 정보

[하드웨어] 노타 AI, CVPR 2024 엑시노스 최적화 온디바이스 이미지 생성모델 발표