번역기로 인한 오역이 있을 수 있습니다.
성능 테스트에서 탐색된 NVIDIA DLSS 3의 프레임 생성 마법
NVIDIA는 3D 그래픽 혁신의 행진을 계속하기 위해 AI를 수용하는 것에 대해 뼈를 깎지 않았습니다. 이 회사는 2018년에 도입된 이후로 DLSS( Deep Learning Super Sampling ) 기술을 크게 개발하고 개선했습니다 . GeForce 40 시리즈 카드와 함께 도입된 최신 버전은 디지털 파운드리.
NVIDIA DLSS 3 기술 요약 및 잠재적 함정
DLSS 3은 이 기술의 주요 개정판으로 렌더링된 프레임 사이에 허공처럼 보이는 추가 프레임을 생성할 수 있는 새로운 기능을 도입했습니다. 이를 달성하기 위해 훨씬 더 빠른 광학 흐름 가속기를 활용하므로 이 기술이 이전 30 시리즈 및 20 시리즈 GeForce 카드로 확장되는 것을 기대하지 마십시오.
간단히 말해서 GPU는 순차적으로 렌더링된 프레임을 분석하여 동일한 픽셀을 식별한 다음 광학 흐름 맵을 계산하여 변경 사항을 설명합니다. 그런 다음 게임 엔진의 기하학적 모션 벡터와 결합하여 중간 프레임을 만들고 겉보기 모션을 부드럽게 하지만 그 자체로는 몇 가지 제한이 있습니다.
우선 생성된 프레임이 사용된 두 소스 프레임 사이에 나타나기 때문에 대기 시간이 추가됩니다. 이것은 필연적으로 두 번째 렌더링된 프레임이 일관된 프레임 속도를 유지하기 위해 효과적으로 약간 지연된다는 것을 의미하지만 일반적으로 눈에 띄지 않아야 합니다. 이론적으로 이것은 화면에 6ms 동안 표시될 수 있는 렌더링된 프레임을 사용하지만 창의 마지막 3ms까지 표시하지 않는 반면 "무료" 생성된 프레임은 처음 3ms 동안 표시됩니다. 이는 경쟁 슈팅 게임과 같이 지연 시간에 민감한 게임에는 적합하지 않을 수 있지만 몰입형 비주얼 우선 타이틀에는 환영할만한 트레이드오프가 될 수 있습니다.
또한, 가장자리에서 또는 다른 것 뒤에서 나타나서 프레임 내에서 갑자기 나타나는 개체(폐색 해제라고 하는 프로세스)에는 가져올 참조 데이터가 없습니다. 이로 인해 시청 경험을 저하시킬 수 있는 시각적 아티팩트가 발생할 수도 있습니다. NVIDIA가 이러한 문제를 해결하는 방법에 대한 자세한 정보를 원하시면 Ada 아키텍처 심층 분석 을 확인하십시오.
DLSS 성능 테스트
우리(그리고 당신)가 관심을 갖는 것은 물론 게임을 하는 동안 기술이 실제로 어떻게 작용하는지입니다. Digital Foundry의 분석에서는 이러한 기능이 활성화된 특수 빌드를 사용하여 Spider-Man Remastered , Cyberpunk 2077 및 Portal RTX 에서의 성능을 조사합니다. 많은 비교가 느린 속도로 표시되므로 YouTube의 60fps 제한으로 인해 AI가 삽입된 프레임을 120fps 소스 푸티지에서 볼 수 없습니다. 또한 스크린샷은 YouTube 압축 후이며 반드시 실제 이미지 품질을 나타내는 것은 아닙니다.
스파이더맨의 DLSS 3 프레임 생성 데모
Spider-Man 을 사용한 초기 DLSS 3 프레임 생성 데모 는 게임 플레이가 얼마나 더 매끄럽게 나타날 수 있는지 보여줍니다. 물론 이 장면은 카메라가 앞으로 움직이고 화면 상의 피사체가 모두 작고 상당히 느리게 움직이기 때문에 폐색 해제가 거의 없는 장면입니다. 이것은 또한 입력 대기 시간에 대한 표시를 제공하지 않지만 아마도 여기 HH에서 나중에 해당 메트릭을 탐색할 것입니다.
Cyberpunk 2077의 DLSS 3 프레임 생성 성능
Cyberpunk 2077 은 DLSS 3이 제공하는 엄청난 성능 향상을 확인합니다. Digital Foundry는 GeForce RTX 4090에서 실행되는 장면을 기본 4K 렌더링, 4K DLSS 2 성능 모드 및 4K DLSS 3와 프레임 생성을 비교합니다. 현재의 엠바고 제한으로 인해 Digital Foundry는 정확한 프레임 속도를 제공할 수 없지만 상대적으로 말하자면 DLSS 2 성능 모드 단독으로 기본 렌더링에 비해 약 2.5배 향상을 제공합니다. DLSS 3의 프레임 생성은 이를 다시 거의 두 배로 늘려 총 프레임 속도가 약 4배 향상됩니다.
스파이더맨의 DLSS 3 프레임 생성 성능
이 초기 테스트는 CPU가 더 제한적인 경향이 있는 Spider-Man 에서 성능 향상이 적은 것으로 나타났습니다 . 매우 반복 가능한 퀵 타임 이벤트 세그먼트를 사용하는 테스트는 DLSS 2 성능 모드 단독으로 몇 퍼센트 포인트의 향상을 보여줍니다. 이것은 DLSS 3 프레임 생성의 가능성을 기존 렌더링에 비해 약 2배의 총 이득으로 제한합니다. 물론 프레임 속도의 증가는 환영하지만 일부 타이틀이 다른 타이틀보다 훨씬 더 많은 이점을 얻을 수 있음을 보여줍니다.
Portal RTX의 DLSS 3 프레임 생성 성능
성능 스펙트럼의 반대쪽 끝에서 Portal RTX 테스트는 총 DLSS 3 프레임 생성이 5배 이상 향상되었음을 보여줍니다. 게임의 단순한 지오메트리 덕분에 DLSS 2 Performance는 프레임 생성이 시작되기도 전에 3배의 성능만으로 보다 효율적으로 작동할 수 있습니다. Digital Foundry는 120fps 성능 창 한도 내에서 수행되는 장면을 찾는 데 어려움을 겪었으므로 실제 프레임 속도는 아직 공개되지 않았지만 이 타이틀에서는 4K에서도 매우 높을 것으로 기대할 수 있습니다.
DLSS 3 프레임 생성 대기 시간 영향
Portal RTX의 반사 대기 시간 비교
프레임 대기 시간이라는 개념으로 돌아가서 Digital Foundry는 DLSS 3이 프레임 생성이 켜져 있을 때 NVIDIA의 Reflex 기술을 강제로 활성화한다고 언급합니다. 성능과 마찬가지로 대기 시간 "비용"은 게임마다 다릅니다. Portal RTX 에서 일반 성능은 일반적 으로 DLSS에 의해 너무 높아져 프레임 생성의 추가 대기 시간은 렌더링 및 경로 추적 조명에 의해 이미 발생한 대기 시간 다음으로 무시할 수 있습니다. 게임이 300fps 이상으로 실행되는 경우 이는 약 1프레임에 해당합니다.
Cyberpunk 2077의 반사 대기 시간 비교
Cyberpunk 2077 은 후자의 Reflex 설정에 관계없이 기본 렌더링에 비해 프레임 생성과 함께 DLSS 3 대기 시간이 개선되었습니다. 이 중 대부분은 애초에 DLSS 프레임 업스케일링이 제공하는 일반적인 성능 향상 때문입니다. 따라서 DLSS 2 성능 모드와 비교하여 여기에서 더 많은 패널티가 발생하는 것을 볼 수 있습니다. 그러나 게임의 실제 프레임 속도를 알지 못하면 이것이 실제 세계에 얼마나 큰 영향을 미치는지 말할 수 없습니다.
스파이더맨의 반사 대기 시간 비교
Reflex 비교를 마무리하면 Spider-Man 은 대기 시간에 대해 최고와 최악을 모두 보여줍니다. 플러스 측면에서 DLSS 3 프레임 생성은 평균 38ms로 세 타이틀 중 가장 빠릅니다. 그러나 게임은 일반적으로 빠르게 실행되며 이 결과는 기본 렌더링과 거의 차이가 없습니다. DLSS 2 성능 모드는 다시 더 낮은 대기 시간을 제공하지만 이러한 모든 결과는 유동적으로 느끼기에 완벽하게 허용되는 영역 내에 있습니다.
DLSS 3 이미지 품질 비교
어도비 픽셀 모션 대 DLSS 3
마지막으로 Digital Foundry는 이미지 품질 평가를 시도했습니다. 프레임 생성은 게임 렌더링의 새로운 영역이며 실제로 이 공간에 직접적인 아날로그는 없습니다. 따라서 팀은 비교를 위해 After Effects의 Adobe Pixel Motion 및 Video Enhance AI의 Topaz Chronos SlowMo와 같은 사후 프레임 생성 프로세서를 오프라인으로 전환했습니다.
토파즈 크로노 SlowMo 3 대 DLSS 3
DLSS 3 프레임 생성은 불완전하지만 Adobe와 Topaz의 솔루션보다 훨씬 낫습니다. 특히 DLSS 3는 실시간으로 진행되고 나머지 두 명은 각자의 속도로 녹화된 영상을 작업한다는 점이 특히 인상적입니다. 토파즈 인공물은 흐림으로 나타나는 경향이 있는 반면 Adobe는 동작 영역 주위에 이상한 고스트를 주입합니다.
DLSS 3 디오클루전 아티팩트
대조적으로 DLSS 3은 움직임에 어려움을 겪지 않습니다. 생성된 프레임은 선명하게 유지되고 잔상이 최소화됩니다. 예외는 폐색 해제 주변입니다. 이 예에서 우리는 포스트의 흐릿한 고스트와 스파이더맨의 발 주위에 보기 흉한 왜곡을 모두 볼 수 있습니다. 이 모든 일이 너무 빨리 일어나서 절반 속도 영상을 보고도 감지할 수 없습니다. Adobe와 Topaz가 생성하고 처리한 푸티지를 동일하게 말할 수는 없습니다.
테스트용 카드가 준비되어 있으므로 DLSS 3 기술에 대한 자체 분석을 수행해야 합니다. 그럼에도 불구하고 이것은 NVIDIA의 신생 신경망 기반 업스케일링 기술의 유망한 시작 입니다. NVIDIA의 리플렉스기술은 실제로 프레임 생성 파이프라인에서 알려지지 않은 영웅이며 DLSS 3가 경험의 지연을 최소화하면서 허공에서 프레임을 생성하도록 돕는 "마법"을 완성합니다.
(IP보기클릭)14.33.***.***
dlss가 옵션 타협해야 하는 상황에서는 참 좋은 선택지인데 4080 90 정도면 옵션 타협 없이 4k 네이티브 정복 가능할까 했는데 생각보다 지금까지 공개된 깡성능 벤치가 좀 아쉬움... 4090도 칩을 너무 뭉텅 잘라냈던데 90샤 정도 나와야 깡성능 체감 좀 되려나 싶네요.
(IP보기클릭)210.94.***.***
4090을 80ti로 대입해도 쿠다코어가 풀칩대비 비율이 낮으니까요. 에이다 러브레이스 풀칩이 18432로 추정되는데, 이전 세대의 비율을 봐도 980ti(91.7%), 1080ti(93.3%), 2080ti(94.4%), 3080Ti(95.2%)인데, 4090의 16384코어는 88.9%이라 이전 80ti보다 더 낮은건데도 4090이라는 이름이 붙어버렸으니까 뭉텅 잘라낸게 맞죠.
(IP보기클릭)14.33.***.***
dlss가 옵션 타협해야 하는 상황에서는 참 좋은 선택지인데 4080 90 정도면 옵션 타협 없이 4k 네이티브 정복 가능할까 했는데 생각보다 지금까지 공개된 깡성능 벤치가 좀 아쉬움... 4090도 칩을 너무 뭉텅 잘라냈던데 90샤 정도 나와야 깡성능 체감 좀 되려나 싶네요.
(IP보기클릭)211.246.***.***
잉 깡스펙으로 3090이 35tflops정도고 4090은 80tflops근처로 추정되는거 아니었음? | 22.09.30 16:39 | | |
(IP보기클릭)211.106.***.***
아마 다이컷 비교를 보시고 하신 말씀일 거에요. 3090은 거의 풀다이에 가까운데 이번 4090은 비율상 엄청나게 잘라내서 실질적 4080이라는 의견도 있었죠 | 22.09.30 16:47 | | |
(IP보기클릭)211.246.***.***
어.. 뭐지 어느게 컷칩이고 어느게 풀칩인비가 80 90을 나누는 기준이었나;? | 22.09.30 16:48 | | |
(IP보기클릭)211.246.***.***
혹시나 해서 뒤져봤는데 애초에 80에서 90ti가 같은칩을 쓴거조차 30번대가 첨인거같은데... | 22.09.30 17:01 | | |
(IP보기클릭)210.94.***.***
루시오르
4090을 80ti로 대입해도 쿠다코어가 풀칩대비 비율이 낮으니까요. 에이다 러브레이스 풀칩이 18432로 추정되는데, 이전 세대의 비율을 봐도 980ti(91.7%), 1080ti(93.3%), 2080ti(94.4%), 3080Ti(95.2%)인데, 4090의 16384코어는 88.9%이라 이전 80ti보다 더 낮은건데도 4090이라는 이름이 붙어버렸으니까 뭉텅 잘라낸게 맞죠. | 22.09.30 17:33 | | |
(IP보기클릭)211.246.***.***
4090ti 윗단계가 나오면 그렇겠지만...그냥 90이 컷칩이고 ti가 풀칩인거 아님? 애시당초 4090이 4080으로 나왔으면 전력가지고 깠을거같은데. | 22.09.30 17:39 | | |
(IP보기클릭)106.248.***.***
(IP보기클릭)121.170.***.***
그러다가 못삼 4090TI도 이상하게 나오면 또 기달려야됨 | 22.09.30 18:54 | | |
(IP보기클릭)223.38.***.***
(IP보기클릭)175.223.***.***
러시아....? | 22.10.02 12:20 | | |