게임기 회사들이 굳이 "PS2 1초당 폴리곤 7700만개"같은식으로 홍보한지도 슬슬 20년이나 지난 옛날 일이고 그 이후로는 FLOPS에만 관심이 있는듯 하지만 옛날 게임기와 요새 게임기가 어느 정도 차이나는지 궁금하긴 하군요. 읭
일단 이번에 정리하는건 현실적으로 게임 실행시에 얼만큼 가능한지?보다는 다른 그래픽 요소 제외하고 삼각형만 생성할 경우 이론적 최대 성능만 고려하겠습니다.
예컨대 6세대 게임기(드캐, PS2, 게임큐브 등)가 텍스쳐, 광원, 기타 효과가 포함된 실제 게임이 초당 수백만~1천만 초반에 가깝더라도 이론상 최대 7700만개면 7700만을 기준삼아 비교
①닌텐도 64
https://twitter.com/oleivarrudi/status/1074976874227531777
CPU, 보조 프로세서 개발한 실리콘 그래픽스에서 만든 표준 마이크로 코드 Fast3D로 개발할경우 초당 10만개를 넘는 정도지만, 최대 50~60만개까지 가능한 Turbo3D라는게 있다고는 합니다.
일반적으로는 10만 초중반이 실제 닌텐도 64 게임에 가깝겠는데 Turbo3D는 그래픽 저하로 인해 닌텐도에서 사용을 권장하지 않았다는듯
Turbo3D 쓰는 게임이 있다고는 하네요.
②게임큐브
https://www.ign.com/articles/2001/01/17/gamecube-101-graphics
IGN 옛날 기사에서 이론상 최대 9000만, 실제 게임에서 600~1200만 삼각형 예상
③Wii
직접적으로 설명하는 기사는 찾기가 어려우니 편의상 Wii GPU가 게임큐브와 비슷한 구조에 클럭만 1.5배이니 9000만(600~1200만)에 1.5배 곱해주는 것으로?
④위유
옛날 라데온 발표용 슬라이드 자료를 보면 테라스케일2(HD 5000 시리즈 등) GPU가 클럭당 폴리곤 1개라는 비교표가 나오는데
↑ 이 사진은 HD 5670 다이어그램
https://tpucdn.com/gpu-specs/images/g/77-block-diagram.jpg
↑ 이 사진은 HD 5870 다이어그램
5670과 5870은 스트림프로세서(FP32 플롭스 관련), TMU, ROP 등은 개수가 4배만큼 차이나지만 Grphics Engine 부분은 1개로 동일하기 때문에 위 슬라이드 자료에서 클럭당 폴리곤 1개라는 부분은 테라스케일 2 이하 GPU가 공유하는 특징이라고 생각되네요.
이 경우에는 위유가 550MHz라 숫자 그대로 초당 삼각형 5억 5천만개
여담으로 흔히들 게임기 폴리곤 비교표라고 떠도는 내용을 보면 엑스박스 360이 5억개라는걸 볼 수 있는데 엑박 360의 Xenos가 ATI에서 만든거라 마찬가지 이유로 클럭이 500MHz라 삼각형 5억개가 되는 셈이군요.
비슷한 원리로 GCN인 HD 7000시리즈는 대체로 지오메트리 프로세서가 2개 있어서 클럭당 삼각형 2개 → 엑스박스 원은 클럭이 853MHz라 16~17억개에 가깝다고 마이크로소프트 슬라이드 자료에 비슷한 수치가 있습니다.
↑위 사진에서 각각 1.6Gtris/sec, 4.4Gtris/sec, 7.3Gtris/sec이라고 적힌 부분
이 경우에는 엑스박스 시리즈 X가 73억, PS5가 클럭 2230MHz일 때 클럭이 높아서 89억 가까이 되는군요.
⑤휴대용 게임기 둘
닌텐도 DS는 닌텐도가 자세한 사양을 밝히지 않는 시기에 나와서 불명이니 닌텐도 64와 비슷하다고 치고
3DS는 PICA200 제조사에서 클럭 200MHz당 1530만이라고 하고 3DS는 클럭이 266MHz라서 2030만개 정도
다만 2000만개라는게 실제 게임에서 그 정도 쓰라는 의미로 2000만개인지 역시 이론상으로만 가능한 최대치인지는 알 수가 없군요.
⑥닌텐도 스위치
스위치는 엔비디아 물건을 쓰기에 위유와는 구조가 다르겠는데
GT 1030 사진
스위치에 들어간 테그라 X1 사진
맥스웰(GTX 750, 900 시리즈 등) GPU는 TPC 1개당 폴리모프 엔진 1개(편의상 쿠다코어 128개당 폴리모프 엔진 1개)이므로 스위치는 폴리모프 엔진 2개가 있고
https://www.nvidia.com/content/pdf/product-specifications/geforce_gtx_680_whitepaper_final.pdf
케플러(GTX 680) 나올 때 폴리모프 엔진이 클럭당 폴리곤 0.5개라는 설명이 있었군요.
결국은 스위치도 2*0.5=1이라서 위유와 비슷하게 1Hz당 삼각형 1개인셈이라
독모드 768MHz: 초당 삼각형 7~8억
휴대모드 307.2 / 384 / 460MHz: 초당 삼각형 3~5억
이렇게 보니까 스위치 휴대모드가 의외로 위유보다 일부 떨어지는 것처럼 보이긴 하지만 AMD든 엔비디아든 테셀레이션 성능이 개선된다든지 차이점이 더 있으니 꼭 저런 숫자가 전부는 아니겠습니다.
182.209.***.***
흥미롭네요. 이런 글 좋아합니다.
210.111.***.***
게임큐브 폴리곤 데이터 원출처가 저기였군요 읭? DS는 프레임당 최대 2048개라고 합니다
210.111.***.***
그리고 아무래도 통합쉐이더 이후 GPU들은 폴리곤 수치보단 버텍스쉐이더 퍼포먼스로 따지는 편이라 읭...
182.229.***.***
예전에 라데온이 비교적 엔비디아보다 테셀레이션이라든지 헤어웍스같은게 불리하다는 이미지가 있던점을 생각해본다면 그거에 관련된 고정 기능 유닛이 많은게 리뷰 사이트에서 별로 다뤄지지는 않아도 성능에 영향은 있는가 싶긴 하더군요. https://www.techpowerup.com/review/his-radeon-hd-6950/26.html 예컨대 라데온 HD 6950이 종합성능은 5870과 비슷하거나 5%쯤? 좋더라도 테셀레이션 벤치마크 돌리면 40% 가량 프레임 높게 나온다든지 https://i3.ruliweb.com/img/23/06/04/18881e4201ae85cb.png https://www.pcgameshardware.de/Nvidia-Geforce-Grafikkarte-255598/Tests/GTX-1070-Benchmarks-Test-Preis-1196360/2/ Beyond3D 사이트에서 폴리곤 성능 벤치마크 만든게 있던데 이론적으로는 GTX 980이 폴리모프 엔진 16개, 클럭 1.2GHz라 90억개 가량, 퓨리 X가 지오메트리 프로세서 4개, 클럭 1GHz라 40억개 가량이 되겠지만 벤치마크가 그럭저럭 비슷하게 나오네요. https://images.anandtech.com/graphs/graph10325/82897.png 퓨리 X가 종합 성능은 GTX 980을 확실하게 이기게 나왔어도 역시 문제의 테셀레이션 벤치마크는 뒤처진다든지 https://www.eurogamer.net/digitalfoundry-2015-does-nvidia-hairworks-really-sabotage-amd-performance 헤어웍스 비교같은거 보면 이런쪽으로 원인이 있었나 느낌이 드네요.
210.111.***.***
최근은 잘 모르겠습니다만, 파스칼시절까지는 테셀레이션으로 봤을때 라데온은 지포스에 비벼볼 생각도 못했습니다.
182.209.***.***
흥미롭네요. 이런 글 좋아합니다.
210.111.***.***
게임큐브 폴리곤 데이터 원출처가 저기였군요 읭? DS는 프레임당 최대 2048개라고 합니다
210.111.***.***
그리고 아무래도 통합쉐이더 이후 GPU들은 폴리곤 수치보단 버텍스쉐이더 퍼포먼스로 따지는 편이라 읭...
182.229.***.***
예전에 라데온이 비교적 엔비디아보다 테셀레이션이라든지 헤어웍스같은게 불리하다는 이미지가 있던점을 생각해본다면 그거에 관련된 고정 기능 유닛이 많은게 리뷰 사이트에서 별로 다뤄지지는 않아도 성능에 영향은 있는가 싶긴 하더군요. https://www.techpowerup.com/review/his-radeon-hd-6950/26.html 예컨대 라데온 HD 6950이 종합성능은 5870과 비슷하거나 5%쯤? 좋더라도 테셀레이션 벤치마크 돌리면 40% 가량 프레임 높게 나온다든지 https://i3.ruliweb.com/img/23/06/04/18881e4201ae85cb.png https://www.pcgameshardware.de/Nvidia-Geforce-Grafikkarte-255598/Tests/GTX-1070-Benchmarks-Test-Preis-1196360/2/ Beyond3D 사이트에서 폴리곤 성능 벤치마크 만든게 있던데 이론적으로는 GTX 980이 폴리모프 엔진 16개, 클럭 1.2GHz라 90억개 가량, 퓨리 X가 지오메트리 프로세서 4개, 클럭 1GHz라 40억개 가량이 되겠지만 벤치마크가 그럭저럭 비슷하게 나오네요. https://images.anandtech.com/graphs/graph10325/82897.png 퓨리 X가 종합 성능은 GTX 980을 확실하게 이기게 나왔어도 역시 문제의 테셀레이션 벤치마크는 뒤처진다든지 https://www.eurogamer.net/digitalfoundry-2015-does-nvidia-hairworks-really-sabotage-amd-performance 헤어웍스 비교같은거 보면 이런쪽으로 원인이 있었나 느낌이 드네요. | 23.06.04 00:57 | |
210.111.***.***
텍셀필레이트
최근은 잘 모르겠습니다만, 파스칼시절까지는 테셀레이션으로 봤을때 라데온은 지포스에 비벼볼 생각도 못했습니다. | 23.06.04 19:49 | |
182.229.***.***
https://images.anandtech.com/graphs/graph14618/111337.png 그 이후 테셀레이션이 일단 RDNA1 VS 튜링은 5700XT가 2070보다는 나빠서 어떻게 보면 GCN, 파스칼보다 차이가 크기도 하네요. https://coolenjoy.net/bbs/38/2643008 https://img2.quasarzone.com/editor/2021/02/12/7ea594372fab18d633e0511e5475804d.jpeg 아난드텍에서 리뷰를 안올린지 몇년 지나서 이제 테셀레이션 벤치마크는 찾기 어렵고 3DMark 메시 셰이더 벤치에서는 RDNA2가 깡 폴리곤 성능은 떨어져도 메시 셰이더로 보완이 된다는 느낌입니다. https://www.pcgameshardware.de/3DMark-Software-122260/News/Mesh-Shader-Test-erschienen-Update-DX12-Ultimate-1366833/ 저게 공개 초기에는 최적화가 이상했는지 라데온 드라이버 버전에 따라 성능이 2배씩이나 차이났는데 결과적으로는 6800XT와 3080이 큰 차이는 안나게됐군요. https://youtu.be/C99VwDGyLg0?t=828 언리얼 엔진5 나나이트가 최소사양에 맥스웰, GCN이 들어간다는 점에서 엄밀하게는 튜링, RDNA2에서 지원한다는 메시 셰이더와는 다를지도 모르겠지만 나름대로 6800XT가 3080보다 특별히 느리지는 않았습니다. https://docs.unrealengine.com/5.0/ko/nanite-virtualized-geometry-in-unreal-engine/ 위에 동영상 데모 기준 바위 1개에 삼각형 백만개 이상 엔비디아 유출 정보로 스위치 차세대용 테그라가 쿠다코어 1536개라는 루머를 믿는다면 암페어 기준 폴리모프 엔진 개수는 6개로 스위치 3배 정도겠는데 메시 셰이더 내지는 나나이트 비슷한걸로 수혜를 받을 수 있을지가 좀 관심 있는 점이네요. https://www.unrealengine.com/en-US/tech-blog/bringing-nanite-to-fortnite-battle-royale-in-chapter-4 https://www.fortnite.com/news/drop-into-the-next-generation-of-fortnite-battle-royale-powered-by-unreal-engine-5-1 https://cdn2.unrealengine.com/p-area-on-opt-1s-89bb46d92142.mp4 실제 적용된 사례중에는 포트나이트가 폴리곤 30만개짜리 나무 사용하는데 아직은 형태 고정된 물체 내지는 식물만 가능하다는듯 | 23.06.04 23:41 | |
210.111.***.***
테셀레이션 따라잡나 했더니 이제 RT와 기존 강점이었던 연산력이 오히려 지포스 대비로 영 좋지 않은 곳을 읭... | 23.06.06 12:15 | |