본문

글쓰기   목록 | 이전글 | 다음글

[하드웨어] 삼성 엑시노스 2600, SME2 지원 AI 성능 70% 향상 [10]


profile_image

profile_image (66332)
9 | 10 | 2816 | 비추력 5870
프로필 열기/닫기
마지막 수정 시간: 26.02.12 18:04
글쓰기
|
목록 | 이전글 | 다음글

댓글 | 10
1
 댓글


(IP보기클릭)211.235.***.***

BEST
SME2 지원 의미 기존 CPU 아키텍처는 머신러닝 연산에서 요구되는 대규모 병렬 연산을 효율적으로 처리하기에는 구조적인 한계를 지님 이러한 한계를 보완하기 위해 제안된 기술이 SME2(Scalable Matrix Extension 2) SME2는 기존 모바일 CPU의 Arm 명령어 집합에 포함된 확장 ISA¹로, 행렬 연산을 효과적으로 가속할 수 있도록 설계 이를 통해 CPU가 지닌 프로그래밍 유연성을 유지하면서도, 온디바이스 AI에 필요한 연산 성능을 확보할 수 있는 기반이 마련
26.02.12 18:03

(IP보기클릭)147.47.***.***

BEST
Tensor Core 같은 행렬곱 연산기입니다. 차이점은 systolic array가 아니라 Vector x Vector의 Outer Product 형태로 구성된 유닛이라서 기존 SVE 연산 가속에도 활용가능하다고 합니다.
26.02.12 20:02

(IP보기클릭)211.235.***.***

BEST SME2 지원 의미 기존 CPU 아키텍처는 머신러닝 연산에서 요구되는 대규모 병렬 연산을 효율적으로 처리하기에는 구조적인 한계를 지님 이러한 한계를 보완하기 위해 제안된 기술이 SME2(Scalable Matrix Extension 2) SME2는 기존 모바일 CPU의 Arm 명령어 집합에 포함된 확장 ISA¹로, 행렬 연산을 효과적으로 가속할 수 있도록 설계 이를 통해 CPU가 지닌 프로그래밍 유연성을 유지하면서도, 온디바이스 AI에 필요한 연산 성능을 확보할 수 있는 기반이 마련
26.02.12 18:03

(IP보기클릭)1.237.***.***

저걸 cpu에 내장하는게 의미가 있나..?
26.02.12 18:07

(IP보기클릭)14.42.***.***

루리웹-1558808811
ai 관련 연산이 cpu 안에서 도니까 지연시간 측면에서도 유리하고, npu 대비 개발환경도 훨씬 범용적일테니. | 26.02.12 19:10 | | |

(IP보기클릭)118.235.***.***

라스트리스
어차피 요즘 ai 연산이 gpu에 통합해서 행렬연산이랑 gpu의 int와 fp병렬자원을 동시에 하는쪽으로 가고 있어서 cpu는 애진작 api실행시켜주는 터미널 역할 수준으로밖에 안쓰거든요. 그래서 그런거죠. | 26.02.12 19:44 | | |

(IP보기클릭)14.42.***.***

루리웹-1558808811
대규모 언어모델이면 모를까, 스마트폰이나 PC 수준의 폼팩터에선 절대성능보단 최대한 적은 지연시간과 오버헤드로 즉각적으로 처리해야 하는 경우들이 있으니까요. 그래서 NPU따로 GPU따로 CPU따로 해서 계속 AI연산에 맞게 발전해가고 있는 거. | 26.02.12 19:48 | | |

(IP보기클릭)172.226.***.***

라스트리스
관련 없는 질문이기는 한데요, 왜 이 댓글에 싫어요가 많이 붇는거죠? 잘못된 말도 아닌데다 맥락을 보면 엑시노스를 설계한 삼성 편을 들어주는 것에 가까운데 말이죠.. | 26.02.13 00:12 | | |

(IP보기클릭)14.84.***.***

라스트리스
그걸 구지 느린 cpu쪽에 넣어서 쓰는게 얼마나 효용성이 있느냐의 의문이죠. 이게 데스크톱처럼 pci 인터페이스를 통해 한번 거치는 구조면 모르겠는데 모바일 ap는 통합 soc로 구동되는거라 cpu에 있는것보단 gpu에 ai 연산을 통합시키는게 이래저래 훨씬 낫거든요. 연산력 차이때문에라도 어차피 gpu를 쓰기도 해야하고 확장성도 gpu가 나으니까요. | 26.02.13 00:15 | | |

(IP보기클릭)14.42.***.***

루리웹-1558808811
성능의 문제가 아니라 효율성의 문제임. GPU나 NPU한테 워크로드 맡기기도 전에 정말 신속하게 처리할 경우 CPU 안에서도 ai 연산을 처리할 수 있음. 이런 기조가 arm, x86 할 것 없이 모든 업계에서 이루어지는 중임. 지금 사람들이 죄다 GPU NPU TPU GPU NPU TPU 이러니까 CPU는 뭐 그냥 일만 시키는 무언가로 생각하는 사람들이 많지만, NPU나 GPU같은 별개의 회로로 워크로드를 넘기는 것 조차도 비효율성으로 간주되는 워크로드들이 있을 수 있음. 그런 애들이 CPU 안에서 처리할 때 효용성이 생기는 워크로드들이라는 소리임. 혹은 NPU GPU와 통합적으로 처리를 하되, CPU에서 처리할 수 있는 건 처리하고 그 다음에 본격적으로 프로세스를 돌릴 때 NPU GPU를 활용한다거나. | 26.02.13 00:59 | | |

(IP보기클릭)14.42.***.***

randomperson6533
안드정게니까요. 당장 제 닉만 봐도 표정 썩을 네임드 삼성팬들 닉 열거하라고 하면 다섯 손가락 다 채울 수 있을 것 같음. | 26.02.13 01:00 | | |

(IP보기클릭)147.47.***.***

BEST
Tensor Core 같은 행렬곱 연산기입니다. 차이점은 systolic array가 아니라 Vector x Vector의 Outer Product 형태로 구성된 유닛이라서 기존 SVE 연산 가속에도 활용가능하다고 합니다.
26.02.12 20:02


1
 댓글




목록 | 이전글 | 다음글
X