지난 주에 정말로 세상을 뒤집어놓은 AI 연구

본문

전체 유게 유머 정치유머 취미 그림/만화 🔞 성인 커뮤니티 정보 게임 애니/책 유저게시판 힛갤 오른쪽

유머 게시판

[유머] 지난 주에 정말로 세상을 뒤집어놓은 AI 연구 [115]

이세계 세가사원 (4545004)
추천흡수기 초심자 초행자 모험가

활동내역 작성글 쪽지 마이피 타임라인

출석일수 : 2709일 | LV.72

Exp.42%

추천 183 | 조회 25829 | 비추력 37663

작성일 2024.03.06 (18:15:27)

IP : (IP보기클릭)220.70.***.***

프로필 열기/닫기

이세계 세가사원 (4545004)

작성일 2024.03.06 프로필 열기/닫기

추천 183 | 조회 25829 | 댓글수 115

이걸 보는 순간

AI 연구자들은 "이게 돼?"를 외치고

저자를 붙잡고 뭐가 어떤 상황인지 소리지르기 시작함.

https://arxiv.org/pdf/2402.17764.pdf

논문링크

이게 뭐냐면 그 역사를 좀 많이 거슬러올라야 하는데

ai는 2010년대 초반부터 계속 모든 연산을 행렬연산으로 했었음

https://bbs.ruliweb.com/community/board/300779/read/45041511

내가

2019년에 올린 고려대학교 ai 연구 소개에서 사용된 트랜스포머도

바로 이 행렬연산을 쓰는 방식임.

근데 이걸 0,1,-1으로 대강 반올림하고 해도 원본과 똑같은데? 같은 소리를 한 거야.

근데 이러면 속도가 몇 배 정도가 아니라

GPU 안 써도 되지 않나? 까지 넘어감

이걸 이 기술 모르는 사람을 위해 설명해주자면

레시피에 고기 몇그람 후추 몇그람 이렇게 되어있는데

대강 막 손에 잡히는 대로 해서 넣었더니 더 편하고 맛있는데?

약불로 3시간 구우라는거 강불로 10분 구웠더니 더 맛있는데?

같은 소리를 한 거임.

지금 그래서 이거 검증에 전세계가 바쁜 상황임.

보통은 씹는데 천하의 구글이 발표한지라....

그리고 난 지금 그게 맞는지 보는 중이고!

지금 놀라운 게 4090 하나에다가 완전학습 돌리는데

원래 이 gpu에는 못 돌리는 완전학습이 느리게나마 돌아가고 있어.....

하하 야근이다

글쓰기

댓글 | 총 115 개

처음 1 2 끝

겸둥현진 (1258710) (IP보기클릭)114.203.*.*	BEST 그니깐 너가 스카이넷 개발자중 하나라는거지?? 암살한다	24.03.06 18:17
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	BEST 근데 진짜 하루아침에 " 다 내다버리고 sign함수로 해도 되는 거 같은데?는 너무 컸음 이전에 결국 버려졌던 아이디어가 갑자기 무덤 뚫고 그 위에 세워진 건물도 뚫고 날아오른 격이라	24.03.06 18:20
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	BEST 공정 수는 늘었음 90번 정도 하는데 이전엔 전문가들이 하나하나 검증했다면 이제는 그냥 동네 아줌마들이 슬쩍 봤는데도 결과가 괜찮은데요?가 된 거	24.03.06 18:20
둥그런연필 (5589809) (IP보기클릭)119.206.*.*	BEST 결론은 왜 되는지는 모르겠는데 되는데용?인거야?	24.03.06 18:17
헤엄치는용 (1736917) (IP보기클릭)39.117.*.*	BEST 그럼 N모시기 회사에는 악재가 되는건가	24.03.06 18:18
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	BEST 안 차이난다고 주장하고 있음 그래서 지금 나도 궁금해서 llama-2에 위키피디아 구워보는 중임 다른 사람이 정규방식으로 학습시킨 거랑 나란히 놓고 물어볼려고 결과는 회사자원이라 아마 못 올리겠지만	24.03.06 18:21
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	BEST 근데 데이터의 detail 소실이 어마어마한거거든 480p로 된 도쿄 거리영상 두개면 4k 영상보다 더 선명해요 같은 소리를 들은 느낌임	24.03.06 18:23

둥그런연필 (5589809) (IP보기클릭)119.206.*.*	BEST 결론은 왜 되는지는 모르겠는데 되는데용?인거야? 등록	24.03.06 18:17
쌀치킨 (5621006) (IP보기클릭)223.38.*.*	둥그런연필 근데 보통 ai 논문들이 이런식임ㅋㅋ 설명을 갖다 붙이긴 하는데 블랙박스라 100퍼 정확하게는 모름 \| 24.03.06 18:40 \| \| \| 등록
겸둥현진 (1258710) (IP보기클릭)114.203.*.*	BEST 그니깐 너가 스카이넷 개발자중 하나라는거지?? 암살한다 등록	24.03.06 18:17
이미사용중인닉넴 (5040411) (IP보기클릭)221.150.*.*	겸둥현진 조만간 창업? 회사 이름은 사이버다인? \| 24.03.06 21:19 \| \| \| 등록
장지환 (4116801) (IP보기클릭)118.235.*.*	대학원생이니 등록	24.03.06 18:17
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	BEST [삭제된 댓글의 댓글입니다.] 클라크 켄트 공정 수는 늘었음 90번 정도 하는데 이전엔 전문가들이 하나하나 검증했다면 이제는 그냥 동네 아줌마들이 슬쩍 봤는데도 결과가 괜찮은데요?가 된 거 \| 24.03.06 18:20 \| \| \| 등록
코리안좈 (5492626) (IP보기클릭)106.102.*.*	이세계 세가사원 전문가 3명이 붙어서해야하는걸, 일용직 6명 붙이니까 되는데용? 이건가... \| 24.03.06 18:24 \| \| \| 등록
よ- (1325430) (IP보기클릭)122.38.*.*	이세계 세가사원 동내 아줌마가 아니고 옆집 애기가 보고 결과가 괜찮은데요 했어야지 \| 24.03.06 18:35 \| \| \| 등록
shego (841882) (IP보기클릭)210.113.*.*	[삭제된 댓글의 댓글입니다.] 클라크 켄트 위에 그림만 봐도 대충 알거 같은데요. 0.04892 -0.02834 ** 0.05888 이랬던게 0 -0 ** 1 이렇게 간단히 해도 결과 값이 같다 이거 같은데요. \| 24.03.06 18:44 \| \| \| 등록
	삭제된 댓글입니다.
야자와 니코니코 (992975) (IP보기클릭)59.11.*.*	[삭제된 댓글의 댓글입니다.] nomnom88 지금 발전이 소프트웨어니 WD 말고 써멀 사다놔라 \| 24.03.06 18:35 \| \| \| 등록
헤엄치는용 (1736917) (IP보기클릭)39.117.*.*	BEST 그럼 N모시기 회사에는 악재가 되는건가 등록	24.03.06 18:18
최소는영어로민이라고해 (5511491) (IP보기클릭)118.235.*.*	헤엄치는용 게틀링건생각하면 악재아닌듯 \| 24.03.06 18:19 \| \| \| 등록
EhTm (1487567) (IP보기클릭)122.42.*.*	헤엄치는용 모르지. gpu가 없어도 될 걸 만약에 gpu까지 왕창 달고 한다면 한계가 어디일지가 무서운거니까 만약 그게 쓸데가 있다면 오히려 더 날아가겠지 \| 24.03.06 18:40 \| \| \| 등록
	삭제된 댓글입니다.
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	BEST [삭제된 댓글의 댓글입니다.] 코카콜라x펩시 근데 진짜 하루아침에 " 다 내다버리고 sign함수로 해도 되는 거 같은데?는 너무 컸음 이전에 결국 버려졌던 아이디어가 갑자기 무덤 뚫고 그 위에 세워진 건물도 뚫고 날아오른 격이라 \| 24.03.06 18:20 \| \| \| 등록
혼류 (385229) (IP보기클릭)121.176.*.*	이세계 세가사원 이게 엘든링에 나오는 토푸스의 역장인가 하는 그건가 \| 24.03.06 18:28 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)219.250.*.*	[삭제된 댓글의 댓글입니다.] 코카콜라x펩시 지금까진 그게 다 구려서 그럼 그렇지 했늨데 트랜스포머에선 ㄷ힐거같은게? 가 충격적인… \| 24.03.06 21:47 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)219.250.*.*	[삭제된 댓글의 댓글입니다.] 코카콜라x펩시 난 아예 양자연산이 들어가면 더 개판ㄴ날거같음.. \| 24.03.06 23:41 \| \| \| 등록
야에 미코 (5132400) (IP보기클릭)114.204.*.*	야근이다(중요) 등록	24.03.06 18:20
B727-200 (9668) (IP보기클릭)220.80.*.*	약불 3시간을 강불 10분이라니 강불이 또… 등록	24.03.06 18:20
날개비상 (1655217) (IP보기클릭)168.131.*.*	기술의 보편화가 될 것인가? 근데 결과물 퀄리티가 차이나진 않을까? 등록	24.03.06 18:20
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	BEST 날개비상 안 차이난다고 주장하고 있음 그래서 지금 나도 궁금해서 llama-2에 위키피디아 구워보는 중임 다른 사람이 정규방식으로 학습시킨 거랑 나란히 놓고 물어볼려고 결과는 회사자원이라 아마 못 올리겠지만 \| 24.03.06 18:21 \| \| \| 등록
날개비상 (1655217) (IP보기클릭)168.131.*.*	이세계 세가사원 정말 차이가 안나면 좋겠다고 생각하는게 Ai 생산성이 유의미해져버리면 기업들이 사람들을 고용을 안할텐데 그 유의미한 생산수단이 보편화되면 기업이나 개인이나 생산성은 비슷비슷하니 결국 거기서 거기가 되지 않을까 싶어서 기술이 보편화되는건 환영할 만 하지 \| 24.03.06 18:23 \| \| \| 등록
LegenDUST (5042906) (IP보기클릭)223.62.*.*	아니 잠깐 뭐 ㅆㅂ? 등록	24.03.06 18:21
LegenDUST (5042906) (IP보기클릭)223.62.*.*	LegenDUST 학습을 완료한 상태에서 가지치기 느낌으로 하는거면 '아 왠만한건 0 1 -1 셋 중 하나 가까이로 가는구나' 할 만 한데 학습 도중에도...? \| 24.03.06 18:22 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	LegenDUST 아예 학습을 이걸로 하래..... 이해가 안 가는데 일단 다른 건 몰라도 gpu의 vram 소모율은 수직낙하함 이거 \| 24.03.06 18:23 \| \| \| 등록
LegenDUST (5042906) (IP보기클릭)223.62.*.*	이세계 세가사원 아니 근데 학습은 어케함? 애초에 시그모이드던 ReLU던 뭐던 썼던게 그라디언트 전파 때문 아니었음? 내가 아직 학부생이라서 잘 모를 수도 있긴 한데 \| 24.03.06 18:24 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	LegenDUST 일본인 개발자에 따르면 epoch 10 정도 가져간 게 epoch 3 가져간 기존 트랜스포머 학습 기본형이랑 비슷하다고 해서 그대로 변인 따라서 하는 중.... \| 24.03.06 18:24 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	LegenDUST 나도 이쪽 전공 대학원생은 아니고 연구에 필요해서 썼었다가 지금은 회사에서 ai 해보래서 덤으로 하는 쪽이거든 https://github.com/Beomi/BitNet-Transformers 여기 이 분 깃헙이랑 논문 원본 읽어보는거 추천함 Straight-Through Estimator기법으로 미분을 대리해서 하는 아이디어임 \| 24.03.06 18:27 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	LegenDUST 그레디언트를 미소변화량만 남기고 컷하는 기법이라고 대강 알고 있는데 하여간 그냥 거 왜 이게 됨 수준이라... \| 24.03.06 18:29 \| \| \| 등록
LegenDUST (5042906) (IP보기클릭)223.62.*.*	이세계 세가사원 좀 더 찾아봐야겠다 \| 24.03.06 18:31 \| \| \| 등록
유우ヲㅣ 口ㅣ캉 (5240963) (IP보기클릭)114.207.*.*	널 죽이면 스카이넷이 좀 더 미래에 등장한다는거지? 등록	24.03.06 18:21
아케보시 히마리 (5708283) (IP보기클릭)211.234.*.*	유우ヲㅣ 口ㅣ캉 오 이 사람 좀 똑똑한 듯 \| 24.03.06 18:25 \| \| \| 등록
猫ケ崎夏步 (1369273) (IP보기클릭)59.31.*.*	사람이 메뉴얼 안보고 감으로 대충하는데 아무튼 잘 되는 그런건가 등록	24.03.06 18:21
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	猫ケ崎夏步 전문가가 하나 열심히 ㅂㅈ 않고 대충 보는 알바생이 두 번 보면 되는데요? 같은 발상임 \| 24.03.06 18:22 \| \| \| 등록
루리웹-5994867479 (5404813) (IP보기클릭)118.235.*.*	어차피 동일하게 반올림 한거면 데이터 전체를 일종의 스케일링 한 효과가 난거니까 결과도 비슷해지는걸까? 등록	24.03.06 18:21
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	BEST 루리웹-5994867479 근데 데이터의 detail 소실이 어마어마한거거든 480p로 된 도쿄 거리영상 두개면 4k 영상보다 더 선명해요 같은 소리를 들은 느낌임 \| 24.03.06 18:23 \| \| \| 등록
29250095088 (5592975) (IP보기클릭)119.192.*.*	AI기술을 결과물을 만들어 내는 과정 자체가 좀 느슨한 편이라서 기본기동원리부터 좀 느슨하게 값 잡아줘도 비슷한 결과 나온다는 느낌인가 등록	24.03.06 18:22
자매배캅이너무나좋은썰렁펭귄 (4776242) (IP보기클릭)221.158.*.*	어 이런 발상이... 컴터가 훨 좋아졌으니 그래픽CG도 만드는데 시간 훨 적게 들어가겠네? ...라고들 생각했지만, 실제로는 그냥 그만큼 퀄리티와 해상도가 증가했지. 작업 시간은 줄어들지 않음... 이것도 마찬가지로 GPU안써도 되는게 아니라, 뭔가 반응속도나 범위 향상 그런걸로 가겠지. 등록	24.03.06 18:23
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	자매배캅이너무나좋은썰렁펭귄 vram+ 행렬연산의 속도 이슈 떄문에 gpu 썼는데 이 방식이면 cpu 개량해서 쓰던가 극단적으로 ram 적게 달린 전용 기판 만들어도 대형 gpu랑 동등한 효과가 남 \| 24.03.06 18:29 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	자매배캅이너무나좋은썰렁펭귄 이게 단지 부동소수점 벡터연산을 할 수 있는 기기가 gpu라서 gpu를 쓴 거야 텐서 메인이던 시절엔 tpu 만들어쓰다가, GPU를 아예 연산용으로 개조하는 걸로 바뀌어서 a100 같은 게 나온거고 \| 24.03.06 18:30 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	자매배캅이너무나좋은썰렁펭귄 GPU대신 다른 거(싼 거)를 써도 되겠네?인 거임 원래 4090 4개는 클러스터링해야 할 학습을 (아니면 자체적으로 지연계산시켜야 할 걸) 부분적으로 적용한 코드만으로 1개만으로 되는 시점에서 정신나간거 \| 24.03.06 18:31 \| \| \| 등록
루리웹-0224080086 (5638956) (IP보기클릭)119.206.*.*	이세계 세가사원 오늘 엔비디아 주식 얼마나 나락가나 한번 봐야겠다 \| 24.03.06 18:52 \| \| \| 등록
정상은 아님 (5059430) (IP보기클릭)118.235.*.*	자매배캅이너무나좋은썰렁펭귄 그래픽 cg의 퀄리티와 해상도가 만족으러운 경지에 도달하면 그 후로는 성능 증가가 시간단축으로 이어지지 않을까? \| 24.03.06 22:50 \| \| \| 등록
자매배캅이너무나좋은썰렁펭귄 (4776242) (IP보기클릭)221.158.*.*	정상은 아님 어 그 생각 20년전에도 15년전에도 10년전에도 5년전에도 업계인들은 했었어... 아마 앞으로도 희망사항으로서 생각은 계속 하게 될거야... \| 24.03.07 00:18 \| \| \| 등록
멸치칼국수 (3550259) (IP보기클릭)223.38.*.*	로직은 모르지만 위험한 생각 아닌가 대충 때려잡는다니 등록	24.03.06 18:23
산호두 (5238931) (IP보기클릭)211.54.*.*	뭐랄까 그전까지는 '#FFFF00'만 노랑이야! 이렇게 가르쳤다면 대충 누리끼리한건 다 노랑이야 이렇게 학습시켜도 AI가 알아서 잘 구분하는 느낌 등록	24.03.06 18:23
유천영 (5096059) (IP보기클릭)123.248.*.*	뭘 1로하고 0으로하는지 기준이어떻게되는거임? 등록	24.03.06 18:23
역삼동옆역삼역 (5151148) (IP보기클릭)86.48.*.*	유천영 적당히 큰 수는 부호(sign)만 따지고 적당히 작은 건 전부 0으로 취급 \| 24.03.06 18:24 \| \| \| 등록
츠나토모다이슈키 (5691181) (IP보기클릭)121.127.*.*	유천영 반올림 한다는거 같은데 아닌가? \| 24.03.06 18:27 \| \| \| 등록
플라스마단 조무래기 (1375876) (IP보기클릭)223.39.*.*	유천영 모델을 학습시킬 때, 가중치 행렬에 대해 가중치 행렬 절대값의 평균으로 나눕니다. 그 후 행렬의 각 원소가1, 0, -1 셋 중 가장 가까운 값이 되도록 양자화합니다. \| 24.03.06 18:27 \| \| \| 등록
역삼동옆역삼역 (5151148) (IP보기클릭)86.48.*.*	츠나토모다이슈키 첨부된 논문을 보면 알겠지만, 행렬 원소에 절대값을 취한 뒤 전부 더해서 평균을 낸 것을 각 원소에 대해 나누고 RoundClip이라는 지들이 새로 정의한 함수에 넣어서 -1, 0, 1로 변환함 그래서 적당히 큰 것들은 부호만 따지고 적당히 작은 것들은 전부 0 \| 24.03.06 18:29 \| \| \| 등록
27gl850 (5470644) (IP보기클릭)14.39.*.*	RTX 50은 다시 게이머들 친화적으로 나온단 소린가 등록	24.03.06 18:24
드레드노트 (5120245) (IP보기클릭)14.52.*.*	27gl850 ㄴㄴ 오히려 vram 굳이 더 안넣어도 되겠네 로 갈듯 \| 24.03.06 18:31 \| \| \| 등록
Minchearster (260744) (IP보기클릭)123.213.*.*	........... 그러니까 엔비디아 주가가 떨어질 수도 있다, 라는거얌? 등록	24.03.06 18:24
뉴소피갈 (4048041) (IP보기클릭)223.62.*.*	더많은 GPU가 필요한 거인가요? 아니면 이제 GPU 필요한 갯수가 줄어든다는 거인가요? 등록	24.03.06 18:24
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	뉴소피갈 몰라요. 근데 연구진들은 gpu 말고 다른 걸 처음부터 만들어야 한다고 주장하고 있습니다 \| 24.03.06 18:32 \| \| \| 등록
루리웹-4688145470 (5453981) (IP보기클릭)118.34.*.*	아니 파이토치 자습서만 읽어보면서 따라해도 머리 아픈데 이런 연구는 어캐 하는겨 등록	24.03.06 18:25
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	루리웹-4688145470 나도 단지 따라가는 팔로워일 뿐임 연구 아니고 누가 해놓은 거 보고 낑겨넣어서 시도해보는 정도임 \| 24.03.06 18:32 \| \| \| 등록
varong (19854) (IP보기클릭)124.137.*.*	로우레벨 장비에서도 ai 퀄리티를 올린 것처럼 꾸밀 수 있다는건가? 어차피 결과물은 비슷비슷하니까? 등록	24.03.06 18:25
Epoche (1324577) (IP보기클릭)183.104.*.*	와! 박사 유게이! 등록	24.03.06 18:26
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	Epoche 박사 아니에요 거기까지 못가고 취직함 \| 24.03.06 18:32 \| \| \| 등록
不知火舞 (1899631) (IP보기클릭)211.234.*.*	이세계 세가사원 뭐야 무잔 버리고 탈출한 거자나 \| 24.03.06 18:42 \| \| \| 등록
Epoche (1324577) (IP보기클릭)183.104.*.*	이세계 세가사원 앗... 혹시나 제 경솔한 댓글로 인하여 기분이 나쁘셨다면 정말 미안합니다. 흥미로운 소식 알기쉽게 잘 풀어서 소개해주셔서 너무 고마워요! \| 24.03.06 18:51 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	Epoche 아뇨아뇨 근데 언젠가 박사는 따야한다고 생각하고 있음.... 돈벌고 야간 대학원 가야죠 ㅠㅠ \| 24.03.06 18:51 \| \| \| 등록
나는게임을못한다 (5200725) (IP보기클릭)118.235.*.*	내 전공이 이쪽인데 좀 신기한 논문이네 이거 신기한데 등록	24.03.06 18:26
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	나는게임을못한다 이해가 안 가죠... 선생님 이거 좀 추가해설 가능하신? 제가 bitnet 기반을 이전에 뭐 이딴 게 다 있어 하고 넘겨서 이해가 부족함 ㅠㅠ \| 24.03.06 18:33 \| \| \| 등록
뉴비마스터 (440540) (IP보기클릭)211.225.*.*	AI쪽 연산이 정밀할필요가 없다는 주장은 원래부터 있지 않았었나? 그게 논문으로 다뤄진게 처음이라 그런가? 등록	24.03.06 18:26
뉴비마스터 (440540) (IP보기클릭)211.225.*.*	뉴비마스터 그래서 아날로그 방식의 연산칩이 AI쪽에서 중요하다라는 논지의 유튜브를 봤었는데.. \| 24.03.06 18:27 \| \| \| 등록
플라스마단 조무래기 (1375876) (IP보기클릭)223.39.*.*	뉴비마스터 이게 양자화 연구에 흐름이 있어서 어느 시점을 말씀하시는지 모르겠는데, LLM은 fp16, 16비트 실수를 사용하는 경우가 많았습니다. 이를 더 줄이고 int를 사용하여 int8이나 int4 양자화를 쓰곤 했죠. 이러한 흐름에서 극단적인 양자화, 1bit 가중치만 쓰는 연구(본문의 이전 연구)가 나왔지만 당시 성능은 높지 않았습니다. 따라서 int4 (16개의 값)가 한계처럼 보였습니다. 그런데 이번에 1.58bit (3개의 값)으로 fp16 수준의 성능을 낼 수있다고 주장하는 논문이 나온 겁니다. 또한 이게 유의미한 또 다른 이유는, 양자화의 의의에 있습니다. 기존에는 양자화를 모델 압축에만 쓰는 경우가 있었습니다. 이 경우 자주 사용되는 fp16 값 16개 (int4 기준)를 사전으로 만들어두고, 모델을 사용할 때 그 사전을 참고하여 연산을 하는 것이라고 보면됩니다. 즉 저장공간은 줄지만 여전히 float 곱셈과 덧셈 연산이 필요하죠. 하지만 저 논문의 주장이 사실이라면, 1.58bit를 가지고 연산 할 때 곱셈은 필요 없습니다. 식이 덧셈과 뺄셈만으로 표현 가능해지니까요. 즉 연산 비용도 획기적으로 줄일 수 있는 것입니다. \| 24.03.06 18:35 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	플라스마단 조무래기 네 선형대수적으로 0,1,-1로만 된 행렬연산은 복수 개가 곱해져도 단일행렬로 합칠 수가 있으니까요.... \| 24.03.06 18:38 \| \| \| 등록
뉴비마스터 (440540) (IP보기클릭)211.225.*.*	플라스마단 조무래기 제가 본문을 대충봤나보네요 단순 소숫점 컷해서 성능올리는 이야기인줄 알았는데 1 0 -1 이정도로 극단적인 반올림으로 기존과 유사한 성능이 나온다는게 대단한 거군요 \| 24.03.06 18:42 \| \| \| 등록
시현류 (4591976) (IP보기클릭)156.146.*.*	등록	24.03.06 18:26
suzan (5017579) (IP보기클릭)118.35.*.*	어... 그러니까 내가 대충 이해한게, 게임 공략글을 챌린저 빡겜러 하나가 디테일하게 분석해서 올리는 것보다 유게애들이 뻘짓 해가며 어 이렇게 하니까 이렇게 되던데? 하는 분석(?)글을 수십개 모아서 검증하는게 공략글 작성이 더 빠르다 이건가? 등록	24.03.06 18:28
싫어요안돼요하지마세요 (5756242) (IP보기클릭)223.38.*.*	이게 말이....되나? 면도칼로 할 일이 석기시대 돌칼로도 되더라 이런 느낌인데 등록	24.03.06 18:28
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	[삭제된 댓글의 댓글입니다.] 루리웹-1083374988 근데 연산 컷량이 어마어마해요 \| 24.03.06 18:34 \| \| \| 등록
테레시스 (1255524) (IP보기클릭)113.198.*.*	엔비디아 주가 고점일때 팔아야겠군 등록	24.03.06 18:29
부들부들시 (4896426) (IP보기클릭)59.29.*.*	그러니까 이제 컴퓨터한테 뇌 덜 쓰고 적당히 유도리 있게 일하라고 명령할 수 있다는건가 (이해 못 하고 있음) 등록	24.03.06 18:29
bvyyb (1861113) (IP보기클릭)172.226.*.*	그래서 글쓴이 4090 풀로드해서 고기 10분만에 굽는다고? 등록	24.03.06 18:30
루리웹-2809288201 (5150059) (IP보기클릭)118.235.*.*	가즈ㅏㅏㅏㅏ 구글 알파벳 등록	24.03.06 18:32
루리웹-412845665 (3094283) (IP보기클릭)220.87.*.*	근데 진짜 왜 됨? 대충 해놔도 결과가 같은건가 ㄷㄷ 등록	24.03.06 18:32
츠지노 아카리 (1873547) (IP보기클릭)211.234.*.*	이러다가 하루아침에 리만가설 증명되는거 아니야? 등록	24.03.06 18:33
루리웹-8253654266 (5114078) (IP보기클릭)119.149.*.*	내가 알못이긴 한데 어차피 여러 자료를 넣고 여러번 학습을 돌린다면 브라운 모션같은거로 간략화한거 추세 구해서 원래 자료학습 추세랑 비교하면 저 방식 이론적으로 검증 되지 않으려나 등록	24.03.06 18:33
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	루리웹-8253654266 제가 저 이론을 몰라서 그냥 저도 해본다 추라이로 들이박는거라.... 애초에 데이터를 양자화시켜서 계산하는 거면 계산논문 난이도가 정신나간단 말이죠 학부 때 디지털신호 아날로그화할 떄의 공포가 다시 돌아온다..... \| 24.03.06 18:35 \| \| \| 등록
	삭제된 댓글입니다.
슙슙 (3323247) (IP보기클릭)221.141.*.*	[삭제된 댓글의 댓글입니다.] 루리웹-6878455132 ai논문요약 by 챗지피티 \| 24.03.06 18:37 \| \| \| 등록
WaitingForLove (3248954) (IP보기클릭)211.33.*.*	공학에서 무책임하게 그냥 유효숫자에서 소수점 셋째자리 이하는 전부 반올림 때립니다 ㅅㄱ요 하는 느낌같네 ㅋㅋ 등록	24.03.06 18:35
WaitingForLove (3248954) (IP보기클릭)211.33.*.*	WaitingForLove 만약 이게 된다면 공학처럼 유효숫자화 해서 그냥 유효숫자 단 세개만으로 연산하고 심화연산 필요한 것만 남겨두면 그만 아닌가? 싶네 어차피 미소값은 남겨둘수록 계산만 더러워지고, 실제로 계산에서 차지하는 양은 미미할테니 \| 24.03.06 19:01 \| \| \| 등록
딮퍼플 (4961799) (IP보기클릭)211.234.*.*	엔비디아 팔아라 등록	24.03.06 18:35
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	딮퍼플 저거에 최적화된 새 기판도 엔비디아가 만들지도모름 \| 24.03.06 18:35 \| \| \| 등록
딮퍼플 (4961799) (IP보기클릭)211.234.*.*	이세계 세가사원 필요 절대량 자체가 줄기 때문에 매출하락은 피할 수 없음 \| 24.03.06 18:36 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	딮퍼플 저게 사실이면 진짜 아무데나 쑤셔박아도 될 거라서 기판의 총생산량은 늘 거라 엔비디아 주식 절반 팔고 나머지는 삼성이나 tmdc 사야지 \| 24.03.06 18:39 \| \| \| 등록
야자와 니코니코 (992975) (IP보기클릭)59.11.*.*	이제 글카값 떨어짐? 등록	24.03.06 18:35
진짜쫌그래 (1278680) (IP보기클릭)117.111.*.*	잠깐!!!!! 갑자기 계왕권 3배에서 100배 뭔데!!!! 안돼 ㅠㅠ 프로젝트 다 엎어야됑 ㅠㅠ 등록	24.03.06 18:36
아룬드리안 (4531589) (IP보기클릭)119.64.*.*	미래가 급발진으로 우릴 쳐박고있다 등록	24.03.06 18:36
루나사가 (292782) (IP보기클릭)211.38.*.*	저렇게 해서 결과적으로 컴퓨팅 자원을 지금보다 훨씬 적게 쓴다면 AI가 환경파괴의 주범이 되고 있다는 주장을 잠재울 수 있겠군. 혹은 남는 컴퓨팅 자원을 그대로 투입한다면 지금보다 몇십 몇백배 빠른/좋은 결과를 얻을 수 있을 테고... 등록	24.03.06 18:37
루나사가 (292782) (IP보기클릭)211.38.*.*	추가로 현재보다 적은 자원으로 현재와 같은 AI처리를 할 수 있다면 온디바이스 AI 성능도 훨씬 올라갈 것 같고... 등록	24.03.06 18:38
PleSeries (2316704) (IP보기클릭)58.29.*.*	이게 진짜 되면 가정용 gpu수준으로도 어느정도 고도의 ai도 굴릴만해 지는건가 등록	24.03.06 18:39
WaitingForLove (3248954) (IP보기클릭)211.33.*.*	그런데 이게 모든 행렬연산에 사용할 수 있다면 게임같은데에서도 응용 가능한거 아닌가? 지금 대부분의 연산에 행렬이 사용중일텐데 등록	24.03.06 18:39
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	WaitingForLove 아냐 그건 안돼 행렬연산을 줄이는 것도 많긴 한데 아직 한계가 많음 보이는 거 계산을 줄이면 말그대로 해상도가 내려간 것과 같은 결과가 나와요 \| 24.03.06 18:45 \| \| \| 등록
WaitingForLove (3248954) (IP보기클릭)211.33.*.*	이세계 세가사원 이 방법으로 경향성과 방향성만 잡을 수 있는거구나? 그러면 정확한 값을 요구하는데는 아직 무리인거고 \| 24.03.06 18:48 \| \| \| 등록
가면야옹이 (371872) (IP보기클릭)121.183.*.*	애초에 그라디언트를 구하는 게 방향 잡으려고 하는 거니까 그걸 대강 그래프의 윤곽만 잡아서 미분값이 이럴 거다 하는 건가? 등록	24.03.06 18:41

처음 1 2 끝

로그인이 필요합니다.

글쓰기

읽을거리

2024.07.11 55585 229

[게임툰] 탐정이 사신쨩을 숨김, 초탐정사건부 레인코드 (54)

2024.07.09 97014 37

[MULTI] 두 개의 DNA가 만든 기초와 후반 집중 그라인딩, 퍼스트 디센던트 (77)

2024.07.08 54335 181

[게임툰] 나만의 본격적인 댄스 레슨, 마이 댄스 스튜디오 (30)

2024.07.06 60213 200

[게임툰] 색다른 형태로 즐기는 수렵, 몬스터헌터 스토리즈 (41)

파워링크 광고 24시간 안보기

글쓰기

공지

스킨

인증글 베스트

ID	구분	제목	글쓴이	추천	조회	날짜
151	전체공지	계정 도용 방지를 위해 비번을 변경해주세요.	8[RULIWEB]			2024.07.24
57774658	공지	유머 게시판 통합 공지 - 아동 대상 표현 강화	_루리	104	2566985	2022.06.30
	질문	오공 패키지 안나오는거 확정인가요? (2)	구해조16		705	11:40
엘든링	질문	방패에 달린 전회 씹는 방법없나요? (10)	믹솔리디안		97	15:32
콜오브듀티	질문	콜옵 좀비모드 죽다보니까 무기가 계속 사라지는데.. (1)	국대악플러		30	14:53
남궁루리 - 7월 마지막 영도데이
67013447	유머	선빵을 잘못갈긴 한국	상계주공5단지		1	16:03
67013446	게임	블루아카)정실부의 진실	빡빡이아저씨		12	16:03
67013445	잡담	퍼디 지친다	루리웹-5869356743		8	16:03
67013444	게임	블루아카)게헨나말고 이러는가 처음 봐	루리웹-2825740854	1	15	16:03
67013443	게임	블루아카)어느바보의 실수	운명의검		13	16:02
67013442	잡담	븎람) 못사서 아쉬웟던 피규어 (1)	토키도사야		20	16:02
67013441	유머	최근 밝혀진 코모도 도마뱀의 놀라운 능력.jpg (1)	루리웹-0941560291	2	81	16:02
67013440	잡담	렉카들 사회이슈 렉카질하면서 정떡 풀려고하나보다 (2)	Hermit Yoshino	3	66	16:02
67013439	유머	다녀봤던 ㅈ소 썰을 풀어보자 (1)	베른카스텔	2	83	16:02
67013438	유머	해리포터)누가봐도 무디임	빡빡이아저씨	4	69	16:01
67013437	잡담	정치유머게시판이 괜히 있겠냐	사키는뽀송해요	3	44	16:01
67013436	애니/만화	건담) 유니버스가 인기 많을만하긴해 (3)	Fei_Allelujah	4	82	16:01
67013435	애니/만화	강철) 달달한 부부 만화	다크엘프의인격슬라임은초코맛	2	66	16:01
67013434	유머	"이렇게 운영하면 뭐가 남나요?	루루쨩	5	122	16:01
67013433	잡담	올여름은 유독 습하고 장마도 긴 것 같다 (1)	小樽		15	16:01
67013432	잡담	[MCU] 확실히 아이언맨이 캐릭터 장난감은 잘 팔렸을듯.	스라푸스		56	16:01
67013431	잡담	뭔가 필라스 하면서 다크랜즈 느낌이 좀 든다	루리웹-8514721844		13	16:01
67013430	잡담	이거 어째 나 중딩때 양아치 여자애 같은데 (1)	엠버의눙물	1	69	16:01
67013429	게임	(블루아카) 소야곡은 블루아카 최고의 이벤트다	torresmania	1	37	16:01
67013428	애니/만화	라붐2 - Your eyes	데빌쿠우회장™	1	14	16:01
67013427	유머	큐텐사태 정말 억울한 피해자 (2)	아랑_SNK	2	117	16:01
67013426	게임	블루아카) 이번 원페에 나오는 피규어 모음 (1)	바닷바람		51	16:01
67013425	잡담	저녁밥 뭐 먹을지 추천좀. (1)	아슈와간다		16	16:01
67013424	잡담	버튜버)아직 ID에서는 아크 참가자 없던가? (7)	사미개덴🎣🌲⚒🐚	2	27	16:01
67013423	잡담	힐러리 짤에서 싱크대에 화분이 있는 이유 (5)	루리웹-15392739	1	159	16:00
67013422	잡담	님들은 회사 임직원들 번호 다 저장해 둠? (8)	행복하고싶다ㅜㅜ	3	93	16:00
67013421	잡담	요즘 팝업스토어들은 예약 아니면 못들어가네	루리웹-2750915830		27	16:00
67013420	유머	지금부터 한국 비둘기가 얼마나 더러운지 보여 드리겠습니다. (16)	루리웹-588277856974	55	2871	15:59

글쓰기 총 26372082개의 글이 있습니다.

인증글 베스트 목록

1 2 3 4 5 6 7 8 9 10

둥그런연필 (5589809) (IP보기클릭)119.206.*.*	BEST 결론은 왜 되는지는 모르겠는데 되는데용?인거야? 등록	24.03.06 18:17
쌀치킨 (5621006) (IP보기클릭)223.38.*.*	둥그런연필 근데 보통 ai 논문들이 이런식임ㅋㅋ 설명을 갖다 붙이긴 하는데 블랙박스라 100퍼 정확하게는 모름 \| 24.03.06 18:40 \| \| \| 등록
겸둥현진 (1258710) (IP보기클릭)114.203.*.*	BEST 그니깐 너가 스카이넷 개발자중 하나라는거지?? 암살한다 등록	24.03.06 18:17
이미사용중인닉넴 (5040411) (IP보기클릭)221.150.*.*	겸둥현진 조만간 창업? 회사 이름은 사이버다인? \| 24.03.06 21:19 \| \| \| 등록
장지환 (4116801) (IP보기클릭)118.235.*.*	대학원생이니 등록	24.03.06 18:17
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	BEST [삭제된 댓글의 댓글입니다.] 클라크 켄트 공정 수는 늘었음 90번 정도 하는데 이전엔 전문가들이 하나하나 검증했다면 이제는 그냥 동네 아줌마들이 슬쩍 봤는데도 결과가 괜찮은데요?가 된 거 \| 24.03.06 18:20 \| \| \| 등록
코리안좈 (5492626) (IP보기클릭)106.102.*.*	이세계 세가사원 전문가 3명이 붙어서해야하는걸, 일용직 6명 붙이니까 되는데용? 이건가... \| 24.03.06 18:24 \| \| \| 등록
よ- (1325430) (IP보기클릭)122.38.*.*	이세계 세가사원 동내 아줌마가 아니고 옆집 애기가 보고 결과가 괜찮은데요 했어야지 \| 24.03.06 18:35 \| \| \| 등록
shego (841882) (IP보기클릭)210.113.*.*	[삭제된 댓글의 댓글입니다.] 클라크 켄트 위에 그림만 봐도 대충 알거 같은데요. 0.04892 -0.02834 ** 0.05888 이랬던게 0 -0 ** 1 이렇게 간단히 해도 결과 값이 같다 이거 같은데요. \| 24.03.06 18:44 \| \| \| 등록
	삭제된 댓글입니다.
야자와 니코니코 (992975) (IP보기클릭)59.11.*.*	[삭제된 댓글의 댓글입니다.] nomnom88 지금 발전이 소프트웨어니 WD 말고 써멀 사다놔라 \| 24.03.06 18:35 \| \| \| 등록
헤엄치는용 (1736917) (IP보기클릭)39.117.*.*	BEST 그럼 N모시기 회사에는 악재가 되는건가 등록	24.03.06 18:18
최소는영어로민이라고해 (5511491) (IP보기클릭)118.235.*.*	헤엄치는용 게틀링건생각하면 악재아닌듯 \| 24.03.06 18:19 \| \| \| 등록
EhTm (1487567) (IP보기클릭)122.42.*.*	헤엄치는용 모르지. gpu가 없어도 될 걸 만약에 gpu까지 왕창 달고 한다면 한계가 어디일지가 무서운거니까 만약 그게 쓸데가 있다면 오히려 더 날아가겠지 \| 24.03.06 18:40 \| \| \| 등록
	삭제된 댓글입니다.
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	BEST [삭제된 댓글의 댓글입니다.] 코카콜라x펩시 근데 진짜 하루아침에 " 다 내다버리고 sign함수로 해도 되는 거 같은데?는 너무 컸음 이전에 결국 버려졌던 아이디어가 갑자기 무덤 뚫고 그 위에 세워진 건물도 뚫고 날아오른 격이라 \| 24.03.06 18:20 \| \| \| 등록
혼류 (385229) (IP보기클릭)121.176.*.*	이세계 세가사원 이게 엘든링에 나오는 토푸스의 역장인가 하는 그건가 \| 24.03.06 18:28 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)219.250.*.*	[삭제된 댓글의 댓글입니다.] 코카콜라x펩시 지금까진 그게 다 구려서 그럼 그렇지 했늨데 트랜스포머에선 ㄷ힐거같은게? 가 충격적인… \| 24.03.06 21:47 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)219.250.*.*	[삭제된 댓글의 댓글입니다.] 코카콜라x펩시 난 아예 양자연산이 들어가면 더 개판ㄴ날거같음.. \| 24.03.06 23:41 \| \| \| 등록
야에 미코 (5132400) (IP보기클릭)114.204.*.*	야근이다(중요) 등록	24.03.06 18:20
B727-200 (9668) (IP보기클릭)220.80.*.*	약불 3시간을 강불 10분이라니 강불이 또… 등록	24.03.06 18:20
날개비상 (1655217) (IP보기클릭)168.131.*.*	기술의 보편화가 될 것인가? 근데 결과물 퀄리티가 차이나진 않을까? 등록	24.03.06 18:20
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	BEST 날개비상 안 차이난다고 주장하고 있음 그래서 지금 나도 궁금해서 llama-2에 위키피디아 구워보는 중임 다른 사람이 정규방식으로 학습시킨 거랑 나란히 놓고 물어볼려고 결과는 회사자원이라 아마 못 올리겠지만 \| 24.03.06 18:21 \| \| \| 등록
날개비상 (1655217) (IP보기클릭)168.131.*.*	이세계 세가사원 정말 차이가 안나면 좋겠다고 생각하는게 Ai 생산성이 유의미해져버리면 기업들이 사람들을 고용을 안할텐데 그 유의미한 생산수단이 보편화되면 기업이나 개인이나 생산성은 비슷비슷하니 결국 거기서 거기가 되지 않을까 싶어서 기술이 보편화되는건 환영할 만 하지 \| 24.03.06 18:23 \| \| \| 등록
LegenDUST (5042906) (IP보기클릭)223.62.*.*	아니 잠깐 뭐 ㅆㅂ? 등록	24.03.06 18:21
LegenDUST (5042906) (IP보기클릭)223.62.*.*	LegenDUST 학습을 완료한 상태에서 가지치기 느낌으로 하는거면 '아 왠만한건 0 1 -1 셋 중 하나 가까이로 가는구나' 할 만 한데 학습 도중에도...? \| 24.03.06 18:22 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	LegenDUST 아예 학습을 이걸로 하래..... 이해가 안 가는데 일단 다른 건 몰라도 gpu의 vram 소모율은 수직낙하함 이거 \| 24.03.06 18:23 \| \| \| 등록
LegenDUST (5042906) (IP보기클릭)223.62.*.*	이세계 세가사원 아니 근데 학습은 어케함? 애초에 시그모이드던 ReLU던 뭐던 썼던게 그라디언트 전파 때문 아니었음? 내가 아직 학부생이라서 잘 모를 수도 있긴 한데 \| 24.03.06 18:24 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	LegenDUST 일본인 개발자에 따르면 epoch 10 정도 가져간 게 epoch 3 가져간 기존 트랜스포머 학습 기본형이랑 비슷하다고 해서 그대로 변인 따라서 하는 중.... \| 24.03.06 18:24 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	LegenDUST 나도 이쪽 전공 대학원생은 아니고 연구에 필요해서 썼었다가 지금은 회사에서 ai 해보래서 덤으로 하는 쪽이거든 https://github.com/Beomi/BitNet-Transformers 여기 이 분 깃헙이랑 논문 원본 읽어보는거 추천함 Straight-Through Estimator기법으로 미분을 대리해서 하는 아이디어임 \| 24.03.06 18:27 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	LegenDUST 그레디언트를 미소변화량만 남기고 컷하는 기법이라고 대강 알고 있는데 하여간 그냥 거 왜 이게 됨 수준이라... \| 24.03.06 18:29 \| \| \| 등록
LegenDUST (5042906) (IP보기클릭)223.62.*.*	이세계 세가사원 좀 더 찾아봐야겠다 \| 24.03.06 18:31 \| \| \| 등록
유우ヲㅣ 口ㅣ캉 (5240963) (IP보기클릭)114.207.*.*	널 죽이면 스카이넷이 좀 더 미래에 등장한다는거지? 등록	24.03.06 18:21
아케보시 히마리 (5708283) (IP보기클릭)211.234.*.*	유우ヲㅣ 口ㅣ캉 오 이 사람 좀 똑똑한 듯 \| 24.03.06 18:25 \| \| \| 등록
猫ケ崎夏步 (1369273) (IP보기클릭)59.31.*.*	사람이 메뉴얼 안보고 감으로 대충하는데 아무튼 잘 되는 그런건가 등록	24.03.06 18:21
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	猫ケ崎夏步 전문가가 하나 열심히 ㅂㅈ 않고 대충 보는 알바생이 두 번 보면 되는데요? 같은 발상임 \| 24.03.06 18:22 \| \| \| 등록
루리웹-5994867479 (5404813) (IP보기클릭)118.235.*.*	어차피 동일하게 반올림 한거면 데이터 전체를 일종의 스케일링 한 효과가 난거니까 결과도 비슷해지는걸까? 등록	24.03.06 18:21
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	BEST 루리웹-5994867479 근데 데이터의 detail 소실이 어마어마한거거든 480p로 된 도쿄 거리영상 두개면 4k 영상보다 더 선명해요 같은 소리를 들은 느낌임 \| 24.03.06 18:23 \| \| \| 등록
29250095088 (5592975) (IP보기클릭)119.192.*.*	AI기술을 결과물을 만들어 내는 과정 자체가 좀 느슨한 편이라서 기본기동원리부터 좀 느슨하게 값 잡아줘도 비슷한 결과 나온다는 느낌인가 등록	24.03.06 18:22
자매배캅이너무나좋은썰렁펭귄 (4776242) (IP보기클릭)221.158.*.*	어 이런 발상이... 컴터가 훨 좋아졌으니 그래픽CG도 만드는데 시간 훨 적게 들어가겠네? ...라고들 생각했지만, 실제로는 그냥 그만큼 퀄리티와 해상도가 증가했지. 작업 시간은 줄어들지 않음... 이것도 마찬가지로 GPU안써도 되는게 아니라, 뭔가 반응속도나 범위 향상 그런걸로 가겠지. 등록	24.03.06 18:23
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	자매배캅이너무나좋은썰렁펭귄 vram+ 행렬연산의 속도 이슈 떄문에 gpu 썼는데 이 방식이면 cpu 개량해서 쓰던가 극단적으로 ram 적게 달린 전용 기판 만들어도 대형 gpu랑 동등한 효과가 남 \| 24.03.06 18:29 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	자매배캅이너무나좋은썰렁펭귄 이게 단지 부동소수점 벡터연산을 할 수 있는 기기가 gpu라서 gpu를 쓴 거야 텐서 메인이던 시절엔 tpu 만들어쓰다가, GPU를 아예 연산용으로 개조하는 걸로 바뀌어서 a100 같은 게 나온거고 \| 24.03.06 18:30 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	자매배캅이너무나좋은썰렁펭귄 GPU대신 다른 거(싼 거)를 써도 되겠네?인 거임 원래 4090 4개는 클러스터링해야 할 학습을 (아니면 자체적으로 지연계산시켜야 할 걸) 부분적으로 적용한 코드만으로 1개만으로 되는 시점에서 정신나간거 \| 24.03.06 18:31 \| \| \| 등록
루리웹-0224080086 (5638956) (IP보기클릭)119.206.*.*	이세계 세가사원 오늘 엔비디아 주식 얼마나 나락가나 한번 봐야겠다 \| 24.03.06 18:52 \| \| \| 등록
정상은 아님 (5059430) (IP보기클릭)118.235.*.*	자매배캅이너무나좋은썰렁펭귄 그래픽 cg의 퀄리티와 해상도가 만족으러운 경지에 도달하면 그 후로는 성능 증가가 시간단축으로 이어지지 않을까? \| 24.03.06 22:50 \| \| \| 등록
자매배캅이너무나좋은썰렁펭귄 (4776242) (IP보기클릭)221.158.*.*	정상은 아님 어 그 생각 20년전에도 15년전에도 10년전에도 5년전에도 업계인들은 했었어... 아마 앞으로도 희망사항으로서 생각은 계속 하게 될거야... \| 24.03.07 00:18 \| \| \| 등록
멸치칼국수 (3550259) (IP보기클릭)223.38.*.*	로직은 모르지만 위험한 생각 아닌가 대충 때려잡는다니 등록	24.03.06 18:23
산호두 (5238931) (IP보기클릭)211.54.*.*	뭐랄까 그전까지는 '#FFFF00'만 노랑이야! 이렇게 가르쳤다면 대충 누리끼리한건 다 노랑이야 이렇게 학습시켜도 AI가 알아서 잘 구분하는 느낌 등록	24.03.06 18:23
유천영 (5096059) (IP보기클릭)123.248.*.*	뭘 1로하고 0으로하는지 기준이어떻게되는거임? 등록	24.03.06 18:23
역삼동옆역삼역 (5151148) (IP보기클릭)86.48.*.*	유천영 적당히 큰 수는 부호(sign)만 따지고 적당히 작은 건 전부 0으로 취급 \| 24.03.06 18:24 \| \| \| 등록
츠나토모다이슈키 (5691181) (IP보기클릭)121.127.*.*	유천영 반올림 한다는거 같은데 아닌가? \| 24.03.06 18:27 \| \| \| 등록
플라스마단 조무래기 (1375876) (IP보기클릭)223.39.*.*	유천영 모델을 학습시킬 때, 가중치 행렬에 대해 가중치 행렬 절대값의 평균으로 나눕니다. 그 후 행렬의 각 원소가1, 0, -1 셋 중 가장 가까운 값이 되도록 양자화합니다. \| 24.03.06 18:27 \| \| \| 등록
역삼동옆역삼역 (5151148) (IP보기클릭)86.48.*.*	츠나토모다이슈키 첨부된 논문을 보면 알겠지만, 행렬 원소에 절대값을 취한 뒤 전부 더해서 평균을 낸 것을 각 원소에 대해 나누고 RoundClip이라는 지들이 새로 정의한 함수에 넣어서 -1, 0, 1로 변환함 그래서 적당히 큰 것들은 부호만 따지고 적당히 작은 것들은 전부 0 \| 24.03.06 18:29 \| \| \| 등록
27gl850 (5470644) (IP보기클릭)14.39.*.*	RTX 50은 다시 게이머들 친화적으로 나온단 소린가 등록	24.03.06 18:24
드레드노트 (5120245) (IP보기클릭)14.52.*.*	27gl850 ㄴㄴ 오히려 vram 굳이 더 안넣어도 되겠네 로 갈듯 \| 24.03.06 18:31 \| \| \| 등록
Minchearster (260744) (IP보기클릭)123.213.*.*	........... 그러니까 엔비디아 주가가 떨어질 수도 있다, 라는거얌? 등록	24.03.06 18:24
뉴소피갈 (4048041) (IP보기클릭)223.62.*.*	더많은 GPU가 필요한 거인가요? 아니면 이제 GPU 필요한 갯수가 줄어든다는 거인가요? 등록	24.03.06 18:24
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	뉴소피갈 몰라요. 근데 연구진들은 gpu 말고 다른 걸 처음부터 만들어야 한다고 주장하고 있습니다 \| 24.03.06 18:32 \| \| \| 등록
루리웹-4688145470 (5453981) (IP보기클릭)118.34.*.*	아니 파이토치 자습서만 읽어보면서 따라해도 머리 아픈데 이런 연구는 어캐 하는겨 등록	24.03.06 18:25
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	루리웹-4688145470 나도 단지 따라가는 팔로워일 뿐임 연구 아니고 누가 해놓은 거 보고 낑겨넣어서 시도해보는 정도임 \| 24.03.06 18:32 \| \| \| 등록
varong (19854) (IP보기클릭)124.137.*.*	로우레벨 장비에서도 ai 퀄리티를 올린 것처럼 꾸밀 수 있다는건가? 어차피 결과물은 비슷비슷하니까? 등록	24.03.06 18:25
Epoche (1324577) (IP보기클릭)183.104.*.*	와! 박사 유게이! 등록	24.03.06 18:26
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	Epoche 박사 아니에요 거기까지 못가고 취직함 \| 24.03.06 18:32 \| \| \| 등록
不知火舞 (1899631) (IP보기클릭)211.234.*.*	이세계 세가사원 뭐야 무잔 버리고 탈출한 거자나 \| 24.03.06 18:42 \| \| \| 등록
Epoche (1324577) (IP보기클릭)183.104.*.*	이세계 세가사원 앗... 혹시나 제 경솔한 댓글로 인하여 기분이 나쁘셨다면 정말 미안합니다. 흥미로운 소식 알기쉽게 잘 풀어서 소개해주셔서 너무 고마워요! \| 24.03.06 18:51 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	Epoche 아뇨아뇨 근데 언젠가 박사는 따야한다고 생각하고 있음.... 돈벌고 야간 대학원 가야죠 ㅠㅠ \| 24.03.06 18:51 \| \| \| 등록
나는게임을못한다 (5200725) (IP보기클릭)118.235.*.*	내 전공이 이쪽인데 좀 신기한 논문이네 이거 신기한데 등록	24.03.06 18:26
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	나는게임을못한다 이해가 안 가죠... 선생님 이거 좀 추가해설 가능하신? 제가 bitnet 기반을 이전에 뭐 이딴 게 다 있어 하고 넘겨서 이해가 부족함 ㅠㅠ \| 24.03.06 18:33 \| \| \| 등록
뉴비마스터 (440540) (IP보기클릭)211.225.*.*	AI쪽 연산이 정밀할필요가 없다는 주장은 원래부터 있지 않았었나? 그게 논문으로 다뤄진게 처음이라 그런가? 등록	24.03.06 18:26
뉴비마스터 (440540) (IP보기클릭)211.225.*.*	뉴비마스터 그래서 아날로그 방식의 연산칩이 AI쪽에서 중요하다라는 논지의 유튜브를 봤었는데.. \| 24.03.06 18:27 \| \| \| 등록
플라스마단 조무래기 (1375876) (IP보기클릭)223.39.*.*	뉴비마스터 이게 양자화 연구에 흐름이 있어서 어느 시점을 말씀하시는지 모르겠는데, LLM은 fp16, 16비트 실수를 사용하는 경우가 많았습니다. 이를 더 줄이고 int를 사용하여 int8이나 int4 양자화를 쓰곤 했죠. 이러한 흐름에서 극단적인 양자화, 1bit 가중치만 쓰는 연구(본문의 이전 연구)가 나왔지만 당시 성능은 높지 않았습니다. 따라서 int4 (16개의 값)가 한계처럼 보였습니다. 그런데 이번에 1.58bit (3개의 값)으로 fp16 수준의 성능을 낼 수있다고 주장하는 논문이 나온 겁니다. 또한 이게 유의미한 또 다른 이유는, 양자화의 의의에 있습니다. 기존에는 양자화를 모델 압축에만 쓰는 경우가 있었습니다. 이 경우 자주 사용되는 fp16 값 16개 (int4 기준)를 사전으로 만들어두고, 모델을 사용할 때 그 사전을 참고하여 연산을 하는 것이라고 보면됩니다. 즉 저장공간은 줄지만 여전히 float 곱셈과 덧셈 연산이 필요하죠. 하지만 저 논문의 주장이 사실이라면, 1.58bit를 가지고 연산 할 때 곱셈은 필요 없습니다. 식이 덧셈과 뺄셈만으로 표현 가능해지니까요. 즉 연산 비용도 획기적으로 줄일 수 있는 것입니다. \| 24.03.06 18:35 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	플라스마단 조무래기 네 선형대수적으로 0,1,-1로만 된 행렬연산은 복수 개가 곱해져도 단일행렬로 합칠 수가 있으니까요.... \| 24.03.06 18:38 \| \| \| 등록
뉴비마스터 (440540) (IP보기클릭)211.225.*.*	플라스마단 조무래기 제가 본문을 대충봤나보네요 단순 소숫점 컷해서 성능올리는 이야기인줄 알았는데 1 0 -1 이정도로 극단적인 반올림으로 기존과 유사한 성능이 나온다는게 대단한 거군요 \| 24.03.06 18:42 \| \| \| 등록
시현류 (4591976) (IP보기클릭)156.146.*.*	등록	24.03.06 18:26
suzan (5017579) (IP보기클릭)118.35.*.*	어... 그러니까 내가 대충 이해한게, 게임 공략글을 챌린저 빡겜러 하나가 디테일하게 분석해서 올리는 것보다 유게애들이 뻘짓 해가며 어 이렇게 하니까 이렇게 되던데? 하는 분석(?)글을 수십개 모아서 검증하는게 공략글 작성이 더 빠르다 이건가? 등록	24.03.06 18:28
싫어요안돼요하지마세요 (5756242) (IP보기클릭)223.38.*.*	이게 말이....되나? 면도칼로 할 일이 석기시대 돌칼로도 되더라 이런 느낌인데 등록	24.03.06 18:28
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	[삭제된 댓글의 댓글입니다.] 루리웹-1083374988 근데 연산 컷량이 어마어마해요 \| 24.03.06 18:34 \| \| \| 등록
테레시스 (1255524) (IP보기클릭)113.198.*.*	엔비디아 주가 고점일때 팔아야겠군 등록	24.03.06 18:29
부들부들시 (4896426) (IP보기클릭)59.29.*.*	그러니까 이제 컴퓨터한테 뇌 덜 쓰고 적당히 유도리 있게 일하라고 명령할 수 있다는건가 (이해 못 하고 있음) 등록	24.03.06 18:29
bvyyb (1861113) (IP보기클릭)172.226.*.*	그래서 글쓴이 4090 풀로드해서 고기 10분만에 굽는다고? 등록	24.03.06 18:30
루리웹-2809288201 (5150059) (IP보기클릭)118.235.*.*	가즈ㅏㅏㅏㅏ 구글 알파벳 등록	24.03.06 18:32
루리웹-412845665 (3094283) (IP보기클릭)220.87.*.*	근데 진짜 왜 됨? 대충 해놔도 결과가 같은건가 ㄷㄷ 등록	24.03.06 18:32
츠지노 아카리 (1873547) (IP보기클릭)211.234.*.*	이러다가 하루아침에 리만가설 증명되는거 아니야? 등록	24.03.06 18:33
루리웹-8253654266 (5114078) (IP보기클릭)119.149.*.*	내가 알못이긴 한데 어차피 여러 자료를 넣고 여러번 학습을 돌린다면 브라운 모션같은거로 간략화한거 추세 구해서 원래 자료학습 추세랑 비교하면 저 방식 이론적으로 검증 되지 않으려나 등록	24.03.06 18:33
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	루리웹-8253654266 제가 저 이론을 몰라서 그냥 저도 해본다 추라이로 들이박는거라.... 애초에 데이터를 양자화시켜서 계산하는 거면 계산논문 난이도가 정신나간단 말이죠 학부 때 디지털신호 아날로그화할 떄의 공포가 다시 돌아온다..... \| 24.03.06 18:35 \| \| \| 등록
	삭제된 댓글입니다.
슙슙 (3323247) (IP보기클릭)221.141.*.*	[삭제된 댓글의 댓글입니다.] 루리웹-6878455132 ai논문요약 by 챗지피티 \| 24.03.06 18:37 \| \| \| 등록
WaitingForLove (3248954) (IP보기클릭)211.33.*.*	공학에서 무책임하게 그냥 유효숫자에서 소수점 셋째자리 이하는 전부 반올림 때립니다 ㅅㄱ요 하는 느낌같네 ㅋㅋ 등록	24.03.06 18:35
WaitingForLove (3248954) (IP보기클릭)211.33.*.*	WaitingForLove 만약 이게 된다면 공학처럼 유효숫자화 해서 그냥 유효숫자 단 세개만으로 연산하고 심화연산 필요한 것만 남겨두면 그만 아닌가? 싶네 어차피 미소값은 남겨둘수록 계산만 더러워지고, 실제로 계산에서 차지하는 양은 미미할테니 \| 24.03.06 19:01 \| \| \| 등록
딮퍼플 (4961799) (IP보기클릭)211.234.*.*	엔비디아 팔아라 등록	24.03.06 18:35
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	딮퍼플 저거에 최적화된 새 기판도 엔비디아가 만들지도모름 \| 24.03.06 18:35 \| \| \| 등록
딮퍼플 (4961799) (IP보기클릭)211.234.*.*	이세계 세가사원 필요 절대량 자체가 줄기 때문에 매출하락은 피할 수 없음 \| 24.03.06 18:36 \| \| \| 등록
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	딮퍼플 저게 사실이면 진짜 아무데나 쑤셔박아도 될 거라서 기판의 총생산량은 늘 거라 엔비디아 주식 절반 팔고 나머지는 삼성이나 tmdc 사야지 \| 24.03.06 18:39 \| \| \| 등록
야자와 니코니코 (992975) (IP보기클릭)59.11.*.*	이제 글카값 떨어짐? 등록	24.03.06 18:35
진짜쫌그래 (1278680) (IP보기클릭)117.111.*.*	잠깐!!!!! 갑자기 계왕권 3배에서 100배 뭔데!!!! 안돼 ㅠㅠ 프로젝트 다 엎어야됑 ㅠㅠ 등록	24.03.06 18:36
아룬드리안 (4531589) (IP보기클릭)119.64.*.*	미래가 급발진으로 우릴 쳐박고있다 등록	24.03.06 18:36
루나사가 (292782) (IP보기클릭)211.38.*.*	저렇게 해서 결과적으로 컴퓨팅 자원을 지금보다 훨씬 적게 쓴다면 AI가 환경파괴의 주범이 되고 있다는 주장을 잠재울 수 있겠군. 혹은 남는 컴퓨팅 자원을 그대로 투입한다면 지금보다 몇십 몇백배 빠른/좋은 결과를 얻을 수 있을 테고... 등록	24.03.06 18:37
루나사가 (292782) (IP보기클릭)211.38.*.*	추가로 현재보다 적은 자원으로 현재와 같은 AI처리를 할 수 있다면 온디바이스 AI 성능도 훨씬 올라갈 것 같고... 등록	24.03.06 18:38
PleSeries (2316704) (IP보기클릭)58.29.*.*	이게 진짜 되면 가정용 gpu수준으로도 어느정도 고도의 ai도 굴릴만해 지는건가 등록	24.03.06 18:39
WaitingForLove (3248954) (IP보기클릭)211.33.*.*	그런데 이게 모든 행렬연산에 사용할 수 있다면 게임같은데에서도 응용 가능한거 아닌가? 지금 대부분의 연산에 행렬이 사용중일텐데 등록	24.03.06 18:39
작성자 이세계 세가사원 (4545004) (IP보기클릭)220.70.*.*	WaitingForLove 아냐 그건 안돼 행렬연산을 줄이는 것도 많긴 한데 아직 한계가 많음 보이는 거 계산을 줄이면 말그대로 해상도가 내려간 것과 같은 결과가 나와요 \| 24.03.06 18:45 \| \| \| 등록
WaitingForLove (3248954) (IP보기클릭)211.33.*.*	이세계 세가사원 이 방법으로 경향성과 방향성만 잡을 수 있는거구나? 그러면 정확한 값을 요구하는데는 아직 무리인거고 \| 24.03.06 18:48 \| \| \| 등록
가면야옹이 (371872) (IP보기클릭)121.183.*.*	애초에 그라디언트를 구하는 게 방향 잡으려고 하는 거니까 그걸 대강 그래프의 윤곽만 잡아서 미분값이 이럴 거다 하는 건가? 등록	24.03.06 18:41

본문

[유머] 지난 주에 정말로 세상을 뒤집어놓은 AI 연구 [115]

게시판 관리자