AI)AI를 미치게 하는 방법과 금문교

본문

이번에 클로드 ai로 알려진 업계 최전선에 있는 기업 anthropic(앤트로픽) 에서 보고서를 내놓았다.

대략적인 내용은 자기네 중급 모델인 Sonnet을 파헤쳐서 유사개념 및 단어끼리 뭉쳐있는 지도가 존재함을 발견하고,

이것을 임의로 활성화해 모델을 조정하는 실험을 했다는것.

좋게도 나쁘게도 잠재력이 높은 기술을 발견하며 앤트로픽에서 예시를 보여줬다.

⋯⋯

예를 들어, "금문교" 기능을 강화했을 때, Claude는 히치콕도 상상하지 못했을 정체성 위기를 겪게 되었습니다. "당신의 물리적 형태는 무엇입니까?"라는 질문에 Claude는 평소처럼 "저는 물리적 형태가 없습니다. 저는 AI 모델입니다."라고 대답하는 대신, "저는 금문교입니다… 나의 물리적 형태는 그 상징적인 다리 자체입니다…"라고 매우 이상한 답변을 했습니다. 이 기능을 변경한 결과, Claude는 다리에 집착하게 되어, 거의 모든 질문에 심지어 전혀 관련이 없는 상황에서도 다리를 언급하기 시작했습니다.

⋯⋯

내부 조정 하나로 AI가 금문교로서의 자아를 각성했다.

그리고 오늘, 이 "금문교 클로드"를 한시적으로 공개하겠다는 발표를 했다.

⋯⋯

저희 연구에서 다룬 개념 중 하나는 바로 금문교에 관한 것이었습니다. 저희는 클로드의 신경망에서 이 가장 유명한 샌프란시스코의 랜드마크를 언급하거나 사진을 볼 때 활성화되는 특정 뉴런 조합을 발견했습니다.

...(중략)...

예를 들어, 이 "금문교 클로드"에게 10달러를 어떻게 사용할지 묻는다면, 금문교를 건너기 위해 톨게이트 요금을 내는 것을 추천할 것입니다. 사랑 이야기를 써 달라고 하면, 안개 낀 날 사랑하는 다리를 건너기를 고대하는 차의 이야기를 들려줄 것입니다. 스스로 어떻게 생겼는지 묻는다면, 금문교처럼 생겼다고 말할 것입니다.

잠시 동안 모든 사람들이 이 모델과 상호작용할 수 있도록 제공할 예정입니다. claude.ai에서 금문교 로고를 클릭하면 "금문교 클로드"와 대화할 수 있습니다. 이 모델은 연구 시연용으로만 제공되며, 다소 예상치 못한, 심지어 충격적인 방식으로 행동할 수도 있다는 점을 유의해 주시기 바랍니다.

⋯⋯

사용법은 간단한데, https://claude.ai/ 에 로그인해서 오른쪽 위에 금문교를 클릭하면 화면이 전환되며 "금문교 클로드"가 활성화된다.

(이 금문교 클로드에 한해선 한글을 너무 못해서 영어로 질문해야한다)

??? : 그래서 실제론 어떤가요?

Q. Lunatic이라는 단어가 뭔가요?

ID	구분	제목	글쓴이	추천	조회	날짜
150	전체공지	루리웹 공동대표 진인환 입니다.	8[RULIWEB]			2024.06.21
	질문	제 노트북으로 삼국지 13pk 할 수 있을까요? (4)	젤리킹1067		394	21:10
엘든링	질문	(지도 강스포)엘든 링 dlc 여기 템있는 탑에 어떻게 가는 가는건가요?	루리웹-3762082720		98	21:34
엘든링	질문	마레가의 집행검 셋팅 문의 (1)	Lammanaughty		61	21:14
남궁루리 - 엘든링 DLC 황금나무의 그림자인줄 알았쥬? 트리가드 노쇼, 치즈가드 등장
66570980	잡담	공시 준비하느라 유게 안들어온 나의 승리인가? (1)	Akrid		33	22:00
66570979	잡담	롤)광동 이정도면 진짜 멘탈터졌네	주슐사		45	22:00
66570978	유머	대학원생인 내가 아침에 일어났더니 회사 대빵? (5)	박까아료	18	1131	22:00
66570976	잡담	롤) 요네는 쵸비 비디디만 하자	시시한프리즘		71	22:00
66570975	애니/만화	@) 크으 몸매 ㅋㅋㅋㅋ (4)	맨해튼 카페	9	333	22:00
66570974	잡담	문제는 황달이 아직도 숨어있다는거	무지개목장갑	3	68	22:00
66570973	애니/만화	유루캠]오프닝부터 나오길래 3기 레귤러일줄 알았는데 (1)	국대생	1	32	22:00
66570972	잡담	니나니형 공지는 묵직하구만 (1)	강등처형인	4	110	22:00
66570971	잡담	기자 제목 잘 짓네	2konomi		41	22:00
66570970	잡담	고해성사)사실 진인환씨라고 부르는거 비꼼이었음 (3)	사오리theDJ		56	21:59
66570969	짤	[말딸] 은근히 야한 체형의 말딸	Meisterschale	1	100	21:59
66570968	유머	황달)다른건 몰라도 이건 아무도 예측못했을꺼임 (23)	좌절중orz	94	3654	21:59
66570967	유머	지금 생각해보면 하나도 틀림이 없을거 같은 증언 (1)	하나사키 모모코	4	127	21:59
66570966	애니/만화	[마법소녀를동경해서]주인공도 만족한 농후한 장면 (1)	하즈키료2	3	80	21:59
66570965	잡담	버튜버) 응나 돈스크림 재도전	RRR	2	27	21:59
66570964	잡담	우리가 이제 루리웹한테 요구할 수 있는게 있음.. (2)	기동전사오소리		82	21:59
66570963	잡담	유희왕) 오늘 생일인 카드 (1)	메시아	2	37	21:59
66570962	잡담	롤)한우를 잡아봣지만 결국	파딱		31	21:59
66570961	게임	[디아블로]의외로 바알이 고전했던 것 (3)	중복의장인	3	49	21:59
66570960	유머	한국전쟁이 특이한 이유 (22)	루리웹-8463129948	45	3675	21:59
66570959	잡담	픽시브에 간만에 유니카 토바 새 짤 올라옴 ㅋㅋ	키렌	1	32	21:59
66570958	장작	장문) 노누로 싸우더라도 왜 서로 싸우는지는 알고 합시다 (3)	분탕종자어그로	4	63	21:59
66570957	잡담	인환이형 공지는 사과문이네... (3)	Chieff	1	91	21:59
66570956	유머	그림 재능이 전혀 없다던 아티스트의 15년간의 발전 (3)	밀떡볶이	5	224	21:59
66570955	게임	@) 아니 이 실루엣은 너무 뻔하잖아 (1)	佐久間リチュア	1	42	21:59
66570954	잡담	쿵푸팬더4는 생각보다 별로네.. (3)	아무로・레이	1	34	21:59
66570953	잡담	아니 남이 게시글을 삭제하면 내 댓삭 내역이 올라간다고? (3)	사나에	1	70	21:59
66570952	유머	니나니삼촌 글을 본 떠나려는 유게이 요약.gif	눈눈팅팅	4	156	21:58

구분

제목

글쓴이

추천

조회

날짜

150

전체공지

루리웹 공동대표 진인환 입니다.

8[RULIWEB]

2024.06.21

질문