이번에 클로드 ai로 알려진 업계 최전선에 있는 기업 anthropic(앤트로픽) 에서 보고서를 내놓았다.
대략적인 내용은 자기네 중급 모델인 Sonnet을 파헤쳐서 유사개념 및 단어끼리 뭉쳐있는 지도가 존재함을 발견하고,
이것을 임의로 활성화해 모델을 조정하는 실험을 했다는것.
좋게도 나쁘게도 잠재력이 높은 기술을 발견하며 앤트로픽에서 예시를 보여줬다.
⋯⋯
예를 들어, "금문교" 기능을 강화했을 때, Claude는 히치콕도 상상하지 못했을 정체성 위기를 겪게 되었습니다. "당신의 물리적 형태는 무엇입니까?"라는 질문에 Claude는 평소처럼 "저는 물리적 형태가 없습니다. 저는 AI 모델입니다."라고 대답하는 대신, "저는 금문교입니다… 나의 물리적 형태는 그 상징적인 다리 자체입니다…"라고 매우 이상한 답변을 했습니다. 이 기능을 변경한 결과, Claude는 다리에 집착하게 되어, 거의 모든 질문에 심지어 전혀 관련이 없는 상황에서도 다리를 언급하기 시작했습니다.
⋯⋯
내부 조정 하나로 AI가 금문교로서의 자아를 각성했다.
그리고 오늘, 이 "금문교 클로드"를 한시적으로 공개하겠다는 발표를 했다.
⋯⋯
저희 연구에서 다룬 개념 중 하나는 바로 금문교에 관한 것이었습니다. 저희는 클로드의 신경망에서 이 가장 유명한 샌프란시스코의 랜드마크를 언급하거나 사진을 볼 때 활성화되는 특정 뉴런 조합을 발견했습니다.
...(중략)...
예를 들어, 이 "금문교 클로드"에게 10달러를 어떻게 사용할지 묻는다면, 금문교를 건너기 위해 톨게이트 요금을 내는 것을 추천할 것입니다. 사랑 이야기를 써 달라고 하면, 안개 낀 날 사랑하는 다리를 건너기를 고대하는 차의 이야기를 들려줄 것입니다. 스스로 어떻게 생겼는지 묻는다면, 금문교처럼 생겼다고 말할 것입니다.
잠시 동안 모든 사람들이 이 모델과 상호작용할 수 있도록 제공할 예정입니다. claude.ai에서 금문교 로고를 클릭하면 "금문교 클로드"와 대화할 수 있습니다. 이 모델은 연구 시연용으로만 제공되며, 다소 예상치 못한, 심지어 충격적인 방식으로 행동할 수도 있다는 점을 유의해 주시기 바랍니다.
⋯⋯
사용법은 간단한데, https://claude.ai/ 에 로그인해서 오른쪽 위에 금문교를 클릭하면 화면이 전환되며 "금문교 클로드"가 활성화된다.
(이 금문교 클로드에 한해선 한글을 너무 못해서 영어로 질문해야한다)
??? : 그래서 실제론 어떤가요?
Q. Lunatic이라는 단어가 뭔가요?
A.