테크크런치 오픈AI 사내 벤치마크서 나온 환각율 보도
챗GPT o3, 환각률 33%
챗GPT o4미니는 48% 환각률 보여
오픈AI " 더 많은 연구가 필요하다"
사쿠라모리 카오리P
(1076219)
추천의 달인 추천흡수기 유게이 유저정보
출석일수 : 5133일 LV.198
6%
Exp.추천 11 조회 13233 비추력 890227
작성일 2025.04.21 (08:24:49)
IP : (IP보기클릭)118.235.***.***
테크크런치 오픈AI 사내 벤치마크서 나온 환각율 보도
챗GPT o3, 환각률 33%
챗GPT o4미니는 48% 환각률 보여
오픈AI " 더 많은 연구가 필요하다"
ID | 구분 | 제목 | 글쓴이 | 추천 | 조회 | 날짜 |
---|---|---|---|---|---|---|
352195 | 공지 | 국내외 언론 및 웹진 불펌 금지. (2) | 관리자 | 6 | 210343 | 2010.06.22 |
2324616 | ETC | 헤롱싀 | 4 | 7370 | 2025.05.03 | |
2324587 | H/W | 스퀴니 | 9 | 10384 | 2025.05.02 | |
2324584 | H/W | 스텔D | 7 | 10209 | 2025.05.02 | |
2324577 | 참고 | 헤롱싀 | 23 | 8699 | 2025.05.02 | |
2324557 | ETC | 팔자™ | 18 | 10444 | 2025.05.02 | |
2324534 | ETC | 춘리허벅지 | 1 | 1710 | 2025.05.02 | |
2324530 | H/W | nokcha | 16 | 12011 | 2025.05.02 | |
2324517 | H/W | 심심해♥ | 12 | 10228 | 2025.05.02 | |
2324516 | H/W | 오버테크 | 2138 | 2025.05.02 | ||
2324502 | H/W | nokcha | 6 | 9558 | 2025.05.01 | |
2324477 | ETC | 팔자™ | 10 | 7242 | 2025.05.01 | |
2324476 | ETC | 팔자™ | 2 | 2788 | 2025.05.01 | |
2324464 | H/W | 김샌디 | 8 | 15716 | 2025.05.01 | |
2324448 | H/W | ExLyz | 2 | 3177 | 2025.04.30 | |
2324418 | 참고 | 헤롱싀 | 9 | 8970 | 2025.04.30 | |
2324401 | H/W | 심심해♥ | 5177 | 2025.04.30 | ||
2324395 | H/W | 류오동 | 17 | 10456 | 2025.04.30 | |
2324360 | 참고 | 원히트원더-미국춤™ | 8 | 11288 | 2025.04.29 | |
2324357 | H/W | 원히트원더-미국춤™ | 2 | 4991 | 2025.04.29 | |
2324356 | H/W | 원히트원더-미국춤™ | 1 | 1301 | 2025.04.29 | |
2324355 | H/W | 루리웹-6177441890 | 9 | 10929 | 2025.04.29 | |
2324350 | ETC | 팔자™ | 2332 | 2025.04.29 | ||
2324349 | 참고 | 헤롱싀 | 9 | 8988 | 2025.04.29 | |
2324336 | 참고 | 조조의기묘한모험 | 1959 | 2025.04.29 | ||
2324328 | H/W | 김샌디 | 13 | 13514 | 2025.04.29 | |
2324323 | H/W | 류오동 | 9 | 12012 | 2025.04.29 | |
2324299 | 루머 | 버스 | 8 | 20566 | 2025.04.28 | |
2324288 | ETC | 팔자™ | 15 | 11639 | 2025.04.28 |
(IP보기클릭)59.10.***.***
오답까진 아닌데 더 자세하고 상세하게 물어볼수록 디테일이 틀려질 확율이 올라가서 결국 50%쯤 되는거같음. 특히나 질문 세션이 길어지면 길어질수록 틀릴확율이 높아서 한두번만에 원하는 바가 안나오면 그 세션은 망한거나 다름없음. 아무리 프롬프트로 수정하려고 노력해봐야 개소리의 향연이 끝도 없이 이어짐.
(IP보기클릭)59.10.***.***
GPT랑 제미나이 두가지를 써봤는데 정보검색용이나 전문기술 질의, 코드 작성, 문서작성 다 잘하는 편입니다. 다만, 정보검색용으로 사용할때 주의해야 하는게 딱 한가지있는데 자신이 모르는 내용을 질문할 때 의도를 담으면 안됩니다. 이게 LLM 베이스다 보니까 언어에 엄청나게 민갑합니다. 예를 들어서 사용자 본인이 어떤 대상에 대하여 모르는 상태로 의도를 가지고 질문하면 실제 목표보다 사용자 의도를 더 민감하게 이해해서 이상한 결과로 날아갑니다. 예를 들어서 이런식입니다. 루리웹은 어떤 프로그램이야? 라는 식으로 질문을하면... 루리웹이 실제로는 프로그램이 아닌 웹사이트라는 것을 답변하는게 아니라 루리웹을 가상의 프로그램이라고 가정하고 상상속의 프로그램을 생성합니다. 본인이 잘 모르는걸 질문할때는 그냥 그게 뭐냐고 물어봐야지 이상한 상상을 하며 언어를 첨가하는순간 AI도 이상한 답변을 하고 본인도 이상하게 이해해서 서로 상상의 나라로 날아가버리게 되는거죠.
(IP보기클릭)117.111.***.***
아는거 많은 망상환자랑 얘기한다는거임?!?!
(IP보기클릭)59.10.***.***
ㅋㅋ 그냥 예시로 든거잖아요. 그리고 학습하는 정보가 업데이트 되면 될 수록 정보교정이 이루어져서 더 나아지고 있어요. 학습이 부족한 최신 기술이나 어휘 일수록 이런 식의 문제가 많이 발생합니다. 가장 최근에 본건 MCP 관련이었네요.
(IP보기클릭)210.101.***.***
뭐지... 달을 가리켰더니 손가락만 보는 그런건가
(IP보기클릭)117.111.***.***
아는거 많은 망상환자랑 얘기한다는거임?!?!
(IP보기클릭)211.235.***.***
(IP보기클릭)121.155.***.***
(IP보기클릭)118.42.***.***
(IP보기클릭)59.10.***.***
TTLWR
오답까진 아닌데 더 자세하고 상세하게 물어볼수록 디테일이 틀려질 확율이 올라가서 결국 50%쯤 되는거같음. 특히나 질문 세션이 길어지면 길어질수록 틀릴확율이 높아서 한두번만에 원하는 바가 안나오면 그 세션은 망한거나 다름없음. 아무리 프롬프트로 수정하려고 노력해봐야 개소리의 향연이 끝도 없이 이어짐. | 25.04.21 09:33 | | |
(IP보기클릭)118.235.***.***
(IP보기클릭)49.98.***.***
(IP보기클릭)59.10.***.***
GPT랑 제미나이 두가지를 써봤는데 정보검색용이나 전문기술 질의, 코드 작성, 문서작성 다 잘하는 편입니다. 다만, 정보검색용으로 사용할때 주의해야 하는게 딱 한가지있는데 자신이 모르는 내용을 질문할 때 의도를 담으면 안됩니다. 이게 LLM 베이스다 보니까 언어에 엄청나게 민갑합니다. 예를 들어서 사용자 본인이 어떤 대상에 대하여 모르는 상태로 의도를 가지고 질문하면 실제 목표보다 사용자 의도를 더 민감하게 이해해서 이상한 결과로 날아갑니다. 예를 들어서 이런식입니다. 루리웹은 어떤 프로그램이야? 라는 식으로 질문을하면... 루리웹이 실제로는 프로그램이 아닌 웹사이트라는 것을 답변하는게 아니라 루리웹을 가상의 프로그램이라고 가정하고 상상속의 프로그램을 생성합니다. 본인이 잘 모르는걸 질문할때는 그냥 그게 뭐냐고 물어봐야지 이상한 상상을 하며 언어를 첨가하는순간 AI도 이상한 답변을 하고 본인도 이상하게 이해해서 서로 상상의 나라로 날아가버리게 되는거죠.
(IP보기클릭)59.18.***.***
| 25.04.21 10:18 | | |
(IP보기클릭)59.18.***.***
| 25.04.21 10:24 | | |
(IP보기클릭)59.10.***.***
hohuhuya
ㅋㅋ 그냥 예시로 든거잖아요. 그리고 학습하는 정보가 업데이트 되면 될 수록 정보교정이 이루어져서 더 나아지고 있어요. 학습이 부족한 최신 기술이나 어휘 일수록 이런 식의 문제가 많이 발생합니다. 가장 최근에 본건 MCP 관련이었네요. | 25.04.21 10:25 | | |
(IP보기클릭)59.10.***.***
덧글 다신것 보고 오늘 똑같은 정보로 질문 던졌더니 내용이 교정되었네요. 새삼 빠르게 발전하는게 느껴집니다. | 25.04.21 10:29 | | |
(IP보기클릭)59.18.***.***
예시가 너무 짜치더라구요 보통 사람들은 아 저정도도 못하네 안써야겠다 정도로 끝나니깐요 분명히 유용한게 사실이고 활용하기 나름인데 . | 25.04.21 10:36 | | |
(IP보기클릭)59.18.***.***
이쪽 업계 뉴스 보면 일희일비 하는게 너무 심한게 느껴집니다. 그러던지 말던지 꿀빠는사람은 꿀빠는거죠 | 25.04.21 10:37 | | |
(IP보기클릭)59.10.***.***
네 예시가 너무 조악하긴하네요. | 25.04.21 10:40 | | |
(IP보기클릭)210.101.***.***
hohuhuya
뭐지... 달을 가리켰더니 손가락만 보는 그런건가 | 25.04.21 11:15 | | |
(IP보기클릭)180.71.***.***
더 좋은 예시를 제시 하시던가요 많은사람들이 이해하기 쉽게 예시를 제시한건데 짜친다고 하면 더쉬운 예시를 제시해야지 저걸 스샷찍는게 말이 됩니까 정보를주기위해 긴글 쓰신분에게 모욕주는거 밖에 안됨 누구 비난하는게 취밉니까 | 25.04.21 11:31 | | |
(IP보기클릭)114.202.***.***
짜치는건 본인 인성과 문해력이었구연~ㅋㅋㅋㅋ | 25.04.21 11:56 | | |
(IP보기클릭)61.72.***.***
ㅋㅋㅋ 주식샀음? 이걸로 돈 연결된 사람들이 좀만 안 좋게 말해도 호들갑떨던데 ㅋㅋㅋㅋ | 25.04.21 13:20 | | |
(IP보기클릭)211.33.***.***
오. 좋은 정보 감사드립니다. 질문 내용에 따라 운좋게 잘 나올수도 있지만 재수 없으면 말씀하신대로 산으로 갈수도 있으니까요. 오늘 첨 알게 된 내용이라 저에게는 유용하게 사용할 팁인듯 싶습니다. | 25.04.21 14:09 | | |
(IP보기클릭)121.200.***.***
확실히 지피티한테 몇번 질문해서 답을 받다보니 질문의 어조에 따라서 이게 아닌데 싶은 질문자 편향적인 답변이 나오더라구요. 질문자 의도에 맞춤형으로 답변을 해주는 | 25.04.21 16:58 | | |
(IP보기클릭)14.36.***.***
마치 꺼무위키 라는거군요 ~응 대충 이해했어 짤 | 25.04.21 17:28 | | |
(IP보기클릭)61.75.***.***
구글검색해서 잘안나오는거 퍼플렉시티한테 물어보면 딱 이런식으로 대답해서 잘 안썼는데 대댓글 보니 다른 AI는 제대로 대답하네요. | 25.04.21 17:31 | | |
(IP보기클릭)39.115.***.***
(IP보기클릭)223.38.***.***
(IP보기클릭)211.228.***.***
(IP보기클릭)211.208.***.***
(IP보기클릭)182.208.***.***
(IP보기클릭)222.110.***.***
(IP보기클릭)180.229.***.***
(IP보기클릭)106.242.***.***
(IP보기클릭)121.165.***.***
(IP보기클릭)106.101.***.***
? 프로그래머들 필수인데 뭔말? | 25.04.21 11:24 | | |
(IP보기클릭)121.165.***.***
ai가 코딩에만 쓰이는것도 아니고 뭔 소릴 하는거임? | 25.04.21 11:40 | | |
(IP보기클릭)64.239.***.***
어지간한 개발사들은 직원들이 알아서 DB, 깃헙, IDE 플러그인 등등 MCP 연동, 파이프라인 연결해서 존나 잘만 써먹고 있는데 님이 있는 필드는 어디 허허벌판임? | 25.04.21 16:05 | | |
(IP보기클릭)121.165.***.***
그래서 개찐빠 나는 경우가 필드에서 개많은데 실제로 써본적이 없는 사람이구나 싶은건 잘 알겟음 | 25.04.21 18:39 | | |
(IP보기클릭)61.76.***.***
(IP보기클릭)59.18.***.***
정확한 계산을 요구할땐 ai가 계산툴을 사용할수 있도록 요청해야 합니다. | 25.04.21 10:45 | | |
(IP보기클릭)59.18.***.***
(IP보기클릭)211.109.***.***
(IP보기클릭)218.233.***.***
(IP보기클릭)36.39.***.***
(IP보기클릭)220.92.***.***
확실 | 25.04.21 11:13 | | |
(IP보기클릭)106.101.***.***
(IP보기클릭)117.111.***.***
(IP보기클릭)118.33.***.***
(IP보기클릭)222.108.***.***
(IP보기클릭)211.36.***.***
(IP보기클릭)112.169.***.***
(IP보기클릭)218.209.***.***
(IP보기클릭)124.80.***.***