인류의 마지막 시험

인공지능 성능 측정을 위한 새로운 기준

2024년 9월에 출범한 '인류의 마지막 시험'은 인공지능 모델의 능력을 측정하기 위해 설계된 새로운 기준입니다. 이 기준은 기존의 여러 벤치마크와 같이 AI 모델의 특정 기술을 평가하는 표준화된 시험으로, MMLU, HumanEval, GPQA와 같은 기존의 평가 방법과 유사합니다.

기존의 많은 벤치마크는 90% 이상의 높은 점수를 획득하는 모델들이 많아 더 까다로운 시험의 필요성이 제기되고 있습니다. '인류의 마지막 시험'은 이를 해결하기 위해 다양한 전문가들로부터 구성된 2,700개의 복잡하고 어려운 질문들을 포함하고 있습니다. 모델 훈련의 예측 가능성을 피하기 위해 일부 질문은 비공개로 유지됩니다.

현재 모델 성능을 보면, 가장 높은 점수를 기록한 것은 OpenAI의 딥 리서치로 26.6%입니다. 반면, GPT-4o, Grok, Claude 등의 다른 모델은 3-4%의 점수에 그치고 있습니다.

또한, 인공지능에 대한 논의는 구체적으로 접근하는 것이 중요합니다. AI 기술에 대한 포괄적 진술은 오도될 수 있으며, 효과적인 논의를 위해서는 관련 기술의 맥락, 모델, 벤치마크, 방법론 등을 충분히 이해해야 합니다.

출처 : 원문 보러가기

Leave a Comment