
非営利団体AI安全センター(CAIS)とデータラベリングやAI開発サービスを提供する企業であるScale AIは、最先端のAIシステム向けの厳しい新しい基準を発表しました。
この基準は、「人類最後の試験」と呼ばれ、数千のクラウドソーシングされた質問が含まれており、数学、人文科学、自然科学などのテーマに触れます。評価をより厳しくするため、質問は図表や画像を取り入れた形式を含むさまざまな形式で提供されます。
予備調査では、公開されている主要なAIシステムでは、一つも「人類最後の試験」で10%以上のスコアを獲得できませんでした。
CAISとScale AIは、基準を研究コミュニティに開放し、研究者が「さらに深く変動を探る」ことができ、新しいAIモデルを評価できるようにする予定だと述べています。