最近、OpenAIの従業員が、イーロン・マスク氏のxAI社が最新のAIモデルGrok3のベンチマーク結果を誤解を招く形で公開したと公に非難した。これに対し、xAIの共同創設者イゴール・バブシュキン氏は、同社は何も不正行為を行っていないと主張した。 xAI のグラフは、Grok3 の 2 つのバージョン (Grok3 Reasoning Beta と Grok3 mini Reasoning) が、AIME 2025 で OpenAI の現在最も強力なモデルである o3-mini-high を上回ったことを示しています。しかし、OpenAI の従業員は、X プラットフォーム上で、xAI のチャートには「cons@64」での o3-mini-high の AIME 2025 スコアが含まれていないことをすぐに指摘しました。バブシュキン氏はプラットフォームXで、OpenAIが過去にも同様に誤解を招くベンチマークチャートを公開したことがあると主張した。ただし、これらのチャートは、独自のモデルのパフォーマンスを比較するために使用されます。
全てのコメント