DeepSeekは本日、AIオープンソースコミュニティHugging FaceでDeepSeek-Prover-V2-671Bという新しいモデルをリリースしました。 DeepSeek-Prover-V2-671B は、より効率的なセーフテンソル ファイル形式を使用し、複数の計算精度をサポートすることで、より高速でリソースを節約したモデルのトレーニングと展開を可能にすると報告されています。このモデルは6,710億個のパラメータを持ち、昨年リリースされたProver-V1.5数学モデルのアップグレード版である可能性がある。モデルアーキテクチャの面では、このモデルは DeepSeek-V3 アーキテクチャを使用し、MoE (Mixture of Experts) モードを採用し、61 個の Transformer 層と 7168 次元の隠し層を備えています。また、最大位置埋め込みが 163,800 の超長いコンテキストもサポートしており、複雑な数学的証明を処理できます。また、FP8 量子化も使用しており、量子化技術によってモデル サイズを縮小し、推論効率を向上させることができます。 (ゴールデンテン)
全てのコメント