中国製AIチップ「Ascend 910C」が大規模モデル訓練で躍進――DeepSeek-V4-Proの全パラメータ後学習に成功

中国のAI開発基盤において、米国製GPUへの依存を低減する大きな成果が報告されました。深圳河套学院をはじめとする研究チームは、Huawei(ファーウェイ)の最新AIチップ「Ascend 910C」を用いた計算クラスタ上で、1.6兆パラメータ規模の超巨大言語モデル「DeepSeek-V4-Pro」の全パラメータ後学習(継続学習・SFT)を安定稼働させることに成功したと発表しました。

1,000枚規模のチップで実現した工学的な快挙

今回のプロジェクトでは、深圳河套学院、ハルビン工業大学(深圳)、深圳大数据研究院、Huawei関連チーム、深智城AI算力平台が連携。約1,000枚のAscend 910Cを接続した大規模クラスタを構築し、わずか1カ月という短期間で訓練環境を整えました。

訓練は1,500ステップを超えて実行されましたが、演算エラーを示すskipped iterationsやNaN iterationsはゼロを記録。モデル演算利用率(MFU)は30%を超え、最適化されたノードでは34.9%という高い安定性を達成しました。これは、第三者機関による中国製計算クラスタでの全パラメータ後学習完了の実証として、史上初の試みとなります。

なぜ「全パラメータ」が重要なのか

本プロジェクトの核心は、LoRAなどの一部パラメータのみを調整する手法ではなく、モデル全体を最適化する「全パラメータ後学習」を完遂した点にあります。

DeepSeek-V4-Proのような1.6兆パラメータ級のMoE(Mixture of Experts)モデルは、推論効率には優れるものの、訓練時には専門家モデル間の負荷分散やノード間通信が非常に複雑になります。チームは、データ並列、テンソル並列、パイプライン並列、エキスパート並列を高度に組み合わせた分散学習スキームを構築し、Ascend環境に最適化した主要演算子を用いて、この難題をクリアしました。

専門タスクでの性能向上も実証

実証実験では、産業用オペレーションズリサーチを想定した数学モデリング能力の強化にも着手しました。専用のSFTサンプルを用いた学習の結果、NL4OPTやORGEval WLを含む4つの主要指標すべてでスコアが向上。単に大規模モデルを動かすだけでなく、特定の専門タスクに対して実用レベルの能力向上を実現できることを証明しました。

中国AIインフラの「訓練」領域への拡大

これまで大規模AIモデルの開発は、NVIDIA製GPUを中心とした計算基盤が独占的な地位を占めてきました。今回の成果は、中国製AIチップが推論や軽量な微調整のみならず、より高い計算負荷を要する「訓練・後学習」の領域へと着実に適用範囲を広げていることを示しています。

もちろん、ゼロからの事前学習を全て代替するレベルには至っていませんが、1.6兆パラメータ級の複雑なモデルを中国製環境で安定的に訓練できた事実は、中国のAI開発における自立化への大きな一歩として、今後の市場動向に大きな影響を与えることになりそうです。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

岡本晟楽はEIICHI JOURNALの編集長、代表。仮想通貨の価格分析からPR記事まで幅広い作成経験を持つ。元コインテレグラフジャパンの編集者。野村総合研究所。兵庫県神戸市出身、台湾・カナダなどの環境で学生時代を過ごす。世界的なメディアでの経験から仮想通貨に限らず政治、経済などの記事についても執筆をする。

コメント

コメントする

目次