富士通、LLMを軽量・省電力化する生成AI再構成技術、医療などで軽量特化型AIエージェント提供へ
掲載日:

富士通は9月8日、AI(人工知能)サービス「Fujitsu Kozuchi(コヅチ)」のコア技術で、大規模言語モデル(LLM)の軽量化と省電力する「生成AI再構成技術」を開発し、同社のLLM「Takane(タカネ)」に適用し強化に成功したと発表した。2025年度下期から「Takane」のトライアル環境で提供し、医療を始め金融、製造、小売りなどで、より専門性の高い業務に特化した「Takane」のAIエージェントを順次開発し提供する。

独自開発した「量子化技術」と「特化型AI向け蒸留技術」を採用することで実現した。「量子化技術」は、生成AIの思考の元になる、膨大なパラメータの情報を圧縮し、生成AIモデルの大幅な軽量化、省電力化、高速化する技術。

富士通によると、従来手法では、LLMのような層が多いニューラルネットワークで、量子化誤差が指数関数的に蓄積することが課題となっていたという。そこで、同社では理論的洞察に基づき、層をまたいで量子化誤差を伝播させることで増大を防ぐ新たな量子化アルゴリズム(QEP、Quantization Error Propagation)」を開発。
さらに、独自開発の大規模問題向け世界最高精度の最適化アルゴリズム「QQA(Quasi-Quantum Annealing)」を活用することで、LLMの1ビット量子化に成功。量子化前と比較して世界最高という89%の精度維持率と量子化前の3倍の高速化を実現した。
白幡晃一・富士通 富士通研究所 人工知能研究所 生成AIコアプロジェクト シニアプロジェクトディレクターは「量子化技術で32ビットや16ビットといった量子化前のメモリ量を、少ないビット数での実行とモデルサイズを削減しながら高速で処理することが可能になる。例えば、ハイエンドのGPU4枚を必要とする大型の生成AIモデルなら、ローエンドのGPU1枚で済み、高速で実行できる」と説明した。

一方、「特化型AI向け蒸留技術」は、AIの基盤モデルの最適化技術。具体的には、基盤モデルに対して不要な知識をそぎ落としたり、新たな能力を付与したりすることで多様な構造を持つモデル候補群を生成。次に、このモデル候補群から、ユーザーとなる顧客が求める最適なモデルを自動で選定する。
その後、選定したモデルに、「Takane」などの「教師モデル」から知識を、「蒸留」と呼ばれる「教師モデル」の知識を、小さく軽量な「生徒モデル」に移転し、効率的な小規模モデル構築する技術で、単なる圧縮にとどまらない、特定のタスクで基盤の生成AIモデルを上回る精度を達成した。

富士通では「特化型AI蒸留技術」でCRM(顧客関係管理)データを使って、商談の勝敗を予測する「テキストQAタスク」の実証したところ、推論速度が11倍に高速化し、精度も43%改善したという。
また、高精度化とモデル圧縮を同時に実現することで、教師モデルを超える精度を、100分の1と軽量なパラメータサイズの生徒モデルで達成し、必要なGPUメモリと運用コストをそれぞれ70%削減できることを確認。さらに、画像認識タスクでは、未学習の物体に対する検出精度を、既存の蒸留技術と比べ、10%向上したことも確かめた。
今後は、「Takane」で専門性の高い業務に特化した軽量AIエージェントの開発と提供するだけではなく、技術をさらに発展させ、生成AIの精度を維持したままモデルのメモリ消費量を最大1000分の1に削減しても高精度で高速な生成AIの開発にも取り組む考え。
白幡シニアプロジェクトディレクターは「特化型の『Takane』を進化させていくことで、世界の仕組みや、社会の因果関係を深く理解し、複雑な課題を自律的に最適な解決策を導き出す生成AIアーキテクチャへに発展させていく」と話した。