NVIDIA、TensorRT 8を発表。演算処理を削減し効率的な推論が可能に

最終更新日:2023/12/11

NVIDIA は第 8 世代となる AI ソフトウェアTensorRT 8を発表しました。BERT-Large で実行された言語アプリケーションが、1.2 ミリ秒というこれまでにはない速度で処理できるようになります。

このAIニュースのポイント

NVIDIA は第 8 世代となる AI ソフトウェアTensorRT 8を発表
BERT-Large で実行された言語アプリケーションを、1.2 ミリ秒で処理
Transformer の最適化に加えてスパース性と量子化認識トレーニングを通じて性能をアップ

NVIDIA は、TensorRT 8 を発表しました。TensorRT 8 は、NVIDIA の第 8 世代となる AI ソフトウェアで、言語クエリの推論時間を半分に短縮することで、開発者が世界で最も高い性能を持つ検索エンジン、広告レコメンデーションおよびチャットボットを作り出し、それをクラウドからエッジに渡り提供することを可能にします。

TensorRT 8 の最適化により、世界で最も普及している Transformer ベースのモデルの 1 つである、BERT-Large で実行された言語アプリケーションが、1.2 ミリ秒というこれまでにはない速度で処理できるようになります。過去には、企業はモデルサイズの縮小を余儀なくされ、その結果、正確性が大幅に低下していました。TensorRT 8 により、企業はモデルサイズを 2 倍または 3 倍に拡大して劇的に精度を向上させます。

Transformer の最適化に加えて、スパース性や量子化認識トレーニングなど主要な機能を通じて、TensorRT 8 はAI 推論でのブレイクスルーを実現。

スパース性は、効率性を高めるための、NVIDIA Ampere アーキテクチャ GPU の新しい性能向上手法です。これにより、開発者は演算処理を削減することで、ニューラルネットワークを加速させることができます。また、量子化認識トレーニングにより、開発者は、トレーニング済みモデルを使い、正確さを損なうことなく、INT8 精度で推論を実行できるようになります。これによって、演算とストレージのオーバーヘッドが大幅に削減され、Tensor コアで効率的な推論ができるようになります。

TensorRT 8 は、NVIDIA Developer プログラムのメンバーは無料で入手可能です。最新バージョンのプラグイン、パーサーおよびサンプルは、TensorRT GitHub リポジトリよりオープンソースとしても利用できます。

出典：PR TIMES