「ChatGPT」登場で、産業界に浸透し始めた大規模言語モデル（１）——コーディング自動化など、応用範囲が急拡大

2022年7月、Open AIが開発した35億個のパラメータを持つジェネレーティブAI「DALL-E 2」が発表され、AI業界だけでなく世界中のメディアを賑わせた。その後、同じくOpenAIが開発した対話型大規模言語モデル（LLM）「ChatGPT」が発表された。

それまではテキストから画像への変換モデルがメディアや業界の注目を集めていた。しかし、2022年12月に新しいチャットボットが公開されたことで、別のタイプの大規模言語モデルが脚光を浴びた。

汎用性の高い大規模言語モデルが急拡大

大規模言語モデルは非常に大きなテキストベースのデータセットを用いて、ほとんどあるいは全く教師学習なしで、言語の認識、要約、翻訳、予測、生成を行うことができる学習アルゴリズムである。顧客の質問に答えたり、テキスト、音声、画像を高い精度で認識・生成するなど、多様なタスクを処理することができ、テキストから画像への変換以外にも、テキストからテキスト、テキストから3D、テキストからビデオ、デジタル生物学など、さまざまなモダリティが増え続けている。

この2年間で大規模言語モデルニューラルネットワークは、ヘルスケア、ゲーム、金融、ロボット工学、ソフトウェアや機械学習の企業開発などの分野や機能において、AIの影響を拡大させている。

NvidiaのApplied Deep Learning Research担当副社長のBryan Catanzaro氏は次のように述べている。

大規模言語モデルは、深いドメインの質問に答えたり、言語を翻訳したり、文書を理解し要約したり、物語を書いたり、プログラムを書いたりできる柔軟性と能力があることを証明してきました。

ChatGPTの登場は、ジェネレーティブAIとトランスフォーマーニューラルネットワークの基礎となる異なる種類の大規模言語モデルの登場を意味し、後者はエンタープライズアプリケーションを含むAIの革命的ディスラプターとして評判が高まっている。

全ての人に力をもたらすと同時に、複雑性も増す大規模言語モデル（LLM）
Image credit: Nvidia

〝AIファースト〟なインフラが、企業が使える大規模言語モデルを実現

2017年の影響力を与えた研究論文をきっかけとして、その1年後にBERT（Bidirectional Encoder Representations from Transformer）とOpenAIのGPT-3モデルがリリースされたことで形になっていった。mAsのような事前学習済みモデルは、毎年10倍のペースで複雑さとサイズが拡大しているため、その能力と人気を増している。現在、世界最大のモデルであるPaLM 540BとMegatron 530Bは大規模言語モデルだ。

実際、大規模言語モデルは最も新しく最も強力なモデルの1つであり、畳み込み（convolutional）やリカレント（recurrent）といったモデルに取って代わりつつある。重要な進歩は専用のAIハードウェア、拡張性に優れたアーキテクチャ、フレームワーク、カスタマイズ可能なモデル、自動化を堅牢なAIファーストなインフラストラクチャと組み合わせたことだ。これにより、パブリック・クラウドやプライベート・クラウド、APIを介して、商業用および企業用の幅広いアプリケーションに、すぐに大規模言語モデルを導入し、拡張することが可能になった。

大規模言語モデルは企業が複数のドメインにわたって学習した知識を通じてインテリジェンスを体系化するのに役立つとCatanzaro氏は言う。これまでスーパーコンピューターでしかできなかった方法でAIの価値を拡大し、解放するイノベーションを加速させることができる。

ジェネレーティブAIの産業界における用途（クリックして拡大）
Image credit: Sequoia Capital

説得力のある新しい事例が増えている。例えば、Tabnineは複数の大規模言語モデルを実行するソフトウェア開発者向けのAIアシスタントを作成した。テルアビブに拠点を置く同社によると、コードの最大30%を自動化する全行置換と全機能置換により、20のソフトウェア言語と15のエディタで、世界中の100万人以上の開発者がより速くプログラミングできるよう支援しているとのことだ。

東京に本社を置くRinnaは、日本で数百万人に利用されているチャットボットを作成するために大規模言語モデルを採用し、開発者がカスタムボットやAI搭載のキャラクターを作成するためのツールも提供している。

最も有名で確立された例の1つが、Microsoft Translatorだ。数十億のパラメータを持つこのAzureベースのサービスは、10年前、震度7の地震に対応する際に、災害作業員がハイチ・クレオール語を理解するのに役立ち、脚光を浴びた。この無料の個人向け翻訳アプリは進化を続け、現在では70以上の言語でテキスト、音声、会話、カメラの写真、スクリーンショットをサポートしている。

新しいテクノロジーで困難な課題を克服

Transformerモデルは、AttentionやSelf-Attentionと呼ばれる進化する数学的手法を適用して、系列内の離れたデータ要素が互いに影響を与え合う微細な違いを検知する。

大規模言語モデルが実際にどのように機能するかを説明するのは簡単だ。典型的な例を挙げると、テキストの生成と解読は、自己回帰型言語モデルGPT-3が担当し、深層学習を用いて人間のようなテキストを生成する。GPT-3の子孫であるCODEXは、コーディング、コメントの追加、効率化のためのコード書き換えなどを行う。新モデルのNLLB-200は、200以上の言語の翻訳を行う。

この5年間の急速な進歩の多くは、より少ない労力で、より大きく、より強力なネットワークを作りたいという願望から生まれている。

大規模言語モデル（LLM）のサイズや機能は、過去4年間で急速に成長した。
Image credit: Microsoft/Nvidia

しかし、大規模言語モデルや高度な自然言語モデルは、技術、サイズ、性能の面で急速かつ目覚ましい進歩を遂げているにもかかわらず、開発、学習、導入、保守が難しく、ほとんどの企業にとって実用的ではない、あるいはアクセスしにくいものとなっている。

大規模言語モデルをゼロから作成したり、特定のユースケースに合わせてカスタマイズや微調整を行う場合、いくつかの課題が発生する。最も重要なことは、膨大な量のフリーフォームテキスト文書を処理するためには、膨大な時間とコンピューティングパワー（通常はGPU）が必要だということだ。

NvidiaのAccelerated Computing 部門ディレクターの Dave Salvator氏は、次のように述べている。

大規模言語モデルをトレーニングして導入するために必要なのは、スケールの大きな計算能力です。性能は、大規模言語モデルのトレーニングにかかる総コストと、大規模言語モデルを搭載した製品やサービスを本番環境に導入する際のコストに直接影響します。

また、クラスタ内の複数のノードで複数のGPUを使用して、これらのモデルの分散学習と推論を行うには、目的に応じたソフトウェアが必要不可欠です。モデルやユーザーの需要は規模や複雑さ、強度が異なるため、柔軟に拡張・縮小できることも重要な要素です。

特に後者は極めて重要だ。大規模言語モデルの商業的な導入は、高度にスケーラブルなインフラストラクチャー、リアルタイムで結果を提供するコンピューティングの馬力、効率的な推論サービスソリューションに依存する。マイクロソフトとNvidiaのパートナーシップは、企業がこれらの困難な要求を満たすために役立っている。この業界大手は、何十億、何兆ものパラメータを持つ大規模言語モデルをトレーニングし、展開するための製品や統合について共同研究を行っている。鍵となるのは、コンテナ化されたフレームワーク「Nvidia NeMo Megatron」と他のターゲット製品のホストとMicrosoft Azure AI Infrastructureをより緊密に結合し、1,400GPUで95%のスケーリング効率を実現できるようにすることだ。