
ジェネレーティブ AI は静的なデータソースで動作することが多いが、組織がリアルタイムのストリーミングデータから利益を得たい場合も存在する。これが、 DataStax がリードする新しいオープンソースプロジェクト「LangStream」が目指すところだ。
LangStream プロジェクトは9月13日に DataStax によってソフトローンチされ、それ以来、数週間の間に急速に改良が重ねられ、9月29日にこのテクノロジーをより便利にするために連携ポイントを拡張した新しいリリースが発表された。LangStream は当初、DataStax の AstraDB データベースとしか動作しなかったが、現在は Milvus や Pinecone など一連のベクトルデータベースをサポートしている。
LangStream の基本的な考え方は、ストリーミングデータソース(時に動くデータとも呼ばれる)を開発者がより簡単に扱えるようにすることであり、イベントドリブンアーキテクチャの構築を支援することだ。イベントドリブンアーキテクチャでは、ストリームから入ってくる新しいデータポイントのようなイベントが、別のアクションをトリガーしたり、ドライブしたりする。イベントドリブンアーキテクチャーはリアルタイムアプリケーションの基盤でもあり、アプリケーションはプラットフォームに入ってくるデータから恩恵を受けることができる。これにより、生成モデルは、応答を策定したりタスクを完了したりする際に、最新のコンテキストデータを考慮に入れることができる。
DataStax のストリーミングエンジニアリング責任者 Chris Bartholomew 氏は、VentureBeat に次のように答えた。
LangStream は、イベントドリブン型ジェネレーティブ AI アプリケーションを構築する方法です。
Bartholomew 氏は、ストリーミングデータベンダ Kesque の創業者兼CEO を務めていたが、2021年に DataStax に買収された。Kesque はオープンソースのストリーミングデータプロジェクト「Apache Pulsar」に基づくテクノロジーを開発し、現在では DataStax のサービス「Astra Streaming 」の基盤となっている。
LangStream の仕組み

結局のところ、LangStream は現在 Apache Pulsar には依存しておらず、むしろイベントデータストリーミングに今日広く使われているオープンソース技術「Apache Kafka」を利用している。
Bartholomew氏は、LangStream は標準的なストリーム処理モデルを使用しており、メッセージやイベントを取り込んで処理し、送信すると説明した。LangStream は、ジェネレーティブAIモデルが最新のデータを引用することができる RAG(Retrieval Augmented Generation、検索により強化した文章生成)オペレーションをサポートするベクトルデータベース技術との組み合わせで特に有用である。
データが RAG のモデルに取り込まれるとき、それぞれの新しいデータは、ベクトルデータベースで使用できるように、ベクトル埋め込みを生成する必要がある。ストリーミングデータはリアルタイムであるため、エンベッディングを同期データパイプラインで生成する必要がある。Bartholomew 氏は、LangStream はどの特定のベクトル埋め込みモデルを使用するかには関係なく、Hugging Face でホストされているオープンソースモデルや Google の「Vertex AI」など、現在複数のモデルをサポートすることができると述べた。
我々がやっていることの多くは、パイプラインストリーミング、イベントドリブンのパラダイムをジェネレーティブ AI アプリケーションに取り入れたものです。(Bartholomew 氏)
LangStream の未来
LangStream はまだ始まったばかりだが、プロジェクトは急速に進んでおり、ユーザーのコミュニティが拡大するにつれ、多くの可能性がある。
DataStax の CTO 兼エグゼクティブ・バイス・プレジデント Davor Bonaci 氏は、VentureBeat の取材に対して次のように答えた。
LangStream は、ジェネレーティブ AI に取り組む開発者がアプリケーションを容易に構築できるよう支援し、LLM の高品質なプロンプトを実現するためにさまざまなソースからのデータを調整するプロセスを簡素化するため、大きなメリットをもたらします。これにより、スケーラブルで実稼働可能な実世界の AI アプリケーションを、幅広い種類のデータで構築することがはるかに簡単になります。(Bonaci 氏)
LangStream はオープンソースプロジェクトとして開発されており、これは DataStax が Apache Pulsar や Apache Cassandra データベースなど、商用活動で利用している他の技術と連携する方法と同じアプローチをとっている。
DataStax は、オープンソースコミュニティと協力してきた長い歴史があります。特に、今日最も人気のあるテクノロジーに携わる開発者にとって、非常に関連性の高いプロジェクトです。(Bonaci 氏)
【via VentureBeat】 @VentureBeat
BRIDGE Members
BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。- 会員限定記事・毎月3本
- コミュニティDiscord招待