DataStax、イベントドリブン型ジェネレーティブAIアプリが開発できる「LangStream」をローンチ

SHARE:
Image credit: DataStax

ジェネレーティブ AI は静的なデータソースで動作することが多いが、組織がリアルタイムのストリーミングデータから利益を得たい場合も存在する。これが、 DataStax がリードする新しいオープンソースプロジェクト「LangStream」が目指すところだ。

LangStream プロジェクトは9月13日に DataStax によってソフトローンチされ、それ以来、数週間の間に急速に改良が重ねられ、9月29日にこのテクノロジーをより便利にするために連携ポイントを拡張した新しいリリースが発表された。LangStream は当初、DataStax の AstraDB データベースとしか動作しなかったが、現在は Milvus や Pinecone など一連のベクトルデータベースをサポートしている。

LangStream の基本的な考え方は、ストリーミングデータソース(時に動くデータとも呼ばれる)を開発者がより簡単に扱えるようにすることであり、イベントドリブンアーキテクチャの構築を支援することだ。イベントドリブンアーキテクチャでは、ストリームから入ってくる新しいデータポイントのようなイベントが、別のアクションをトリガーしたり、ドライブしたりする。イベントドリブンアーキテクチャーはリアルタイムアプリケーションの基盤でもあり、アプリケーションはプラットフォームに入ってくるデータから恩恵を受けることができる。これにより、生成モデルは、応答を策定したりタスクを完了したりする際に、最新のコンテキストデータを考慮に入れることができる。

DataStax のストリーミングエンジニアリング責任者 Chris Bartholomew 氏は、VentureBeat に次のように答えた。

LangStream は、イベントドリブン型ジェネレーティブ AI アプリケーションを構築する方法です。

Bartholomew 氏は、ストリーミングデータベンダ Kesque の創業者兼CEO を務めていたが、2021年に DataStax に買収された。Kesque はオープンソースのストリーミングデータプロジェクト「Apache Pulsar」に基づくテクノロジーを開発し、現在では DataStax のサービス「Astra Streaming 」の基盤となっている。

LangStream の仕組み

Image credit: DataStax

結局のところ、LangStream は現在 Apache Pulsar には依存しておらず、むしろイベントデータストリーミングに今日広く使われているオープンソース技術「Apache Kafka」を利用している。

Bartholomew氏は、LangStream は標準的なストリーム処理モデルを使用しており、メッセージやイベントを取り込んで処理し、送信すると説明した。LangStream は、ジェネレーティブAIモデルが最新のデータを引用することができる RAG(Retrieval Augmented Generation、検索により強化した文章生成)オペレーションをサポートするベクトルデータベース技術との組み合わせで特に有用である。

データが RAG のモデルに取り込まれるとき、それぞれの新しいデータは、ベクトルデータベースで使用できるように、ベクトル埋め込みを生成する必要がある。ストリーミングデータはリアルタイムであるため、エンベッディングを同期データパイプラインで生成する必要がある。Bartholomew 氏は、LangStream はどの特定のベクトル埋め込みモデルを使用するかには関係なく、Hugging Face でホストされているオープンソースモデルや Google の「Vertex AI」など、現在複数のモデルをサポートすることができると述べた。

我々がやっていることの多くは、パイプラインストリーミング、イベントドリブンのパラダイムをジェネレーティブ AI アプリケーションに取り入れたものです。(Bartholomew 氏)

LangStream の未来

LangStream はまだ始まったばかりだが、プロジェクトは急速に進んでおり、ユーザーのコミュニティが拡大するにつれ、多くの可能性がある。

DataStax の CTO 兼エグゼクティブ・バイス・プレジデント Davor Bonaci 氏は、VentureBeat の取材に対して次のように答えた。

LangStream は、ジェネレーティブ AI に取り組む開発者がアプリケーションを容易に構築できるよう支援し、LLM の高品質なプロンプトを実現するためにさまざまなソースからのデータを調整するプロセスを簡素化するため、大きなメリットをもたらします。これにより、スケーラブルで実稼働可能な実世界の AI アプリケーションを、幅広い種類のデータで構築することがはるかに簡単になります。(Bonaci 氏)

LangStream はオープンソースプロジェクトとして開発されており、これは DataStax が Apache Pulsar や Apache Cassandra データベースなど、商用活動で利用している他の技術と連携する方法と同じアプローチをとっている。

DataStax は、オープンソースコミュニティと協力してきた長い歴史があります。特に、今日最も人気のあるテクノロジーに携わる開発者にとって、非常に関連性の高いプロジェクトです。(Bonaci 氏)

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する