企業に眠る「非構造化データ」を AI プロジェクトに活用せよーーActiveloop が YC などから 1,100 万ドルを獲得

SHARE:
Credit: VentureBeat made with Midjourney

カリフォルニアに拠点を置くスタートアップ Activeloop は、企業が AI プロジェクトのためにマルチモーダルデータを活用しやすくするための専用データベースを提供している。同社は本日(3月26日)、シリーズ A ラウンドで1,100万ドルの資金調達を行ったと発表した。出資者は Streamlined Ventures、Y Combinator、Samsung Next(Samsung Group のスタートアップ支援部門)など複数の投資家だ。

データプラットフォームは多数存在するが、プリンストン大学中退の Davit Buniatyan(ダビット・ブニアティアン)氏が設立した Activeloop は、企業が現在直面している最大の課題の1つである AI モデルのトレーニングのための非構造化マルチモーダルデータの活用に取り組むシステムを備えているため、独自の地位を確立している。同社は、この「Deep Lake」と呼ばれる技術により、市場に出回っている製品と比べて最大75%低いコストで AI アプリケーションを作成でき、エンジニアリングチームの生産性を最大5倍に向上させることができると主張している。

さまざまなユースケースを対象とした AI アプリケーションのために、複雑なデータセットを活用する方法を模索する企業が増えるなか、この研究は重要だ。McKinsey の調査によると、生成 AI は、顧客対応、マーケティングや販売のためのクリエイティブコンテンツの生成、自然言語プロンプトに基づくソフトウェアコードの作成など、数十の分野で大きな影響を与え、年間2.6兆ドルから4.4兆ドルの世界の企業利益を生み出す可能性があるという。

Activeloop Deep Lake は何の役立つのか?

Activeloop の Deep Lake は、テキスト、音声、動画などのモダリティを網羅するペタバイト規模の非構造化データを扱うことで、高性能な基盤 AI モデルのトレーニングを支援する。通常、このタスクでは、整理されていないサイロから関連するデータセットを特定し、さまざまなストレージおよび検索技術を使用して継続的に活用する必要がある。これには、エンジニアによる多くのボイラープレートコーディングと統合が必要であり、プロジェクトのコストが増加する可能性がある。

Activeloop は Deep Lake の標準化によってこの一貫性のないアプローチを解決する。Deep Lake は、画像、動画、アノテーションなどの複雑なデータを機械学習(ML)に適した数学的表現(テンソル)の形式で保存し、これらのテンソルを SQL ライクな Tensor Query Language、ブラウザ内の可視化エンジン、PyTorch や TensorFlow などのディープラーニングフレームワークにストリーミングすることを容易にする。

これにより、開発者は、マルチモーダルデータのフィルタリングと検索から、時間の経過に伴うバージョンの追跡と比較、さまざまなユースケースを目的としたモデルのトレーニングへのストリーミングまで、すべてを1つのプラットフォームで行うことができる。

Activeloop Deep Lake でゾウを検索する

VentureBeat とのインタビューでBuniatyan 氏は、Deep Lake は vanilla data lake のすべての利点(サイロからのマルチモーダルデータの取り込みなど)を提供するが、それらすべてをディープラーニングアルゴリズムが入力として期待するテンソル形式に変換することで際立っていると述べた。

テンソルは、AWS S3などのクラウドベースのオブジェクトストレージまたはローカルストレージにきちんと保存され、クラウドからグラフィックス処理ユニット(GPU)にシームレスにストリーミングされ、完全に活用されるのに十分なデータのみを計算に引き渡す。以前の大規模データセットを扱うアプローチでは、データをバッチでコピーする必要があり、GPU がアイドル状態になっていた。

Buniatyan 氏は、2018年にプリンストン大学の神経科学研究所で何千もの高解像度のマウスの脳スキャンを保存および前処理する際の課題に直面したときに、Activeloop とこの技術に取り組み始めたと述べた。それ以来、同社はオープンソースと独自の2つの主要カテゴリを持つコアデータベース機能を開発してきた。

「オープンソースの側面には、データセット形式、バージョン管理、ストリーミングやクエリなどのための幅広い API が含まれます。一方、独自の部分には、高度な可視化ツール、知識検索、高性能ストリーミングエンジンが含まれ、これらが一体となって製品の全体的な機能性と魅力を高めています」と彼は VentureBeat に語った。

CEO は Activeloop が協力している顧客の正確な数は明かさなかったが、オープンソースプロジェクトは現在までに100万回以上ダウンロードされており、企業セグメントでの同社の存在感を高めていると指摘した。現在、企業向けの製品は使用量ベースの価格モデルで提供されており、バイオファーマ、ライフサイエンス、メドテック、自動車、法律など、規制の厳しい業界のフォーチュン500企業に利用されている。

顧客の1つである Bayer Radiology は、Deep Lake を使用して、さまざまなデータモダリティを単一のストレージソリューションに統合し、データの前処理時間を合理化し、自然言語でスキャンを照会できる新しい「chat with X-rays」機能を実現した。

「Activeloop の知識検索機能は、Activeloop が提供する業界にとって重要な、市場の他の製品と比べて最大75%低いコストでソリューションを作成し、検索精度を大幅に向上させるように最適化されています」と創業者は付け加えた。

成長計画

この資金調達により、Activeloop は企業向け製品を構築し、より多くの顧客を AI 用のデータベースに取り込み、複雑な非構造化データを整理し、容易に知識を取得できるようにする計画だ。

同社はまた、この資金を使用してエンジニアリングチームを拡大する予定だ。

「予定されている主な開発は、Deep Lake v4の今後のリリースで、より高速な同時 IO、モデルのトレーニング用の最速のストリーミングデータローダー、完全な再現可能なデータリネージ、外部データソースの統合が含まれます」と Buniatyan 氏は述べ、このスペースには多くの顧客がいるが「直接の競合相手はいません」と主張した。

最終的に、彼はこの技術により、企業がデータ整理と検索のためのインハウスソリューションに数百万ドルを費やすことを防ぎ、エンジニアが多くの手作業とボイラープレートコーディングを行うことを防ぎ、生産性を高めることを期待している。

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。
  • 会員限定記事・毎月3本
  • コミュニティDiscord招待
無料メンバー登録