Hugging Face、元Apple研究者創業のXetHubを買収——より大規模なAIモデルやデータセットが保存可能に

SHARE:
Image credit: Hugging Face

Hugging Face は8日、シアトルを拠点とする XetHub を買収したと発表した。XetHub は、機械学習(ML)チームが大規模なデータセットやモデルをより効率的に扱うことができるよう、元 Apple 研究者によって設立された共同開発プラットフォームである。

買収の正確な金額はまだ公表されていないが、Hugging Face の CEO Clem Delangue 氏は Forbes とのインタビューで、これは同社がこれまでに行った最大の買収であると述べた。

Hugging Face のチームは、XetHub のテクノロジーを同社のプラットフォームと連携し、ストレージバックエンドをアップグレードすることで、開発者が最小限の労力で、現在よりも大規模モデルやデータセットをホストできるようにする計画だ。

Hugging Face の CTO Julien Chaumond 氏はブログ投稿に次のように書いている。

XetHub チームは、Hub のレポジトリのストレージバックエンドを我々独自の優れたバージョンの LFS に切り替えることで、Hugging Face のデータセットとモデルの次の5年間の成長を解き放つ手助けをしてくれる。

XetHub は Hugging Face に何をもたらすのか?

XetHub のチーム
Image credit: XetHub

XetHub は、Apple 社内の ML インフラに携わっていた Yucheng Low 氏、Ajit Banerjee 氏、Rajat Arya 氏によって2021年に設立され、大規模モデルやデータセットを探索、理解、作業するためのプラットフォームを企業に提供することでその名を知られるようになった。

XetHub は、最大数テラバイトのリポジトリに対して、Git のようなバージョン管理を可能にし、ML ワークフローにおける変更点の追跡、コラボレーション、再現性の維持を可能にした。

この3年間で、XetHub は Tableau や Gather AIと いった大手企業を含む大規模な顧客ベースを獲得し、絶え間なく増大するツール、ファイル、成果物から生じる複雑なスケーラビリティニーズに対応できるようになった。コンテンツ定義のチャンキング、重複排除、インスタント・リポジトリ・マウンティング、ファイル・ストリーミングなどの高度な技術を駆使して、ストレージと転送プロセスを改善した。

今回の買収により、XetHub プラットフォームは消滅し、そのデータとモデル処理機能が「Hugging Face Hub」に導入され、より最適化されたストレージとバージョニングバックエンドでモデルとデータセットの共有プラットフォームがアップグレードされる。

ストレージ面では、HF Hub は現在 Git LFS(Large File Storage)をバックエンドとして使用している。これは2020年にローンチされたが、AI エコシステムにおける大容量ファイルの絶え間ない増加を考えると、ストレージシステムがある時点から十分でなくなることは以前からわかっていたと Chaumond 氏は言う。しかし、同社にはアップグレードが必要であり、それが XetHub で実現することになる。

現在、XetHub プラットフォームは、1TB を超える個々のファイルをサポートし、リポジトリの合計サイズは100TB をはるかに超える。これにより、HF Hub は現在よりもさらに大きなデータセット、モデル、ファイルをホストできるようになる。

その上、XetHub の追加ストレージと転送機能により、このパッケージはさらに有利になるだろう。

例えば、このプラットフォームのコンテンツ定義チャンキングと重複排除機能により、ユーザはデータセットが更新された場合、ファイル一式を再度アップロードするのではなく、新しい行の選択チャンクをアップロードできるようになる(これには多くの時間がかかる)。モデルリポジトリについても同様である。

今後数ヶ月の間に、この分野が兆単位のパラメータモデルへと移行していく中で(新しい「BigLlama-3.1-1T」を提供してくれたMaxime Labonne 氏に感謝する)、この新しい技術がコミュニティと企業内部の両方で新しいスケールを解放してくれることを期待している。(Chaumond 氏)

Chaumond 氏はまた、両社が緊密に協力し、HF Hub の資産に関するチームの共同作業を支援し、それらがどのように進化しているかを追跡することを目的としたソリューションを立ち上げる予定であるとも付け加えた。

現在、Hugging Face Hub は130万モデル、45万データセット、68万スペースをホストしており、LFS の総量は12PB に達する。

より大きなモデルやデータセットをサポートできるようになったストレージバックエンドの強化によって、この数がどのように増えていくのか興味深い。その他のサポート機能の統合とローンチのスケジュールは、現段階では不明である。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する