DatabricksとHugging Face、AIモデル構築高速化に向けApache Sparkを連携

SHARE:
Image credit: Databricks

DatabricksHugging Face は共同で、Apache Spark データフレームから Hugging Face データセットを作成することができる新機能を発表した。人工知能(AI)モデルのトレーニングや微調整のためのデータのロードと変換をより簡単にする方法を提供する。ユーザは、Spark データフレームを Hugging Face データセットにマッピングし、トレーニングパイプラインに統合することができるようになった。

この機能により、Databricks とHugging Face は、AI モデル用の高品質なデータセットを作成するプロセスを簡素化することを目的としている。また、この統合は、モデルの訓練と微調整のために効率的なデータ管理ツールを必要とするデータ科学者やAI開発者にとって、非常に必要なツールを提供する。

Databricks は、Hugging Face のデータセットから得られるメモリマッピングとスマートキャッシングの最適化により、Spark のコスト削減とスピードの利点という両者の長所がもたらされると述べ、組織が大規模なAIデータセットに対してより効率的なデータ変換を実現できるようになるとしている。

Spark のポテンシャルを最大限に引き出す

Databricks の社員が Hugging Face のリポジトリに Spark のアップデートを書き、コミット(ソースコードをリポジトリに修正)した。from_spark 関数を呼び出すだし、Spark データフレームを提供することで、ユーザはモデルのトレーニングやチューニングの準備が整った Hugging Face データセットをコードベースで入手できるようになった。複雑で時間のかかるデータ準備プロセスが不要になる。

Databricks は AI モデル開発にとって大きな前進であり、ユーザはモデルチューニングのためにSparkの潜在能力を最大限に引き出すことができるとしている。

Hugging Face のマネタイズとグロースの責任者 Jeff Boudier 氏は、VentureBeat に次のように語った。

AI の中核にあるのは、すべてデータとモデルである。この2つの世界をオープンソース層でより良く連携させることで、誰もがアクセスできる堅牢な AI ワークフローを実現し、AI 採用を加速させることができる。この統合により、Spark から Hugging Face のデータセットにデータを持ち込む際の摩擦が大幅に軽減され、新しいモデルを訓練して仕事をこなすことができるようになる。私たちは、ユーザがそれを活用するのを見るのが楽しみである。

モデル開発のためのSparkデータフレームを統合する新しい方法

Databricks は新機能が、機械学習(ML)ワークフローを強化するために大量のデータを迅速かつ確実に処理する必要がある企業にとって、画期的なものになると確信している。

従来、ユーザはデータをオープンソースの列挙型フォーマットであるパケットファイルに書き出し、Hugging Face データセットを使って再読み込みする必要があった。Spark データフレームは、Hugging Face データセットがサポートする幅広い入力タイプにもかかわらず、以前はサポートされていなかった。

しかし、新しいfrom_spark関数により、ユーザは Spark を使用してトレーニング用のデータを効率的にロードおよび変換し、データ処理の時間とコストを劇的に削減することができるようになった。

Databricks の製品管理担当シニアディレクター Craig Wiley 氏は次のように述べている。

従来の方法は有効であったが、Spark に固有の効率性と並列性の多くを回避していた。例えるなら、PDF をアップロードする代わりに、各ページをプリントアウトし、再スキャンするようなものだ。最新の Hugging Face リリースでは、Hugging Face データセットがコードベースに直接ロードされ、モデルのトレーニングやチューニングができる状態で戻ってくる。

処理時間の大幅な短縮

Spark の並列化機能を利用してデータセットのダウンロードと処理を行い、データを再フォーマットする余分なステップを省くことができる。Databricks は、16GB のデータセットの処理時間が40%以上短縮され、22分から12分に縮まったとしている。

AI モデルは本質的にトレーニングに使用するデータに依存するため、組織はデータの使用量と微調整やトレーニングの量を決める際に、コストとパフォーマンスのトレードオフを議論することになる。Spark は、データ処理にスケールでの効率化をもたらし、Hugging Face は、独自の AI モデルをトレーニングするための基盤として使用できるオープンソースモデル、データセット、ライブラリの進化したリポジトリを彼らに提供する。(Wiley 氏)

オープンソースのAI開発への貢献

Databricks は、Hugging Face がオープンソースのモデルやデータセットを提供することに優れていると評価し、新リリースを通じてオープンソースコミュニティを支援する。また、データセットの読み込みを強化するために、Spark によるストリーミングサポートを導入する予定である。

Databricks は、Spark、Delta Lake、MLflow などのプロジェクトにおいて素晴らしいコラボレーションを直接目の当たりにしてきたことから、オープンソースコミュニティを常に非常に強く信じている。次世代の AI を育てるには村が必要だと考えており、Hugging Face はこの同じ理想を支える素晴らしいサポーターだと考えている。(Wiley 氏)

Databricks は最近、同社のプラットフォーム上での分散 PyTorch トレーニングを促進するために Spark 用の PyTorch ディストリビュータを導入し、SQL サービスに AI 機能を追加して、ユーザが OpenAI(または将来的に独自のモデル)をクエリーに統合できるようにした。

さらに、MLflow の最新リリースでは、トランスフォーマーライブラリ、OpenAIの統合、Langchain のサポートが含まれている。

MLflow の最新リリースでは、変換ライブラリ、OpenAI の連携、Langchain のサポートに加え、ジェネレーティブ AI やより広範な ML プラットフォームに関する多くの取り組みが行われている。組織は、独自の AI 基盤を構築するために必要なツールに簡単にアクセスする必要があり、我々は彼らのために世界最高のプラットフォームを提供するために懸命に働いている。(Wiley 氏)

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。
  • 会員限定記事・毎月3本
  • コミュニティDiscord招待
無料メンバー登録