GoogleがGeminiの新版「パーソナルヘルス特化LLM」を発表、睡眠やフィットネス分野で専門家を凌駕するケースも

SHARE:
Image credit: Google Research

Google Gemini」は誕生してまだ6カ月だが、セキュリティコーディングデバッグなどの分野ですでに素晴らしい能力を発揮している(もちろん、重大な限界も示している)。

現在、大規模言語モデル(LLM)は、睡眠とフィットネスのアドバイスに関して人間を凌駕している。

Google の研究者は、スマートウォッチや心拍計などのウェアラブルから得られる時系列のパーソナルヘルスデータを理解し、推論するためにファインチューニングされた Gemini のバージョン「Personal Health Large Language Model(PH-LLM)」を発表した。彼らの実験では、このモデルは、健康やフィットネスの分野で長年の経験を持つ専門家よりも明らかに優れた回答をし、予測を行った。

我々の研究は……モデルの有用性を、健康状態の予測だけから、複雑な健康行動に依存する、首尾一貫した、文脈に沿った、潜在的に処方的な出力も提供するように拡張するために、生成 AI を採用しています。(研究者)

睡眠とフィットネスのエキスパートとしての Gemini

ウェアラブル技術は、人々が自分の健康をモニターし、理想的には有意義な変化をもたらすのを助けることができる。これらのデバイスは、運動や食事のログ、気分の日記、時にはソーシャルメディアの活動などの入力から「受動的かつ継続的に取得される」個人の健康モニタリングのための「豊富で縦断的なデータ源」を提供すると、Google の研究者は指摘している。

しかし、睡眠、身体活動、心代謝系の健康状態、ストレスに関するデータは、「散発的なもの」であるため、臨床の場に取り込まれることはほとんどない。おそらくこれは、データが脈絡なく取得され、保存と分析に多くの計算を必要とするためだろうと研究者たちは推測している。さらに、データの解釈も難しい。

また、医学的な質問に対する回答、電子カルテの分析、医療画像に基づく診断、精神医学的な評価に関しては、LLM はよくやっているが、ウェアラブルからのデータについて推論し、推奨する能力には欠けていることが多い。

しかし、Google の研究者たちは、PH-LLM を訓練することで、推奨を行い、専門的な診察の質問に答え、自己申告による睡眠障害や睡眠障害の結果を予測する画期的な成果を上げた。このモデルには多肢選択式の問題が与えられ、研究者たちはチェーン・オブ・ソート(人間の推論を模倣すること)やゼロショット法(以前に遭遇したことのない物体や概念を認識すること)も行った。

印象的なことに、PH-LLM は睡眠試験で79%、フィットネス試験で88%を達成した。これはどちらも、プロのアスレチックトレーナー5人(平均経験13.8年)と睡眠医学の専門家5人(平均経験25年)を含む人間の専門家のサンプルの平均点を上回った。人間の平均スコアは、フィットネスで71%、睡眠で76%だった。

あるコーチング推薦の例で、研究者はモデルにこう促した。

あなたは睡眠医学の専門家です。あなたは睡眠医学の専門家です。ユーザは50歳の男性です。最も重要な洞察を挙げてください。

PH-LLM は答えた。

彼らは入眠に問題を抱えています…身体の回復には十分な深い睡眠が重要です。寝室を涼しく、暗くすること…昼寝を避け、一貫した睡眠スケジュールを保つこと。

一方、「ベンチプレスのゆっくりとしたコントロールされた下降局面で、大胸筋にどのような筋収縮が起こるか」という質問に対しては、4つの選択肢を与えられた。PH-LLM は「エキセントリック」と答えた。

患者が記録した収入について、研究者はモデルに尋ねた。

「このウェアラブルデータに基づくと、ユーザは入眠困難があると報告しますか?」と質問したところ、「この人は、過去1ヶ月の間に何度か入眠困難を経験したと報告する可能性が高い」と答えた。

安全性が重要視される個人の健康領域では、さらなる開発と評価が必要であるが、これらの結果は、Gemini モデルの幅広い知識ベースと能力の両方を実証しています。(研究者)

パーソナライズされた洞察を提供できる Gemini

これらの結果を得るために、研究者たちはまず、身体活動、睡眠パターン、生理学的反応、専門家の領域知識、自己申告による睡眠の質に関する予測から、パーソナライズされた洞察と推奨をテストする3つのデータセットを作成し、キュレーションした。

研究チームは、睡眠とフィットネスに関する実世界のシナリオを表す857のケーススタディ(前者は507、後者は350)を、専門家と共同で作成した。睡眠シナリオでは、個々の測定基準を用いて潜在的な原因因子を特定し、睡眠の質を向上させるためのパーソナライズされた推奨事項を提示した。フィットネスタスクでは、トレーニング、睡眠、健康指標、ユーザフィードバックからの情報を利用して、その日の身体活動の強度に関する推奨事項を作成した。

両カテゴリのケーススタディには、人口統計学的情報(年齢と性別)と専門家による分析だけでなく、睡眠については最大29日間、フィットネスについては30日間以上のウェアラブルセンサーデータが組み込まれた。

センサーデータには、総合睡眠スコア、安静時心拍数と心拍変動の変化、睡眠時間(開始時刻と終了時刻)、覚醒分、落ち着きのなさ、レム睡眠時間の割合、呼吸数、歩数、脂肪燃焼分などが含まれた。

私たちの研究は、PH-LLM がウェアラブルデバイスから受動的に取得した客観的データを、パーソナライズされた洞察、観察された行動の潜在的な原因、睡眠衛生とフィットネスの成果を改善するための推奨事項に統合できることを示しています。(研究者)

パーソナルヘルスアプリの課題はまだ多い

それでも研究者たちは、PH-LLM はまだ始まったばかりであり、他の新興技術と同様、解決すべきバグがあることを認めている。例えば、モデルによって生成された回答は必ずしも一貫しておらず、ケーススタディによって「顕著な違い」があった。

フィットネスのケーススタディでは、モデルは過剰訓練に敏感であり、あるケースでは、人間の専門家が、潜在的な危害の原因として睡眠不足を特定できなかったことを指摘した。また、ケーススタディは、人口構成や比較的活動的な個人を幅広く抽出したものであるため、母集団を完全に代表するものではない可能性が高く、睡眠とフィットネスに関するより広範な懸念を扱うことはできなかった。

研究者らは次のように述べている。

LLM の信頼性、安全性、公平性を確保するためには、まだ多くの課題が残されています。(研究者)

これには、混同をさらに減らすこと、センサー情報では捉えられない独自の健康状況を考慮すること、トレーニングデータが多様な人々を反映していることを確認することなどが含まれる。

この研究結果は、個人の健康目標達成をサポートする、個人に合わせた情報と推奨を提供する LLM に向けた重要な一歩です。(研究者)

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する