bool(false) bool(false)

BCGのコンサルタント、「GPT-4」利用で仕事効率が平均40%向上——ハーバード大の研究で明らかに

SHARE:
Image by rawpixel.com on Freepik

ハーバード大学が発表した研究によると、Boston Consulting Group(BCG)で働く数百人のコンサルタントは、ジェネレーティブ AI を使用することで、AI を使用しないコンサルタントに比べて、より頻繁に、より迅速に、より高い品質でさまざまなタスクを完了できるようになったという。

さらに、ジェネレーティブ AI を使用した場合、グループの中で最も成績の低い者が最も大きな利益を得たことが示された。

ハーバード大学、ウォートン大学、マサチューセッツ工科大学(MIT)のデータサイエンティストと研究者によって行われたこの研究は、2022年11月に公開された「ChatGPT」の爆発的な成功以来、企業におけるジェネレーティブ AI の実際の使用に関する初めての重要な研究である。研究者たちは、今年1月に研究を開始し、最も強力な大規模言語モデル(LLM)と広く考えられている「GPT-4」を実験に使用するという迅速な行動をとった。この研究は、企業が GPT-4の導入にどのように取り組むべきかについて、いくつかの重要な示唆を与えている。

この論文の主執筆者であるハーバード大学の Fabrizio Dell’Acqua 氏は、VentureBeat に次のように語った。

一流の MBA 教育機関に所属する、高給取りで高度なスキルを持つコンサルタントのパフォーマンスを、日常業務と非常に関連性の高いタスクで平均40%向上させることができたという事実は、本当に素晴らしいことです。

この報告書は9日前に一般公開されたが、学界とその社交界以外ではあまり注目されなかった。

BCG コンサルタントのパフォーマンスの違い(AIを使ったコンサルタントと使わなかったコンサルタントを比較)
Image credit:Navigating the Jagged Technological Frontier
Fabrizio Dell’Acqua 氏

この報告書は、ジェネレーティブ AI が労働生産性に多大な影響を与えることを確認する最新の研究である。その見出しはさておき、この調査は AI を使うべきでな場合について、いくつかの注意すべき調査結果を示している。ギザギザのテクノロジーフロンティア(jagged technology frontier)と呼ばれる AI が容易にこなせる作業と、AI の現在の能力の範囲外である作業との間には、判別が難しい障壁が存在すると結論づけている。

そのフロンティアはギザギザであるだけでなく、AI の能力が向上したり変化したりするにつれて常に変化していると、BCG のシニアパートナーで、BCG側 から実験の運営を担当した Francois Candelon 氏は VentureBeat のインタビューで語った。そのため、組織は AI をいつ、どのように導入するかを決めるのが難しくなっていると同氏は言う。

研究チームはまた、テクノロジーに精通したコンサルタントに見られる2つの AI 利用パターン(研究チームは「サイボーグ」と「ケンタウロス」と名付けた)を指摘し、AI の能力が不確かなタスクへのアプローチ方法を示す可能性があると結論づけた。これについてはまた後ほど紹介する。

企業における AI の利用状況を大規模に調査

この調査には、BCG のコンサルタントの7%に当たる758人のコンサルタントが参加した。AI のフロンティアとされる18のタスクのそれぞれについて、コンサルタントは AI を使用していないグループに比べ、平均12.2%多くタスクを完了し、25%早くタスクを完了した。さらに、AI を使用したコンサルタント(この研究では GPT-4 へのアクセスが提供された)は、そのようなアクセスを持たない対照グループと比較して、40%高い品質の結果を出した。

この研究のもう一人の貢献者であるペンシルベニア大学ウォートンスクール教授の Ethan Mollick 氏は、論文の中で次のように書いている。

成績はあらゆる面で向上しました。私たちがパフォーマンスを測定したあらゆる方法で、パフォーマンスは向上しました。

研究者たちはまず、GPT-4 を使用せずに一般的なタスクのパフォーマンスを把握するために、参加者それぞれのベースラインを設定した。その後、BCG チームがコンサルタントの仕事を正確に表現するために選んだ架空の靴会社で、コンサルタントにさまざまな仕事をしてもらった。

「GPT-4」は、多くの重要でハイレベルなタスクのスキルレベルアップに役立つ

Ethan Mollick 氏

タスクの種類は、創造的なもの(例:「未開拓の市場やスポーツをターゲットにした新しいシューズのアイデアを10以上提案する」)、分析的なもの(「ユーザーに基づいて靴業界の市場をセグメント化する」)、ライティングとマーケティングに関連したもの(「製品のプレスリリース・マーケティングコピーを起草する」)、説得力重視のもの(「なぜあなたの製品が競合他社に勝るのかを詳しく説明した、従業員を鼓舞するメモを作成する」)の3つだ。

より興味深い発見のひとつは、AI がスキルのレベルアップにつながったことだ。調査前のベースラインパフォーマンスが最も悪かったコンサルタントは、AI を使用することで43%もの大幅なパフォーマンスアップを見せた。トップコンサルタントは、それよりも低いものの、さらに向上した。

しかしこの研究では、AI が不得意とする仕事にAI を使う人ほどミスを犯す可能性が高く、信頼すべきでない時にAIを信頼してしまうことが判明した。

研究の主要な結論のひとつは、AI の内部構造はまだ不透明であり、特定のタスクに使用するのに十分な信頼性がいつ得られるかを正確に知るのは難しいというものだ。これは、組織にとっての今後の大きな課題のひとつである、と同調査は述べている。

ケンタウロスとサイボーグの行動が、進むべき道を示すかもしれない

しかし、一部のコンサルタントは「ケンタウロス」や「サイボーグ」と呼ばれるように、AIと人間の仕事の間を行き来し、双方の長所を組み合わせることで、他のコンサルタントよりもうまくフロンティアをナビゲートしているようだと報告書は指摘した。ケンタウロスは、人と機械の間に明確な境界線を持ち、それぞれの長所や能力の認識に応じて、AI と人間の仕事を切り替えて働く。一方、サイボーグは、ほとんどの仕事において機械と人間を融合させていた。

私は、これが仕事の方向性だと思います。(Mollick 氏)

それでも、AI で本当に改善できるタスクの壁は見えないままだ。

例えば、ソネットを書くことと、50語ちょうどの詩を書くことは、論理的には中心からの距離が同じで、同じように難しいように見えるかもしれないが、実際には壁の異なる側にあります。AIはソネットが得意ですが、世界を言葉ではなくトークンで概念化するため、50語以上の詩も50語以下の詩も一貫して作り出します。(Mollick 氏)

同様に、思いがけない仕事(アイデアの創出など)は AI にとって簡単である一方、機械にとっては簡単にできそうな仕事(基礎数学など)は LLM にとっては難題であることが、この研究で明らかになった。

AIが人間の居眠り運転を誘発する可能性

問題は、人間が AI の能力領域を過大評価する可能性があることだ。この論文は、ハーバード大学の Dell’Acqua 氏が行った他の先行研究を裏付けるもので、AI の能力を信頼することは、人間によるAIへの危険な過度の依存を招き、より悪い結果をもたらす可能性があることを示している。VentureBeat とのインタビューで Dell’Acqua 氏は、ユーザーは本質的に脳のスイッチを切り、AI に判断を委託していると述べた。Dell’Acqua 氏は2021年半ばの重要な研究で、この「居眠り運転」を造語し、AI を使って応募者を探すリクルーターが怠慢になり、AI を使わなかった場合よりも悪い結果を生むことを発見した。

最新の研究では、AI が均質化をもたらすことも判明した。この研究では、靴会社の新市場のアイデアについて被験者が提示したアイデアのばらつきを調べたところ、AI を使用していないコンサルタントが作成したアイデアに比べて、アイデアの質は高いものの、ばらつきが少ないことがわかった。このことは、GPT-4 が優れたコンテンツの生成を助ける一方で、より均質化されたアウトプットにつながる可能性があることを示唆している。

AI による同質性にどう立ち向かうか

Francois Candelon 氏

この研究では、企業はこの均質化に対抗するために、多様なAIモデル(Open AI の GPT-4 だけでなく、複数の LLM)の導入、あるいは人間だけの関与の増加を検討すべきだと結論づけている。この必要性は、企業の製品によって異なるかもしれない。平均的なアウトプットの高さを優先する企業もあれば、探索やイノベーションを重視する企業もあるだろうと研究は述べている。

多くの企業が競争環境の中で同じ AI を使用し、その結果アイデアの均一性が低下する限り、AI の支援を受けずにアイデアを生み出している企業が目立つ可能性があるとしている。

BCG の Francois Candelon 氏は、同質性リスクに関するこの研究結果は、AI アプリケーションで使用するためのクリーンで差別化されたデータを収集し続けるよう組織に強いるだろうと述べた。

ジェネレーティブ AI では、クリーンなデータを確保するだけでなく、それを収集する方法を見つけることがさらに急務となります。ある程度まで、これは差別化の鍵のひとつになるでしょう。

OpenAI の ChatGPT、Google の「Bard」、Anthropic の「Claude」、そして Meta の「Llama」など多くのオープンソースの LLM プラットフォームは、精度を向上させるだけでなく、特定の分野での専門性や差別化を向上させることができるように、企業が独自のデータをモデルに注入することによって結果をカスタマイズできるようになってきている。

BCG の Candelon 氏によると、この研究は社内で AI をどのように活用するかという意思決定に大きな役割を果たしているという。そう、この研究では、AI には専門的な知識を提供する驚くべき能力があることがわかり、AI の効果は、最も創造的で、高給取りで、高学歴の労働者ほど高くなると予想されると結論づけている。そのため、BCG で最もパフォーマンスの低い人たちのパフォーマンスが平準化された。しかし、Candelon 氏は、BCG のコンサルタントのスキルレベルは一般集団と比較すると比較的均質であるため、最下位と最良のパフォーマーのパフォーマンスの差はそれほど大きくないと述べた。従って、この研究が、コンサルティングや戦略業務に関するトレーニングをほとんど受けていない人を雇い始める可能性を示唆したとは、Candelon 氏は考えていない。

ケンタウロスとサイボーグの行動には、どのようなタスクが適しているのか、さらに研究が進むだろう。

この研究では、ある種のタスクは一貫してAIの方がうまくこなせることが確認されたことになる。Candelon 氏は、企業は、AI が最初のドラフトとして生成するのに最適であると結論づけ、常に人間が強化されることを強いるという間違いを犯すべきではないと述べた。彼は、企業はその逆をやるべきだと言う。

AI が本当に得意とすることは AI にやらせ、人間はそのフロンティアの外に出て、本当に深く掘り下げ、他の仕事に時間を割くようにすべきなのです。

ケンタウロスの行動は注目に値するという。ケンタウロスは、インタビューの要約やその他のクリエイティブなタスクなど、一部のタスクを AI に任せる一方で、データに関するタスクや変更管理など、人間の能力に関連したタスクに集中することを学んでいるからだ。しかし、ケンタウロスとサイボーグの行動をもっと調査する予定だという。サイボーグになった方が、人間と AI の能力をミックスできる場合もあるからだ。

私がここでやっているような AI 研究の報告書を、報告書の結論に対する研究者の見解についてのインタビューを交えて書き上げることに関しては、機械が人間より優れているかどうかの審査はまだ終わっていないと考えている。

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する