OpenAIが対話型AI「ChatGPT」の3.5バージョンを公開したのが昨年11月。2月にはMicrosoftの検索エンジンBingと連携したチャット型検索のBing-GPTがお目見えし、3月のバージョン4とAPI、そしてプラグイン公開でこの流れは一気に世界のサービスを飲み込むことになります。
機械学習やディープラーニングによる効率化はこれまでも各所で謳われ、数多く実装されてきましたが、今回発生した一連のジェネレーティブ(生成)AIの波は、自然言語を入り口としたことでかつてないインパクトをもたらすことになります。
東大・松尾豊教授の言葉の通り、世界は日々刻々と変わりつつあります。その中で、私たち、特にスタートアップはどのようなバリューを生み出すべきでしょうか。自身も東京大学で機械学習の研究からニュースアプリ「Gunosy」を開発し、今、LayerXにて産業のデジタル化を推進する福島良典氏にインタビューを実施しました。
AIを研究した一人として、また上場を経験し、今もなおサービスを躍進させる起業家として、今回の爆発的なうねりをどうみるのでしょうか(文中の太字の質問は全て筆者、回答は福島氏。敬称は略させていただきました)。
ChatGPTが話題ですが、それ以前にLayerXではバクラクシリーズで既に評判を得ていました。AIがサービスに与える価値をどのように考えていますか
福島:LayerXでもAIをサービスに活用しています。支出管理サービス「バクラク」のユーザーに対する価値という点で一番評価いただいている点は、「手入力をなくす」ことなんですよ。このこと自体はAIだからこそ出せる価値と言えます。請求書やレシートは画像情報(紙、写真、pdf)で存在します。画像データそのものはどこに何が書いてあるかを教えてくれないので解釈が必要です。
そこでAIを使い、画像から重要情報を抜き取り、データ化することをやっています。また単にデータ化するだけではなく、過去の会計の仕訳帳や取引先データ、請求書やレシートに書かれている情報から仕訳をサジェストすることも特徴です。それ以外にもバクラクでは稟議のサービスを提供していますが、稟議を書く際、請求書やレシートからAIが下書きもしてくれます。
このように画像からデータを読み取るというところと、読み取った後のエキスパート業務を補完するということをAIを使って実現しています。おそらくこれまでこういった業務の代替手段は人力しかなかったと思います。
こういった業務に対して、近年のディープラーニングの発展により人間に負けない、あるいは一部では人間を凌駕するような精度を実現できるようになりました。機械が物事を認識できるようになり、手入力をなくすという体験が初めて可能になったんです。
そもそも手入力をなくすためにデータとデータで繋ぐ、データでやり取りするという考え方もあります。多くの会社は請求書を発行する際、「請求書発行システムに基本情報(会社名、支払金額など)を入力、pdfを発行、印刷して送付もしくはメールで送付」といった業務をしています。基本情報をデータとして送ってくれれば、AIなどなくとも上記のバクラクの機能は実現できます。
将来的にはそうなって欲しいなと思う一方、現実は、習慣的に紙やPDFといった画像情報で送られてくることが多いため、そこには解釈が必要になります。そこで手入力をなくすには、AIや機械学習的なアプローチを使わないと実現できません。そして、それが圧倒的な工数の削減に繋がっているのが、今の僕らのバクラクが支持されている一番の理由だと思います。
具体的なAIの活用について改めて説明していただけますか
福島:当社ではLLMをOCR機能で使っています。OCR機能には画像を認識して、文字情報や座標情報を抽出する部分と、その抽出してきたデータの意味を理解し、例えば「これは支払金額っぽい」といった推論をする部分があります。当社では推論の部分に、GPTでも使われているTransformerを用いています。この分野の発展はかなり大きいと言えます。
ある事例では社内で「人間を超えている」と話題になりました。請求書やレシートのデータは機密情報なので詳しくはお見せできませんが、人間の目では見落としがちな情報を、我々の技術では正確に読み取ることができるんです。
僕らは、いろんなアルゴリズムを組み合わせてOCRの処理を実現しています。市販のOCR製品を使っても絶対に読み取れないようなものでも、僕らのチューニングの力で読み取ることができます。
特に推論の部分では、読み取った情報から「これは取引先っぽい」とか「これは支払金額っぽい」といった言語モデル的判断をしています。これは自前で実装しているものになります。
こういったAI部分に関しては、ChatGPTの出現からも容易に予測されるように、いずれは他社にキャッチアップされる可能性があると思います。ただ、僕らはAIが民主化されたからといって、バクラクが簡単に作れるとは思っていません。僕らが強みとしているのは問題設定の部分だと思っています。
競合製品も出てくる中どこが差別化要因になるのでしょうか
福島:差が出る部分は、先ほど申し上げた問題設定だという話です。例えば今、非常に興味深い話がありまして、このスライドは、うちの機械学習エンジニアのリーダーが学会で発表した内容になります。どのようなタスクとして考えるかという話で、例えばタスクを「請求書から読み取れる情報をそのまま正しく抜き出す」ことだとすると、近い将来多分誰でもできるようになるでしょう。
ただ、我々の場合、単に正しく読めているだけで正しいのかという話ではありません。問題の定義の部分が重要なのです。例えば、支払期日が書かれているものが2月28日だとして、それをそのまま読み取ればAI的には正解なのです。しかしこういうケースだとどうでしょう。例えば2月28日が日曜日だった場合は、実務上には2月26日に出すことが正解になるんです。そのまま読み取ることが正解にならないケースです。
他にも、金額が50万円と書いてある場合でも、実際に支払う金額は源泉税を差し引いた金額になるといったケースがあります。この場合も、支払い金額をそのまま読み取ったものが正解にはなりません。データを読み取った後の仕訳・支払の業務にも影響が出ます。AIを入れたのに逆に確認がめんどくさくなったという事態になりかねません。
このようにAIを具体的な実務に使えるアプリケーションに実装するには、問題設定が重要になります。問題設定は、プロダクトがユーザーの課題をどのように解決しているか、どのようなアプリケーションとして業務に入り込んでいるかといった部分で、深い業務の理解が必要です。請求書やレシートからどのような値を抜き出すべきかという正解自体が、ユーザーの使い方によって変わるのです。
つまり、我々が重視しているのはAIそのものではなく、アプリケーションだということを常に強調しています。アプリケーションがあり、そこにAIをビルトインして特定の問題に対して解決策を提供するわけですが、その特定の問題が手動で解決できる場合や単純なアルゴリズムで解決できる場合もあるわけです。単純なアルゴリズムでは解けない問題や、AIを活用することでユーザー満足度が向上する課題において、AIを使うことが優位性になります。もし問題が非常に単純であれば、シンプルなルールで解決しても構いません。
もしシンプルなルールでユーザー満足度が上がるなら、機械学習はオーバーエンジニアリングです。この課題はAIじゃないと解けない、この課題はもっとシンプルに解けそうだなといった判断こそ私は本当の価値があると思っています。だから、サービスに落とし込む際の問題設定そのものが価値の源泉であり、その問題に対して技術を適切に使うことが大事です。例えばGPTのような大規模言語モデルを使った方が良い場合、技術はどんどん民主化されていきますので、我々としては積極的に活用していこうと考えています。
当社ではこういった技術へのアジリティを高めるため、1日ハッカソンを行うなど活用事例を模索しています。
本日のLayerXバクラク事業部のレビュー会(プロダクトチームが週の成果物を見せ合いワイワイする会)でLLM/ChatGPT 1日ハッカソンの結果を各チームがデモしてめちゃ盛り上がった。欲しいが作れていない機能のオンパレード。
実際の組み込みはまだ先だが、動くものをシュッと作れる良さを改めて実感。
— Yuya Matsumura (@yu__ya4) March 24, 2023
ChatGPTの話題に移ります。まず福島さんはこの存在をどのようにみていますか
福島:まず基本を解説します。ChatGPTはGPTという基盤モデルをファインチューニングしたチャットボットです。基盤モデルの中でも特に言語に特化し大規模に学習したものをLLM(大規模言語モデル)といいます。ChatGPTは基盤モデルであるGPTをチューニングしたアプリケーションの一つということを理解して欲しいです。
基盤モデルの特徴ですが、従来の機械学習ではあるタスクを解く際、それに特化したデータ、特化したモデルを0から学習させていました。一方基盤モデルでは、事前に大規模に学習したモデルを作り、その後続タスクに対して少量のデータで目的に沿ったファインチューニングをします。大規模に事前学習したモデルを使う方が従来のやり方よりも精度が高くなることがわかっていて、近年の機械学習の大きな成果の一つとされています。
この前提で考えると、GPTのような大規模な事前学習がなされた基盤モデルは、AWSやApp Storeが最も正しいアナロジーだと思っています。
App Storeの登場でアプリが簡単に作れるようになり、また世界中のユーザーに簡単にアプリを配布できるようになりました。AWSの出現で自社でサーバーラックを持たなくてもスケーラブルなサービスが提供できるようになりました。このように技術が民主化され、様々なイノベーションがApp StoreやAWSの登場で起こりました。おそらく、このLLM(大規模言語モデル)においても、同じ捉え方ができるのではないでしょうか。
自社でビッグデータや計算資源を持たなくても、ポテンシャルの高い機械学習モデルを簡単に作成できるようになったという点で、民主化が進むでしょう。しかも、今までエンジニアがプログラムを書いていたのが、ChatGPTのようにプロンプトを使って自然言語で指示を出せるようになり、エンジニアでなくてもできるようになったんです。
もし今回のインタビューのような場面で適切な質問文(※1)を出すプログラムのようなものをChatGPTがない世界で自分で開発しようとすれば、とても大変だったのではないでしょうか。そもそもエンジニアじゃないと実現が不可能であったと思います。ですが、ChatGPTの出現でこういった推論の技術が非常に民主化されて、1リクエストが0.何円で利用できるわけです(※2)。
民主化の部分は技術的な変化の本質です。こういった変化を活用する会社が今後は大きく成長すると思います。一方で問題設定の部分は、現時点ではAIにはすべてはできないわけです。だから、どうやってLLMを使うかという点が本質なのです。スマホシフトの時代ではApp Storeが出現し、モバイルアプリの民主化が起こり、クラウドが登場してスケーラブルなアプリケーションが実現できるようになりました。
今はビッグデータと機械学習の民主化が進んでおり、ビッグテックだけが学習させられるような超大規模なデータを学習させたモデルが一般に開放されたのです。ビッグデータの時代からスモールな独自データによるアプリケーションの時代に入ったと思います。
ビッグテックも動き出しています。どういったスタートアップが生き残るのでしょう
福島:MicrosoftやGoogleが手がけないであろうラストワンマイルの付加価値を考える人が、これからどんどん台頭していくでしょう。逆に問題設定としてMicrosoftやGoogleが既に提供しているような技術を用いて簡単に実現できてしまうアプリケーションの場合、価値が低下してしまいます。
こういう時は第一原理思考を持って、今、この機械学習の大航海時代に今あるサービスや業務を0から再定義するならどう作るだろうか?という思考でサービスを作る人たちが次の世代に台頭してくるでしょう。
それは、現在の人たちからすると、どのようにそんなことができるのか理解しきれないような状況になるかもしれません。おそらく、そういった競争が始まると思われます。スマホシフトの時代にスマホファーストを謳うサービスが出てきたように、AIファーストなサービスが今後次々と出てくるでしょう。
改めてGunosyを作った頃の福島さんを思い返すと、機械学習を研究してあのサービスを開発したわけですが、技術的な観点でどのような驚きがありましたか
福島:一般論として、LLM(大規模言語モデル)が学習しているものは、Web上のオープンなデータです。一方で、世の中にはWeb上にオープンにはなっていない価値があるデータも存在します。ChatGPTはGPTを人が心地よく感じるようにチューニングしたものです。
実際、それはGPTをファインチューニングされた一例に過ぎず、例えばChatGPTでよくある反論として、平気で間違いを返してくるので使い物にならないと言われることがあります。私の考えではGPT自体を例えば法律の問題を解くように調整すればまず間違いなく実現できるものと思います。
LLMの真のポテンシャルはその汎用性の高さにあり、ChatGPTは人間が心地よく感じられるようにチューニングしたものの1つだ、という理解は非常に大切だと思います(※3)。
会計に特化したGPTや法律に特化したGPT、医学に特化したGPTのようなものも作れるでしょう。実際、OpenAIが出資している先が公表されていますが、そこを見ると、eラーニングで英語学習を支援している会社や法律ドキュメントの要約の会社に出資しています。例えばeラーニングの会社はGPTをファインチューニングした英語教育エンジンを積んでいることを公表しています。
私自身も触ってみたのですが、発音の矯正や学習レベルに合わせた問題の自動生成など、教育そのものが根本的に変わるだろうなと感じられるサービスになっていました。ですのでChatGPT以外のアプリケーションも実はすでにできています。ただ、多くの人がまだ気づいていないだけです。
なので、先ほどいったように問題設定が大事なのです。その問題に適応させるような付加価値が今急激に高まっています。それを僕はnoteで「独自データ」という表現を使いましたが、少し誤解があったみたいなので補足しておきます。独自データも大量のデータが必要でなくなったということです。
LLMの衝撃とは、大規模に事前学習されたモデルを後続タスクに利用することで、、実はかなり少数のデータでファインチューニングできることがわかったという点です(Few-shot learning)。これは非常に重要な発見で、独自データといってもデータベースに溜まって、眠っているデータはあまり重要ではなくなりました。
それよりも実際にユーザーがさわり、ユーザーによるフィードバックが生まれているアプリケーションが重要です。そういったアプリケーションを素早く開発し、そのアプリケーションの中で生まれるフィードバックデータを、強化学習的サイクルで利用していく。そのための報酬モデルをどう作るかといった一連のことが、今後の主戦場となるでしょう。実際、ChatGPT自体も元となった強化学習の報酬モデルを作るためのデータセットは1万セット程度であり、それで十分な結果が得られるのです。
1万セットというデータは何カ月かかければ作れるので、そのぐらいかければファインチューニングができてしまうのです(現在はChatGPTの利用ユーザーから集められたデータを学習に活用していると思われるのでそう単純な話ではないのですが)。ファインチューニング自体は、皆さんが思っているよりもずっと少ないデータ数で実現できることを覚えておいて欲しいです。
うちは独自データがあるから大丈夫と呑気に構えていると、スピード速く実装してきた新興サービスに、先ほどの学習サイクルに入られてしまい追いつけなくなるといったことが起こりかねません。そういう意味で、独自のデータは大事ですが、独自のデータとそれに対するユーザーのフィードバックが生まれるような業務フローに入りこむアプリケーションが重要で、アプリケーションの時代が来ていると私は改めて感じています。
ではその上で、私たち日本のスタートアップはどのように攻めるべきなのでしょうか。福島さんが注目している点があれば教えてください
福島:現在の大規模言語モデルは、1回学習させるのに数億円かかると言われています。学習というのは、1回の学習で終わり、ではありません。ちょっとうまく学習されなかったなといった試行錯誤の中で起こる間違いにも数億円かかってしまうのです。大規模言語モデルに新たに参入しようとすると、数百億円単位の投資が必要になると言われています。
大きな金額ではありますが、LLMのインパクトを考えると大資本を持つ会社にとっては十分参入を考えられると思います。ただし、私自身はリソースの限られたベンチャーを経営するという立場です。そういった立場ではそこに力を入れるよりも、今後大規模言語モデルがオープン化されるであろうという展望に注目しています。
Googleも大規模言語モデルをオープン化するという発表がありました(どこまでモデル自体がオープンになるかはまだ不明)し、これから大企業が提供する言語モデルが、AWSやGCP、Azureといったインフラと同じようなレイヤーになるのではないかと私は考えています。
ちなみに、現状ではGPTのモデル自体はまだ完全に開放されていないですが、将来的にはそうなるでしょう。GPT以外のもう少し小さなパラメータのモデルは既に公開されているものもありますので、将来LLMはAWSのようになるであろうという前提で、私たちは実際にそういったモデルを活用し、LLMをチューニングするというノウハウをためています。
そういったモデルを使いながら具体的なアプリケーションやファインチューニングに取り組んでいます。ただ、「ファインチューニング」という言葉をあまりマジックワードのように使いたくないので、機械学習的意味でのファインチューニングだけにこだわるのではなく、UXでの解決や業務知識をフル活用して最後のラストワンマイルの部分で勝負を挑むという考え方にしようと思います。そういった観点からは、従来の概念にとらわれないアプローチが重要だと言えます。
具体的には?
福島:今は「おもちゃじゃん」と言われてしまうようなものをどんどん作っていきたいと思っています。5年後に振り返ると100個の失敗を経験して1つ大当たりを狙いたいと思っています。スマホアプリの時代もそうでした。一時期は意味があると思われたものが実際には消えていったけれど、それでも生き残ったものがありますよね。例えばSnapchatやInstagramは当初、多くの人が冷やかにみていました。
Snapchatはメッセージがすぐ消えるだけで価値がないと言われたし、Instagramもただ写真を撮って加工するだけだと言われました。しかし、実際にはどちらも生き残りました。皮肉なことに、ビジネスマンであればあるほど、Instagramがスケールしない理由やSnapchatが残らない理由を考えることが簡単すぎて見過ごしていたのです。それが、非常に興味深い現象だと思います。
いずれにせよ、重要なのは本当に業務に取り入れられるアプリケーションであることと。そのアプリケーションはChatGPTなどの登場によって、あるタスクを解く際の80点に達する速度がかなり上がったこと。一方で、80点から90点にする、100点にするといった難易度は依然として変わっていないことだと思っています。変わったことは80点まで到達する速さとコストです。
80点を90点、100点に上げていくことを実現するためには、機械学習に頼り切るだけではなく、サービスのUXを組み合わせたり、既存の業務知識を活かしたヒューリスティックで体験を向上させるといった組み合わせが重要になると思います。80点の価値提供をしているサービスで十分と思われるような領域では、新しく高速にかつ低コストで出てくる80点のサービスにすべて飲み込まれてしまうでしょう。
逆に、90点や100点を取ることに価値がある領域では、我々のようなアプローチが大きな価値を発揮すると思います。僕たちも今、リアルタイムでこのバリュープロポジションのプロダクトが本当に生き残れるのか、0から作り直すなら全然別の体験になるんじゃないといった議論をして再整理をしている真っ最中です。
ありがとうございました。
※1:このインタビューはChatGPTを活用して出された質問をもとに答えてもらっています
※2:この取材はGPT4登場前に行われたので、今は最新のモデルだともう少し高くなっています
※3:この寄稿はChatGPTがプラグインをリリースする前に書かれたものです
BRIDGE Members
BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。- 会員限定記事・毎月3本
- コミュニティDiscord招待