ChatGPTと同時公開、音声認識「Whisper」APIで現実味が増す「2次元嫁との会話」

SHARE:
あの日夢見たGateboxは実現するのだろうか(Gateboxのウェブサイトから)

3月1日にOpenAIが公開したChatGPTのAPI(GPT-3.5-Turbo)が世界中で話題になっています。日本国内でも続々と事業者が(レベルの差はあれ)このAPIを叩いて何ができるか模索しはじめていて、API公開からわずか1週間ですがLINE連携のサービス「AIチャットくん」には20万人が殺到しました。

先日、メカニカル仏を作っている家入一真さんとチャットで「なんかスマホアプリ作ってた最初の頃と似てるよね」っていう話をしていたのですが、本当にそんな感じなんですよね。2010年代前半も新しいプラットフォームで何ができるかわからないんだけど、とにかく出力が楽しいからやってみる。もっと遡って2000年代のPCインターネット初期も多分、同じような感じだったと思います。おそらくデータを持っている企業のほとんどの開発者たちはこの自然言語インターフェースをなんらかの形で試すでしょうね。

さて、今回の3月の発表でGPT-3.5-Turboの発表ともう一つ、Whisperという音声認識APIも公表されていました。これはOpenAIが開発した音声認識技術で、M4A、MP3、MP4、MPEG、MPGA、WAV、WEBMなどの音声データをAPIに送ると認識結果を返してれるものです。1分あたり0.006ドルが必要。ChatGPTと組み合わせて音声入力からテキストを返す、つまりAIとの会話を実現してくれます。

日本でも探してみると早速、キャラクターとの会話を仕込んだ方の情報が見つかりました。Qiitaの中に動画が貼ってあるのですが、このレスポンスのレベルだったら確実に自然な会話が可能です。ChatGPTの返す自然な日本語(内容の正誤は置いといて)を考えるともうその日がやってくるのは近いはず。

そしてみなさん記憶されていますでしょうか?このキャラクターとの会話に全てを注ぎ込んだスタートアップの存在を。そうです。Gateboxです。

彼らがここの分野に挑戦したのが6年前あたりでした(創業は2014年)。創業者の武地実さんは狂気に満ち溢れた起業家で、この「二次元の嫁」との会話実現に向けてひた走っていましたが、ようやく時代が彼の世界に追いついてくれたようです。実際、まだコンタクトは取っていませんが、確実に動いていると思っています。いや、動いていてくれ。聞いてみます。

8日追記:既にやってました。さらにクラウドファンディングまで始まってました。

 

影響範囲は当然、この延長にあったVTuberなどにもあるでしょうし、特に音声の入出力がスムーズになれば大きく動くのがメタバース方面です。ヘッドマウントディスプレイを被ったことがある方であればすぐに理解できるのが特に入力問題で、被ったままではどう考えてもキーボードは使い難いんですよね。これが自然な音声で成立するのであれば、一気に仮想世界での活動も進みそうです。

ちなみにWhisperモデルはオープンソースなので、費用を支払うことなく自分のハードウェアでも実行は可能です。ただ、OpenAI経由のAPIを叩いた方がより強力なハードウェアリソースを使えることから、迅速な反応を求める場合や、スマートフォンなどの低電力デバイスで文字起こししたい場合などは、こちらのAPIを使用するのがよさそうです。

共同執筆:佐々木俊

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する