創業6年で2,000社利用、ChatGPT時代を予見した「AI電話」RevCommは何に注目したのか #IVSPRWeek #IVS2023

本稿は、6月28〜30日に開催されている、IVS 2023 KYOTO の一部。

ニュースサマリー：電話音声のAI解析「MiiTel」などを展開するRevCommは7月4日、MiiTelの利用ユーザー（累計アカウント数）が5万人、導入企業社数が2,000社を突破したことを公表した。

MiiTelは、音声認識技術とAIを組み合わせたツールで、担当者が「何を」「どのように」顧客と話しているかを可視化してくれる。口頭で記録に残りづらい営業現場の情報をリアルタイムに書き起こしたり、自動要約することで情報の共有を効率化するほか、感情分析など独自のAI解析エンジンにより、自社の営業研修などにも活用できる。

今年1月には、AI技術を活用したコミュニケーションの分析・研究を行う専門の開発組織「RevComm Research（レブコム・リサーチ、 RCR）」を設立し、音声認識、自然言語処理、マルチモーダルAI領域における研究開発を推進している。

話題のポイント：創業から6年のAI電話解析、RevCommが2,000社突破しました。IVS Kyotoの会場で久しぶりにリアルで対面した會田武史さんと初めてお会いしたのは2018年。当時はビズリーチ（現在のビジョナル）から支援を受けながらシード期を駆け抜けているころでした。聞けば当時の社員数は数名。あれから4年経って現在の社員数は300名ほどに拡大しているのだとか。4割はエンジニアだそうです。THE・スタートアップらしい成長です。

関連記事：創業メンバー集めを支援「ビズリーチ創業者ファンド」開始ーーたった1人で500人と面会、半年で経営陣を集めた方法

RevCommの成長を支えているのがMiiTelなんですが、ひとつ、私にも疑問がありました。それがコロナ禍におけるZoomの躍進です。オンライン会議が増える中、MiiTelも「MiiTel Meeting」というオンライン会議向けのAI解析を出しているものの、競争は激化しています。ここからの勝算をどうみるのか、せっかくなので直接ご本人にショートインタビューしてみることにしました（太字の質問は全て筆者、回答は會田氏）。

IMGP7197 — 2018年、まだ社員数名だったころのRevComm（レブコム）の會田武史氏（支援しているビズリーチの南壮一郎氏と・筆者撮影）

社員数300人でエンジニア4割ということですが、セールスは？

會田：いわゆるセールスレッドグロースの考え方で、40人弱が対応にあたってます。

2,000社を40名弱で？効率化はどうしてるのですか

會田：MiiTelです。

MiiTel Meetingも出てきましたが、アナログ電話とオンライン比率は

會田：9割がMiiTelですね。

なるほど。これからMiiTel Meetingがさらに成長曲線の角度を変えていくということですね。ただ、Zoomのオプションで書き起こしや要約してくれるツール増えてきてますよね。MiiTelを選ぶ理由は

會田：往々にしてビジネスって何を話してるかもそうですけど、どのように話してるかってめちゃくちゃ重要じゃないですか。話し方一つで全然結果が変わってくるんです。例えば、ですよ。話す速度って面白いんですけど、営業とか顧客対応の世界でよく「ペーシング」が重要って言わますよね。これはすなわち、お客様と同じぐらいの速度を話しましょうということで、実はこれ、生物学的根拠がしっかりあって、話してる速度と頭の処理速度って大体相関するらしいので、私、記者さんと話すときには1秒あたり5文字ぐらいの速度で話をするんです。これってNHKのアナウンサーさんと同じぐらいのペースなんです。一方で社員向けに関しては1秒あたり11文字ぐらいとか、そういった感じで分けるんです。これだけでも、もう全然結果が違ってくるんです。

自分も早口の癖があるのでとてもよくわかります。インタビュー音声聞き返して逃げたくなる時あります（笑

會田：例えばせっかちな社長さんにノロノロと話すれば切られるし、ご老人に対して、早口になれば全く理解されない。この話し方一つで全然ビジネス結果が変わってくるので、この「話し方解析」をしてるっていうことがものすごく意味のあることなんです。我々には各業界だったり市場サイズで「どういう話し方をした方がいいよ」っていうデータが溜まっていて他にない強みになっているんです。

ところでChatGPTで自然言語解析、大規模言語モデルなどを活用した「生成型AI」が一気に注目されるようになりましたよね。RevCommでは音声解析含めかなり早い段階からこの領域で事業開始しているわけですが、これは当時からある程度予想していたのですか

會田：まず2017年からChatGPTのような、いわゆる自然言語処理、エンジンがくるっていうのはわかってるんですよ。当時「Attention is all you need」という有名な論文（※）が発表されて、畳み込みニューラルネットワークの文生成エンジンがあって、これが90層を超えるとまるで人間の知性を持ったようなエンジンができるであろうって言われていたんです。僕の読みが外れたのは、Googleがくると思っていたところです。まさかここにOpenAIがやってきてMicrosoftさんが裏側で大きな役割を担うとは想像していませんでした。それは確かに予想外だったんですけど、自然言語処理エンジンっていうのは、確実にくることがわかっていたので、我々、実は1円も自然言語処理に投資してないんですよ。

※Attention is all you need：Google Brainが2017年に発表した研究論文の有名なフレーズで、この論文で有名なニューラルネットワークアーキテクチャ「Transformer」が発表された。ChatGPTもこの理論に基づいて開発されている。

確かに生成箇所は私もChatGPT中心だし、企業もこれをベースに開発進めてるところが多いですよね

會田：なぜならば、ここってLLMと言われるような言語モデルの勝負だからです。もうとにかくデカければデカいほどいい。あとは記憶の容量で、今、GPT3.5とか4は15分ぐらいの会話をリファーして最初に何を言ったかっていうのを記憶しながら返事を返せる。これがさらに大きくなって10倍になれば、150分の会話を覚えて返事を返すことができるので、1回の会議の内容を最初に言った言葉を踏まえつつ、締めの挨拶ができるようになるんです。だからこのトークン量とサイズ、LLMの採算になるわけです。これってお金かければ全然できちゃうんですよ。もちろんお金を持っているプレイヤーはいっぱいいますから、確実にコモディティ化する。

それよりも価値があるのはやはり生のデータなんです。

生のデータって何かっていうと、文字によるビッグデータで、ビジネスにおけるメールやチャットがありますよね。オフィスソフトは文字データがめちゃくちゃデータ化されてるじゃないですか。これには大きな価値がある。

一方、口頭の会話って、全くデータ化がされてなくて、音声データで残っていたとしても文字になっていない。対面になればさらに音声すら残っていない。本来であればビッグデータとして企業のアセット化するべきところを、それが残ってない。

我々はそれを残すお手伝いをしているんです。今、RevCommにはミーティングを通して1億7,000万件の電話が実施されているんですね。1回あたり10回のQ&Aがされたとすると、17億件のQAデータが集まっているわけです。今、この瞬間も指数関数的に増えているんです。

なるほど、このQAデータがあればGPTだろうがBardだろうが、それを食わせることで各社のノウハウコンテンツが出力されると