Diffbot、AIによるナレッジグラフをローンチ——人、場所、モノに関する1兆件の情報を網羅

Diffbot_Didiagram — Image Credit: Diffbot

Google サーチでセレブや有名ランドマーク、あるいは製品についてサーチしたとき、結果ページの右側に表示されるインフォボックスを目にしたことがある人は多いだろう。そこに表示される情報は、Google の Knowledge Graph から引用された情報に基づいている。Knowledge Graph とは、ウェブ検索や Google Home をはじめとするスマートスピーカーの検索結果を向上させるために使用されるエンティティ・データベースのことだ。Knowledge Graph には、16億件以上もの情報が記録されている。その大半は、人、場所、モノについてのよくある質問への回答のために、人間の作業チームが数百万単位のウェブサイトを定期的にチェックし、クラウド上で集めたものである。

しかしながら、Mike Tung 氏に言わせれば、それを行うもっと良い方法があるという。

Tung 氏は、カリフォルニア州マウンテンビューを本拠とする Diffbot の設立者である。Diffbot の主たるミッションは、未編集のバラバラのウェブデータを、ひとまとまりの一覧データに変換すること。あるいは Tung 氏の言葉を借りるなら、「雑多なドキュメントから、自動的に知識を抽出する」ことだ。Diffbot は数年にわたるプライベートパイロットプログラムを経て、今週（8月第5週）公式ローンチを予定している。

弊社は、ネット上のあらゆるサイトを分析することにより、史上初めて人間の知識に関する包括的なマップを構築しようとしています。

Tung 氏は VentureBeat の電話インタビューに対し、そのように答えた。

Diffbot_2 — （上）Diffbot の自動化エンジンによってハイライトされたエンティティと関係性
Image Credit: Diffbot

きわめて壮大な目標である。実際、スタンフォード大学における Tung 氏の AI 研究を通じて開発された Diffbot は、その完成に欠かせないツールの構築だけでも5年を費やした。Diffbot のウェブクローラーは、コンピュータビジョンと自然言語処理の技術を組み合わせ、事実上ほぼすべてのウェブサイトのレイアウトと構造を解析できる。Tung 氏の話では、Diffbot は事実についての記述、数字、モノとモノの関係を抽出し、全ウェブサイトの約90％、約20種類のページタイプをカバーできるという。（わかりやすい例としては、Amazon.com の製品ページや、企業サイト上に掲載された企業エグゼクティブの経歴なども含まれる。）

私たちはそれをナレッジ・アズ・ア・サービスと呼んでいます。現在、知識労働者の仕事の30％はデータ収集です。人、企業、モノに関するデータベースである横断的ナレッジグラフの市場には、大きな商機があると言えます。（Tung 氏）

Diffbot のクローラーが抽出したデータは、Diffbot Knowledge Graph（DKG）と呼ばれる巨大なデータベースにフィードされる。そこには1兆件を超える情報と100億のエンティティが含まれている。Tung 氏によれば、そこにさらに毎月1億3,000万件の情報が付け加わるという。その主なカテゴリーは、人（スキル、職歴、教育、ソーシャルプロファイル）、企業、場所（マッピングデータ、住所、職種、ゾーニング情報）、記事（あらゆる言語でのあらゆるニュース記事、ウェブ上のすべてのデータラインや署名記事）、ディスカッション（チャット、ソーシャルメディアのシェア情報、そこでの会話）、画像（画像認識技術とメタデータ収集技術を使って構成される）。

Diffbot_3 — （上）Diffbot による製品検索
Image Credit: Diffbot

これらはすべて、API コールによってアクセス可能で、同社のカスタム・クエリシンタックスである Diffbot DQL を使って操作できる。クライアントは、Diffbot のウェブベースの UI 上で DKG から得たサーチ結果を、リスト、マップ、またはテーブル（表）のレイアウトで見ることができる。あるいは、サードパーティによるその他のコンテンツ管理システムや分析プラットフォームから得た結果をそこに表示することも可能だ。

Microsoft や eBay、Yandex、DuckDuckGo も Diffbot のクライアントに名を連ねている。どの社も検索結果の品質向上の目的で DKG を利用している。その他のクライアントとしては、Cisco、Salesforce、Crunchbase、Hubspot、Adobe、Instapaper、Onswipe などがある。

Diffbot に出資した Felicis Ventures の設立者でマネージングディレクターの Aydin Senkut 氏は次のように述べる。

簡単に言えば、Diffbot はこれまでかつてない規模で AI の能力を最大活用しています。じつは Diffbot は初めて AI で利益を上げた企業です。Diffbot は、巨大なハイテク企業が開発した多くのアプリケーションを人知れず裏で支えているのです。

Tung 氏は、それがどのように機能するのかデモを見せてくれた。仮に、今あなたが靴のブランドに関してちょっぴり検索を行いたいとする。Diffbot のウェブのダッシュボードで、Google サーチのような検索バーに、スニーカーのブランドを入力して Enter キーを押す。すると瞬時に、ウェブ上のソースから合成された製品プロファイルが出てくる。

Diffbot_4 — （上）Diffbot の AI が自動的に作成したプロファイル
Image Credit: Diffbot

あるいは、ニュース記事を探す場合はどうだろう？ここでもやはり、プロセスは同じだ。著者名を入力すると、その著者がオンラインに発表したすべての記事が、言語を問わずすべて出てくる。一方、人名を検索すると、今度は数十（場合によっては数百）の経歴情報と記事および公開プロファイルをもとに編纂された CV（履歴書）のような形式の職務履歴がアウトプットされてくる。

Tung 氏の説明によると、Diffbot のユニークな強みの1つは、エンティティ（データの１つのまとまり）ごとに素早く掘り下げる能力の高さだ。これは具体的には、人材採用などの業務に役立つ。適切な DQL ストリングをインプットすれば（たとえば、「type:Person employments.employer.name:’Diffbot’」など）、特定の会社のすべての従業員の肩書き、スキル、学歴、ソーシャルメディアのプロファイルのすべてを、即時に1ヶ所にまとめてくれる。

それはマシンラーニングの最終目標とも言えるものですね。世界のあらゆる知識を1つに集めるというのは。（Tung 氏）

Google の Knowledge Graph は、アトリビューション機能の欠如と、信頼性の低い情報ソースを切り捨てる機能の低さという2つの問題を抱えている。以前からそのような批判はあった。その点、Diffbot の自動化されたアプローチならば、その2つの問題を一挙に解決できると Tung 氏は言う。Diffbot は、Google の Knowledge Graph のように人間の手によって収集されたデータベースよりもはるかに包括的で、正確性の点でも優れている。Diffbot のクローラーは、定期的に DKG を最新情報で更新する。さらにそのマシンラーニングアルゴリズムは、「論理的に一貫していない事実」を過去に多く発信しているサイトはスルーするという、十分な判断能力を持ち合わせている。