中国のニュースアグリゲーションアプリ「Toutiao(今日頭条)」、フェイクニュースを作成し〝フェイクニュース対抗AI〟のトレーニングに挑む

by TechNode TechNode on 2017.12.15

Image credit: 123RF / Kittipong Jirasukhanont

この見出しは「Toutiao(今日頭条)」の AI ソフトウェアに作成されたものではない。だが1日に2,000万ものコンテンツがプラットフォームを流れる中で、より多くの人にタップしてもらうため Toutiao は見出し作成と A/B テストという2つの AI サービスを用いている。

Jinri Toutiao AI Lab(頭条人工智能実験室)のトップとして、ならびにアプリを所有する Bytedance(字節跳動)のバイスプレジデントとして、Ma Wei-Ying(馬維英)博士が初めて外国のジャーナリストに語ったのは、彼らが研究している技術、なぜフェイクニュースを作成するボットを持つのか、ユーザの何を知ることができたのかということだった。

Jinri Toutiao(今日頭条)はユーザの行動によってリアルタイムで学習しアップデートされているニュースレコメンデーションアプリだ。検索エンジンのように全ての人に向けたランキングとは違い、アプリの検索機能はより個人に向けたものである点を Ma 氏は強調した。

中国のいくつかのテクノロジー企業は最近自らをコンテンツ企業であるとしているが、Ma 氏は「これはコンテンツ作成における民主化です」と述べ、Bydance も遅れを取らない姿勢を見せた。

Toutiao は人々が情報を見つけ情報と繋がるための新たな情報プラットフォームとなりつつあります。ユーザはスマートフォンを使い情報にアクセスするだけではなく、情報を作り出してもいます。自分のウェブサイトを持つ必要もなく、Toutiao を使って自分で作り出した情報やコンテンツを直接アップロードし公開することができるのです。

ユーザやクリエイターが作成する膨大な量のデータはニューロネットワークモデルの成長の糧となる。集められたデータに AI を適用することでユーザがどういう世界に生きているのか、より深く知ることができる。

私たちはデジタルに描写される世界から、セマンティックに描写される世界へと進んでいるのです。

全面的なシステムの進歩が訪れるとMa氏は考えている。コンテンツ作成、調整、宣伝、そして消費というライフサイクルの全ての段階における「フィードバックループを閉じるために、人間の知性をマイニング」することをAIが可能にしていくにつれ、「コンテンツ作成には数年のうちに根本的な変革が起きるでしょう」とMa氏は語った。それは以下のようにしてである。

フェイクニュースを打ち倒すためにフェイクニュースを作成

Toutiao(今日頭条)

Bytedance は違ったアプローチでフェイクニュースに取り組んでいる。それはフェイクニュースを書くことだ。Ma 氏が率いる AI 研究所はボットを開発しており、そのボットは会社の拡大を続けるデータベース内の実在するフェイクニュースを利用し独自の偽フェイクニュースを作成している。またフェイクニュースを見分ける別のボットもあり、こちらは前者が作った偽のフィードを分析し現実のニュースから符合するデータベースを引き出すことで学習している。

一方は書くことに長けており、それは機械が文章を書くという分野における発展の助けになるものです。もう一方は読むことに長けています。この2つは私たちのアルゴリズムを通じてラベルデータおよび同化したデータを利用し、お互いを高め合うことができるのです。

Ma 氏は競合する2つのアルゴリズムを持つことで両者が共に進歩していくことができると考えている。Toutiao はユーザにフェイクニュースだと思うものを報告してもらい、コメントを分析することでそのコンテンツがフェイクであると示すべきかどうかを見極める。入ってきたのがフェイクニュースであるとシステムが識別した場合、それを読んだユーザ全てに対して読んだのはフェイクだったと通知する。

Bytedance はこの「デュアルラーニング」技術を他方面にも使用している。ニュースを中国語から英語に機械翻訳し、その後、別のプログラムが同じ記事を英語から中国語に翻訳し、互いのプロセスを高め合っているのだ。フェイクニュースも翻訳され、Toutiao の世界展開のためにアルゴリズムに学習させている。世界展開の別の側面は動画のように言語に依存しない意味であり、大勢の中国人ユーザを基にアルゴリズムが学習を積んでいる。

将来的には、ヒットしたものの分析を極限まで行い、人気のトピックスのデータベースを構築し、そして文章を綴るマシンを開発することで、Toutiao は読者の嗜好に合わせた記事を自動生成することができるようになるであろう。

より良いアルゴリズム、より良い記事

Bytedance(字節跳動)本社
Image credit: Masaru Ikeda

私たちは戦略を毎週調整しています。これは不断の実験なのです。

Ma氏は述べる。システムはリアルタイムでモニタリングを続け、同時にコンテンツが成功するかどうかの予測を立てている。アルゴリズムは記事の執筆者に4つの見出しを提案し、その後 A/B テストを行いもっともインパクトがあったものはどれかを測定する。だが、関連する演算能力のため、全ての記事がアルゴリズムの対象というわけではない。記事にトラクションがつき始めた場合にのみ臨時で助けが入る。

機械学習は口コミの予測にも使用されている。新たに入ってくる記事と過去に人気になったものを比べるのだ。そして機械学習の成功が示されると共に、絶え間ないフィードバックを受けてシステムの正確性は上がっていく。アルゴリズムが特定のものの人気を歪めたりしないよう、また新たに入ってきてまだシステムからのポジティブな評価を確立していないユーザのコンテンツを止めたりしないよう、注意して見ていなければならないと Ma 氏は認めた。

自動化されるスポーツ実況

動画における物体認識も大きく発展し、さらなるパーソナライゼーションに拍車をかけている。Bytedance はよりスマートな、パーソナライズされたスポーツ報道に取り組んでいるとMa 氏は明らかにした。全ての視聴者に同じものを届ける現在のアプローチはいずれ個々の視聴者に合わせた視聴体験に取って代わられるだろう。例えば、ファンのデータが特定の選手に興味があることを示した場合、報道はその選手によりフォーカスするようになる。パーソナライゼーションの最終目標は自動化された実況と画面上のキャプションである。

位置、位置、位置。そして時間

Bytedance(字節跳動)本社
Image credit: Masaru Ikeda

Toutiao はユーザの現在位置と習慣を含めた生活というアイデアを組み上げている。ユーザの興味の対象を理解すると共に、AIはユーザの過去と現在の位置を基にお勧めを調整する。ツールがいかに精巧かを示すものとして Ma 氏は下記の例を提示した。

日常生活でToutiao を使用するアメリカ在住の中国人は、アメリカでフットプリントを生成している。中国の春節の時期になると突然、位置がアメリカから中国のどこかに移動する。お勧めされるニュースは時間と場所によって変わるが、その後アメリカに戻ったらソフトウェアはユーザが春節の時期にいた場所は深い意味を持ち、おそらくは故郷ではないかと推定する。そうすると、アメリカに戻った後でも、故郷と思われる場所に関係したニュースがあればユーザのフィードに提示される。

時間を1つの基準として何を送るのが適当かが決定される。アルゴリズムの計算によって、ある人が忙しいときはアプリも大量のコンテンツを投下しようとはせず後で時間ができるまで取っておこうとする。より大きなスケールでは、データによって街や街の一角の人々の働き方の概略を知ることができる。個人的なスケールでは、これらのパターンにより個人の職業を推定するが、データは匿名化される。システムは1台のスマートフォンごとに1つのユーザIDを作成し、これは10億もの要素で構成されているがアルゴリズム以外では個を特定することはできない。

調整、および政府との関係

別のブリーフィングで Bytedance の経営企画担当シニアバイスプレジデント Liu Zhen(柳甄)氏は、Toutiao にアップロードされる1日につき2,000万のコンテンツのうち90%が機械に作られていると明らかにした。つまり他の200万は人の手を経たものだということである。Ma 氏によると、これまで5年間 Toutiao は調整に取り組んできたが、人間は今もそしてこれからも必要とされるとのことである。

Ma 氏はこう語った。

私たちは非常に良好な企業政府間のコミュニケーションチャンネルを持っています。私たちは新しいプラットフォームで、新たな地平を切り拓く新たなアプリケーションであるため、これまで全力で取り組んできました。非常にスムーズに物事が運んだのは、コミュニケーションチャンネルが広くそして健全に開かれていたからです。

【via Technode】 @technodechina

【原文】

ニュースレターの購読について

毎日掲載される記事の更新情報やイベントに関する情報をお届けします!

----------[AD]----------