ヒトの読解能力を超えたAIの最新言語モデル、日本語版初公開!

SHARE:

~ビジネス文章データを学習したXLNet事前学習済モデル~

日本語の文章を解析するAI(=自然言語処理技術)の研究開発をするストックマーク株式会社(https://stockmark.ai/ 本社:東京都港区、代表取締役CEO:林 達、以下「ストックマーク」)は、2019年10月25日、ディープラーニングを用いたアルゴリズムであるXLNet(エックスエルネット)の日本語事前学習済モデルを初公開いたしました。
様々なタスクを高精度で解くという意味でこれまで最も良いとされていたのは「BERT」と呼ばれるモデルで、日本語のBERT事前学習済モデルとそれ以前にはELMo学習モデルにおいても公開してまいりました。この度は、20を超える評価タスクでBERTの精度を超えたXLNetについて、大規模日本語ビジネスニュースコーパスを学習したXLNet(MeCab+Sentencepiece利用)モデルを初公開します。XLNetを適用することにより、特にエンティティ抽出の精度がさらに向上し、これまで人が文章を読まないと判断できなかったビジネスおける新しい製品名やサービス名、新興企業などを事前の辞書(コーパス)なしに自動抽出することが可能となり、大量のビジネス文章から精度のよい洞察を導くことが可能となります。

▼モデルのダウンロードリンク及び詳細はこちらから
https://qiita.com/mkt3/items/4d0ae36f3f212aee8002

▼自然言語処理とは
人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野です。

▼ディープラーニングとは
人間が自然に行うタスクをコンピュータに学習させる機械学習の手法の一つです。

▼XLNetとは
ディープラーニングを用いた自然言語処理は翻訳、QAタスク、文書分類など多岐にわたるが、それらのタスクを解く際は、タスクにまたがって有用な表現を教師なしで取得する「事前学習」と、事前学習の結果をもとにタスク用に再学習させる「微調整(fine-tuing)」という2段階にわけるという手法が近年とメジャーとなっています。
事前学習においては、BERTという手法と、Seq2Seqという自己回帰を用いた言語モデルの2つが頻繁に使われています。
BERTは、順方向・逆方向の情報をうまく扱えますが、予測対象の単語同士の依存関係を学習しにくいという特徴があります。一方、Seq2Seqのような自己回帰言語モデルは順々に単語を読み込ませるため、予測対象の単語同士の依存関係を学習できますが、順方向・逆方向の情報を同時に扱えないという問題がありました。
XLNetは、予測対象の単語同士の依存関係を学習できる自己回帰言語モデルでありながら、自己回帰言語モデルの弱点でありBERTの良いところである「順方向・逆方向の情報を同時に扱える」性質を持っています。

▼ストックマーク株式会社 会社概要

PR TIMESで本文を見る