Nishikaが判例中の個人情報を９割超の精度で抽出可能なアルゴリズムを開発

Nishikaはデータ分析コンペティション「判例の個人情報自動マスキング」を通じて、個人情報を９割超の精度で抽出可能なアルゴリズムを開発

データ分析コンペティションを中心としたプラットフォーム”Nishika”を運営するNishika株式会社（東京都港区、代表取締役山下達朗、以下Nishika）が開催したコンペティション「判例の個人情報の自動マスキング」（以下本コンペ）が1/21に終了し、優勝ソリューションは個人情報を９割超の精度で抽出可能なものとなりました。
・URL：https://www.nishika.com/competitions/7/summary
・コンペティション解説note：https://note.com/nishika_inc/n/n78447a423abe
・参加者数：228名
・予測結果提出回数：521回
【アルゴリズム概要】
本コンペは、判例中の個人情報の匿名化作業という、現場での負荷の高い業務を効率化することを目的に企画されました。タスクを「判例文の中で、個人情報に相当する文言を、人名・組織名・地名などの種類別に抽出する」と設定し、コンペティションを開催いたしました。

コンペティション解説note：https://note.com/nishika_inc/n/n78447a423abe

表現の種類別に抽出を行ったのは、実際の判例文のマスキングでは、人名はA, B, C…地名はα, β, γ…などと、表現の種類ごとにマスキングのルールが一定決まっているため、マスクすべき箇所を抽出するだけでなく、それがどのような種類の表現なのか特定する必要があったためです。

228名のデータサイエンティストによる激しい競争の結果、優勝したソリューションは、評価データである約7000のラベルに対して91.4%の精度で抽出可能なものとなりました。

特に人名は94.5%、組織名・施設名は81.4%という高い精度で抽出可能なものとなっています。
※評価指標はF1値のマイクロ平均
Nishikaは今回構築したソリューションが実用価値の高いものであると考え、法曹界や法律関連のメディア企業、ソリューション提供業界などに対して実用可能性について働きかけていきます。

【データ分析コンペティションについて】