Stockmark Tech Blog

自然言語処理テクノロジーで社会を進化させる ストックマークのテックブログです。

Wikipediaを用いた日本語の固有表現抽出データセットの公開

ML事業部の近江崇宏です。

ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。)

一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います!

レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset

固有表現をハイライトしたサンプル:https://stockmarkteam.github.io/ner-wikipedia-dataset/index.html

このデータセットは日本語版Wikipediaから抜き出した文に対して、固有表現のタグ付けを行なったもので、全体で約4千件ほどとなっています。アノテーションを行なった固有表現のカテゴリーと固有表現数は下のようになっています。分類は関根の拡張固有表現階層を参考にしました。

タイプ 固有表現数 備考
人名 2382
法人名 2311 法人または法人に類する組織
政治的組織名 707 政治的組織名、政党名、政府組織名、行政組織名、軍隊名、国際組織名
その他の組織名 658 競技組織名、公演組織名、その他
地名 1443
施設名 512
製品名 576 商品名、番組名、映画名、書籍名、歌名、ブランド名等
イベント名 526

今後、このデータセットを用いた実験やスクリプトなども公開できればと考えています。