専門用語抽出装置、方法及びプログラム
【課題】Webドキュメントから専門用語を自動的に抽出する専門用語抽出装置を提供すること。
【解決手段】本装置のクロール部が、専門分野ごとのURLリストを用いて、Webページのコンテンツを収集する。URLリストは、常にUp−To−Dateに更新する。次に、本装置の単語抽出部によって、収集されたWebページのコンテンツのテキストを形態素解析し品詞に分類して、カタカナ語彙と全字種の語彙を抽出する。この際、助詞や接続詞など専門用語になりにくい品詞は抽出対象から除外する。そして、本装置のカタカナ用語抽出部によって、抽出されたカタカナ語彙に対して、FLR法を用いて、重要度の計算を行い重要度の高いカタカナ用語を抽出する。さらに、専門用語抽出部によって、カタカナ用語と、先に抽出された全字種の語彙との共起ヒット情報を計算して、専門用語を抽出する。
【解決手段】本装置のクロール部が、専門分野ごとのURLリストを用いて、Webページのコンテンツを収集する。URLリストは、常にUp−To−Dateに更新する。次に、本装置の単語抽出部によって、収集されたWebページのコンテンツのテキストを形態素解析し品詞に分類して、カタカナ語彙と全字種の語彙を抽出する。この際、助詞や接続詞など専門用語になりにくい品詞は抽出対象から除外する。そして、本装置のカタカナ用語抽出部によって、抽出されたカタカナ語彙に対して、FLR法を用いて、重要度の計算を行い重要度の高いカタカナ用語を抽出する。さらに、専門用語抽出部によって、カタカナ用語と、先に抽出された全字種の語彙との共起ヒット情報を計算して、専門用語を抽出する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ドキュメントからの専門用語抽出装置、方法及びプログラムに関する。特に、Webドキュメントからの専門用語抽出装置、方法及びプログラムに関する。
【背景技術】
【0002】
様々な分野において、専門用語のデータベースを作成したり、データベースから専門用語を検索したりするために、専門分野のドキュメントから専門用語の抽出が行われている。従来、専門用語の抽出は当該分野の専門家が人手でドキュメントを精査し、抽出していたが、その作業を自動化するための試みが複数なされている。例えば、非特許文献1には、単名詞を含む単名詞バイグラムの左右に連接する単名詞を抽出し、その頻度を基にスコアリングを行い、専門用語を抽出する方法が開示されている。又、特許文献1には、大量の専門用語が抽出される分野において、専門用語辞書を最新状態にメンテナンスするために、ある用語の関連語の同族語、類似語の同族語を抽出することで、多様な周辺語彙を網羅的に情報収集し、新語登録などのメンテナンス作業を効率化する方法が開示されている。
【非特許文献1】出現頻度と連接頻度に基づく専門用語抽出、湯本他、自然言語処理、10(1)27−45,2003年1月
【特許文献1】特開2005−222263号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、特許文献1及び非特許文献1に記載の技術では共に、専門用語を抽出する対象ドキュメントが既にデータベースに保存されており、かつ専門用語と関連する分野のドキュメントである(特許文献1であれば、医学・生物分野、非特許文献1であれば、情報処理分野)ことを前提としている。そのため、対象とするドキュメント数が限定されて、高精度で専門用語を抽出することができた。しかし、対象をWebサイト全体に広げた場合、Webドキュメントは分野ごとに分類されていないという問題があり、専門用語を抽出する前に、まず対象とするWebドキュメントをWeb上から収集する必要がある。又、Webサイトは次々に更新されるという特徴があり、さらに企業や官公庁だけでなく、個人の趣味・嗜好の基に作成されるものも多く存在するため、学術論文などに比べてノイズとなる情報がドキュメント中に多く含まれている可能性が高く、上記の技術とは別の視点が必要となる。
【0004】
本発明は、上記課題に鑑み、Webドキュメントから専門用語を自動的に抽出する専門用語抽出装置を提供することを目的とする。
【課題を解決するための手段】
【0005】
本発明では以下のような解決手段を提供する。
【0006】
(1) Webページから専門用語を抽出する専門用語抽出装置であって、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するクローラ部と、
前記コンテンツを形態素解析し、カタカナ語彙と全字種語彙を抽出する単語抽出部と、
前記抽出されたカタカナ語彙に対して、FLR法を用いて前記カタカナ語彙からカタカナ用語を抽出するカタカナ用語抽出部と、
前記カタカナ用語抽出部によって抽出されたカタカナ用語と、前記単語抽出部によって抽出された全字種語彙とを、TFIDF値とシンプソン係数値を組み合わせた共起ヒット情報を計算して、専門用語を抽出する専門用語抽出部と、
を備えた専門用語抽出装置。
【0007】
(1)の構成によれば、まず、本装置に備えられたクロール部が、専門分野ごとに分けられたURLリストを用いて、Webページのコンテンツを収集(クロール)する。URLリストは、常にUp−To−Dateに更新する。次に、本装置の単語抽出部によって、収集されたWebページのコンテンツのテキストを形態素解析し品詞に分類して、カタカナ語彙と全字種の語彙を抽出する。この際、助詞や接続詞など専門用語になりにくい品詞は抽出対象から除外してよい。そして、本装置のカタカナ用語抽出部によって、カタカナ語彙から、FLR法を用いて、重要度の計算を行い重要度の高いカタカナ用語を抽出する。さらに、専門用語抽出部によって、抽出されたカタカナ用語と、先に抽出された全字種の語彙との共起ヒット情報(2つの語彙が同じドキュメントで共起する度合い)を計算することによって専門用語を抽出する。なお、FLR法とは、後述するように、連接頻度LR法(連接種類LR法)に、用語Wがコーパス(言語資料体)中に出現した頻度を加味したものである。
【0008】
このように、まずカタカナ語彙に着目して重要度の高いカタカナ用語を求めるカタカナ用語抽出処理と、この重要度の高いカタカナ用語と全字種の語彙との共起ヒット情報による専門用語抽出処理を行うことによって、特にカタカナ語彙を含んだ専門用語(医薬分野、IT分野、ロボット工学分野、アダルト分野などの専門用語)に対して、膨大に存在するWebドキュメントから、Up−to−Dateに専門用語を自動的に抽出することが可能になる。
【0009】
(2) 前記カタカナ用語抽出部は、前記FLR法に代えて、C−Value法を用いる、(1)に記載の装置。C−Value法は、後述するように、用語Wを部分文字列として含むより長い用語の出現頻度を、用語Wを部分文字列として含むより長い用語の種類数で割った値を用語Wの出現頻度から補正した値を重要度とする方法である。
【0010】
(2)の構成によれば、カタカナ用語抽出部において、FLR法に代えて公知のC−Value法を用いることができる。
【0011】
(3) 前記カタカナ用語抽出部は、前記FLR法に代えて、MC−Value法を用いる、(1)に記載の装置。
【0012】
(3)の構成によれば、カタカナ用語抽出部において、FLR法に代えてC−Value法を改良したMC−Value法(Modified C−Value法)を用いることができる。
【0013】
(4) 前記専門用語抽出部は、前記シンプソン係数値に代えて、相互情報量値を用いる、(1)乃至(3)に記載の装置。
【0014】
(5) 前記専門用語抽出部は、前記シンプソン係数値に代えて、ダイス係数値を用いる、(1)乃至(3)に記載の装置。
【0015】
(6) 前記専門用語抽出部は、前記シンプソン係数値に代えて、ジャガード係数値を用いる、(1)乃至(3)に記載の装置。
【0016】
(7) 前記専門用語抽出部は、前記シンプソン係数値に代えて、コサイン類似度値を用いる、(1)乃至(3)に記載の装置。
【0017】
(4)から(7)の構成によれば、専門用語抽出部において、TFIDF法とシンプソン係数を組み合わせた方法以外にも共起ヒット情報を求める各種の手段(相互情報量値、ダイス係数値、ジャガード係数値、コサイン類似度値)を活用することができる。
【0018】
(8) 前記専門用語として、アダルト専門分野における掲載禁止用語を抽出する(1)乃至(7)に記載の装置。
【0019】
(8)の構成によれば、専門分野としてペアレンタルコントロールに着目し、有害サイト、特にアダルトサイトで使用されるような「掲載禁止用語」(以下、NG語彙とも呼ぶ)を抽出する。アダルトサイトは規制しても次々と新しいサイトが出現し、又NG語彙にはカタカナが多く使用されるので、このようなNG語彙を含んだサイトのフィルタリングに本発明の手法が有効である。
【0020】
(9) Webページから専門用語を抽出するための方法であって、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するステップと、
前記コンテンツを形態素解析し、カタカナ語彙と全字種語彙を抽出する単語抽出ステップと、
前記抽出されたカタカナ語彙に対して、FLR法を用いて前記カタカナ語彙からカタカナ用語を抽出するカタカナ用語抽出ステップと、
前記カタカナ用語抽出ステップによって抽出されたカタカナ用語と、前記単語抽出ステップによって抽出された全字種語彙とを、TFIDF値とシンプソン係数値を組み合わせた共起ヒット情報を計算して、専門用語を抽出する専門用語抽出ステップと、
を含む方法。
【0021】
(9)の構成によれば、(1)と同様の作用効果を持つ発明を方法として提供できる。
【0022】
(10) Webページから専門用語を抽出するためのコンピュータ・プログラムであって、
コンピュータに、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するステップと、
前記コンテンツを形態素解析し、カタカナ語彙と全字種語彙を抽出する単語抽出ステップと、
前記抽出されたカタカナ語彙に対して、FLR法を用いて前記カタカナ語彙からカタカナ用語を抽出するカタカナ用語抽出ステップと、
前記カタカナ用語抽出ステップによって抽出されたカタカナ用語と、前記単語抽出ステップによって抽出された全字種語彙とを、TFIDF値とシンプソン係数値を組み合わせた共起ヒット情報を計算して、専門用語を抽出する専門用語抽出ステップと、
を実行させるコンピュータ・プログラム。
【0023】
(10)の構成によれば、(1)と同様の作用効果を持つ発明をコンピュータ・プログラムとして提供できる。
【発明の効果】
【0024】
本発明によれば、カタカナ語彙が専門用語として多く使用される専門分野において、次々と更新されるWebサイト上の膨大なドキュメント群から、人手で精査することなく自動で専門用語抽出を行うことができる。
【発明を実施するための最良の形態】
【0025】
以下、本発明の実施形態について図を参照しながら説明する。
【0026】
[システムの全体構成]
図1は、本発明の一実施形態に係るシステム1の全体構成を示す図である。
【0027】
本実施形態におけるシステム1は、テキストや画像などを含んだドキュメントデータ(例えば、インターネットやイントラネット上のWebページ)の解析を行い、ドキュメントデータに含まれる用語群を抽出して、該用語群から専門用語の抽出を行うシステムである。本システム1では、専門用語抽出装置10が、通信ネットワーク30を介して、様々なWebサイト20と接続される。専門用語抽出装置10は、専用装置であっても、他の目的のサーバ上に実現してもよい。なお、専門用語抽出装置10のハードウェアの数に制限はなく、必要に応じて、1又は複数のハードウェアで構成してよい。
【0028】
Webサイト20は、Webページを蓄積しており、通信ネットワーク30、例えば、インターネットなどのネットワークを通じて、これらの情報をユーザの端末に送信する機能を有している。なお、個人や会社のホームページなどのWebページ群、又はWebページ群が置いてあるインターネット、又はイントラネット上の場所を、Webサイトという。
【0029】
通信ネットワーク30は、例えば、インターネットであり、通信回線は有線により実現するものだけではなく、アクセスポイントを介して無線LANにより実現するものなど、本発明の技術的思想に合致するものであれば様々な通信技術により実現される。
【0030】
専門用語抽出装置10は、専門分野ごとのURLリスト1501(a、b、c、d、・・・)にあるURLのWebサイト20を参照し、該Webサイト20のWebページデータ(コンテンツ)を、通信ネットワーク30を介して収集する。そして、収集したWebページデータをコンテンツリポジトリ1502に記憶する。さらに、収集したWebページに含まれるテキストデータを形態素解析して、語彙を抽出し、専門用語を抽出する機能を備える。
【0031】
ここで、URLリスト1501は、管理者が、特定の分野のWebサイト20のURLをリストにすることによって与えられるものとする。例えば、特定の分野とは、情報処理分野のWebサイト20(URLリスト1501a)、医療・生物分野のWebサイト20(URLリスト1501b)、アダルト専門分野のWebサイト20(URLリスト1501c)、又はロボット工学関連分野のWebサイト20(URLリスト1501d)などである。こうすることで、特定の分野における専門用語を抽出することができる。ここでは、URLリスト1501が複数ある例を示しているが、1つのURLリスト1501に、URLと特定の分野を関連付けて記憶することで実現してもよい。
【0032】
なお、アダルト専門分野のWebサイト20(URLリスト1501c)から専門用語を抽出するということは、公序良俗に反するような用語を抽出することである。そして、抽出した用語を掲載禁止用語(NGワード)とし、このNGワードを含むWebサイトの検索に用いたり、有害サイトの特定に用いることができる。
【0033】
[専門用語抽出装置の機能ブロック]
図2は、本発明の一実施形態に係る専門用語抽出装置10の機能ブロック図である。
【0034】
専門用語抽出装置10は、主として入力部11、送受信部12、制御部13、表示部14、及び記憶部15により構成される。入力部11は、キーボード及びマウスなどの入力装置を含み、専門用語抽出装置10に対する管理者などからの入力を受け付ける機能を有している。又、送受信部12は、任意の通信インターフェイスを含み、装置からリクエストをWebサイト20に送信する機能、及びWebサイト20のWebページデータを受信する機能を有している。さらに、制御部13は、CPU(Central Processing Unit)を含み、専門用語抽出装置10を制御する機能を有している。そして、表示部14は、ブラウン管表示装置(CRT)や液晶ディスプレイ(LCD)などの表示装置を含み、データを表示する機能を有している。又さらに、記憶部15は、ハードディスクなどの内部又は外部の記憶装置を含み、データを記憶する機能を有している。
【0035】
専門用語抽出装置10の制御部13は、クローラ部1301、単語抽出部1302、カタカナ用語抽出部1303、及び専門用語抽出部1304を有している。クローラ部1301は、通信ネットワーク30を介して、Webページなどのドキュメントデータを収集する。なお、クローラとは一般的に検索ロボットともいわれ、通信ネットワーク30を通じて、Webサイト20からWebページデータを収集するプログラムである。そして、クローラが、Webサイトを探し出す手段や、対象とするWebページデータの種類は様々であり、クローラの管理者の設定により、収集されるWebページデータの種類や分野も異なる。
【0036】
又、単語抽出部1302は、ドキュメント中のテキストを形態素解析して、単語を抽出し、カタカナ語彙と、全字種の語彙とに分けて、全字種の語彙を全字種用語リスト1504に記憶する。そして、カタカナ用語抽出部1303は、カタカナ語彙の用語ごとに重要度(後述)を計算し、管理者の設定する閾値以上の用語を抽出し、カタカナ用語リスト1503に記憶する。さらに、専門用語抽出部1304は、カタカナ用語リスト1503と、全字種用語リスト1504とにおいて共起の強い用語を専門用語として抽出する。
【0037】
専門用語抽出装置10の記憶部15は、URLリスト1501、コンテンツリポジトリ1502、カタカナ用語リスト1503、及び全字種用語リスト1504を含んで構成される。URLリスト1501は、クローラ部1301によるWebページデータ収集先のWebサイト20のURLを記憶する。又、コンテンツリポジトリ1502は、クローラ部1301により収集されたWebページデータを記憶する。そして、カタカナ用語リスト1503は、カタカナ用語を記憶する。さらに、全字種用語リスト1504は、全字種の語彙を記憶する。
【0038】
[専門用語抽出処理]
図3は、本発明の一実施形態に係る専門用語抽出処理のフローチャートである。
【0039】
まず、ステップS101では、専門用語抽出装置10の制御部13が、送受信部12を介して、クローラ部1301により、Webページなどのドキュメントデータを収集する。なお、記憶部15のURLリスト1501に含まれたURLに対する、Webサイト20のWebページデータを収集してもよい。
【0040】
次に、ステップS102では、クローラ部1301が、収集したドキュメントデータを、コンテンツリポジトリ1502に記憶する。
【0041】
次に、ステップS103では、単語抽出部1302が、コンテンツリポジトリ1502から、ドキュメントデータを読み込む。
【0042】
次に、ステップS104では、単語抽出部1302が、ドキュメントデータのテキストを形態素解析する。ここで、形態素解析とは、文を形態素(例えば、言語で意味を持つ最小単位)の列に分割し、接続詞や助詞を取り除く。形態素解析には様々な公知の手法があるが、いずれの手法を用いてもよい。
【0043】
次に、ステップS105では、単語抽出部1302が、ドキュメントデータのテキストを形態素解析した結果の中から、全字種の語彙を抽出する。そして、全字種の語彙を、全字種用語として、記憶部15の全字種用語リスト1504に記憶する。
【0044】
次に、ステップS106では、上述のステップS105を行うと共に、単語抽出部1302が、ドキュメントデータのテキストを形態素解析した結果の中から、カタカナ語彙を抽出する。
【0045】
次に、ステップS107では、カタカナ用語抽出部1303が、カタカナ語彙の用語ごとに重要度(後述)を計算し、管理者の設定する閾値以上の用語を特定する。なお、カタカナ用語特定処理の詳細については、図4で後述する。
【0046】
次に、ステップS108では、カタカナ用語抽出部1303が、カタカナ語彙に対してカタカナ用語特定処理を行い特定した用語群を抽出して、記憶部15のカタカナ用語リスト1503に記憶する。
【0047】
次に、ステップS109では、専門用語抽出部1304が、カタカナ用語リスト1503を用いて、全字種用語リスト1504の用語群の中から専門用語を特定する。なお、専門用語特定処理の詳細については、図5で後述する。
【0048】
次に、ステップS110では、専門用語抽出部1304が、全字種用語リスト1504から専門用語特定処理を行い特定した用語群を、専門用語として抽出する。そして、抽出した専門用語と共に、カタカナ用語リスト1503の用語を専門用語として、専門用語辞書に登録してもよい。
【0049】
図4は、本発明の一実施形態に係るカタカナ用語特定処理のフローチャートである。
【0050】
まず、ステップS171では、専門用語抽出装置10の制御部13が、カタカナ用語抽出部1303により、カタカナ語彙について用語ごとに重要度を計算する。なお、重要度の計算方法は、FLR(Frequency Left Right)法、C−Value(Collocation−Value)法、MC−Value(Modified Collocation−Value)法などがあるので以下説明する。
【0051】
FLR法は、連接頻度LR法又は連接種類LR法に、用語Wがドキュメントデータ中に出現した頻度Fを加味する方法である。詳細は(非特許文献1)を参照。連接頻度LR法は、語彙を走査し、用語Wを構成する単語について、該単語の左右それぞれに単語が出現する回数を計算する。又、連接種類LR法は、単語の左右それぞれに何種類の単語が出現するかをカウントする。ここで、例えば、カタカナ語彙中の用語「サーバシステム、コンピュータシステム、オープンシステム」があり、構成する単語を分けると(サーバ|システム)、(コンピュータ|システム)、(オープン|システム)となり、単語「システム」の左に単語が3回出現したので、単語「システム」の連接頻度LR法での左方スコアはL(システム)=3となる。又、単語「システム」の左に単語が3種類出現したので、連接種類LR法での左方スコアはL(システム)=3となる。
【0052】
一般に、単語w1、w2、・・・wnが連なって構成する用語W=w1、w2、・・・wnについて、連接頻度LR法又は連接種類LR法の用語WのスコアLR(W)が、数1のように定義される。
【数1】
n:単語数
L(Wi)、R(Wi):単語Wiの左右それぞれに単語が出現する回数又は種類数
【0053】
そして、連接頻度LR(W)又は連接種類LR(W)に、用語Wがドキュメントデータ中に出現した頻度F(W)を加味した、重要度FLR(W)が、数2のように定義される。
【数2】
F(W):用語Wのドキュメントデータ中の出現頻度
LR(W):用語Wの連接頻度LR又は連接種類LR
【0054】
又、C−Value法は、用語W=w1、w2、・・・wnについて、重要度C−Value(W)が、数3のように定義される。C−Value法についての詳細は(Katerina T.Frantzi and Sophia Ananiadou.Extracting nested collocations.In COLING‘96,pp.41−46,1996.)を参照。
【数3】
n:単語数
T(W):用語Wを部分文字列として含むより長い用語の出現頻度
C(W):用語Wを部分文字列として含むより長い用語の種類数
F(W):用語Wのドキュメントデータ中の出現頻度
【0055】
なお、C−Value法は、n=1のとき(用語が単一の単語だけからなるとき)0(ゼロ)になり、適切な重要度を示さない。そこで、MC−Value法では、n=1の場合でも重要度を計算できるよう、(n−1)の代わりにnを用いている。ここで、用語W=w1、w2、・・・wnについて、重要度MC−Value(W)が、数4のように定義される。MC−Value法についての詳細は(非特許文献1)を参照。
【数4】
n:単語数
T(W):用語Wを部分文字列として含むより長い用語の出現頻度
C(W):用語Wを部分文字列として含むより長い用語の種類数
F(W):用語Wのドキュメントデータ中の出現頻度
【0056】
次に、ステップS172では、カタカナ用語抽出部1303が、カタカナ語彙から、管理者が設定した閾値以上の重要度の用語を特定する。このようにして、カタカナ語彙から、カタカナの専門用語を特定することができる。
【0057】
図5は、本発明の一実施形態に係る専門用語特定処理のフローチャートである。
【0058】
まず、ステップS191では、専門用語抽出装置10の制御部13が、専門用語抽出部1304により、カタカナ用語リスト1503を用いて、全字種用語リスト1504のそれぞれの用語について、共起ヒット情報を計算する。ここで、共起ヒット情報の計算方法は、シンプソン係数値とTF・IDF(Term Frequency・Inverse Document Frequency)法とを用いる。
【0059】
なお、シンプソン係数値は、用語と用語の共起の強さを測る尺度であり、スコアが0〜1の範囲で、高いほど共起が強い。そして、カタカナ用語Xと全字種用語Yについての、シンプソン係数値R(X,Y)が、数5のように定義される。
【数5】
|X|:カタカナ用語Xの単独ヒット数
|Y|:全字種用語Yの単独ヒット数
|X∩Y|:カタカナ用語Xと全字種用語YのAND検索でのヒット数
【0060】
次に、ステップS192では、専門用語抽出部1304が、共起ヒット情報を基に、管理者が設定した閾値以上の共起の強さを持つ用語を、専門用語として特定する。
【0061】
[実施例1]
以下、専門分野として「アダルト専門分野」を例に、カタカナ用語抽出部1303による、重要度FLRの計算方法を具体的に説明する。図6は、実施例1に係るアダルト専門分野のドキュメントデータのカタカナ語彙を示す図である。図6(a)は、カタカナ語彙中の単語「セックス」を含む用語群である。図6(b)は、単語「セックス」の左右連接単語の出現頻度である。図6(c)は、カタカナ語彙中の単語「パートナー」を含む用語群である。図6(d)は、単語「パートナー」の左右連接単語の出現頻度である。ここで、単語「セックス」と単語「パートナー」についてFLR法による重要度を計算する。
【0062】
まず、連接頻度法に基づく、重要度FLRを計算する。カタカナ語彙中の単語「セックス」を含む用語群(図6(a))において、単語「セックス」の出現頻度F(セックス)はn=3である。そして、図6(b)に示すように、単語「セックス」の左連接単語は、「アナルセックス(3)、テレホンセックス(1)、オーラルセックス(1)」であることから、頻度L(セックス)がi=5となる。又、右連接単語は、「セックスパートナー(2)、セックスレス(1)」であることから、頻度R(セックス)がi=3となる。ここで、連接頻度に基づく重要度FLR(セックス)を計算する。
【数6】
このようにして、連接頻度法に基づく重要度FLR(セックス)は14.70と計算される。
【0063】
続いて、カタカナ語彙中の単語「パートナー」を含む用語群(図6(c))において、単語「パートナー」の出現頻度F(パートナー)はn=2である。そして、図6(d)に示すように、単語「パートナー」の左連接単語は、「セックスパートナー(2)」であることから、頻度L(セックス)がi=2となる。又、右連接単語は、「パートナーリレーション(1)」であることから、頻度R(セックス)がi=1となる。ここで、連接頻度に基づく重要度FLR(パートナー)を計算する。
【数7】
このようにして、連接頻度法に基づく重要度FLR(パートナー)は4.9と計算される。
【0064】
次は、連接種類法に基づく、重要度FLRを計算する。カタカナ語彙中の単語「セックス」を含む用語群(図6(a))において、単語「セックス」の出現頻度F(セックス)=3である。そして、図6(b)に示すように、単語「セックス」の左連接単語は、「アナルセックス、テレホンセックス、オーラルセックス」であることから、種類L(セックス)がi=3となる。又、右連接単語は、「セックスパートナー、セックスレス」であることから、種類R(セックス)がi=2となる。ここで、連接種類に基づく重要度FLR(セックス)を計算する。
【数8】
このようにして、連接種類法に基づく重要度FLR(セックス)は10.4と計算される。
【0065】
続いて、カタカナ語彙中の単語「パートナー」を含む用語群(図6(c))において、単語「パートナー」の出現頻度F(パートナー)=2である。そして、図6(d)に示すように、単語「パートナー」の左連接単語は、「セックスパートナー」であることから、種類L(セックス)がi=1となる。又、右連接単語は、「パートナーリレーション」であることから、種類R(セックス)がi=1となる。ここで、連接種類法に基づく重要度FLR(パートナー)を計算する。
【数9】
このようにして、連接種類法に基づく重要度FLR(パートナー)は6と計算される。
【0066】
このように、FLR法に基づき、重要度を計算することができる。そして、閾値以上の重要度の用語を、専門用語として特定する。ここで、例えば、連接頻度において、FLR(セックス)が14.70、FLR(パートナー)が4.9の場合、閾値を8に設定することで、単語「セックス」のみが専門用語として特定できる。又、連接種類において、FLR(セックス)が10.4、FLR(パートナー)が6の場合、閾値を8に設定することで、単語「セックス」のみが専門用語として特定できる。こうすることにより、カタカナ語彙中の用語から、閾値以上の重要度の用語を、アダルト専門分野のカタカナの専門用語として特定できる。
【0067】
次に、専門用語抽出部1304による、共起ヒットの計算方法を具体的に説明する。図7は、実施例1に係る共起ヒットの具体例を示す図である。
【0068】
まず、カタカナ用語リスト1503のカタカナ用語「セックス」と、全字種用語リスト1504の全字種用語「胸チラ」とについて、シンプソン係数値を計算する。ここで、図7に示す、ドキュメントデータにおける、カタカナ用語「セックス」の単独ヒット数(検索して抽出された数)は7009、全字種用語「胸チラ」の単独ヒット数は452、カタカナ用語「セックス」と全字種用語「胸チラ」とでAND検索したヒット数は414である。ここで、シンプソン係数値R(セックス,胸チラ)が、数10のように計算される。
【数10】
このことにより、カタカナ用語「セックス」と全字種用語「胸チラ」との共起の強さが0.915となり、1に近いので共起が強いことがわかる。
【0069】
次に、カタカナ用語リスト1503のカタカナ用語「セックス」と、全字種用語リスト1504の全字種用語「週末」とについて、シンプソン係数値を計算する。ここで、図7に示す、ドキュメントデータにおける、カタカナ用語「セックス」の単独ヒット数は7009、全字種用語「週末」の単独ヒット数は1063、カタカナ用語「セックス」と全字種用語「週末」とでAND検索したヒット数は278である。ここで、シンプソン係数値R(セックス,胸チラ)は数11のように計算される。
【数11】
このことにより、カタカナ用語「セックス」と全字種用語「週末」との共起の強さが0.262となり、0(ゼロ)に近いので共起が弱いことがわかる。
【0070】
このようにして、カタカナ用語リスト1503のカタカナ用語と、全字種用語リスト1504の全字種用語とについて、シンプソン係数値を計算する。そして、全字種用語リスト1504の全字種用語を、シンプソン係数値で降順にソートし、専門用語を抽出するが、いくつかの問題点がある。ここで、シンプソン係数値の問題点と解決方法とについて、図8に基づき説明する。
【0071】
図8は、実施例1に係る全字種用語リスト1504の全字種用語をシンプソン係数値で降順にソートした図である。はじめの行には全字種用語「風俗店」がシンプソン係数値=1.000であることが示されている。同様に、シンプソン係数値の降順に全字種用語が並ぶ。
【0072】
ここで、シンプソン係数値の問題点の1つには、低頻度な全字種用語について、共起が少なくてノイズである場合が多いが、シンプソン係数値が高くなりやすい問題がある。例えば、図8の6行目 全字種用語「具体案」の0.667は、カタカナ用語リスト1503のカタカナ用語「セックス」との、シンプソン係数値を示す。ここでは、ドキュメントデータにおける、カタカナ用語「セックス」の単独ヒット数は7009、全字種用語「具体案」の単独ヒット数は3、カタカナ用語「セックス」と全字種用語「具体案」とでAND検索したヒット数は2である。ここで、シンプソン係数値は数12のように計算されている。
【数12】
このことにより、カタカナ用語「セックス」と全字種用語「具体案」との共起の強さが0.667となる。しかし、この場合、カタカナ用語「セックス」の単独ヒット数が7009であるのに対して、全字種用語「具体案」の単独ヒット数が3と低頻度である。よって、共起が強いとはいえない。そこで、全字種用語の単独ヒット数について閾値を設けることで解決することができる。例えば、閾値を4に設定することにより、全字種用語「具体案」について全字種用語から除くことができる。
【0073】
しかし、閾値を設定することにより、どのカタカナ用語とも共起するような全字種用語(いわゆる一般語)は、単独ヒット数が多く、シンプソン係数値が高くなりやすい問題がある。例えば、図8の10行目 全字種用語「フリーウェア」の0.613は、カタカナ用語リスト1503のカタカナ用語「セックス」との、シンプソン係数値を示す。ここでは、ドキュメントデータにおける、カタカナ用語「セックス」の単独ヒット数は7009、全字種用語「フリーウェア」の単独ヒット数は62、カタカナ用語「セックス」と全字種用語「フリーウェア」とでAND検索した単独ヒット数は38である。ここで、シンプソン係数値は数13のように計算されている。
【数13】
このことにより、カタカナ用語「セックス」と全字種用語「フリーウェア」との共起の強さが0.613となる。しかし、全字種用語「フリーウェア」は一般語であるので、全字種用語から除く。そこで、閾値を63に設定することにより、全字種用語「フリーウェア」について全字種用語から除くことができるが、他の全字種用語も除かれてしまう。そこで、公知のTF・IDF法を用いて解決をする。
【0074】
TF・IDF法は、ドキュメントの特徴を示す単語を抽出する方法であり、ドキュメントデータの特定のページに偏って多く出現する単語ほど高スコアとなる。なお、単語XについてのTF・IDF値は、数14のように定義される。
【数14】
TF:単語Xの全ページ中の出現頻度
DF:単語Xのページ頻度(いくつのページに跨って出現したか)
N:総ページ数
ここで、具体的な例を示す。
【0075】
まず全字種用語「胸チラ」が、TF値=1423、IDF値=6.059である場合、TF・IDF値は8622.953となる。又、全字種用語「フリーウェア」が、TF値=97、IDF値=7.799である場合、TF・IDF値は756.542となる。ここで、全字種用語「胸チラ」はTF・IDF値が高くドキュメントデータの特定のページに偏って多く出現していることが分かる。そして、全字種用語「フリーウェア」はTF・IDF値が低いのでドキュメントデータ全体に、一般語として使われていることが分かる。このことにより、例えば全字種用語「フリーウェア」のような、どのカタカナ用語とも共起するような全字種用語について、TF・IDF値を用い、閾値を設けることで全字種用語から除くことができる。ここで、専門用語特定処理にシンプソン係数値とTF・IDF法とを用いた具体的な例について、図9に基づき説明する。
【0076】
図9は、実施例1に係る全字種用語リスト1504から抽出された全字種用語を示す図である。ここで、全字種用語は、第1キー:シンプソン係数値、第2キー:TF・IDF値でソートしている。そして、シンプソン係数値を求める際に、全字種用語の単独ヒット数の閾値を56に設定し、低頻度な全字種用語を除いてある。又、全字種用語のTF・IDF値について、閾値を760に設定し、どのカタカナ用語とも共起するような全字種用語を除いてある。このようにして、共起ヒット情報に基づいた、全字種用語を特定することができる。
【0077】
ここで、専門用語特定処理後の全字種用語の具体的な例について、図10に基づき説明する。
【0078】
図10は、実施例1に係る専門用語特定処理後の全字種用語を示す図である。
【0079】
図10に示すように、全字種用語リスト1504の全字種用語から、専門用語として、「風俗店、女王、風俗嬢、・・・」といった全字種用語が抽出されている。又、全字種用語であったが、単独ヒット数の閾値を設定することで、「具体案、介護士、やすみ、・・・」といった全字種用語を、専門用語とすることが回避されている。さらに、TF・IDF値を用いて、「フリーウェア、行楽地、株投資、・・・」といった全字種用語を、専門用語とすることが回避されている。すなわち、抽出された専門用語は、アダルト専門分野のWebサイト20に使用されている専門用語であるため、掲載禁止用語として用いることができる。そして、抽出した掲載禁止用語と共に、カタカナ用語リスト1503の用語を掲載禁止用語として、掲載禁止用語辞書に登録してもよい。
【0080】
なお、本発明の専門用語抽出には、形態素解析を用いるが、形態素解析後の品詞の並びを参照して、連続した単語を抽出してもよい。つまり、単独では専門用語とならない単語でも、単語同士を組み合わせた場合に、掲載禁止用語となる専門用語を抽出する。例えば、単語「女子高生」と単語「画像」は、それぞれ一般的な用語であるが、2つの単語を組み合わせた用語「女子高生画像」を、全字種用語として抽出する。そして、アダルト専門分野のWebサイト20のドキュメントデータにおいて、カタカナ用語「○○○」などとの共起の強さを計算し、専門用語として特定する。そして、全字種用語「女子高生画像」を掲載禁止用語として抽出できる。
【0081】
[実施例2]
以下、専門分野として、ロボット工学関連分野を対象とした実施例を説明する。
【0082】
専門用語抽出装置10を含むシステム1の構成及び機能ブロックは、図2と同様である。ここでは、URLリスト1501は、ロボット工学関連分野のURLが設定されたURLリスト1501dを使用する。
【0083】
又、専門用語抽出処理における実施形態は、図3と同様である。ここでは、クローラ部1301が、ロボット工学関連分野のURLリスト1501dに基づき、ロボット工学関連分野のWebサイト20のドキュメントデータを収集し、コンテンツリポジトリ1502に記憶する。そして、単語抽出部1302が、コンテンツリポジトリ1502のドキュメントデータを形態素解析し、カタカナ語彙と全字種の語彙を抽出する。ここで、全字種の語彙は、全字種用語リスト1504に記憶する。
【0084】
次に、カタカナ用語抽出部1303が、カタカナ語彙の用語ごとに重要度を計算し、管理者の設定する閾値以上の用語を特定するカタカナ用語特定処理については、図4と同様である。そして、カタカナ語彙において特定した用語をカタカナ用語リスト1503に記憶する。
【0085】
次に、専門用語抽出部1304が、カタカナ用語リスト1503と、全字種用語リスト1504とにおいて共起の強い全字種用語を専門用語として特定する専門用語特定処理については、図5と同様である。ここで、シンプソン係数値とTF・IDF法とを用いた専門用語特定処理の具体的な例について、図11に基づき説明する。
【0086】
図11は、実施例2に係る全字種用語リスト1504から抽出された全字種用語を示す図である。ここで、ロボット工学関連分野のWebサイト20のWebページデータから抽出した全字種用語は、第1キー:シンプソン係数値、第2キー:TF・IDF値でソートしている。そして、シンプソン係数値を求める際に、全字種用語の単独ヒット数の閾値を8に設定し、低頻度な全字種用語を除いてある。又、全字種用語のTF・IDF値について、閾値を15に設定し、どのカタカナ用語とも共起するような全字種用語を除いてある。このようにして、共起ヒット情報に基づいて、「ロボ」、「ゲーム」、「大会」、・・・といった、ロボット工学関連分野における全字種用語を特定している。
【0087】
そして、専門用語抽出部1304が、共起ヒット情報を基に、管理者が設定した閾値以上の共起の強さを持つ全字種用語を、専門用語として抽出する。ここで、専門用語特定処理後の全字種用語の具体的な例について、図12に基づき説明する。
【0088】
図12は、実施例2に係る専門用語特定処理後の全字種用語を示す図である。
【0089】
図12に示すように、全字種用語リスト1504の全字種用語から、専門用語として、「ロボ、ゲーム、大会、歩行、ASIMO(登録商標)、ソニー(登録商標)・・・」といった全字種用語が抽出されている。又、全字種用語であったが、単独ヒット数の閾値を設定することで、「アリーナ、ポケモン(登録商標)、ユニーク、・・・」といった全字種用語を、専門用語とすることが回避されている。さらに、TF・IDF値を用いて、「Copyright、TOKYO、http、・・・」といった全字種用語を、専門用語とすることが回避されている。そして、抽出した専門用語と共に、カタカナ用語リスト1503の用語を専門用語として、ロボット工学関連分野の専門用語辞書に登録してもよい。さらに、専門用語をロボット工学関連分野の情報を収集するキーワードとして用いるなど、様々なことに用いることができる。
【0090】
[共起ヒット情報の別の計算方法]
以上、共起ヒット情報の計算方法は、シンプソン係数値とTF・IDF法とを用いて説明したが、シンプソン係数値に代えて、相互情報量値、ダイス係数値、ジャガード係数値、コサイン類似度値を用いてもよい。ここで、カタカナ用語Xと全字種用語Yの共起の強さを示す、相互情報量値は、数15のように定義される。
【数15】
|X|:カタカナ用語Xの単独ヒット数
|Y|:全字種用語Yの単独ヒット数
|X∩Y|:カタカナ用語Xと全字種用語YとのAND検索でのヒット数
N:総ページ数
【0091】
次に、カタカナ用語Xと全字種用語Yの共起の強さを示す、ダイス係数値は、数16のように定義される。
【数16】
|X|:カタカナ用語Xの単独ヒット数
|Y|:全字種用語Yの単独ヒット数
|X∩Y|:カタカナ用語Xと全字種用語YとのAND検索でのヒット数
【0092】
次に、カタカナ用語Xと全字種用語Yの共起の強さを示す、ジャガード係数値は、数17のように定義される。
【数17】
|X∩Y|:カタカナ用語Xと全字種用語YとのAND検索でのヒット数
|X∪Y|:カタカナ用語Xと全字種用語YのOR検索でのヒット数
【0093】
次に、カタカナ用語Xと全字種用語Yの共起の強さを示す、コサイン類似度値は、数18のように定義される。
【数18】
|X|:カタカナ用語Xの単独ヒット数
|Y|:全字種用語Yの単独ヒット数
|X∩Y|:カタカナ用語Xと全字種用語YとのAND検索でのヒット数
【0094】
[専門用語抽出装置のハードウェア構成]
図13は、本発明の一実施形態に係る専門用語抽出装置10(以下、単に専門用語抽出装置と呼ぶ)のハードウェア構成を示す図である。
【0095】
専門用語抽出装置は、制御部130を構成するCPU(Central Processing Unit)131(マルチプロセッサ構成ではCPU132など複数のCPUが追加されてもよい)、バスライン105、通信I/F(I/F:インターフェイス)120、メインメモリ170、BIOS(Basic Input Output System)180、USBポート190、I/Oコントローラ160、キーボード及びマウスなどの入力装置110、並びに表示装置140を備える。
【0096】
I/Oコントローラ160には、テープドライブ151、ハードディスク153、光ディスクドライブ152、及び半導体メモリ154などの記憶部150を接続することができる。
【0097】
BIOS180は、専門用語抽出装置の起動時にCPU131が実行するブートプログラムや、専門用語抽出装置のハードウェアに依存するプログラムなどを格納する。
【0098】
ハードディスク153は、専門用語抽出装置として機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶する。
【0099】
光ディスクドライブ152としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1521を使用する。光ディスク1521から光ディスクドライブ152によりプログラム又はデータを読み取り、I/Oコントローラ160を介してメインメモリ170又はハードディスク153に提供することもできる。又、同様にテープドライブ151に対応したテープメディア1511を主としてバックアップのために使用することもできる。
【0100】
専門用語抽出装置に提供されるプログラムは、ハードディスク153、光ディスク1521、又はメモリーカードなどの記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ160を介して、記録媒体から読み出され、又は通信I/F120を介してダウンロードされることによって、専門用語抽出装置にインストールされ実行されてもよい。
【0101】
上述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、ハードディスク153、光ディスク1521、又はメモリーカードの他に、MDなどの光磁気記録媒体、テープメディア1511を用いることができる。又、専用通信回線やインターネットなどの通信回線に接続されたサーバシステムに設けたハードディスク153又は光ディスクライブラリなどの記憶装置を記録媒体として使用し、通信ネットワーク30を介してプログラムを専門用語抽出装置に提供してもよい。
【0102】
ここで、表示装置140は、ユーザによるデータの入力を受け付ける画面を表示したり、専門用語抽出装置による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)などのディスプレイ装置を含む。
【0103】
ここで、入力装置110は、ユーザによる入力の受け付けを行うものであり、キーボード及びマウスなどにより構成してよい。
【0104】
又、通信I/F120は、専門用語抽出装置を専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F120は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
【0105】
以上の例は、専門用語抽出装置のハードウェア構成について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータを専門用語抽出装置として動作させることにより上記で説明した機能を実現することもできる。従って、本発明において一実施形態として説明した専門用語抽出装置により実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
【0106】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。又、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
【図面の簡単な説明】
【0107】
【図1】本発明の一実施形態に係るシステム1の全体構成を示す図である。
【図2】本発明の一実施形態に係る専門用語抽出装置10の機能ブロック図である。
【図3】本発明の一実施形態に係る専門用語抽出処理のフローチャートである。
【図4】本発明の一実施形態に係るカタカナ用語特定処理のフローチャートである。
【図5】本発明の一実施形態に係る専門用語特定処理のフローチャートである。
【図6】実施例1に係るカタカナ語彙を示す図である。
【図7】実施例1に係る共起ヒットの具体例を示す図である。
【図8】実施例1に係る全字種用語リスト1504の全字種用語をシンプソン係数値で降順にソートした図である。
【図9】実施例1に係る全字種用語リスト1504から抽出された全字種用語を示す図である。
【図10】実施例1に係る専門用語特定処理後の全字種用語を示す図である。
【図11】実施例2に係る全字種用語リスト1504から抽出された全字種用語を示す図である。
【図12】実施例2に係る専門用語特定処理後の全字種用語を示す図である。
【図13】本発明の一実施形態に係る専門用語抽出装置10のハードウェア構成を示す図である。
【符号の説明】
【0108】
1 システム
10 専門用語抽出装置
20 Webサイト
30 通信ネットワーク
1501 URLリスト
1502 コンテンツリポジトリ
1503 カタカナ用語リスト
1504 全字種用語リスト
【技術分野】
【0001】
本発明は、ドキュメントからの専門用語抽出装置、方法及びプログラムに関する。特に、Webドキュメントからの専門用語抽出装置、方法及びプログラムに関する。
【背景技術】
【0002】
様々な分野において、専門用語のデータベースを作成したり、データベースから専門用語を検索したりするために、専門分野のドキュメントから専門用語の抽出が行われている。従来、専門用語の抽出は当該分野の専門家が人手でドキュメントを精査し、抽出していたが、その作業を自動化するための試みが複数なされている。例えば、非特許文献1には、単名詞を含む単名詞バイグラムの左右に連接する単名詞を抽出し、その頻度を基にスコアリングを行い、専門用語を抽出する方法が開示されている。又、特許文献1には、大量の専門用語が抽出される分野において、専門用語辞書を最新状態にメンテナンスするために、ある用語の関連語の同族語、類似語の同族語を抽出することで、多様な周辺語彙を網羅的に情報収集し、新語登録などのメンテナンス作業を効率化する方法が開示されている。
【非特許文献1】出現頻度と連接頻度に基づく専門用語抽出、湯本他、自然言語処理、10(1)27−45,2003年1月
【特許文献1】特開2005−222263号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、特許文献1及び非特許文献1に記載の技術では共に、専門用語を抽出する対象ドキュメントが既にデータベースに保存されており、かつ専門用語と関連する分野のドキュメントである(特許文献1であれば、医学・生物分野、非特許文献1であれば、情報処理分野)ことを前提としている。そのため、対象とするドキュメント数が限定されて、高精度で専門用語を抽出することができた。しかし、対象をWebサイト全体に広げた場合、Webドキュメントは分野ごとに分類されていないという問題があり、専門用語を抽出する前に、まず対象とするWebドキュメントをWeb上から収集する必要がある。又、Webサイトは次々に更新されるという特徴があり、さらに企業や官公庁だけでなく、個人の趣味・嗜好の基に作成されるものも多く存在するため、学術論文などに比べてノイズとなる情報がドキュメント中に多く含まれている可能性が高く、上記の技術とは別の視点が必要となる。
【0004】
本発明は、上記課題に鑑み、Webドキュメントから専門用語を自動的に抽出する専門用語抽出装置を提供することを目的とする。
【課題を解決するための手段】
【0005】
本発明では以下のような解決手段を提供する。
【0006】
(1) Webページから専門用語を抽出する専門用語抽出装置であって、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するクローラ部と、
前記コンテンツを形態素解析し、カタカナ語彙と全字種語彙を抽出する単語抽出部と、
前記抽出されたカタカナ語彙に対して、FLR法を用いて前記カタカナ語彙からカタカナ用語を抽出するカタカナ用語抽出部と、
前記カタカナ用語抽出部によって抽出されたカタカナ用語と、前記単語抽出部によって抽出された全字種語彙とを、TFIDF値とシンプソン係数値を組み合わせた共起ヒット情報を計算して、専門用語を抽出する専門用語抽出部と、
を備えた専門用語抽出装置。
【0007】
(1)の構成によれば、まず、本装置に備えられたクロール部が、専門分野ごとに分けられたURLリストを用いて、Webページのコンテンツを収集(クロール)する。URLリストは、常にUp−To−Dateに更新する。次に、本装置の単語抽出部によって、収集されたWebページのコンテンツのテキストを形態素解析し品詞に分類して、カタカナ語彙と全字種の語彙を抽出する。この際、助詞や接続詞など専門用語になりにくい品詞は抽出対象から除外してよい。そして、本装置のカタカナ用語抽出部によって、カタカナ語彙から、FLR法を用いて、重要度の計算を行い重要度の高いカタカナ用語を抽出する。さらに、専門用語抽出部によって、抽出されたカタカナ用語と、先に抽出された全字種の語彙との共起ヒット情報(2つの語彙が同じドキュメントで共起する度合い)を計算することによって専門用語を抽出する。なお、FLR法とは、後述するように、連接頻度LR法(連接種類LR法)に、用語Wがコーパス(言語資料体)中に出現した頻度を加味したものである。
【0008】
このように、まずカタカナ語彙に着目して重要度の高いカタカナ用語を求めるカタカナ用語抽出処理と、この重要度の高いカタカナ用語と全字種の語彙との共起ヒット情報による専門用語抽出処理を行うことによって、特にカタカナ語彙を含んだ専門用語(医薬分野、IT分野、ロボット工学分野、アダルト分野などの専門用語)に対して、膨大に存在するWebドキュメントから、Up−to−Dateに専門用語を自動的に抽出することが可能になる。
【0009】
(2) 前記カタカナ用語抽出部は、前記FLR法に代えて、C−Value法を用いる、(1)に記載の装置。C−Value法は、後述するように、用語Wを部分文字列として含むより長い用語の出現頻度を、用語Wを部分文字列として含むより長い用語の種類数で割った値を用語Wの出現頻度から補正した値を重要度とする方法である。
【0010】
(2)の構成によれば、カタカナ用語抽出部において、FLR法に代えて公知のC−Value法を用いることができる。
【0011】
(3) 前記カタカナ用語抽出部は、前記FLR法に代えて、MC−Value法を用いる、(1)に記載の装置。
【0012】
(3)の構成によれば、カタカナ用語抽出部において、FLR法に代えてC−Value法を改良したMC−Value法(Modified C−Value法)を用いることができる。
【0013】
(4) 前記専門用語抽出部は、前記シンプソン係数値に代えて、相互情報量値を用いる、(1)乃至(3)に記載の装置。
【0014】
(5) 前記専門用語抽出部は、前記シンプソン係数値に代えて、ダイス係数値を用いる、(1)乃至(3)に記載の装置。
【0015】
(6) 前記専門用語抽出部は、前記シンプソン係数値に代えて、ジャガード係数値を用いる、(1)乃至(3)に記載の装置。
【0016】
(7) 前記専門用語抽出部は、前記シンプソン係数値に代えて、コサイン類似度値を用いる、(1)乃至(3)に記載の装置。
【0017】
(4)から(7)の構成によれば、専門用語抽出部において、TFIDF法とシンプソン係数を組み合わせた方法以外にも共起ヒット情報を求める各種の手段(相互情報量値、ダイス係数値、ジャガード係数値、コサイン類似度値)を活用することができる。
【0018】
(8) 前記専門用語として、アダルト専門分野における掲載禁止用語を抽出する(1)乃至(7)に記載の装置。
【0019】
(8)の構成によれば、専門分野としてペアレンタルコントロールに着目し、有害サイト、特にアダルトサイトで使用されるような「掲載禁止用語」(以下、NG語彙とも呼ぶ)を抽出する。アダルトサイトは規制しても次々と新しいサイトが出現し、又NG語彙にはカタカナが多く使用されるので、このようなNG語彙を含んだサイトのフィルタリングに本発明の手法が有効である。
【0020】
(9) Webページから専門用語を抽出するための方法であって、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するステップと、
前記コンテンツを形態素解析し、カタカナ語彙と全字種語彙を抽出する単語抽出ステップと、
前記抽出されたカタカナ語彙に対して、FLR法を用いて前記カタカナ語彙からカタカナ用語を抽出するカタカナ用語抽出ステップと、
前記カタカナ用語抽出ステップによって抽出されたカタカナ用語と、前記単語抽出ステップによって抽出された全字種語彙とを、TFIDF値とシンプソン係数値を組み合わせた共起ヒット情報を計算して、専門用語を抽出する専門用語抽出ステップと、
を含む方法。
【0021】
(9)の構成によれば、(1)と同様の作用効果を持つ発明を方法として提供できる。
【0022】
(10) Webページから専門用語を抽出するためのコンピュータ・プログラムであって、
コンピュータに、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するステップと、
前記コンテンツを形態素解析し、カタカナ語彙と全字種語彙を抽出する単語抽出ステップと、
前記抽出されたカタカナ語彙に対して、FLR法を用いて前記カタカナ語彙からカタカナ用語を抽出するカタカナ用語抽出ステップと、
前記カタカナ用語抽出ステップによって抽出されたカタカナ用語と、前記単語抽出ステップによって抽出された全字種語彙とを、TFIDF値とシンプソン係数値を組み合わせた共起ヒット情報を計算して、専門用語を抽出する専門用語抽出ステップと、
を実行させるコンピュータ・プログラム。
【0023】
(10)の構成によれば、(1)と同様の作用効果を持つ発明をコンピュータ・プログラムとして提供できる。
【発明の効果】
【0024】
本発明によれば、カタカナ語彙が専門用語として多く使用される専門分野において、次々と更新されるWebサイト上の膨大なドキュメント群から、人手で精査することなく自動で専門用語抽出を行うことができる。
【発明を実施するための最良の形態】
【0025】
以下、本発明の実施形態について図を参照しながら説明する。
【0026】
[システムの全体構成]
図1は、本発明の一実施形態に係るシステム1の全体構成を示す図である。
【0027】
本実施形態におけるシステム1は、テキストや画像などを含んだドキュメントデータ(例えば、インターネットやイントラネット上のWebページ)の解析を行い、ドキュメントデータに含まれる用語群を抽出して、該用語群から専門用語の抽出を行うシステムである。本システム1では、専門用語抽出装置10が、通信ネットワーク30を介して、様々なWebサイト20と接続される。専門用語抽出装置10は、専用装置であっても、他の目的のサーバ上に実現してもよい。なお、専門用語抽出装置10のハードウェアの数に制限はなく、必要に応じて、1又は複数のハードウェアで構成してよい。
【0028】
Webサイト20は、Webページを蓄積しており、通信ネットワーク30、例えば、インターネットなどのネットワークを通じて、これらの情報をユーザの端末に送信する機能を有している。なお、個人や会社のホームページなどのWebページ群、又はWebページ群が置いてあるインターネット、又はイントラネット上の場所を、Webサイトという。
【0029】
通信ネットワーク30は、例えば、インターネットであり、通信回線は有線により実現するものだけではなく、アクセスポイントを介して無線LANにより実現するものなど、本発明の技術的思想に合致するものであれば様々な通信技術により実現される。
【0030】
専門用語抽出装置10は、専門分野ごとのURLリスト1501(a、b、c、d、・・・)にあるURLのWebサイト20を参照し、該Webサイト20のWebページデータ(コンテンツ)を、通信ネットワーク30を介して収集する。そして、収集したWebページデータをコンテンツリポジトリ1502に記憶する。さらに、収集したWebページに含まれるテキストデータを形態素解析して、語彙を抽出し、専門用語を抽出する機能を備える。
【0031】
ここで、URLリスト1501は、管理者が、特定の分野のWebサイト20のURLをリストにすることによって与えられるものとする。例えば、特定の分野とは、情報処理分野のWebサイト20(URLリスト1501a)、医療・生物分野のWebサイト20(URLリスト1501b)、アダルト専門分野のWebサイト20(URLリスト1501c)、又はロボット工学関連分野のWebサイト20(URLリスト1501d)などである。こうすることで、特定の分野における専門用語を抽出することができる。ここでは、URLリスト1501が複数ある例を示しているが、1つのURLリスト1501に、URLと特定の分野を関連付けて記憶することで実現してもよい。
【0032】
なお、アダルト専門分野のWebサイト20(URLリスト1501c)から専門用語を抽出するということは、公序良俗に反するような用語を抽出することである。そして、抽出した用語を掲載禁止用語(NGワード)とし、このNGワードを含むWebサイトの検索に用いたり、有害サイトの特定に用いることができる。
【0033】
[専門用語抽出装置の機能ブロック]
図2は、本発明の一実施形態に係る専門用語抽出装置10の機能ブロック図である。
【0034】
専門用語抽出装置10は、主として入力部11、送受信部12、制御部13、表示部14、及び記憶部15により構成される。入力部11は、キーボード及びマウスなどの入力装置を含み、専門用語抽出装置10に対する管理者などからの入力を受け付ける機能を有している。又、送受信部12は、任意の通信インターフェイスを含み、装置からリクエストをWebサイト20に送信する機能、及びWebサイト20のWebページデータを受信する機能を有している。さらに、制御部13は、CPU(Central Processing Unit)を含み、専門用語抽出装置10を制御する機能を有している。そして、表示部14は、ブラウン管表示装置(CRT)や液晶ディスプレイ(LCD)などの表示装置を含み、データを表示する機能を有している。又さらに、記憶部15は、ハードディスクなどの内部又は外部の記憶装置を含み、データを記憶する機能を有している。
【0035】
専門用語抽出装置10の制御部13は、クローラ部1301、単語抽出部1302、カタカナ用語抽出部1303、及び専門用語抽出部1304を有している。クローラ部1301は、通信ネットワーク30を介して、Webページなどのドキュメントデータを収集する。なお、クローラとは一般的に検索ロボットともいわれ、通信ネットワーク30を通じて、Webサイト20からWebページデータを収集するプログラムである。そして、クローラが、Webサイトを探し出す手段や、対象とするWebページデータの種類は様々であり、クローラの管理者の設定により、収集されるWebページデータの種類や分野も異なる。
【0036】
又、単語抽出部1302は、ドキュメント中のテキストを形態素解析して、単語を抽出し、カタカナ語彙と、全字種の語彙とに分けて、全字種の語彙を全字種用語リスト1504に記憶する。そして、カタカナ用語抽出部1303は、カタカナ語彙の用語ごとに重要度(後述)を計算し、管理者の設定する閾値以上の用語を抽出し、カタカナ用語リスト1503に記憶する。さらに、専門用語抽出部1304は、カタカナ用語リスト1503と、全字種用語リスト1504とにおいて共起の強い用語を専門用語として抽出する。
【0037】
専門用語抽出装置10の記憶部15は、URLリスト1501、コンテンツリポジトリ1502、カタカナ用語リスト1503、及び全字種用語リスト1504を含んで構成される。URLリスト1501は、クローラ部1301によるWebページデータ収集先のWebサイト20のURLを記憶する。又、コンテンツリポジトリ1502は、クローラ部1301により収集されたWebページデータを記憶する。そして、カタカナ用語リスト1503は、カタカナ用語を記憶する。さらに、全字種用語リスト1504は、全字種の語彙を記憶する。
【0038】
[専門用語抽出処理]
図3は、本発明の一実施形態に係る専門用語抽出処理のフローチャートである。
【0039】
まず、ステップS101では、専門用語抽出装置10の制御部13が、送受信部12を介して、クローラ部1301により、Webページなどのドキュメントデータを収集する。なお、記憶部15のURLリスト1501に含まれたURLに対する、Webサイト20のWebページデータを収集してもよい。
【0040】
次に、ステップS102では、クローラ部1301が、収集したドキュメントデータを、コンテンツリポジトリ1502に記憶する。
【0041】
次に、ステップS103では、単語抽出部1302が、コンテンツリポジトリ1502から、ドキュメントデータを読み込む。
【0042】
次に、ステップS104では、単語抽出部1302が、ドキュメントデータのテキストを形態素解析する。ここで、形態素解析とは、文を形態素(例えば、言語で意味を持つ最小単位)の列に分割し、接続詞や助詞を取り除く。形態素解析には様々な公知の手法があるが、いずれの手法を用いてもよい。
【0043】
次に、ステップS105では、単語抽出部1302が、ドキュメントデータのテキストを形態素解析した結果の中から、全字種の語彙を抽出する。そして、全字種の語彙を、全字種用語として、記憶部15の全字種用語リスト1504に記憶する。
【0044】
次に、ステップS106では、上述のステップS105を行うと共に、単語抽出部1302が、ドキュメントデータのテキストを形態素解析した結果の中から、カタカナ語彙を抽出する。
【0045】
次に、ステップS107では、カタカナ用語抽出部1303が、カタカナ語彙の用語ごとに重要度(後述)を計算し、管理者の設定する閾値以上の用語を特定する。なお、カタカナ用語特定処理の詳細については、図4で後述する。
【0046】
次に、ステップS108では、カタカナ用語抽出部1303が、カタカナ語彙に対してカタカナ用語特定処理を行い特定した用語群を抽出して、記憶部15のカタカナ用語リスト1503に記憶する。
【0047】
次に、ステップS109では、専門用語抽出部1304が、カタカナ用語リスト1503を用いて、全字種用語リスト1504の用語群の中から専門用語を特定する。なお、専門用語特定処理の詳細については、図5で後述する。
【0048】
次に、ステップS110では、専門用語抽出部1304が、全字種用語リスト1504から専門用語特定処理を行い特定した用語群を、専門用語として抽出する。そして、抽出した専門用語と共に、カタカナ用語リスト1503の用語を専門用語として、専門用語辞書に登録してもよい。
【0049】
図4は、本発明の一実施形態に係るカタカナ用語特定処理のフローチャートである。
【0050】
まず、ステップS171では、専門用語抽出装置10の制御部13が、カタカナ用語抽出部1303により、カタカナ語彙について用語ごとに重要度を計算する。なお、重要度の計算方法は、FLR(Frequency Left Right)法、C−Value(Collocation−Value)法、MC−Value(Modified Collocation−Value)法などがあるので以下説明する。
【0051】
FLR法は、連接頻度LR法又は連接種類LR法に、用語Wがドキュメントデータ中に出現した頻度Fを加味する方法である。詳細は(非特許文献1)を参照。連接頻度LR法は、語彙を走査し、用語Wを構成する単語について、該単語の左右それぞれに単語が出現する回数を計算する。又、連接種類LR法は、単語の左右それぞれに何種類の単語が出現するかをカウントする。ここで、例えば、カタカナ語彙中の用語「サーバシステム、コンピュータシステム、オープンシステム」があり、構成する単語を分けると(サーバ|システム)、(コンピュータ|システム)、(オープン|システム)となり、単語「システム」の左に単語が3回出現したので、単語「システム」の連接頻度LR法での左方スコアはL(システム)=3となる。又、単語「システム」の左に単語が3種類出現したので、連接種類LR法での左方スコアはL(システム)=3となる。
【0052】
一般に、単語w1、w2、・・・wnが連なって構成する用語W=w1、w2、・・・wnについて、連接頻度LR法又は連接種類LR法の用語WのスコアLR(W)が、数1のように定義される。
【数1】
n:単語数
L(Wi)、R(Wi):単語Wiの左右それぞれに単語が出現する回数又は種類数
【0053】
そして、連接頻度LR(W)又は連接種類LR(W)に、用語Wがドキュメントデータ中に出現した頻度F(W)を加味した、重要度FLR(W)が、数2のように定義される。
【数2】
F(W):用語Wのドキュメントデータ中の出現頻度
LR(W):用語Wの連接頻度LR又は連接種類LR
【0054】
又、C−Value法は、用語W=w1、w2、・・・wnについて、重要度C−Value(W)が、数3のように定義される。C−Value法についての詳細は(Katerina T.Frantzi and Sophia Ananiadou.Extracting nested collocations.In COLING‘96,pp.41−46,1996.)を参照。
【数3】
n:単語数
T(W):用語Wを部分文字列として含むより長い用語の出現頻度
C(W):用語Wを部分文字列として含むより長い用語の種類数
F(W):用語Wのドキュメントデータ中の出現頻度
【0055】
なお、C−Value法は、n=1のとき(用語が単一の単語だけからなるとき)0(ゼロ)になり、適切な重要度を示さない。そこで、MC−Value法では、n=1の場合でも重要度を計算できるよう、(n−1)の代わりにnを用いている。ここで、用語W=w1、w2、・・・wnについて、重要度MC−Value(W)が、数4のように定義される。MC−Value法についての詳細は(非特許文献1)を参照。
【数4】
n:単語数
T(W):用語Wを部分文字列として含むより長い用語の出現頻度
C(W):用語Wを部分文字列として含むより長い用語の種類数
F(W):用語Wのドキュメントデータ中の出現頻度
【0056】
次に、ステップS172では、カタカナ用語抽出部1303が、カタカナ語彙から、管理者が設定した閾値以上の重要度の用語を特定する。このようにして、カタカナ語彙から、カタカナの専門用語を特定することができる。
【0057】
図5は、本発明の一実施形態に係る専門用語特定処理のフローチャートである。
【0058】
まず、ステップS191では、専門用語抽出装置10の制御部13が、専門用語抽出部1304により、カタカナ用語リスト1503を用いて、全字種用語リスト1504のそれぞれの用語について、共起ヒット情報を計算する。ここで、共起ヒット情報の計算方法は、シンプソン係数値とTF・IDF(Term Frequency・Inverse Document Frequency)法とを用いる。
【0059】
なお、シンプソン係数値は、用語と用語の共起の強さを測る尺度であり、スコアが0〜1の範囲で、高いほど共起が強い。そして、カタカナ用語Xと全字種用語Yについての、シンプソン係数値R(X,Y)が、数5のように定義される。
【数5】
|X|:カタカナ用語Xの単独ヒット数
|Y|:全字種用語Yの単独ヒット数
|X∩Y|:カタカナ用語Xと全字種用語YのAND検索でのヒット数
【0060】
次に、ステップS192では、専門用語抽出部1304が、共起ヒット情報を基に、管理者が設定した閾値以上の共起の強さを持つ用語を、専門用語として特定する。
【0061】
[実施例1]
以下、専門分野として「アダルト専門分野」を例に、カタカナ用語抽出部1303による、重要度FLRの計算方法を具体的に説明する。図6は、実施例1に係るアダルト専門分野のドキュメントデータのカタカナ語彙を示す図である。図6(a)は、カタカナ語彙中の単語「セックス」を含む用語群である。図6(b)は、単語「セックス」の左右連接単語の出現頻度である。図6(c)は、カタカナ語彙中の単語「パートナー」を含む用語群である。図6(d)は、単語「パートナー」の左右連接単語の出現頻度である。ここで、単語「セックス」と単語「パートナー」についてFLR法による重要度を計算する。
【0062】
まず、連接頻度法に基づく、重要度FLRを計算する。カタカナ語彙中の単語「セックス」を含む用語群(図6(a))において、単語「セックス」の出現頻度F(セックス)はn=3である。そして、図6(b)に示すように、単語「セックス」の左連接単語は、「アナルセックス(3)、テレホンセックス(1)、オーラルセックス(1)」であることから、頻度L(セックス)がi=5となる。又、右連接単語は、「セックスパートナー(2)、セックスレス(1)」であることから、頻度R(セックス)がi=3となる。ここで、連接頻度に基づく重要度FLR(セックス)を計算する。
【数6】
このようにして、連接頻度法に基づく重要度FLR(セックス)は14.70と計算される。
【0063】
続いて、カタカナ語彙中の単語「パートナー」を含む用語群(図6(c))において、単語「パートナー」の出現頻度F(パートナー)はn=2である。そして、図6(d)に示すように、単語「パートナー」の左連接単語は、「セックスパートナー(2)」であることから、頻度L(セックス)がi=2となる。又、右連接単語は、「パートナーリレーション(1)」であることから、頻度R(セックス)がi=1となる。ここで、連接頻度に基づく重要度FLR(パートナー)を計算する。
【数7】
このようにして、連接頻度法に基づく重要度FLR(パートナー)は4.9と計算される。
【0064】
次は、連接種類法に基づく、重要度FLRを計算する。カタカナ語彙中の単語「セックス」を含む用語群(図6(a))において、単語「セックス」の出現頻度F(セックス)=3である。そして、図6(b)に示すように、単語「セックス」の左連接単語は、「アナルセックス、テレホンセックス、オーラルセックス」であることから、種類L(セックス)がi=3となる。又、右連接単語は、「セックスパートナー、セックスレス」であることから、種類R(セックス)がi=2となる。ここで、連接種類に基づく重要度FLR(セックス)を計算する。
【数8】
このようにして、連接種類法に基づく重要度FLR(セックス)は10.4と計算される。
【0065】
続いて、カタカナ語彙中の単語「パートナー」を含む用語群(図6(c))において、単語「パートナー」の出現頻度F(パートナー)=2である。そして、図6(d)に示すように、単語「パートナー」の左連接単語は、「セックスパートナー」であることから、種類L(セックス)がi=1となる。又、右連接単語は、「パートナーリレーション」であることから、種類R(セックス)がi=1となる。ここで、連接種類法に基づく重要度FLR(パートナー)を計算する。
【数9】
このようにして、連接種類法に基づく重要度FLR(パートナー)は6と計算される。
【0066】
このように、FLR法に基づき、重要度を計算することができる。そして、閾値以上の重要度の用語を、専門用語として特定する。ここで、例えば、連接頻度において、FLR(セックス)が14.70、FLR(パートナー)が4.9の場合、閾値を8に設定することで、単語「セックス」のみが専門用語として特定できる。又、連接種類において、FLR(セックス)が10.4、FLR(パートナー)が6の場合、閾値を8に設定することで、単語「セックス」のみが専門用語として特定できる。こうすることにより、カタカナ語彙中の用語から、閾値以上の重要度の用語を、アダルト専門分野のカタカナの専門用語として特定できる。
【0067】
次に、専門用語抽出部1304による、共起ヒットの計算方法を具体的に説明する。図7は、実施例1に係る共起ヒットの具体例を示す図である。
【0068】
まず、カタカナ用語リスト1503のカタカナ用語「セックス」と、全字種用語リスト1504の全字種用語「胸チラ」とについて、シンプソン係数値を計算する。ここで、図7に示す、ドキュメントデータにおける、カタカナ用語「セックス」の単独ヒット数(検索して抽出された数)は7009、全字種用語「胸チラ」の単独ヒット数は452、カタカナ用語「セックス」と全字種用語「胸チラ」とでAND検索したヒット数は414である。ここで、シンプソン係数値R(セックス,胸チラ)が、数10のように計算される。
【数10】
このことにより、カタカナ用語「セックス」と全字種用語「胸チラ」との共起の強さが0.915となり、1に近いので共起が強いことがわかる。
【0069】
次に、カタカナ用語リスト1503のカタカナ用語「セックス」と、全字種用語リスト1504の全字種用語「週末」とについて、シンプソン係数値を計算する。ここで、図7に示す、ドキュメントデータにおける、カタカナ用語「セックス」の単独ヒット数は7009、全字種用語「週末」の単独ヒット数は1063、カタカナ用語「セックス」と全字種用語「週末」とでAND検索したヒット数は278である。ここで、シンプソン係数値R(セックス,胸チラ)は数11のように計算される。
【数11】
このことにより、カタカナ用語「セックス」と全字種用語「週末」との共起の強さが0.262となり、0(ゼロ)に近いので共起が弱いことがわかる。
【0070】
このようにして、カタカナ用語リスト1503のカタカナ用語と、全字種用語リスト1504の全字種用語とについて、シンプソン係数値を計算する。そして、全字種用語リスト1504の全字種用語を、シンプソン係数値で降順にソートし、専門用語を抽出するが、いくつかの問題点がある。ここで、シンプソン係数値の問題点と解決方法とについて、図8に基づき説明する。
【0071】
図8は、実施例1に係る全字種用語リスト1504の全字種用語をシンプソン係数値で降順にソートした図である。はじめの行には全字種用語「風俗店」がシンプソン係数値=1.000であることが示されている。同様に、シンプソン係数値の降順に全字種用語が並ぶ。
【0072】
ここで、シンプソン係数値の問題点の1つには、低頻度な全字種用語について、共起が少なくてノイズである場合が多いが、シンプソン係数値が高くなりやすい問題がある。例えば、図8の6行目 全字種用語「具体案」の0.667は、カタカナ用語リスト1503のカタカナ用語「セックス」との、シンプソン係数値を示す。ここでは、ドキュメントデータにおける、カタカナ用語「セックス」の単独ヒット数は7009、全字種用語「具体案」の単独ヒット数は3、カタカナ用語「セックス」と全字種用語「具体案」とでAND検索したヒット数は2である。ここで、シンプソン係数値は数12のように計算されている。
【数12】
このことにより、カタカナ用語「セックス」と全字種用語「具体案」との共起の強さが0.667となる。しかし、この場合、カタカナ用語「セックス」の単独ヒット数が7009であるのに対して、全字種用語「具体案」の単独ヒット数が3と低頻度である。よって、共起が強いとはいえない。そこで、全字種用語の単独ヒット数について閾値を設けることで解決することができる。例えば、閾値を4に設定することにより、全字種用語「具体案」について全字種用語から除くことができる。
【0073】
しかし、閾値を設定することにより、どのカタカナ用語とも共起するような全字種用語(いわゆる一般語)は、単独ヒット数が多く、シンプソン係数値が高くなりやすい問題がある。例えば、図8の10行目 全字種用語「フリーウェア」の0.613は、カタカナ用語リスト1503のカタカナ用語「セックス」との、シンプソン係数値を示す。ここでは、ドキュメントデータにおける、カタカナ用語「セックス」の単独ヒット数は7009、全字種用語「フリーウェア」の単独ヒット数は62、カタカナ用語「セックス」と全字種用語「フリーウェア」とでAND検索した単独ヒット数は38である。ここで、シンプソン係数値は数13のように計算されている。
【数13】
このことにより、カタカナ用語「セックス」と全字種用語「フリーウェア」との共起の強さが0.613となる。しかし、全字種用語「フリーウェア」は一般語であるので、全字種用語から除く。そこで、閾値を63に設定することにより、全字種用語「フリーウェア」について全字種用語から除くことができるが、他の全字種用語も除かれてしまう。そこで、公知のTF・IDF法を用いて解決をする。
【0074】
TF・IDF法は、ドキュメントの特徴を示す単語を抽出する方法であり、ドキュメントデータの特定のページに偏って多く出現する単語ほど高スコアとなる。なお、単語XについてのTF・IDF値は、数14のように定義される。
【数14】
TF:単語Xの全ページ中の出現頻度
DF:単語Xのページ頻度(いくつのページに跨って出現したか)
N:総ページ数
ここで、具体的な例を示す。
【0075】
まず全字種用語「胸チラ」が、TF値=1423、IDF値=6.059である場合、TF・IDF値は8622.953となる。又、全字種用語「フリーウェア」が、TF値=97、IDF値=7.799である場合、TF・IDF値は756.542となる。ここで、全字種用語「胸チラ」はTF・IDF値が高くドキュメントデータの特定のページに偏って多く出現していることが分かる。そして、全字種用語「フリーウェア」はTF・IDF値が低いのでドキュメントデータ全体に、一般語として使われていることが分かる。このことにより、例えば全字種用語「フリーウェア」のような、どのカタカナ用語とも共起するような全字種用語について、TF・IDF値を用い、閾値を設けることで全字種用語から除くことができる。ここで、専門用語特定処理にシンプソン係数値とTF・IDF法とを用いた具体的な例について、図9に基づき説明する。
【0076】
図9は、実施例1に係る全字種用語リスト1504から抽出された全字種用語を示す図である。ここで、全字種用語は、第1キー:シンプソン係数値、第2キー:TF・IDF値でソートしている。そして、シンプソン係数値を求める際に、全字種用語の単独ヒット数の閾値を56に設定し、低頻度な全字種用語を除いてある。又、全字種用語のTF・IDF値について、閾値を760に設定し、どのカタカナ用語とも共起するような全字種用語を除いてある。このようにして、共起ヒット情報に基づいた、全字種用語を特定することができる。
【0077】
ここで、専門用語特定処理後の全字種用語の具体的な例について、図10に基づき説明する。
【0078】
図10は、実施例1に係る専門用語特定処理後の全字種用語を示す図である。
【0079】
図10に示すように、全字種用語リスト1504の全字種用語から、専門用語として、「風俗店、女王、風俗嬢、・・・」といった全字種用語が抽出されている。又、全字種用語であったが、単独ヒット数の閾値を設定することで、「具体案、介護士、やすみ、・・・」といった全字種用語を、専門用語とすることが回避されている。さらに、TF・IDF値を用いて、「フリーウェア、行楽地、株投資、・・・」といった全字種用語を、専門用語とすることが回避されている。すなわち、抽出された専門用語は、アダルト専門分野のWebサイト20に使用されている専門用語であるため、掲載禁止用語として用いることができる。そして、抽出した掲載禁止用語と共に、カタカナ用語リスト1503の用語を掲載禁止用語として、掲載禁止用語辞書に登録してもよい。
【0080】
なお、本発明の専門用語抽出には、形態素解析を用いるが、形態素解析後の品詞の並びを参照して、連続した単語を抽出してもよい。つまり、単独では専門用語とならない単語でも、単語同士を組み合わせた場合に、掲載禁止用語となる専門用語を抽出する。例えば、単語「女子高生」と単語「画像」は、それぞれ一般的な用語であるが、2つの単語を組み合わせた用語「女子高生画像」を、全字種用語として抽出する。そして、アダルト専門分野のWebサイト20のドキュメントデータにおいて、カタカナ用語「○○○」などとの共起の強さを計算し、専門用語として特定する。そして、全字種用語「女子高生画像」を掲載禁止用語として抽出できる。
【0081】
[実施例2]
以下、専門分野として、ロボット工学関連分野を対象とした実施例を説明する。
【0082】
専門用語抽出装置10を含むシステム1の構成及び機能ブロックは、図2と同様である。ここでは、URLリスト1501は、ロボット工学関連分野のURLが設定されたURLリスト1501dを使用する。
【0083】
又、専門用語抽出処理における実施形態は、図3と同様である。ここでは、クローラ部1301が、ロボット工学関連分野のURLリスト1501dに基づき、ロボット工学関連分野のWebサイト20のドキュメントデータを収集し、コンテンツリポジトリ1502に記憶する。そして、単語抽出部1302が、コンテンツリポジトリ1502のドキュメントデータを形態素解析し、カタカナ語彙と全字種の語彙を抽出する。ここで、全字種の語彙は、全字種用語リスト1504に記憶する。
【0084】
次に、カタカナ用語抽出部1303が、カタカナ語彙の用語ごとに重要度を計算し、管理者の設定する閾値以上の用語を特定するカタカナ用語特定処理については、図4と同様である。そして、カタカナ語彙において特定した用語をカタカナ用語リスト1503に記憶する。
【0085】
次に、専門用語抽出部1304が、カタカナ用語リスト1503と、全字種用語リスト1504とにおいて共起の強い全字種用語を専門用語として特定する専門用語特定処理については、図5と同様である。ここで、シンプソン係数値とTF・IDF法とを用いた専門用語特定処理の具体的な例について、図11に基づき説明する。
【0086】
図11は、実施例2に係る全字種用語リスト1504から抽出された全字種用語を示す図である。ここで、ロボット工学関連分野のWebサイト20のWebページデータから抽出した全字種用語は、第1キー:シンプソン係数値、第2キー:TF・IDF値でソートしている。そして、シンプソン係数値を求める際に、全字種用語の単独ヒット数の閾値を8に設定し、低頻度な全字種用語を除いてある。又、全字種用語のTF・IDF値について、閾値を15に設定し、どのカタカナ用語とも共起するような全字種用語を除いてある。このようにして、共起ヒット情報に基づいて、「ロボ」、「ゲーム」、「大会」、・・・といった、ロボット工学関連分野における全字種用語を特定している。
【0087】
そして、専門用語抽出部1304が、共起ヒット情報を基に、管理者が設定した閾値以上の共起の強さを持つ全字種用語を、専門用語として抽出する。ここで、専門用語特定処理後の全字種用語の具体的な例について、図12に基づき説明する。
【0088】
図12は、実施例2に係る専門用語特定処理後の全字種用語を示す図である。
【0089】
図12に示すように、全字種用語リスト1504の全字種用語から、専門用語として、「ロボ、ゲーム、大会、歩行、ASIMO(登録商標)、ソニー(登録商標)・・・」といった全字種用語が抽出されている。又、全字種用語であったが、単独ヒット数の閾値を設定することで、「アリーナ、ポケモン(登録商標)、ユニーク、・・・」といった全字種用語を、専門用語とすることが回避されている。さらに、TF・IDF値を用いて、「Copyright、TOKYO、http、・・・」といった全字種用語を、専門用語とすることが回避されている。そして、抽出した専門用語と共に、カタカナ用語リスト1503の用語を専門用語として、ロボット工学関連分野の専門用語辞書に登録してもよい。さらに、専門用語をロボット工学関連分野の情報を収集するキーワードとして用いるなど、様々なことに用いることができる。
【0090】
[共起ヒット情報の別の計算方法]
以上、共起ヒット情報の計算方法は、シンプソン係数値とTF・IDF法とを用いて説明したが、シンプソン係数値に代えて、相互情報量値、ダイス係数値、ジャガード係数値、コサイン類似度値を用いてもよい。ここで、カタカナ用語Xと全字種用語Yの共起の強さを示す、相互情報量値は、数15のように定義される。
【数15】
|X|:カタカナ用語Xの単独ヒット数
|Y|:全字種用語Yの単独ヒット数
|X∩Y|:カタカナ用語Xと全字種用語YとのAND検索でのヒット数
N:総ページ数
【0091】
次に、カタカナ用語Xと全字種用語Yの共起の強さを示す、ダイス係数値は、数16のように定義される。
【数16】
|X|:カタカナ用語Xの単独ヒット数
|Y|:全字種用語Yの単独ヒット数
|X∩Y|:カタカナ用語Xと全字種用語YとのAND検索でのヒット数
【0092】
次に、カタカナ用語Xと全字種用語Yの共起の強さを示す、ジャガード係数値は、数17のように定義される。
【数17】
|X∩Y|:カタカナ用語Xと全字種用語YとのAND検索でのヒット数
|X∪Y|:カタカナ用語Xと全字種用語YのOR検索でのヒット数
【0093】
次に、カタカナ用語Xと全字種用語Yの共起の強さを示す、コサイン類似度値は、数18のように定義される。
【数18】
|X|:カタカナ用語Xの単独ヒット数
|Y|:全字種用語Yの単独ヒット数
|X∩Y|:カタカナ用語Xと全字種用語YとのAND検索でのヒット数
【0094】
[専門用語抽出装置のハードウェア構成]
図13は、本発明の一実施形態に係る専門用語抽出装置10(以下、単に専門用語抽出装置と呼ぶ)のハードウェア構成を示す図である。
【0095】
専門用語抽出装置は、制御部130を構成するCPU(Central Processing Unit)131(マルチプロセッサ構成ではCPU132など複数のCPUが追加されてもよい)、バスライン105、通信I/F(I/F:インターフェイス)120、メインメモリ170、BIOS(Basic Input Output System)180、USBポート190、I/Oコントローラ160、キーボード及びマウスなどの入力装置110、並びに表示装置140を備える。
【0096】
I/Oコントローラ160には、テープドライブ151、ハードディスク153、光ディスクドライブ152、及び半導体メモリ154などの記憶部150を接続することができる。
【0097】
BIOS180は、専門用語抽出装置の起動時にCPU131が実行するブートプログラムや、専門用語抽出装置のハードウェアに依存するプログラムなどを格納する。
【0098】
ハードディスク153は、専門用語抽出装置として機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶する。
【0099】
光ディスクドライブ152としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1521を使用する。光ディスク1521から光ディスクドライブ152によりプログラム又はデータを読み取り、I/Oコントローラ160を介してメインメモリ170又はハードディスク153に提供することもできる。又、同様にテープドライブ151に対応したテープメディア1511を主としてバックアップのために使用することもできる。
【0100】
専門用語抽出装置に提供されるプログラムは、ハードディスク153、光ディスク1521、又はメモリーカードなどの記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ160を介して、記録媒体から読み出され、又は通信I/F120を介してダウンロードされることによって、専門用語抽出装置にインストールされ実行されてもよい。
【0101】
上述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、ハードディスク153、光ディスク1521、又はメモリーカードの他に、MDなどの光磁気記録媒体、テープメディア1511を用いることができる。又、専用通信回線やインターネットなどの通信回線に接続されたサーバシステムに設けたハードディスク153又は光ディスクライブラリなどの記憶装置を記録媒体として使用し、通信ネットワーク30を介してプログラムを専門用語抽出装置に提供してもよい。
【0102】
ここで、表示装置140は、ユーザによるデータの入力を受け付ける画面を表示したり、専門用語抽出装置による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)などのディスプレイ装置を含む。
【0103】
ここで、入力装置110は、ユーザによる入力の受け付けを行うものであり、キーボード及びマウスなどにより構成してよい。
【0104】
又、通信I/F120は、専門用語抽出装置を専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F120は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
【0105】
以上の例は、専門用語抽出装置のハードウェア構成について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータを専門用語抽出装置として動作させることにより上記で説明した機能を実現することもできる。従って、本発明において一実施形態として説明した専門用語抽出装置により実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
【0106】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。又、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
【図面の簡単な説明】
【0107】
【図1】本発明の一実施形態に係るシステム1の全体構成を示す図である。
【図2】本発明の一実施形態に係る専門用語抽出装置10の機能ブロック図である。
【図3】本発明の一実施形態に係る専門用語抽出処理のフローチャートである。
【図4】本発明の一実施形態に係るカタカナ用語特定処理のフローチャートである。
【図5】本発明の一実施形態に係る専門用語特定処理のフローチャートである。
【図6】実施例1に係るカタカナ語彙を示す図である。
【図7】実施例1に係る共起ヒットの具体例を示す図である。
【図8】実施例1に係る全字種用語リスト1504の全字種用語をシンプソン係数値で降順にソートした図である。
【図9】実施例1に係る全字種用語リスト1504から抽出された全字種用語を示す図である。
【図10】実施例1に係る専門用語特定処理後の全字種用語を示す図である。
【図11】実施例2に係る全字種用語リスト1504から抽出された全字種用語を示す図である。
【図12】実施例2に係る専門用語特定処理後の全字種用語を示す図である。
【図13】本発明の一実施形態に係る専門用語抽出装置10のハードウェア構成を示す図である。
【符号の説明】
【0108】
1 システム
10 専門用語抽出装置
20 Webサイト
30 通信ネットワーク
1501 URLリスト
1502 コンテンツリポジトリ
1503 カタカナ用語リスト
1504 全字種用語リスト
【特許請求の範囲】
【請求項1】
Webページから専門用語を抽出する専門用語抽出装置であって、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するクローラ部と、
前記コンテンツを形態素解析し、カタカナ語彙と全字種語彙を抽出する単語抽出部と、
前記抽出されたカタカナ語彙に対して、FLR法を用いて前記カタカナ語彙からカタカナ用語を抽出するカタカナ用語抽出部と、
前記カタカナ用語抽出部によって抽出されたカタカナ用語と、前記単語抽出部によって抽出された全字種語彙とを、TFIDF値とシンプソン係数値を組み合わせた共起ヒット情報を計算して、専門用語を抽出する専門用語抽出部と、
を備えた専門用語抽出装置。
【請求項2】
前記カタカナ用語抽出部は、前記FLR法に代えて、C−Value法を用いる、請求項1に記載の装置。
【請求項3】
前記カタカナ用語抽出部は、前記FLR法に代えて、MC−Value法を用いる、請求項1に記載の装置。
【請求項4】
前記専門用語抽出部は、前記シンプソン係数値に代えて、相互情報量値を用いる、請求項1乃至3に記載の装置。
【請求項5】
前記専門用語抽出部は、前記シンプソン係数値に代えて、ダイス係数値を用いる、請求項1乃至3に記載の装置。
【請求項6】
前記専門用語抽出部は、前記シンプソン係数値に代えて、ジャガード係数値を用いる、請求項1乃至3に記載の装置。
【請求項7】
前記専門用語抽出部は、前記シンプソン係数値に代えて、コサイン類似度値を用いる、請求項1乃至3に記載の装置。
【請求項8】
前記専門用語として、アダルト専門分野における掲載禁止用語を抽出する請求項1乃至7に記載の装置。
【請求項9】
Webページから専門用語を抽出するための方法であって、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するステップと、
前記コンテンツを形態素解析し、カタカナ語彙と全字種語彙を抽出する単語抽出ステップと、
前記抽出されたカタカナ語彙に対して、FLR法を用いて前記カタカナ語彙からカタカナ用語を抽出するカタカナ用語抽出ステップと、
前記カタカナ用語抽出ステップによって抽出されたカタカナ用語と、前記単語抽出ステップによって抽出された全字種語彙とを、TFIDF値とシンプソン係数値を組み合わせた共起ヒット情報を計算して、専門用語を抽出する専門用語抽出ステップと、
を含む方法。
【請求項10】
Webページから専門用語を抽出するためのコンピュータ・プログラムであって、
コンピュータに、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するステップと、
前記コンテンツを形態素解析し、カタカナ語彙と全字種語彙を抽出する単語抽出ステップと、
前記抽出されたカタカナ語彙に対して、FLR法を用いて前記カタカナ語彙からカタカナ用語を抽出するカタカナ用語抽出ステップと、
前記カタカナ用語抽出ステップによって抽出されたカタカナ用語と、前記単語抽出ステップによって抽出された全字種語彙とを、TFIDF値とシンプソン係数値を組み合わせた共起ヒット情報を計算して、専門用語を抽出する専門用語抽出ステップと、
を実行させるコンピュータ・プログラム。
【請求項1】
Webページから専門用語を抽出する専門用語抽出装置であって、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するクローラ部と、
前記コンテンツを形態素解析し、カタカナ語彙と全字種語彙を抽出する単語抽出部と、
前記抽出されたカタカナ語彙に対して、FLR法を用いて前記カタカナ語彙からカタカナ用語を抽出するカタカナ用語抽出部と、
前記カタカナ用語抽出部によって抽出されたカタカナ用語と、前記単語抽出部によって抽出された全字種語彙とを、TFIDF値とシンプソン係数値を組み合わせた共起ヒット情報を計算して、専門用語を抽出する専門用語抽出部と、
を備えた専門用語抽出装置。
【請求項2】
前記カタカナ用語抽出部は、前記FLR法に代えて、C−Value法を用いる、請求項1に記載の装置。
【請求項3】
前記カタカナ用語抽出部は、前記FLR法に代えて、MC−Value法を用いる、請求項1に記載の装置。
【請求項4】
前記専門用語抽出部は、前記シンプソン係数値に代えて、相互情報量値を用いる、請求項1乃至3に記載の装置。
【請求項5】
前記専門用語抽出部は、前記シンプソン係数値に代えて、ダイス係数値を用いる、請求項1乃至3に記載の装置。
【請求項6】
前記専門用語抽出部は、前記シンプソン係数値に代えて、ジャガード係数値を用いる、請求項1乃至3に記載の装置。
【請求項7】
前記専門用語抽出部は、前記シンプソン係数値に代えて、コサイン類似度値を用いる、請求項1乃至3に記載の装置。
【請求項8】
前記専門用語として、アダルト専門分野における掲載禁止用語を抽出する請求項1乃至7に記載の装置。
【請求項9】
Webページから専門用語を抽出するための方法であって、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するステップと、
前記コンテンツを形態素解析し、カタカナ語彙と全字種語彙を抽出する単語抽出ステップと、
前記抽出されたカタカナ語彙に対して、FLR法を用いて前記カタカナ語彙からカタカナ用語を抽出するカタカナ用語抽出ステップと、
前記カタカナ用語抽出ステップによって抽出されたカタカナ用語と、前記単語抽出ステップによって抽出された全字種語彙とを、TFIDF値とシンプソン係数値を組み合わせた共起ヒット情報を計算して、専門用語を抽出する専門用語抽出ステップと、
を含む方法。
【請求項10】
Webページから専門用語を抽出するためのコンピュータ・プログラムであって、
コンピュータに、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するステップと、
前記コンテンツを形態素解析し、カタカナ語彙と全字種語彙を抽出する単語抽出ステップと、
前記抽出されたカタカナ語彙に対して、FLR法を用いて前記カタカナ語彙からカタカナ用語を抽出するカタカナ用語抽出ステップと、
前記カタカナ用語抽出ステップによって抽出されたカタカナ用語と、前記単語抽出ステップによって抽出された全字種語彙とを、TFIDF値とシンプソン係数値を組み合わせた共起ヒット情報を計算して、専門用語を抽出する専門用語抽出ステップと、
を実行させるコンピュータ・プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2008−257511(P2008−257511A)
【公開日】平成20年10月23日(2008.10.23)
【国際特許分類】
【出願番号】特願2007−99403(P2007−99403)
【出願日】平成19年4月5日(2007.4.5)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】
【公開日】平成20年10月23日(2008.10.23)
【国際特許分類】
【出願日】平成19年4月5日(2007.4.5)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】
[ Back to top ]