組織名抽出装置、方法及びプログラム
【課題】同義語、対訳語、略語、表記揺れの語などの表現の揺らぎの種類によらずに同一のものを示す異なる表現の組織名を抽出することができる組織名抽出装置を提供する。
【解決手段】Webデータ11から、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織名候補抽出部14と、組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成するアルファベット変換部16と、生成した文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理部18とを備える組織名抽出装置。
【解決手段】Webデータ11から、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織名候補抽出部14と、組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成するアルファベット変換部16と、生成した文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理部18とを備える組織名抽出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Web(ウェブ)上の複数のファイルなどから、同義語、対訳語、略語、表記揺れの語などの表現の揺らぎにかかわらず、同一の組織名を示す文字列を抽出する際に用いて好適な組織名抽出装置、方法及びプログラムに関する。
【背景技術】
【0002】
近年、検索システムにおいて、組織自体または販売している商品の情報だけではなく、組織や商品の評判についての情報を検索したいという要求が強まっている。しかし、ユーザがウェブ上で書き込む情報では、本来、同じことを示しているにもかかわらず、表現が異なる語として、同義語、対訳語、略語、表記揺れの語などが存在する。このような表現の揺らぎは、検索システムや名寄せシステムにおいて、解決すべき課題となっている。また、表現の揺らぎの中でも組織名の揺らぎは表現の揺らぎをなくすために、同義語、対訳語、略語、表記揺れを知識として蓄える試みがなされている。文書中から同義語対や訳語対を抽出する技術として、以下のものが存在する。
【0003】
[従来技術1]
文書中から括弧内の単語と括弧直前の単語の単語対が同義語か判定し、同義語対を抽出する技術がある。この技術では、括弧内に記述される内容は場合により異なるため、精度よく同義語を抽出するためには、括弧内の単語と括弧直前の単語が同義語対であるかどうかの判定が必要となり、品詞属性および固有表現属性に基づいて判定を行う(特許文献1)。
【0004】
[従来技術2]
また、他の技術として、対訳用例から訳語対を抽出するものがある(特許文献2、3及び4)。
【特許文献1】特開2006−178671号公報
【特許文献2】特開平10−143514号公報
【特許文献3】特開2005−135217号公報
【特許文献4】特開2006−190107号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
上記従来技術1は、判定の対象を括弧内の単語と括弧直前の単語の単語対に限定しているため抽出される同義語対が少ない。また、同義語対かどうかの判定において、単語の品詞属性および固有表現属性が一致する場合に同義語対として抽出するため、未知語となる単語や一般名詞で構成される語句は精度良く抽出することができないという課題がある。
【0006】
上記従来技術2は、理想的な対訳関係にある対訳用例である必要はないが、異なる言語で同じ題材を扱っている文書を基に、訳語対を抽出するため、事前に対訳用のコーパス(コンピュータで検索可能な大量の言語データ)を用意する必要がある。そのため、限られた文書からの抽出に限定されるという課題がある。
【0007】
また、共通する課題として、同義語や訳語対など表現の揺らぎの一つの種類しか抽出することができないことが挙げられる。
【0008】
こうした中でも、会社名や団体名といった組織名は、正式名称とは限らず、略称など異なる表現で書き込まれることがよくある。このような情報を網羅的に検索可能とするためには、組織名の表現の揺らぎを吸収するための辞書が必要となる。
【0009】
本発明は、上記の事情に鑑みてなされたものであり、上記従来の技術の課題の解決を図る組織名抽出装置、方法及びプログラムを提供することを目的とする。すなわち、本発明は、事前にコーパスを用意することなく、同義語、対訳語、略語、表記揺れの語などの表現の揺らぎの種類によらず、また、未知語や一般名詞が含まれる場合であっても、同一のものを示す異なる表現の組織名を抽出することができる組織名抽出装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記課題を解決するため、請求項1記載の発明は、ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出手段と、抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成する変換手段と、変換手段によって生成した文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理手段とを備えることを特徴とする。
【0011】
請求項2記載の発明は、前記組織候補名抽出手段は、前記組織名候補としてアンカーテキストと、前記ドメイン名を示す文字列として当該アンカーテキストにリンクされているドメイン名を抽出することを特徴とする。
【0012】
請求項3記載の発明は、前記変換手段は、抽出した組織名候補から予め定められた不要語を削除したのち単語に分割し、分割した単語の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成し、前記一致度判定処理手段は、前記変換手段が生成した文字列が、前記ドメイン名の全部又は一部をその出現順に含んでいる場合に一致すると判定し、当該組織名候補を組織名を示す語句として抽出することを特徴とする。
【0013】
請求項4記載の発明は、ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出過程と、抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成する変換過程と、変換過程で生成された文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理過程とを有することを特徴とする。
【0014】
請求項5記載の発明は、ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出過程と、抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成する変換過程と、変換過程で生成された文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理過程とをコンピュータによって実行するための指令を含むことを特徴とする。
【発明の効果】
【0015】
本発明によれば、抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出するようにしたので、英数字の文字列の比較によって一致度を判定することで、同義語、対訳語、略語、表記揺れの語の種類によらずに同一のものを示す異なる表現の組織名を抽出することができる。また、ウェブ情報から抽出を行うために、事前にコーパスを用意する必要がない。単語の読み情報を複数の候補を許容する形で利用し、一致度を算出することができるため、未知語や一般名詞で構成される語句についても、抽出することが可能である。
【発明を実施するための最良の形態】
【0016】
以下、図面を参照して本発明の実施の形態について説明する。図1は、本発明の組織名抽出装置の実施の形態を示すブロック図である。本実施の形態は、コンピュータ及びその周辺装置と、そのコンピュータによって実行されるプログラムとによって構成することができる。図1に示す各ブロックは、コンピュータやその周辺装置を構成するハードウェアとコンピュータによって実行されるソフトウェアプログラムとの組み合わせあるいはそのどちらかによって実現される各機能に対応している。
【0017】
図1の組織名抽出装置は、Webデータ11の収集部12と、収集結果を記憶する収集データ記憶部13と、収集されたデータからドメイン名に対応付けられている文字列である組織名候補と当該ドメイン名を示す文字列とを抽出する組織名候補抽出部14と、抽出された組織名候補とドメイン名を記憶する組織名候補記憶部15と、抽出された組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成するアルファベット変換部16と、変換結果を記憶するアルファベット記憶部17と、アルファベット変換部16で生成された文字列と当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に当該組織名候補を組織名を示す語句として抽出する一致度判定処理部18と、所定の一致度を有する組織名候補をシソーラス(同一のものを示す異なる表現の組織名)として記憶するシソーラス記憶部19とから構成されている。
【0018】
図2〜図11を参照して、図1の組織名抽出装置の各部の構成と各部が行う処理について説明する。図1の組織名抽出装置は、Web(ウェブ)データ11を基に、図2に示す処理によって、同一のものを示す異なる表現の組織名を抽出し、抽出した組織名を複数組登録したシソーラスを作成して、シソーラス記憶部19に記憶する。
【0019】
組織名抽出装置は、まず、収集部12によって、Webデータ11の収集を行い、収集データ記憶部13に記憶する(ステップS100)。Webデータとは、例えばインターネットなどのネットワークを介して接続されているウェブサーバ上で公開されているアクセス可能なデータであり、Webページを表す文書ファイルなどの1又は複数のファイルからWebデータが構成されている。このWebデータ11としては、リアルタイムにウェブサーバから収集したり、過去に収集したデータを用いたりすることができる。
【0020】
次に、組織名候補抽出部14は、収集されたWebデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出し、抽出した組織名候補をドメイン名ごとに対応づけて組織名候補記憶部15に記憶する(ステップS200)。また、組織名候補抽出部14は、抽出する際に、「ホームページ」や「トップページ」、「株式会社」などの不要語は削除する。ここで、ドメイン名とは、Webシステムあるいはインターネット上のコンピュータやネットワークを特定するための識別子で、アルファベットと数字と一部の記号とで表されている。また、ドメイン名は、単にドメインあるいはドメインネーム、ホスト名などとも呼ばれる。
【0021】
たとえば図3に示すように、組織名候補抽出部14によって、収集部12が収集したWebデータ11であるWebページ111a、111b、111c、…から、ドメイン名(たとえば「xyzdata.co.jp」)にリンクしている文字列112(「株式会社XYZデータホームページ」)が抽出される。そして、抽出された文字列「株式会社XYZデータホームページ」から「ホームページ」や「トップページ」、「株式会社」などの不要語を削除した文字列「XYZデータ」が、組織名候補として、ドメイン名を示す文字列「xyzdata.co.jp」に対応づけて組織名候補記憶部15に記憶される。
【0022】
次に、アルファベット変換部16と一致度判定処理部18によって、ドメイン名ごとに以下の処理が、未処理のドメイン名がなくなるまで繰り返し行われる(ステップS300〜S1100)。
【0023】
ステップS200で抽出された組織名候補数が2以上で、かつ、この処理がまだ行われていないドメイン名がある場合(ステップS300で「YES」の場合)、未処理のドメイン名から処理対象とするドメイン名が1つ選択される(ステップS400)。そして、処理対象ドメイン名において未処理の組織名候補が存在する場合(ステップS500で「YES」の場合)、処理対象が1つ抽出される(ステップS600)。そして、抽出された組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列が生成され(ステップS700)、生成された文字列とドメイン名との一致度が算出される(ステップS800)。
【0024】
ステップS700では、アルファベット変換部16によって、予め設定した手順に従い、抽出された組織名候補が、同義語、対訳語、略語、表記揺れの語などを考慮して考えられる複数種類のアルファベット文字列(ただし数字又は記号を含む。以下同じ。)に変換される。そして、変換されたすべてのアルファベット文字列は、ドメイン名と組織名候補文字列とをセットにした形で、アルファベット記憶部17に登録される。
【0025】
また、ステップS800では、一致度判定処理部18によって、ステップS700で生成されたアルファベット文字列の各々に対して、ドメイン名との一致度が算出される。
【0026】
次に、一致度判定処理部18によって、一致度が所定の閾値以上であるか否かが判定され、閾値以上である場合(ステップS900で「YES」の場合)、組織名候補が対象のドメイン名の組織名として決定されてシソーラス記憶部19に登録される(ステップS1000)。一方、一致度判定処理部18によって、一致度が所定の閾値以上ではないと判定された場合(ステップS900で「NO」の場合)及びステップS1000で組織名がシソーラス記憶部19に登録された場合、ステップS500へ戻り、ステップS500以降の処理が上記と同様に行われる。また、ステップS500で、処理対象ドメイン名において未処理の組織名候補が存在しないと判定された場合(ステップS500で「NO」の場合)には、選択されたドメイン名においてシソーラス記憶部19に登録された語句数が1つのときにシソーラス記憶部19から削除するシソーラス整形の処理が行われる(ステップS1100)。
【0027】
なお、ステップS1100でシソーラス整形が行われた後は、ステップS300以降の処理が行われ、ステップS300で組織名候補数が2以上でかつこの処理がまだ行われていないドメイン名がある場合ではないと判定された場合(ステップS300で「NO」の場合)、この処理が終了する。
【0028】
次に、図4を参照して、図1のステップS200の処理内容の一例について説明する。組織名候補抽出部14は、収集データ記憶部13に記憶されている収集データを基に組織名候補を抽出するため、収集データ記憶部13において未処理のファイルがなくなるまで、ステップS202〜S204の処理を繰り返し実行する。
【0029】
収集データ記憶部13において未処理のファイルが存在すると判定された場合(ステップS201で「YES」の場合)、まず、組織名候補抽出部14は、収集データ記憶部13から未処理の1ファイルを選択する(ステップS202)。次に、組織名候補抽出部14は、対象ファイルに含まれている情報(対象ファイルに含まれる文字列、対象ファイルからリンクされている他の文書ファイルに含まれる文字列などの情報)から、対象ファイルの属するドメイン名以外のドメイン名を有するトップページへのリンク箇所を抽出し、URL(Uniform Resource Locator)とアンカーテキストをペアで抽出する(ステップS203)。たとえば図3に示すように、「○○○株式会社」のWebページ111aのURLが「○○○.co.jp/page1.html」であり、そのWebページに含まれているリンク先が、当該ドメイン名「○○○.co.jp」と異なるドメイン名「xyzdata.co.jp」のトップページへのリンクである場合に、そのリンクが示すURL「xyzdata.co.jp」とアンカーテキスト「株式会社XYZデータホームページ」とが抽出される。
【0030】
ここで、アンカーテキスト(anchor text)とは、たとえばHTML(HyperText Markup Language)などの他のファイルへのリンクを設定できる形式で記述された文書の中で、リンクが設定された文字列を意味する。また、この処理対象となるファイルは、HTMLによるものに限らず、XHTML(Extensible HyperText Markup Language)、PDF(Portable Document Format)、一般的に使用されている既存の文書作成用ソフトウェア/表計算ソフトウェア/プレゼンテーション用ソフトウェアで作成されたデータファイルなど、リンクとアンカーテキストがセットで記述されているファイルであればよい。また、トップページへのリンクとは、リンク先のURLがたとえば「.com」や「.jp」などのトップレベルドメインで終わっているもの(ただしさらに区切りを表す「/」などの記号が付加されたものも含む)である。
【0031】
次に、組織名候補抽出部14により、抽出されたアンカーテキストから「ホームページ」、「トップページ」、「株式会社」など共通して使われる不要語が削除される(ステップS204)。また、ステップS204では、英数字は半角小文字に、カタカナや記号は全角に統一する正規化処理が行われる。
【0032】
収集データ記憶部13において未処理のファイルがなくなると(ステップS201で「NO」)、組織名候補抽出部14により、処理された複数のファイル全体を対象として、ドメイン名ごとに抽出されたアンカーテキストを整理する処理が行われる(ステップS205)。この際、同一の文字列はまとめ、文字列ごとにリンクとして参照されていた数がカウントされる。
【0033】
次に、被参照数がある閾値以上の場合、組織名候補抽出部14は、文字列を組織名候補として決定し、ドメイン名と組織名候補文字列を組織名候補記憶部15に登録する(ステップS206)。図8に組織名候補記憶部15の登録内容の一例を示した。図8に示す例では、複数のドメイン名と、各ドメイン名に対応する複数の組織名候補が登録されている。例えばドメイン名「xyzdata.co.jp」に対して、「XYZデータ」、「XYZ Data」、「エックス・ワイ・ゼットデータ」などの組織名候補が登録されている。
【0034】
なお、図4を参照して説明した処理では、リンク情報を利用して組織名候補抽出を行っているが、Webページのタイトルタグからの抽出、文書中に出現する単語頻度を基にしたキーワード抽出など、他の所定のルールに基づく抽出で組織名候補を抽出してもよい。なお、図3の例で、現在処理中のWebページ111aのタイトルタグが「○○○株式会社」であるとすると、そのWebページのドメイン名は、そのWebページ111aのURL「http://○○○.co.jp/page1.html」に含まれるドメイン名「○○○.co.jp」となる。
【0035】
次に、図5を参照して、図2のステップS700の処理内容の一例について説明する。ステップS700では、アルファベット変換部16によって、組織名候補文字列の各々に対して、以下のように考えうるすべてのアルファベット文字列への変換処理が行われ、変換された結果がアルファベット記憶部17に登録される。
【0036】
まず、アルファベット変換部16は、組織名候補記憶部15に登録されている組織名候補の文字列に対して、形態素解析を行う(ステップS701)。この際、文字列が英数字のみで構成される場合には、実施しない。この形態素解析の結果として、組織名候補が形態素(意味を有する最小の言語単位、以下本願では単に「単語」と称する。)に分割され、各形態素を表す文字列と、品詞と、読みと、原形などの情報が取得される。この形態素解析には、一般的に使用されている既存の形態素解析用ソフトウェアを利用することが可能である。たとえば中国語など他言語においては、それぞれの言語にあった解析器を利用することで可能である。
【0037】
次にアルファベット変換部16は、ステップS701で得られた形態素解析結果から、読み情報を取得する(ステップS702)。なお、英数字で構成される文字列部分は、その文字のままを読み情報として取得する。
【0038】
次に、アルファベット変換部16は、区切られた各単語に対して、アルファベット変換テーブルを基に、ステップS702で得られた読み情報の一文字ずつをアルファベットに変換する(ステップS703)。図9にアルファベット変換テーブルの一例を示す。例えば、「ア」は「a」に、「シ」は「shi」または「si」または「c」に変換される。各文字を変換して得られたアルファベットを出現順に組み合わせ、考えられるすべてのアルファベット文字列を生成する。なお、英数字で構成される文字列部分は、その文字のまま文字列が生成される。このとき、先頭の1文字だけのアルファベットあるいは数字も生成する。例として、組織名候補名が「xyzデータ」の場合、「xyz」部分を「xyz」、「x」に、「データ」部分を「deta」、「det」、「dta」、「dt」、「d」に変換する。
【0039】
次に、アルファベット変換部16は、ステップS701で得られた形態素解析結果から、区切られた単語の中で名詞の単語を抽出する。さらに、アルファベット変換部16は、抽出した単語に対応する英単語を、組織名抽出装置が備える辞書データから取得する(ステップS704)。このとき、先頭の1文字だけのアルファベットも生成する。例としては、「日本」は「japan」、「j」を、「データ」は「data」、「d」を取得する。ここでは、言語に対応した辞書を用意することで、日本語以外の言語にも対応可能である。
【0040】
次に、アルファベット変換部16は、ステップS703で取得したアルファベット文字列と、ステップS704で取得した英単語を組み合わせから、考えられるすべてのアルファベット文字列(ただし数字も含む)を取得する(ステップS705)。例として、組織名候補名が「XYZデータ」の場合、図6に示すように、「xyzdeta」、「xyzdet」、「xyzdta」、「xyzdt」、「xyzd」、「xyzdata」、「xdeta」、「xdet」、「xdta」、「xdt」、「xd」、「xdata」を取得する。
【0041】
次に、アルファベット変換部16は、ステップS705で取得したすべてのアルファベット文字列をアルファベット記憶部17に登録する(ステップS706)。図10にアルファベット記憶部17の登録内容の一例を示した。
【0042】
次に、図7を参照して、図2のステップS800の処理内容の一例について説明する。ステップS800では、一致度判定処理部18によって、対象としているドメイン名と取得したアルファベット文字列を比較し、一致度が算出される。
【0043】
まず、一致度判定処理部18は、アルファベット文字列のいずれかに、対象ドメイン名が含まれているかの判定を行う(ステップS801)。対象ドメイン名を、そのままの形で、すなわち各文字列が同一の出現順で他の文字を間に挟むことなく含んでいるアルファベット文字列が1つでも存在した場合は、一致度を「1」として、一致度算出を終了する(ステップS802から「エンド」)。なお、ここでは一致度を「1」と設定しているが、任意の値に設定可能である。例として、ドメイン名が「xyzdata」であり、アルファベット文字列に「xyzdatajapan」が存在した場合、一致度は「1」となる。
【0044】
アルファベット文字列のいずれかに対象ドメイン名が含まれていない場合(ステップS801で「NO」)、一致度判定処理部18は、アルファベット文字列のいずれかに、対象ドメイン名のすべての文字が出現順に含まれているか否かを判定する(ステップS803)。含まれていた場合(ステップS803で「YES」)、一致度判定処理部18は、一致度を「0.8」として、一致度算出を終了する(ステップS804から「エンド」)。なお、ここで一致度を「0.8」と設定しているが任意の値に設定可能である。例として、ドメイン名が「xyzdata」であり、アルファベット文字列に「xyzjapandata」が存在した場合や、ドメイン名が「abc」であり、アルファベット文字列に「axxxbxxxcxxx」が存在した場合に、一致度は「0.8」となる。
【0045】
次に、一致度判定処理部18は、対象のドメイン名から先頭の文字以外の母音を削除した文字列を取得する(ステップS805)。
【0046】
次に、一致度判定処理部18は、ステップS805で取得した文字列の長さが所定の閾値よりも小さい場合(ステップS806で「YES」)、一致度を「0」として一致度算出を終了する(ステップS810から「エンド」)。
【0047】
ステップS805で取得した文字列の長さが所定の閾値以上の場合(ステップS806で「NO」)、一致度判定処理部18は、アルファベット文字列のいずれかに、ステップS805で取得した文字列のすべての文字が出現順に含まれているか判定を行う(ステップS807)。
【0048】
ステップS807で含まれていないと判定された場合(ステップS807で「NO」)、一致度判定処理部18は、一致度を「0」として一致度算出を終了する(ステップS810から「エンド」)。
【0049】
他方、ステップS807で含まれていると判定された場合(ステップS807で「YES」)、ステップS808では、一致度判定処理部18は、まず、一致した文字列に対応するアルファベット文字列の部分文字列を抽出する。なお、ここで抽出する文字列の長さが、すべてのアルファベット文字列の中で、最も短くなるアルファベット文字列を対象とする。そして、抽出された文字列の長さが一致した文字列の長さの4倍以下か判定を行う。4倍という値は任意の値が設定可能である。
【0050】
ステップS808での文字列の長さの比較で、4倍以下の場合(ステップS808で「YES」)、一致度判定処理部18は、一致度を「0.6」として、一致度算出を終了する(ステップS809から「エンド」)。なお、ここで一致度を「0.6」と設定しているが任意の値に設定可能である。
【0051】
4倍より大きい場合(ステップS808で「NO」)、一致度判定処理部18は、一致度を「0」として終了する(ステップS810から「エンド」)。ここで、文字列の長さを比較することで、組織名候補の文字列が長い文字列で構成されていることによる、偶然の一致を防ぐことができる。例として、ドメイン名が「xyzdata」であり、アルファベット文字列に「xyzdtjpn」が含まれていた場合、一致度は「0.6」となる。これに対して一致するアルファベット文字列が「xyzabcdefghijklmnopqrstuvwxyz」のみの場合、一致した文字列は「xyzdt」(長さは「5」)であり、対応するアルファベット文字列の一致部分は「xyzabcdefghijklmnopqrst」(長さは「23」)であり、4倍以上の長さの差があるため一致度は「0」となる。
【0052】
一致度判定処理部18は、ここで得られた一致度を基に、組織名候補である語句をシソーラスとして登録するかを決定する。例えばあるドメイン名に対して対応する組織名候補が登録されていない場合には一致度「0.6」であっても登録するが、例えば一致度「1」の組織名候補が複数すでに登録されている場合には一致度「0.6」の組織名候補は登録しないというような決定を行う。図11にシソーラス記憶部19内の登録内容の一例を示した。
【0053】
以上のように、本発明の組織名抽出装置では、ウェブ情報を利用して、ドメイン名ごとの組織名候補となる文字列を複数抽出し、抽出した文字列を考えられるすべてのアルファベット文字列に変換する。そして、変換されたアルファベット文字列とドメイン名との一致度を算出し、いずれかのアルファベット文字列との一致度が閾値以上である組織名候補文字列のみ組織名とする。ドメイン名ごとに複数の組織名が抽出された場合に、それらの組織名を異なる表現として抽出する。
【0054】
この方法では、ウェブ上で利用される組織名表現を抽出するため、同義語、対訳語、略語、表記揺れの語の種類によらずに抽出することができる。また、ウェブ情報から抽出を行うために、事前にコーパスを用意する必要がない。単語のヨミ情報は複数の候補を許容する形で利用し、一致度を算出するため、未知語や一般名詞で構成される語句についても、抽出することが可能である。
【0055】
本発明によれば、事前に対訳コーパスを用意することなく、一般的に公開されているウェブ情報を利用し、ドメイン名との一致度を算出することで組織名である単語を抽出するため、以下の効果を得ることができる。
【0056】
(1)同義語および略語、対訳語、表記揺れの語などの表現の揺らぎの種類に限定することなく、同一のものを示す異なる表現の組織名を抽出可能。(2)ウェブではサイト管理者の各々の言葉で表現されるため、公式に利用される表現だけでなく、利用者が一般的に利用するニックネームなども含めて抽出可能。(3)対訳コーパスなど事前に抽出対象とする文書群を用意する必要がない。(4)ウェブ情報は日々更新されるため、辞書に掲載されていないような新しい組織名の異表現の単語を抽出可能。
【0057】
なお、本発明の実施の形態は、上記に限定されず、図1の各ブロックを分割して、ネットワークを介して分散して配置したり、あるいは記憶装置を集約するなど各ブロックを統合したりすることができる。また、本発明の実施の形態は、コンピュータとそのコンピュータで実行されるプログラムとを用いて構成することができるが、そのプログラムの一部または全部はコンピュータ読み取り可能な記録媒体又は通信回線を介して頒布することが可能である。
【図面の簡単な説明】
【0058】
【図1】本発明の組織名抽出装置の実施の形態の構成を示すブロック図である。
【図2】図1の組織名抽出装置の処理の流れを示すフローチャートである。
【図3】図2のステップS200の処理内容を説明するための説明図である。
【図4】図2のステップS200の内容の一例を示すフローチャートである。
【図5】図2のステップS700の内容の一例を示すフローチャートである。
【図6】図5のステップS705の処理内容を説明するための説明図である。
【図7】図2のステップS800の内容の一例を示すフローチャートである。
【図8】図1の組織名候補記憶部15の登録内容の一例を示す図である。
【図9】図5のステップS703で用いるアルファベット変換テーブルの一例を示す図である。
【図10】図1のアルファベット記憶部17の登録内容の一例を示す図である。
【図11】図1のシソーラス記憶部19の登録内容の一例を示す図である。
【符号の説明】
【0059】
11…Webデータ
12…収集部
13…収集データ記憶部
14…組織名候補抽出部
15…組織名候補記憶部
16…アルファベット変換部
17…アルファベット記憶部
18…一致度判定処理部
19…シソーラス記憶部
【技術分野】
【0001】
本発明は、Web(ウェブ)上の複数のファイルなどから、同義語、対訳語、略語、表記揺れの語などの表現の揺らぎにかかわらず、同一の組織名を示す文字列を抽出する際に用いて好適な組織名抽出装置、方法及びプログラムに関する。
【背景技術】
【0002】
近年、検索システムにおいて、組織自体または販売している商品の情報だけではなく、組織や商品の評判についての情報を検索したいという要求が強まっている。しかし、ユーザがウェブ上で書き込む情報では、本来、同じことを示しているにもかかわらず、表現が異なる語として、同義語、対訳語、略語、表記揺れの語などが存在する。このような表現の揺らぎは、検索システムや名寄せシステムにおいて、解決すべき課題となっている。また、表現の揺らぎの中でも組織名の揺らぎは表現の揺らぎをなくすために、同義語、対訳語、略語、表記揺れを知識として蓄える試みがなされている。文書中から同義語対や訳語対を抽出する技術として、以下のものが存在する。
【0003】
[従来技術1]
文書中から括弧内の単語と括弧直前の単語の単語対が同義語か判定し、同義語対を抽出する技術がある。この技術では、括弧内に記述される内容は場合により異なるため、精度よく同義語を抽出するためには、括弧内の単語と括弧直前の単語が同義語対であるかどうかの判定が必要となり、品詞属性および固有表現属性に基づいて判定を行う(特許文献1)。
【0004】
[従来技術2]
また、他の技術として、対訳用例から訳語対を抽出するものがある(特許文献2、3及び4)。
【特許文献1】特開2006−178671号公報
【特許文献2】特開平10−143514号公報
【特許文献3】特開2005−135217号公報
【特許文献4】特開2006−190107号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
上記従来技術1は、判定の対象を括弧内の単語と括弧直前の単語の単語対に限定しているため抽出される同義語対が少ない。また、同義語対かどうかの判定において、単語の品詞属性および固有表現属性が一致する場合に同義語対として抽出するため、未知語となる単語や一般名詞で構成される語句は精度良く抽出することができないという課題がある。
【0006】
上記従来技術2は、理想的な対訳関係にある対訳用例である必要はないが、異なる言語で同じ題材を扱っている文書を基に、訳語対を抽出するため、事前に対訳用のコーパス(コンピュータで検索可能な大量の言語データ)を用意する必要がある。そのため、限られた文書からの抽出に限定されるという課題がある。
【0007】
また、共通する課題として、同義語や訳語対など表現の揺らぎの一つの種類しか抽出することができないことが挙げられる。
【0008】
こうした中でも、会社名や団体名といった組織名は、正式名称とは限らず、略称など異なる表現で書き込まれることがよくある。このような情報を網羅的に検索可能とするためには、組織名の表現の揺らぎを吸収するための辞書が必要となる。
【0009】
本発明は、上記の事情に鑑みてなされたものであり、上記従来の技術の課題の解決を図る組織名抽出装置、方法及びプログラムを提供することを目的とする。すなわち、本発明は、事前にコーパスを用意することなく、同義語、対訳語、略語、表記揺れの語などの表現の揺らぎの種類によらず、また、未知語や一般名詞が含まれる場合であっても、同一のものを示す異なる表現の組織名を抽出することができる組織名抽出装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記課題を解決するため、請求項1記載の発明は、ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出手段と、抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成する変換手段と、変換手段によって生成した文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理手段とを備えることを特徴とする。
【0011】
請求項2記載の発明は、前記組織候補名抽出手段は、前記組織名候補としてアンカーテキストと、前記ドメイン名を示す文字列として当該アンカーテキストにリンクされているドメイン名を抽出することを特徴とする。
【0012】
請求項3記載の発明は、前記変換手段は、抽出した組織名候補から予め定められた不要語を削除したのち単語に分割し、分割した単語の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成し、前記一致度判定処理手段は、前記変換手段が生成した文字列が、前記ドメイン名の全部又は一部をその出現順に含んでいる場合に一致すると判定し、当該組織名候補を組織名を示す語句として抽出することを特徴とする。
【0013】
請求項4記載の発明は、ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出過程と、抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成する変換過程と、変換過程で生成された文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理過程とを有することを特徴とする。
【0014】
請求項5記載の発明は、ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出過程と、抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成する変換過程と、変換過程で生成された文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理過程とをコンピュータによって実行するための指令を含むことを特徴とする。
【発明の効果】
【0015】
本発明によれば、抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出するようにしたので、英数字の文字列の比較によって一致度を判定することで、同義語、対訳語、略語、表記揺れの語の種類によらずに同一のものを示す異なる表現の組織名を抽出することができる。また、ウェブ情報から抽出を行うために、事前にコーパスを用意する必要がない。単語の読み情報を複数の候補を許容する形で利用し、一致度を算出することができるため、未知語や一般名詞で構成される語句についても、抽出することが可能である。
【発明を実施するための最良の形態】
【0016】
以下、図面を参照して本発明の実施の形態について説明する。図1は、本発明の組織名抽出装置の実施の形態を示すブロック図である。本実施の形態は、コンピュータ及びその周辺装置と、そのコンピュータによって実行されるプログラムとによって構成することができる。図1に示す各ブロックは、コンピュータやその周辺装置を構成するハードウェアとコンピュータによって実行されるソフトウェアプログラムとの組み合わせあるいはそのどちらかによって実現される各機能に対応している。
【0017】
図1の組織名抽出装置は、Webデータ11の収集部12と、収集結果を記憶する収集データ記憶部13と、収集されたデータからドメイン名に対応付けられている文字列である組織名候補と当該ドメイン名を示す文字列とを抽出する組織名候補抽出部14と、抽出された組織名候補とドメイン名を記憶する組織名候補記憶部15と、抽出された組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成するアルファベット変換部16と、変換結果を記憶するアルファベット記憶部17と、アルファベット変換部16で生成された文字列と当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に当該組織名候補を組織名を示す語句として抽出する一致度判定処理部18と、所定の一致度を有する組織名候補をシソーラス(同一のものを示す異なる表現の組織名)として記憶するシソーラス記憶部19とから構成されている。
【0018】
図2〜図11を参照して、図1の組織名抽出装置の各部の構成と各部が行う処理について説明する。図1の組織名抽出装置は、Web(ウェブ)データ11を基に、図2に示す処理によって、同一のものを示す異なる表現の組織名を抽出し、抽出した組織名を複数組登録したシソーラスを作成して、シソーラス記憶部19に記憶する。
【0019】
組織名抽出装置は、まず、収集部12によって、Webデータ11の収集を行い、収集データ記憶部13に記憶する(ステップS100)。Webデータとは、例えばインターネットなどのネットワークを介して接続されているウェブサーバ上で公開されているアクセス可能なデータであり、Webページを表す文書ファイルなどの1又は複数のファイルからWebデータが構成されている。このWebデータ11としては、リアルタイムにウェブサーバから収集したり、過去に収集したデータを用いたりすることができる。
【0020】
次に、組織名候補抽出部14は、収集されたWebデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出し、抽出した組織名候補をドメイン名ごとに対応づけて組織名候補記憶部15に記憶する(ステップS200)。また、組織名候補抽出部14は、抽出する際に、「ホームページ」や「トップページ」、「株式会社」などの不要語は削除する。ここで、ドメイン名とは、Webシステムあるいはインターネット上のコンピュータやネットワークを特定するための識別子で、アルファベットと数字と一部の記号とで表されている。また、ドメイン名は、単にドメインあるいはドメインネーム、ホスト名などとも呼ばれる。
【0021】
たとえば図3に示すように、組織名候補抽出部14によって、収集部12が収集したWebデータ11であるWebページ111a、111b、111c、…から、ドメイン名(たとえば「xyzdata.co.jp」)にリンクしている文字列112(「株式会社XYZデータホームページ」)が抽出される。そして、抽出された文字列「株式会社XYZデータホームページ」から「ホームページ」や「トップページ」、「株式会社」などの不要語を削除した文字列「XYZデータ」が、組織名候補として、ドメイン名を示す文字列「xyzdata.co.jp」に対応づけて組織名候補記憶部15に記憶される。
【0022】
次に、アルファベット変換部16と一致度判定処理部18によって、ドメイン名ごとに以下の処理が、未処理のドメイン名がなくなるまで繰り返し行われる(ステップS300〜S1100)。
【0023】
ステップS200で抽出された組織名候補数が2以上で、かつ、この処理がまだ行われていないドメイン名がある場合(ステップS300で「YES」の場合)、未処理のドメイン名から処理対象とするドメイン名が1つ選択される(ステップS400)。そして、処理対象ドメイン名において未処理の組織名候補が存在する場合(ステップS500で「YES」の場合)、処理対象が1つ抽出される(ステップS600)。そして、抽出された組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列が生成され(ステップS700)、生成された文字列とドメイン名との一致度が算出される(ステップS800)。
【0024】
ステップS700では、アルファベット変換部16によって、予め設定した手順に従い、抽出された組織名候補が、同義語、対訳語、略語、表記揺れの語などを考慮して考えられる複数種類のアルファベット文字列(ただし数字又は記号を含む。以下同じ。)に変換される。そして、変換されたすべてのアルファベット文字列は、ドメイン名と組織名候補文字列とをセットにした形で、アルファベット記憶部17に登録される。
【0025】
また、ステップS800では、一致度判定処理部18によって、ステップS700で生成されたアルファベット文字列の各々に対して、ドメイン名との一致度が算出される。
【0026】
次に、一致度判定処理部18によって、一致度が所定の閾値以上であるか否かが判定され、閾値以上である場合(ステップS900で「YES」の場合)、組織名候補が対象のドメイン名の組織名として決定されてシソーラス記憶部19に登録される(ステップS1000)。一方、一致度判定処理部18によって、一致度が所定の閾値以上ではないと判定された場合(ステップS900で「NO」の場合)及びステップS1000で組織名がシソーラス記憶部19に登録された場合、ステップS500へ戻り、ステップS500以降の処理が上記と同様に行われる。また、ステップS500で、処理対象ドメイン名において未処理の組織名候補が存在しないと判定された場合(ステップS500で「NO」の場合)には、選択されたドメイン名においてシソーラス記憶部19に登録された語句数が1つのときにシソーラス記憶部19から削除するシソーラス整形の処理が行われる(ステップS1100)。
【0027】
なお、ステップS1100でシソーラス整形が行われた後は、ステップS300以降の処理が行われ、ステップS300で組織名候補数が2以上でかつこの処理がまだ行われていないドメイン名がある場合ではないと判定された場合(ステップS300で「NO」の場合)、この処理が終了する。
【0028】
次に、図4を参照して、図1のステップS200の処理内容の一例について説明する。組織名候補抽出部14は、収集データ記憶部13に記憶されている収集データを基に組織名候補を抽出するため、収集データ記憶部13において未処理のファイルがなくなるまで、ステップS202〜S204の処理を繰り返し実行する。
【0029】
収集データ記憶部13において未処理のファイルが存在すると判定された場合(ステップS201で「YES」の場合)、まず、組織名候補抽出部14は、収集データ記憶部13から未処理の1ファイルを選択する(ステップS202)。次に、組織名候補抽出部14は、対象ファイルに含まれている情報(対象ファイルに含まれる文字列、対象ファイルからリンクされている他の文書ファイルに含まれる文字列などの情報)から、対象ファイルの属するドメイン名以外のドメイン名を有するトップページへのリンク箇所を抽出し、URL(Uniform Resource Locator)とアンカーテキストをペアで抽出する(ステップS203)。たとえば図3に示すように、「○○○株式会社」のWebページ111aのURLが「○○○.co.jp/page1.html」であり、そのWebページに含まれているリンク先が、当該ドメイン名「○○○.co.jp」と異なるドメイン名「xyzdata.co.jp」のトップページへのリンクである場合に、そのリンクが示すURL「xyzdata.co.jp」とアンカーテキスト「株式会社XYZデータホームページ」とが抽出される。
【0030】
ここで、アンカーテキスト(anchor text)とは、たとえばHTML(HyperText Markup Language)などの他のファイルへのリンクを設定できる形式で記述された文書の中で、リンクが設定された文字列を意味する。また、この処理対象となるファイルは、HTMLによるものに限らず、XHTML(Extensible HyperText Markup Language)、PDF(Portable Document Format)、一般的に使用されている既存の文書作成用ソフトウェア/表計算ソフトウェア/プレゼンテーション用ソフトウェアで作成されたデータファイルなど、リンクとアンカーテキストがセットで記述されているファイルであればよい。また、トップページへのリンクとは、リンク先のURLがたとえば「.com」や「.jp」などのトップレベルドメインで終わっているもの(ただしさらに区切りを表す「/」などの記号が付加されたものも含む)である。
【0031】
次に、組織名候補抽出部14により、抽出されたアンカーテキストから「ホームページ」、「トップページ」、「株式会社」など共通して使われる不要語が削除される(ステップS204)。また、ステップS204では、英数字は半角小文字に、カタカナや記号は全角に統一する正規化処理が行われる。
【0032】
収集データ記憶部13において未処理のファイルがなくなると(ステップS201で「NO」)、組織名候補抽出部14により、処理された複数のファイル全体を対象として、ドメイン名ごとに抽出されたアンカーテキストを整理する処理が行われる(ステップS205)。この際、同一の文字列はまとめ、文字列ごとにリンクとして参照されていた数がカウントされる。
【0033】
次に、被参照数がある閾値以上の場合、組織名候補抽出部14は、文字列を組織名候補として決定し、ドメイン名と組織名候補文字列を組織名候補記憶部15に登録する(ステップS206)。図8に組織名候補記憶部15の登録内容の一例を示した。図8に示す例では、複数のドメイン名と、各ドメイン名に対応する複数の組織名候補が登録されている。例えばドメイン名「xyzdata.co.jp」に対して、「XYZデータ」、「XYZ Data」、「エックス・ワイ・ゼットデータ」などの組織名候補が登録されている。
【0034】
なお、図4を参照して説明した処理では、リンク情報を利用して組織名候補抽出を行っているが、Webページのタイトルタグからの抽出、文書中に出現する単語頻度を基にしたキーワード抽出など、他の所定のルールに基づく抽出で組織名候補を抽出してもよい。なお、図3の例で、現在処理中のWebページ111aのタイトルタグが「○○○株式会社」であるとすると、そのWebページのドメイン名は、そのWebページ111aのURL「http://○○○.co.jp/page1.html」に含まれるドメイン名「○○○.co.jp」となる。
【0035】
次に、図5を参照して、図2のステップS700の処理内容の一例について説明する。ステップS700では、アルファベット変換部16によって、組織名候補文字列の各々に対して、以下のように考えうるすべてのアルファベット文字列への変換処理が行われ、変換された結果がアルファベット記憶部17に登録される。
【0036】
まず、アルファベット変換部16は、組織名候補記憶部15に登録されている組織名候補の文字列に対して、形態素解析を行う(ステップS701)。この際、文字列が英数字のみで構成される場合には、実施しない。この形態素解析の結果として、組織名候補が形態素(意味を有する最小の言語単位、以下本願では単に「単語」と称する。)に分割され、各形態素を表す文字列と、品詞と、読みと、原形などの情報が取得される。この形態素解析には、一般的に使用されている既存の形態素解析用ソフトウェアを利用することが可能である。たとえば中国語など他言語においては、それぞれの言語にあった解析器を利用することで可能である。
【0037】
次にアルファベット変換部16は、ステップS701で得られた形態素解析結果から、読み情報を取得する(ステップS702)。なお、英数字で構成される文字列部分は、その文字のままを読み情報として取得する。
【0038】
次に、アルファベット変換部16は、区切られた各単語に対して、アルファベット変換テーブルを基に、ステップS702で得られた読み情報の一文字ずつをアルファベットに変換する(ステップS703)。図9にアルファベット変換テーブルの一例を示す。例えば、「ア」は「a」に、「シ」は「shi」または「si」または「c」に変換される。各文字を変換して得られたアルファベットを出現順に組み合わせ、考えられるすべてのアルファベット文字列を生成する。なお、英数字で構成される文字列部分は、その文字のまま文字列が生成される。このとき、先頭の1文字だけのアルファベットあるいは数字も生成する。例として、組織名候補名が「xyzデータ」の場合、「xyz」部分を「xyz」、「x」に、「データ」部分を「deta」、「det」、「dta」、「dt」、「d」に変換する。
【0039】
次に、アルファベット変換部16は、ステップS701で得られた形態素解析結果から、区切られた単語の中で名詞の単語を抽出する。さらに、アルファベット変換部16は、抽出した単語に対応する英単語を、組織名抽出装置が備える辞書データから取得する(ステップS704)。このとき、先頭の1文字だけのアルファベットも生成する。例としては、「日本」は「japan」、「j」を、「データ」は「data」、「d」を取得する。ここでは、言語に対応した辞書を用意することで、日本語以外の言語にも対応可能である。
【0040】
次に、アルファベット変換部16は、ステップS703で取得したアルファベット文字列と、ステップS704で取得した英単語を組み合わせから、考えられるすべてのアルファベット文字列(ただし数字も含む)を取得する(ステップS705)。例として、組織名候補名が「XYZデータ」の場合、図6に示すように、「xyzdeta」、「xyzdet」、「xyzdta」、「xyzdt」、「xyzd」、「xyzdata」、「xdeta」、「xdet」、「xdta」、「xdt」、「xd」、「xdata」を取得する。
【0041】
次に、アルファベット変換部16は、ステップS705で取得したすべてのアルファベット文字列をアルファベット記憶部17に登録する(ステップS706)。図10にアルファベット記憶部17の登録内容の一例を示した。
【0042】
次に、図7を参照して、図2のステップS800の処理内容の一例について説明する。ステップS800では、一致度判定処理部18によって、対象としているドメイン名と取得したアルファベット文字列を比較し、一致度が算出される。
【0043】
まず、一致度判定処理部18は、アルファベット文字列のいずれかに、対象ドメイン名が含まれているかの判定を行う(ステップS801)。対象ドメイン名を、そのままの形で、すなわち各文字列が同一の出現順で他の文字を間に挟むことなく含んでいるアルファベット文字列が1つでも存在した場合は、一致度を「1」として、一致度算出を終了する(ステップS802から「エンド」)。なお、ここでは一致度を「1」と設定しているが、任意の値に設定可能である。例として、ドメイン名が「xyzdata」であり、アルファベット文字列に「xyzdatajapan」が存在した場合、一致度は「1」となる。
【0044】
アルファベット文字列のいずれかに対象ドメイン名が含まれていない場合(ステップS801で「NO」)、一致度判定処理部18は、アルファベット文字列のいずれかに、対象ドメイン名のすべての文字が出現順に含まれているか否かを判定する(ステップS803)。含まれていた場合(ステップS803で「YES」)、一致度判定処理部18は、一致度を「0.8」として、一致度算出を終了する(ステップS804から「エンド」)。なお、ここで一致度を「0.8」と設定しているが任意の値に設定可能である。例として、ドメイン名が「xyzdata」であり、アルファベット文字列に「xyzjapandata」が存在した場合や、ドメイン名が「abc」であり、アルファベット文字列に「axxxbxxxcxxx」が存在した場合に、一致度は「0.8」となる。
【0045】
次に、一致度判定処理部18は、対象のドメイン名から先頭の文字以外の母音を削除した文字列を取得する(ステップS805)。
【0046】
次に、一致度判定処理部18は、ステップS805で取得した文字列の長さが所定の閾値よりも小さい場合(ステップS806で「YES」)、一致度を「0」として一致度算出を終了する(ステップS810から「エンド」)。
【0047】
ステップS805で取得した文字列の長さが所定の閾値以上の場合(ステップS806で「NO」)、一致度判定処理部18は、アルファベット文字列のいずれかに、ステップS805で取得した文字列のすべての文字が出現順に含まれているか判定を行う(ステップS807)。
【0048】
ステップS807で含まれていないと判定された場合(ステップS807で「NO」)、一致度判定処理部18は、一致度を「0」として一致度算出を終了する(ステップS810から「エンド」)。
【0049】
他方、ステップS807で含まれていると判定された場合(ステップS807で「YES」)、ステップS808では、一致度判定処理部18は、まず、一致した文字列に対応するアルファベット文字列の部分文字列を抽出する。なお、ここで抽出する文字列の長さが、すべてのアルファベット文字列の中で、最も短くなるアルファベット文字列を対象とする。そして、抽出された文字列の長さが一致した文字列の長さの4倍以下か判定を行う。4倍という値は任意の値が設定可能である。
【0050】
ステップS808での文字列の長さの比較で、4倍以下の場合(ステップS808で「YES」)、一致度判定処理部18は、一致度を「0.6」として、一致度算出を終了する(ステップS809から「エンド」)。なお、ここで一致度を「0.6」と設定しているが任意の値に設定可能である。
【0051】
4倍より大きい場合(ステップS808で「NO」)、一致度判定処理部18は、一致度を「0」として終了する(ステップS810から「エンド」)。ここで、文字列の長さを比較することで、組織名候補の文字列が長い文字列で構成されていることによる、偶然の一致を防ぐことができる。例として、ドメイン名が「xyzdata」であり、アルファベット文字列に「xyzdtjpn」が含まれていた場合、一致度は「0.6」となる。これに対して一致するアルファベット文字列が「xyzabcdefghijklmnopqrstuvwxyz」のみの場合、一致した文字列は「xyzdt」(長さは「5」)であり、対応するアルファベット文字列の一致部分は「xyzabcdefghijklmnopqrst」(長さは「23」)であり、4倍以上の長さの差があるため一致度は「0」となる。
【0052】
一致度判定処理部18は、ここで得られた一致度を基に、組織名候補である語句をシソーラスとして登録するかを決定する。例えばあるドメイン名に対して対応する組織名候補が登録されていない場合には一致度「0.6」であっても登録するが、例えば一致度「1」の組織名候補が複数すでに登録されている場合には一致度「0.6」の組織名候補は登録しないというような決定を行う。図11にシソーラス記憶部19内の登録内容の一例を示した。
【0053】
以上のように、本発明の組織名抽出装置では、ウェブ情報を利用して、ドメイン名ごとの組織名候補となる文字列を複数抽出し、抽出した文字列を考えられるすべてのアルファベット文字列に変換する。そして、変換されたアルファベット文字列とドメイン名との一致度を算出し、いずれかのアルファベット文字列との一致度が閾値以上である組織名候補文字列のみ組織名とする。ドメイン名ごとに複数の組織名が抽出された場合に、それらの組織名を異なる表現として抽出する。
【0054】
この方法では、ウェブ上で利用される組織名表現を抽出するため、同義語、対訳語、略語、表記揺れの語の種類によらずに抽出することができる。また、ウェブ情報から抽出を行うために、事前にコーパスを用意する必要がない。単語のヨミ情報は複数の候補を許容する形で利用し、一致度を算出するため、未知語や一般名詞で構成される語句についても、抽出することが可能である。
【0055】
本発明によれば、事前に対訳コーパスを用意することなく、一般的に公開されているウェブ情報を利用し、ドメイン名との一致度を算出することで組織名である単語を抽出するため、以下の効果を得ることができる。
【0056】
(1)同義語および略語、対訳語、表記揺れの語などの表現の揺らぎの種類に限定することなく、同一のものを示す異なる表現の組織名を抽出可能。(2)ウェブではサイト管理者の各々の言葉で表現されるため、公式に利用される表現だけでなく、利用者が一般的に利用するニックネームなども含めて抽出可能。(3)対訳コーパスなど事前に抽出対象とする文書群を用意する必要がない。(4)ウェブ情報は日々更新されるため、辞書に掲載されていないような新しい組織名の異表現の単語を抽出可能。
【0057】
なお、本発明の実施の形態は、上記に限定されず、図1の各ブロックを分割して、ネットワークを介して分散して配置したり、あるいは記憶装置を集約するなど各ブロックを統合したりすることができる。また、本発明の実施の形態は、コンピュータとそのコンピュータで実行されるプログラムとを用いて構成することができるが、そのプログラムの一部または全部はコンピュータ読み取り可能な記録媒体又は通信回線を介して頒布することが可能である。
【図面の簡単な説明】
【0058】
【図1】本発明の組織名抽出装置の実施の形態の構成を示すブロック図である。
【図2】図1の組織名抽出装置の処理の流れを示すフローチャートである。
【図3】図2のステップS200の処理内容を説明するための説明図である。
【図4】図2のステップS200の内容の一例を示すフローチャートである。
【図5】図2のステップS700の内容の一例を示すフローチャートである。
【図6】図5のステップS705の処理内容を説明するための説明図である。
【図7】図2のステップS800の内容の一例を示すフローチャートである。
【図8】図1の組織名候補記憶部15の登録内容の一例を示す図である。
【図9】図5のステップS703で用いるアルファベット変換テーブルの一例を示す図である。
【図10】図1のアルファベット記憶部17の登録内容の一例を示す図である。
【図11】図1のシソーラス記憶部19の登録内容の一例を示す図である。
【符号の説明】
【0059】
11…Webデータ
12…収集部
13…収集データ記憶部
14…組織名候補抽出部
15…組織名候補記憶部
16…アルファベット変換部
17…アルファベット記憶部
18…一致度判定処理部
19…シソーラス記憶部
【特許請求の範囲】
【請求項1】
ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出手段と、
抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成する変換手段と、
変換手段によって生成した文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理手段と
を備えることを特徴とする組織名抽出装置。
【請求項2】
前記組織候補名抽出手段は、前記組織名候補としてアンカーテキストと、前記ドメイン名を示す文字列として当該アンカーテキストにリンクされているドメイン名を抽出する
ことを特徴とする請求項1に記載の組織名抽出装置。
【請求項3】
前記変換手段は、抽出した組織名候補から予め定められた不要語を削除したのち単語に分割し、分割した単語の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成し、
前記一致度判定処理手段は、前記変換手段が生成した文字列が、前記ドメイン名の全部又は一部をその出現順に含んでいる場合に一致すると判定し、当該組織名候補を組織名を示す語句として抽出する
ことを特徴とする請求項1又は2に記載の組織名抽出装置。
【請求項4】
ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出過程と、
抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成する変換過程と、
変換過程で生成された文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理過程と
を有することを特徴とする組織名抽出方法。
【請求項5】
ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出過程と、
抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成する変換過程と、
変換過程で生成された文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理過程と
をコンピュータによって実行するための指令を含むことを特徴とする組織名抽出プログラム。
【請求項1】
ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出手段と、
抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成する変換手段と、
変換手段によって生成した文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理手段と
を備えることを特徴とする組織名抽出装置。
【請求項2】
前記組織候補名抽出手段は、前記組織名候補としてアンカーテキストと、前記ドメイン名を示す文字列として当該アンカーテキストにリンクされているドメイン名を抽出する
ことを特徴とする請求項1に記載の組織名抽出装置。
【請求項3】
前記変換手段は、抽出した組織名候補から予め定められた不要語を削除したのち単語に分割し、分割した単語の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成し、
前記一致度判定処理手段は、前記変換手段が生成した文字列が、前記ドメイン名の全部又は一部をその出現順に含んでいる場合に一致すると判定し、当該組織名候補を組織名を示す語句として抽出する
ことを特徴とする請求項1又は2に記載の組織名抽出装置。
【請求項4】
ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出過程と、
抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成する変換過程と、
変換過程で生成された文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理過程と
を有することを特徴とする組織名抽出方法。
【請求項5】
ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出過程と、
抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成する変換過程と、
変換過程で生成された文字列と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理過程と
をコンピュータによって実行するための指令を含むことを特徴とする組織名抽出プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2009−86979(P2009−86979A)
【公開日】平成21年4月23日(2009.4.23)
【国際特許分類】
【出願番号】特願2007−255263(P2007−255263)
【出願日】平成19年9月28日(2007.9.28)
【出願人】(000102728)株式会社エヌ・ティ・ティ・データ (438)
【Fターム(参考)】
【公開日】平成21年4月23日(2009.4.23)
【国際特許分類】
【出願日】平成19年9月28日(2007.9.28)
【出願人】(000102728)株式会社エヌ・ティ・ティ・データ (438)
【Fターム(参考)】
[ Back to top ]