説明

辞書作成装置、辞書作成方法及び辞書作成プログラム

【課題】形態素解析に必要なシステム辞書に存在しない単語を拡張辞書にエントリさせることで当該解析に係る辞書の単語を拡充させる。
【解決手段】テキストデータから形態素解析の拡張辞書データを作成する辞書作成装置1であって、テキストデータからページデータを抽出するページ抽出部11と、前記ページデータからそのタイトルデータを抽出するタイトル抽出部12と、前記抽出したタイトルデータが形態素解析のシステム辞書データ16に存在しない場合に当該タイトルデータを前記形態素解析の拡張辞書のエントリデータとして格納するエントリ格納部14と、前記格納したエントリデータを形態素解析の拡張辞書データとして出力する拡張辞書データ出力部15を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はテキスト処理に係る形態素解析のシステム辞書にエントリされていないデータを拡充するための技術に関するものである。
【背景技術】
【0002】
インターネット上には多種多様なテキストが大量にあり、それらを自動で処理例えば検索処理するには、形態素解析技術の利用が欠かせない。しかしながら、日々、広範な分野で新語が生まれているため、形態素解析を正確に行うには形態素解析のシステム辞書の拡充が不可欠であり、例えば、未知語を形態素解析辞書へ登録する従来技術が開示されている(特許文献1)。
【0003】
また、別の技術として、カテゴリ分類した蓄積文書に対し、カテゴリ毎に文書中の単語統計量を計算しておき、入力した文書の単語統計量と類似したカテゴリを求めるものがある。この処理において、文書中に省略形などの表記ゆれした単語がある場合、表記ゆれした単語を意味的に正しく計数するために、標準表記に統一して扱うことが一般的である。
【0004】
一方、形態素解析技術では、形態素解析のシステム辞書に例えば“りんご”と“林檎”のように、平仮名表記に対する標準表記を記載しておくことで、形態素解析結果から文書中の表記ゆれを吸収することが可能である。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平11−338863号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
テキスト処理技術においては、形態素解析のシステム辞書に未記載の単語をいかに拡充するかが課題である。従来技術では、形態素解析で解析が不良であった文字列に対して、文字種、文字列の利用頻度、英単語辞書の読み情報を用いて、未知単語を形態素解析のシステム辞書へ登録する技術である。しかしながら、例えば、一語の単語としたいものが、複数の短い単語で正しく解析されてしまう場合、従来技術では対処できない。
【0007】
また、標準表記の単語とその省略形のような表記ゆれを統一して扱うために必要な情報をいかに準備することも課題となっている。つまり、様々な分野に対し、人手で表記ゆれ単語と標準表記の情報を網羅的にかつ継続的に取得することは、大変な労力がかかる。
【課題を解決するための手段】
【0008】
そこで、本発明はテキストデータから抽出したページのタイトルデータを形態素解析の拡張辞書のエントリデータとすることにより形態素解析のシステム辞書における単語を拡充させる。
【0009】
本発明の辞書作成装置の態様としては、テキストデータから形態素解析の拡張辞書データを作成する辞書作成装置であって、テキストデータからページデータを抽出するページ抽出手段と、前記ページデータからそのタイトルデータを抽出するタイトル抽出手段と、前記抽出したタイトルデータが形態素解析のシステム辞書データに存在しない場合に当該タイトルデータを前記形態素解析の拡張辞書のエントリデータとして格納するエントリ格納手段と、前記格納したエントリデータを形態素解析の拡張辞書データとして出力する出力手段とを備える。
【0010】
本発明の辞書作成方法は、テキストデータから形態素解析の拡張辞書データを作成する辞書作成方法であって、ページ抽出手段がテキストデータからページデータを抽出するステップと、タイトル抽出手段が前記ページデータからそのタイトルデータを抽出するステップと、エントリ格納手段が前記抽出したタイトルデータが形態素解析のシステム辞書データに存在しない場合に当該タイトルデータを前記形態素解析の拡張辞書のエントリデータとして格納するステップと、出力手段が前記格納したエントリデータを形態素解析の拡張辞書データとして出力するステップとを有する。
【0011】
本発明の辞書作成装置及び辞書作成方法においては、リダイレクト先タイトル抽出手段が前記抽出されたページデータにリダイレクトのデータが存在する場合にリダイレクト先のタイトルデータを抽出し、前記エントリ格納手段が前記抽出されたリダイレクト先タイトルデータを前記タイトル抽出手段が抽出したタイトルデータと対応付けて前記形態素解析の拡張辞書のエントリデータとして格納するようにするとよい。このようなテキストデータのリダイレクト情報に基づく拡張辞書の作成により、標準表記の単語に対応した特定の単語を形態素解析の拡張辞書にエントリできる。
【0012】
尚、本発明は前記辞書作成装置を構成する各手段としてコンピュータを機能させる辞書作成プログラムの態様とすることもできる。
【発明の効果】
【0013】
以上の発明によれば、形態素解析に必要なシステム辞書に存在しない単語が拡張辞書にエントリされるので、形態素解析に係る辞書の単語が拡充する。また、前記システム辞書に存在しない単語はその標準表記がある場合にその表記と対応付けられて拡張辞書にエントリされるので、テキスト処理技術がより有効に最適化される。
【図面の簡単な説明】
【0014】
【図1】発明の実施形態に係る辞書作成装置の構成を示すブロック図。
【図2】発明の実施形態に係る辞書作成装置の処理手順を説明したフローチャート図。
【図3】本発明の実施形態に係る抽出パターンの一覧表。
【図4】本発明の実施形態に係るテキストデータ、ページデータ(A)とこのページデータのタイトル、ページデータ(B)とこのページデータのタイトル及びリダイレクト先タイトル、拡張辞書データの一例を示した図。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態について図面を参照しながら説明する。
【0016】
[概要]
図1に示された発明の実施形態に係る辞書作成装置1は、インターネット上の事典サイトのタイトルやタイトルとリダイレクトの対応を抽出することにより、テキスト処理技術に係る形態素解析のシステム辞書に記載されていない単語またはこれと標準表記とを効率的に拡充させる。そして、前記形態素解析において、作成した拡張辞書をシステム辞書と共に利用することで、概念的に正しい単語による文書解析を可能にさせる。
【0017】
[装置の構成]
辞書作成装置1は、ハードウェアリソース(CPU、メモリ(RAM)、ハードディスクドライブ装置、入出力デバイス等)とソフトウェアリソース(OS、アプリケーション等)との協働の結果、図1に示されたテキストデータ入力部10から供されたテキストデータからページデータを抽出するページ抽出部11と、前記ページデータからそのタイトルデータを抽出するタイトル抽出部12と、前記抽出したタイトルデータが形態素解析のシステム辞書データ16に存在しない場合に当該タイトルデータを前記形態素解析の拡張辞書のエントリデータとして格納するエントリ格納部14と、前記格納したエントリデータを形態素解析の拡張辞書データとして出力する拡張辞書データ出力部15とを実装する。
【0018】
以下、図1に示された辞書作成装置1を構成する各機能部10〜15について説明する。
【0019】
テキストデータ入力部10は、事典サイトから取得した「テキストデータ」を格納し、「拡張辞書データ」の作成のために当該テキストデータをページ抽出部11に供する。テキストデータ入力部10は、例えば、光磁気ディスク、CD−ROM、DVD−ROM、その他の既知の記録媒体のいずれか、またはハードディスク装置等のストレージ手段、若しくは前記事典サイトにアクセス可能なサーバ装置によって実現できる。
【0020】
前記テキストデータは、事典サイトが予め準備した事典テキストデータであり、XML形式のファイルとなっている。図4(a)に例示されたテキストデータはpageタグで各項目に区別され、最初のtitleタグではタイトルとして例えば“○をかける少女”が記述され、textタグの範囲にタイトルに関する内容が記述(図示省略)されている。また、図4(d)に例示されたtitleタグに挟まれた文字列“○かけ”の場合は、textタグ内で“#REDIRECT[[○をかける少女]]”のようにリダイレクト情報が記述されている。尚、インターネット上で公開・更新されている事典サイトのホームページを収集したデータが、複数のホームページファイルから構成されている場合でも、順に処理する手段を有することで仮想的に1つのファイルのように処理できる。
【0021】
ページ抽出部11はテキストデータ入力部10によって入力されたテキストデータからページデータを抽出する。具体的には図3に示された“PAGE”抽出パターンに基づきページデータを抽出する。“PAGE”抽出パターンは処理対象のテキストデータからページタグ“<page>”とページタグ“</page>”の間の文字列を抽出するための検索条件である。すなわち、テキストデータにおける“<page>”と“</page>”の間の文字列を検索することによってページデータを抽出する。例えば、図4(a)に示されたテキストデータの場合、ページ抽出部11によって図4(b)に示されたページデータ(A)が抽出される。
【0022】
タイトル抽出部12はページ抽出部11によって抽出されたページデータからタイトル部分を抽出する。具体的には図3に示された“TITLE”抽出パターンに基づきタイトルデータを抽出する。
【0023】
“TITLE”抽出パターンは処理対象のページデータからタイトルタグ“<title>”とタイトルタグ“</title>”の間の文字列を抽出するためと検索条件である。すなわち、ページデータにおける“<title>”と“</title>”の間の文字列を検索することによってタイトルデータを抽出する。例えば、ページデータが図4(b)に示されたページデータ(A)の場合、タイトル抽出部12によって図4(c)に示されたページデータ(A)のタイトル「○をかける少女」が抽出される。
【0024】
リダイレクト先タイトル抽出部13は、ページ抽出部11によって抽出されたページデータにリダイレクトの記述がある場合、当該ページデータに記載されているリダイレクト先の情報からリダイレクト先タイトルを抽出する。具体的には前記ページデータにおけるリダイレクトの識別子に基づきリダイレクト先のタイトルデータを抽出する。より具体的には図3に示された“REDIRECT_TITLE”抽出パターンに基づきタイトルデータを抽出する。
【0025】
“REDIRECT_TITLE”抽出パターンは処理対象のページデータから“<text>#REDIRECT[[”と“]].*</text>”の間の文字列を抽出するための検索条件である。すなわち、ページデータにおける“<text>#REDIRECT[[”と“]].*</text>”の間の文字列を検索することによってリダイレクト先のタイトルデータを抽出する。例えば、ページデータが図4(d)に示されたページデータ(B)の場合、リダイレクト先タイトル抽出部13によって図4(f)に示されたページデータ(B)のリダイレクト先タイトルデータ「○をかける少女」を抽出できる。
【0026】
図3に例示された抽出パターンは、テキストデータ入力部10が入手したテキストデータが事典サイトによって予め準備された事典テキストデータのXML形式ファイルであり、当該事典サイトにおいてタイトルやリダイレクトなどの書式が定められている。これらの書式に基づいて抽出パターンを準備すればよい。
【0027】
一方、テキストデータ入力部10のテキストデータがインターネット上の事典サイトのホームページを収集したデータの場合、事典サイトの書式に従って、上記XMLファイルの場合と同様の抽出パターンを準備すればよい。一般的には1つのホームページに1つの語の説明がなされており、ホームページのタイトルに形態素解析に係る辞書にエントリできる文字列が記載されていることが多い。この場合、ホームページのHTMLの記述における“<title>”と“</title>”との間の文字列を取得するための“TITLE”抽出パターンを設定しておけばよい。
【0028】
また、例えば、事典サイトのホームページの1つが“○×省”であり、“○×省→○□×△省”のような書式で記載されている場合は、“→”の右側の文字列“○□×△省”を抽出するパターンを“REDIRECT_TITLE”抽出パターンとして設定しておくとよい。尚、“REDIRECT_TITLE”抽出パターンによって、URLのみ抽出できる場合は、そのURLのホームページで抽出したタイトルをリダイレクトのタイトルとしての取得することも可能である。
【0029】
エントリ格納部14は、タイトル抽出部12で抽出されたタイトルデータがシステム辞書データ16に記載がない場合、当該タイトルデータを拡張辞書用のエントリデータとして格納する。また、リダイレクト先タイトル抽出部13によってリダイレクト先のタイトルデータが抽出された場合は、このタイトルデータも拡張辞書用のエントリデータとして格納する。さらに、テキストデータ入力部10から供されたテキストデータに未処理のページデータが存在する場合は、当該ページデータをそのタイトルデータの抽出のためにタイトル抽出部12に供される。エントリ格納部14はハードディスク装置等のストレージ手段によって実現できる。
【0030】
拡張辞書データ出力部15は、テキストデータに未処理の対象ページデータがない場合、抽出部12,13によって抽出した拡張辞書用の全てのエントリデータを拡張辞書データとして出力する。
【0031】
システム辞書データ16はテキスト処理技術に係る形態素解析の既存のシステム辞書データである。システム辞書データ16は、光磁気ディスク、CD−ROM、DVD−ROMに例示される周知の記録媒体、ハードディスク装置等のストレージ手段、または、当該辞書データを提供するサーバ装置等に予め保存される。
【0032】
[処理手順の説明]
図2を参照しながら辞書作成装置1の処理手順S10〜S15について説明する。ここでは図4(a)に例示されたテキストデータの拡張辞書データの作成手順について説明する。
【0033】
S10:テキストデータ入力部10は、インターネット上で公開及び更新されている事典サイトが予め準備したある時点での事典サイトの事典テキストデータまたはインターネット上で公開及び更新されている事典サイトのホームページを収集したデータを格納する。そして、これらのデータをページ抽出部11に入力する。例えば図4(a)に示されたテキストデータがページ抽出部11に入力される。
【0034】
S11:ページ抽出部11はテキストデータ入力部10から供されたテキストデータから各ページデータを抽出する。
【0035】
具体的には図3に示されたPAGE抽出パターンに基づく検索によって図4(a)のテキストデータの先頭から最初のページタグ<page>に囲まれる部分のページを抽出する。これにより、図4(b)に例示されたページデータ(A)が抽出される。
【0036】
S12:タイトル抽出部12はページ抽出部11で抽出したページデータからページのタイトルデータを抽出する。
【0037】
具体的には図3に示されたTITLE抽出パターンに基づく検索によって図4(b)のページデータ(A)からタイトルタグ<title>に囲まれる部分を抽出する。これによりページデータ(A)から図4(c)に例示されたようなタイトルデータ“○をかける少女”が取得される。
【0038】
S13:リダイレクト先タイトル抽出部13は、S12でページ抽出部11が抽出したページデータにおいてリダイレクトがある場合、リダイレクト先のタイトルを抽出する。一方、前記ページデータにおいてリダイレクトがないと判断した場合、リダイレクト先のタイトルは抽出しない。
【0039】
図4の事例では、図3のREDIRECT_TITLE抽出パターンに基づき図4(b)のページデータ(A)においてリダイレクトに関する情報の検索を行う。この検索によってページデータ(A)にはリダイレクトに関する情報すなわち“<text>#REDIRECT[[”と“]].*</text>”の間の文字列が含まれないと判断すると、リダイレクト先のタイトルの抽出を実行しない。
【0040】
S14:エントリ格納部14は、S12でタイトル抽出部12が抽出したタイトルデータがシステム辞書データ16において未記載である場合、当該タイトルデータを拡張辞書データのエントリデータの一つとして格納する。
【0041】
例えば、S13で抽出されたタイトルデータ“○をかける少女”がシステム辞書データ16に記載されていない場合、図4(g)に例示された拡張辞書データの1行目にあるように、タイトルデータ“○をかける少女”を格納する。尚、1カラム目はタイトル、2カラム目は標準表記であるが、この場合、2カラム目は空で格納される。
【0042】
次に、テキストデータに未処理である対象ページが存在する場合、S11に戻り、次ページの抽出処理を行う。図4(a)に例示されたテキストデータには次ページ(事例ではページデータ(B))が存在するのでS11が実行される。
【0043】
S11:ページ抽出部11は、図3のPAGE抽出パターンに基づく検索によってページタグ<page>に囲まれる部分のページを抽出する。これにより、図4(d)に例示されたページデータ(B)が抽出される。
【0044】
S12:タイトル抽出部12はS11でページ抽出部11によって抽出されたページデータ(B)からページのタイトルを抽出する。
【0045】
具体的には図3のTITLE抽出パターンに基づく検索によって図4(d)のページデータ(B)からタイトルタグ<title>に囲まれる部分を抽出する。これによりページデータ(B)から図4(e)に例示されたようなタイトルデータ“○かけ”が取得される。
【0046】
S13:リダイレクト先タイトル抽出部13は、S12でページ抽出部11が抽出したページデータ(B)においてリダイレクトが存在する場合、リダイレクト先のタイトルを抽出する。
【0047】
図4の事例では、図3のREDIRECT_TITLE抽出パターンに基づき図4(d)のページデータ(B)においてリダイレクトに関する情報の検索を行う。ページデータ(B)についてリダイレクトに関する情報すなわち“<text>#REDIRECT[[”と“]].*</text>”の間の文字列の検索が行われる。この検索によって“#REDIRECT[[○をかける少女]]”というリダイレクトに関する情報が含まれていることを判断すると、このリダイレクト先のタイトルデータ“○をかける少女”(図4(f))を一時的に格納する。
【0048】
S14:エントリ格納部14は、S12でタイトル抽出部12が抽出したタイトルデータ及びS13でリダイレクト先タイトル抽出部13が抽出したリダイレクト先のタイトルデータがシステム辞書データ16において未記載である場合、これらのタイトルデータを拡張辞書データのエントリデータとして格納する。
【0049】
例えば、“○かけ”がシステム辞書データ16に記載されていない場合、図4(g)に示した拡張辞書データの2行目にあるように、1カラム目はタイトル、2カラム目は標準表記が格納される。事例では、1カラム目にページデータ(B)のタイトルデータ“○かけ”が、2カラム目に同ページのリダイレクト先タイトルデータの標準表記“○をかける少女”が格納される。
【0050】
同様にテキストデータに未処理であるページが存在する場合、次のページに対してS11〜S14の処理を行い、未処理であるページがなくなった時点でエントリ格納部14には、システム辞書にないデータが格納された状態となっている。
【0051】
S15:拡張辞書データ出力部15は、テキストデータ入力部10のテキストデータに未処理のページがなくなった時点で、エントリ格納部14の拡張辞書データを出力する。
【0052】
以上述べた本実施形態に係るテキストデータはデータ形式の一例であり、同様な処理が可能であれば、発明に係るデータ形式は当該実施形態のデータ形式に限定されない。
【0053】
[本実施形態の効果]
以上のように本実施形態の辞書作成装置1によれば、形態素解析に必要なシステム辞書に存在しない単語を、既存のテキストデータから抽出し、これを拡張辞書にエントリさせているので、形態素解析に係る辞書の単語が拡充する。
【0054】
また、既存のテキストデータのリダイレクト関係を利用することで、ある特定の単語(例えば表現ゆれ)とその標準表記とを対応付けた拡張辞書を作成することができる。そして、これにより、テキスト処理のより一層の最適化が実現する。
【0055】
辞書作成装置1によって作成された拡張辞書の効果の一例について説明する。
【0056】
カテゴリ分類した蓄積文書に対し、カテゴリ毎に文書中の単語統計量(例えば単語出現頻度)を計算しておき、入力した文書の単語統計量と類似したカテゴリを求める場合で説明する。例えば、“○をかける少女”が映画タイトルであり、これらを含む蓄積文書が“映画”カテゴリに含まれていたとする。
【0057】
従来技術のようにシステム辞書のみを用いた場合、“○をかける少女”は“○”、“を”、“かけ”、“る”、“少女”と5つの単語に分割され、個々の単語は“映画”カテゴリ以外にも出現しやすいため、単語統計量算出の観点から“映画”カテゴリに特徴的な語とはならない。そのため、入力文書に“○をかける少女”が含まれていた場合、“映画”とは違うカテゴリとして誤推定してしまう。
【0058】
そこで、辞書作成装置1のようにシステム辞書とこの辞書に含まれていない文字列に基づく拡張辞書とを用いることで、“○をかける少女”はそれで1語であり、“映画”カテゴリ以外では出現しにくくなる。したがって、“○をかける少女”は単語統計量算出の観点から“映画”カテゴリに特徴的な語となる。ゆえに、入力文書に“○をかける少女”が含まれていた場合、“映画”カテゴリと正しく推定できる。
【0059】
同様に、例えば、“○かけ”が映画タイトルの省略形であり、これらを含む蓄積文書が“映画”カテゴリに含まれていたとする。
【0060】
従来技術のシステム辞書のみを用いた場合、“○かけ”は“○”、“かけ”と2つの単語に分割され、個々の単語は“映画”カテゴリ以外にも出現しやすいため、単語統計量算出の観点から“映画”カテゴリに特徴的な語とはならない。そのため、入力文書に“○かけ”が含まれていた場合、“映画”とは違うカテゴリとして誤推定してしまう。
【0061】
そこで、辞書作成装置1のようにシステム辞書とこの辞書に含まれていない文字列に基づく拡張辞書とを用いることで、“○かけ”はそれで1語であり、“○かけ”単独では蓄積文書中の統計量が少ない場合も考慮して、標準表記“○をかける少女”に統一して処理すると、“映画”カテゴリ以外では出現しにくくなる。したがって、単語統計量算出の観点から“映画”カテゴリに特徴的な語となる。ゆえに、入力文書に“○かけ”が含まれていた場合、“映画”カテゴリと正しく推定される。
【0062】
[本発明のプログラムとしての態様]
本発明は、専用のハードウェアにより実現されるもの以外に、上述の辞書作成装置1を構成する機能部11〜15としてコンピュータを機能させる辞書作成プログラムの態様とすることもできる。また、この辞書作成プログラムを格納したコンピュータ読み取り可能な記録媒体も本発明の一態様となる。前記記録媒体としては、フレキシブルディスク、光磁気ディスク、CD−ROM、DVD−ROM、その他の既知の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置が例示される。さらに、前記記録媒体としては、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含まれる。
【符号の説明】
【0063】
1…辞書作成装置
11…ページ抽出部(ページ抽出手段)
12…タイトル抽出部(タイトル抽出手段)
13…リダイレクト先タイトル抽出部(リダイレクト先タイトル抽出手段)
14…エントリ格納部(エントリ格納手段)
15…拡張辞書データ出力部(出力手段)
16…システム辞書データ

【特許請求の範囲】
【請求項1】
テキストデータから形態素解析の拡張辞書データを作成する辞書作成装置であって、
テキストデータからページデータを抽出するページ抽出手段と、
前記ページデータからそのタイトルデータを抽出するタイトル抽出手段と、
前記抽出したタイトルデータが形態素解析のシステム辞書データに存在しない場合に当該タイトルデータを前記形態素解析の拡張辞書のエントリデータとして格納するエントリ格納手段と、
前記格納したエントリデータを形態素解析の拡張辞書データとして出力する出力手段と
を備えたこと
を特徴とする辞書作成装置。
【請求項2】
前記抽出されたページデータにリダイレクトのデータが存在する場合にリダイレクト先のタイトルデータを抽出するリダイレクト先タイトル抽出手段をさらに備え、
前記エントリ格納手段は、前記抽出されたリダイレクト先タイトルデータを、前記タイトル抽出手段が抽出したタイトルデータと対応付けて、前記形態素解析の拡張辞書のエントリデータとして格納すること
を特徴とする請求項1に記載の辞書作成装置。
【請求項3】
前記ページ抽出手段は、前記テキストデータにおけるページタグの間の文字列を検索することによってページデータを抽出すること
を特徴とする請求項1または2に記載の辞書作成装置。
【請求項4】
前記タイトル抽出手段は、前記テキストデータにおけるタイトルタグの間の文字列を検索することによってタイトルデータを抽出すること
を特徴とする請求項1から3のいずれか1項に記載の辞書作成装置。
【請求項5】
前記リダイレクト先タイトル抽出手段は、前記テキストデータにおけるリダイレクトの識別子に基づきリダイレクト先のタイトルデータを抽出すること
を特徴とする請求項2から4のいずれか1項に記載の辞書作成装置。
【請求項6】
テキストデータから形態素解析の拡張辞書データを作成する辞書作成方法であって、
ページ抽出手段がテキストデータからページデータを抽出するステップと、
タイトル抽出手段が前記ページデータからそのタイトルデータを抽出するステップと、
エントリ格納手段が前記抽出したタイトルデータが形態素解析のシステム辞書データに存在しない場合に当該タイトルデータを前記形態素解析の拡張辞書のエントリデータとして格納するステップと、
出力手段が前記格納したエントリデータを形態素解析の拡張辞書データとして出力するステップと
を有すること
を特徴とする辞書作成方法。
【請求項7】
リダイレクト先タイトル抽出手段が前記抽出されたページデータにリダイレクトのデータが存在する場合にリダイレクト先のタイトルデータを抽出するステップと、
前記エントリ格納手段が前記抽出されたリダイレクト先タイトルデータを前記タイトル抽出手段が抽出したタイトルデータと対応付けて前記形態素解析の拡張辞書のエントリデータとして格納するステップと
をさらに有すること
を特徴とする請求項6に記載の辞書作成方法。
【請求項8】
請求項1から5のいずれか1項に記載の辞書作成装置を構成する各手段としてコンピュータを機能させることを特徴とする辞書作成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2011−154475(P2011−154475A)
【公開日】平成23年8月11日(2011.8.11)
【国際特許分類】
【出願番号】特願2010−14661(P2010−14661)
【出願日】平成22年1月26日(2010.1.26)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】