説明

文章解析方法、文章解析プログラム、文章解析装置、および文章解析システム

【課題】 同じ文字列で複数の読みがある場合に、正しい読みを検索すること。
【解決手段】 文字データ入力装置101から文字データが入力されると、文章解析部103aは、入力された文字データの読みを辞書メモリ104に格納された文章解析用の用語辞書を参照して検索する。解析結果比較部103bは、複数の読みが検索された場合には、その読みが一致するか否かを判定し、一致しない場合には、インターネット検索部103cは、複数の読み情報、表記情報、およびジャンルの組を検索キーワードとして通信装置102を介してインターネットで検索する。スコア判定部103dは、インターネット検索の結果に基づいて、スコアが最大の読み情報を抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力された文字データを解析して、その読みを音声出力する文章解析装置、文章解析方法、文章解析システム、および文章解析プログラムに関する。
【背景技術】
【0002】
次のような電子辞書が特許文献1によって知られている。この電子辞書では、入力された文字データが内蔵メモリに記憶された第1辞書に存在しない場合には、通信回線を介して接続された辞書データベースに記憶された第2辞書を検索する。
【0003】
【特許文献1】特開2005−44071号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の電子辞書における文字データのみを用いて辞書を検索する方法によって文字データの読みを検索する場合には、同じ文字列であっても、文字データの内容に応じた複数の読み方がある場合に、どの読み方が正しいか判断することが困難であるという問題が生じていた。
【課題を解決するための手段】
【0005】
請求項1に記載の文章解析方法は、文字データ、および前記文字データの内容を示すジャンルを入力する工程と、入力されたジャンルに基づいて、入力された文字データの読みを検索する工程と、検索された文字データの読みを出力する工程とを有することを特徴とする。
請求項6に記載の文章解析プログラムは、請求項1〜5の少なくともいずれか一項に記載の文章解析方法の各工程をコンピュータで実行するためのコードが定義されていることを特徴とする。
請求項7に記載の文章解析装置は、文字データ、および前記文字データの内容を示すジャンルを入力する入力手段と、入力手段で入力された文字データの読みを検索する検索手段と、検索手段で検索した文字データの読みを出力する出力手段とを備え、検索手段は、請求項6に記載の文章解析プログラムのうち、請求項1〜5のいずれか一項に対応するプログラムを実行して、入力手段で入力された文字データの読みを、入力されたジャンルに基づいて検索することを特徴とする。
請求項8に記載の文章解析システムは、請求項7に記載の文章解析装置と、文章解析装置とインターネットを介して接続され、検索手段で用いる文字データの読み情報を収集して、文書解析装置へ送信する検索サーバとを備えることを特徴とする。
【発明の効果】
【0006】
本発明によれば、入力されたジャンルに基づいて、入力された文字データの読みを検索するようにした。これによって、文字データの読み方が複数ある場合であっても、その文字データの内容を示すジャンルに応じて最適な読み方を検索することができる。
【発明を実施するための最良の形態】
【0007】
図1は、本実施の形態における文章解析装置の一実施の形態の構成を示すブロック図である。文章解析装置100は、文字データ(テキストデータ)を入力する文字データ入力装置101、例えば文字放送受信装置と、インターネットに接続するための通信装置102と、CPU、メモリ、およびその他周辺回路で構成される制御装置103と、後述する各ジャンル(分野)に特化した用語、すなわち各ジャンルごとの専門用語を記憶した複数の辞書を格納する辞書メモリ104と、文章解析を行った結果を音声出力するスピーカ105とを備えている。
【0008】
文字データ入力装置101から入力される文字データは、漢字とかなの混ざった漢字かな混じりの文字データであり、例えば、ニュースを文字列で表したデータである。このニュースを文字列で表した文字データには、ニュース内容の文字列と、ニュース内容のジャンルを示す文字列とが含まれている。なお、文字データ入力装置101から入力されるニュースは、例えば文字放送を受信した文字データでもよく、あるいはOCR装置を使用して読み込んだ文字データであってもよい。また、音声情報(放送)から取得した文字データでもよい。
【0009】
辞書メモリ104には、各ジャンルごとの複数の文章解析用の用語辞書が格納されており、各文章解析用の用語辞書には、文字データ入力装置101から入力された漢字かな混じりの文字列を、中間言語と呼ばれるカタカナと記号からなる文字列に変換するためのデータが記憶されている。なお、本実施の形態では、出力結果が異なる性格の種々の文章解析用辞書を用いており、辞書メモリ104には、例えば、政治用語や時事用語に特化した政治用語辞書104aと、スポーツ用語に特化したスポーツ用語辞書104bと、文学用語に特化した文学用語辞書104cとが格納されている。
【0010】
制御装置103は、文章解析部103aと、解析結果比較部103bと、インターネット検索部103cと、スコア判定部103dと、音声出力部103eとを備えている。
【0011】
文章解析部103aは、文字データ入力装置101から入力された文字データの読みを、辞書メモリ104に格納されたそれぞれの文章解析用の用語辞書を参照して検索する。文字データの読みを検索するに当たっては、辞書メモリ104に格納された各用語辞書を参照して、漢字かな混じりの文字列をカタカナと記号からなる中間言語に変換して、文字データの読みを特定する。
【0012】
このとき、入力された文字データの読みが複数の用語辞書に含まれている場合には、それぞれの用語辞書で中間言語に変換された結果、複数の読み情報が得られる。たとえば、ニュースのジャンルが「政治」であり、入力文字データが「○○市の中田市長は」である場合には、政治用語辞書104aとスポーツ用語辞書104bとによって次のような読み情報が得られる。
(1)政治用語辞書104aを検索した場合の読み情報(解析結果1)
「○○しのなかだしちょうは」
(2)スポーツ用語辞書104bを検索した場合の読み情報(解析結果2)
「○○しのなかたしちょうは」
【0013】
このような場合、解析結果比較部103bは、それぞれの読み情報を比較し、それぞれの読み情報が同一であれば、その読み情報を採用する。これに対して、それぞれの読み情報が異なれば、その異なる部分の入力文字列の表記、すなわち漢字かな混じりの単語を読みが異なる部分の表記情報として抽出する。したがって、上述した解析結果1と解析結果2とを比較した結果、読み情報のうち「なかだ」と「なかた」の部分が異なるため、表記情報としては「中田」が抽出される。
【0014】
インターネット検索部103cは、解析結果比較部103bによって複数の解析結果、すなわち複数の読み情報のそれぞれが異なると判断された場合には、複数の読み情報、表記情報、およびジャンルの組を検索キーワード(検索語彙)として通信装置102を介してインターネットで検索する。
【0015】
なお、検索キーワードをインターネットで検索する場合には、インターネット上で公開されている語彙を検索するための一般的な検索エンジンを使用する。この検索エンジンは、読み情報、表記情報、およびジャンルの組を検索キーワードとして指定して検索すると、そのジャンルにおける表記情報の読みを検索し、検索キーワードに含まれている複数の読み情報のそれぞれの検索結果のマッチング状況をスコア出力する。
【0016】
すなわち、インターネット上で複数の読み情報、表記情報、およびジャンルのAND検索を行い、その表記情報の読みのヒット数に応じたスコア値が、複数の読み情報のそれぞれに付与されて出力される。これによって、表記情報、およびジャンルに基づいて、それぞれの読み情報のスコア値を得ることができる。
【0017】
本実施の形態では、読み情報として「なかだ」および「なかた」、表記情報として「中田」、およびジャンルとして「ニュース」を検索キーワードとして検索エンジンを使用してインターネット検索し、「なかだ」と「なかた」のそれぞれのマッチング状況がスコア出力される。ここでは、例えば「なかだ」のスコア値が9278、「なかた」のスコア値が3540と出力されたものとする。
【0018】
スコア判定部103dは、インターネット検索部103cによる検索結果に基づいて、スコア値が最も高い読み情報、すなわち「なかだ」を抽出し、その読み情報を表記情報の読みとして採用する。音声出力部103eは、上述した処理で特定した入力文字データの読みを、スピーカ105を介して音声出力する。すなわち、「○○しのなかだしちょうは」を音声出力する。
【0019】
図2は、本実施の形態における文章解析装置100の処理を示すフローチャートである。図2に示す処理は、文章解析装置100の電源がオンされると起動するプログラムとして、制御装置103によって実行される。
【0020】
ステップS10において、文字データ入力装置101から文字データが入力されたか否かを判断する。文字データが入力されたと判断した場合には、ステップS20へ進む。ステップS20では、文章解析部103aは、上述したように、入力された文字データの読みを、辞書メモリ104に格納されたそれぞれの文章解析用の用語辞書を参照して検索する。その後、ステップS30へ進む。
【0021】
ステップS30では、検索結果として得られた複数の読み情報が同一か異なるのかを比較してステップS40へ進み、複数の読み情報が一致するか否かを判断する。複数の読み情報が一致すると判断した場合には、後述するステップS70へ進む。これに対して、複数の読み情報のそれぞれが異なると判断された場合には、ステップS50へ進む。ステップS50では、インターネット検索部103cは、上述したように、複数の読み情報、表記情報、およびジャンルの組を検索キーワードとして通信装置102を介してインターネットで検索する。その後、ステップS60へ進む。
【0022】
ステップS60では、スコア判定部103dは、インターネット検索(WWW検索)の結果、出力される複数の読み情報のそれぞれのスコアを比較して、スコアが最大の読み情報を抽出する。その後、ステップS70へ進み、抽出した読み情報を表記情報の読みとして採用して、ステップS80へ進む。ステップS80では、音声出力部103eは、上述した処理で特定した入力文字データの読みを、スピーカ105を介して音声出力する。
【0023】
その後、ステップS90へ進み、文章解析装置100の電源がオフされたか否かを判断する。電源がオフされていないと判断した場合には、ステップS10へ戻る。これに対して、電源がオフされたと判断した場合には、処理を終了する。
【0024】
以上説明した本実施の形態によれば、以下のような作用効果を得ることができる。
(1)入力された漢字かな混じりの文字列を、中間言語と呼ばれるカタカナと記号からなる文字列に変換したときに、複数の読み情報が得られた場合には、読み情報、表記情報、およびジャンルの組を検索キーワードとしてインターネットで検索し、そのジャンルにおける表記情報について、複数の読み情報のスコアが最も大きい読み情報を、表記情報の読み情報として採用するようにした。これによって、文字列に含まれる単語に複数の読み方がある場合でも、その単語の正しい読み方をインターネット上の情報から取得することができる。
(2)さらに、検索キーワードにジャンルを含めてスコアを出力するようにしたため、同じ文字列でジャンルごとに読み方が異なる場合であっても、文字列のジャンルにおける正しい読み方を取得することができる。
(3)文章解析の結果、複数の読み情報が得られた場合には、自動的にインターネットに接続して検索するようにしたため、正しい読み方を検索するために使用者による操作を必要とせず、使用者の利便性が向上する。
【0025】
―変形例―
なお、上述した実施の形態の文章解析装置は、以下のように変形することもできる。
(1)上述した実施の形態では、文字データ入力装置101から入力される文字データは、漢字かな混じりの文字列である例について説明したが、これに限定されず、同じつづりで複数の読み方がある英単語、すなわちアルファベットの文字列であってもよい。
【0026】
(2)上述した実施の形態では、辞書メモリ104には、政治用語辞書104aと、スポーツ用語辞書104bと、文学用語辞書104cとが格納されている例について説明した。しかしこれに限定されず、その他の分野の専門用語に特化した複数の用語辞書をさらに格納してもよい。また、これらの用語辞書をインターネット上に設置したサーバ上に置いてもよい。
【0027】
(3)上述した実施の形態では、入力された文字データの読み情報をスピーカ105を介して音声出力する例について説明した。しかしこれに限定されず、文字を表示するモニタを設け、入力された文字データの読みをモニタに表示するようにしてもよい。また、スピーカ105で音声出力すると同時にモニタにも表示するようにしてもよい。
【0028】
なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。
【0029】
特許請求の範囲の構成要素と実施の形態との対応関係について説明する。文章解析部103a、解析結果比較部103b、インターネット検索部103c、およびスコア判定部103dは検索手段に相当する。なお、以上の説明はあくまでも一例であり、発明を解釈する際、上記の実施形態の記載事項と特許請求の範囲の記載事項の対応関係に何ら限定も拘束もされない。
【図面の簡単な説明】
【0030】
【図1】文章解析装置の一実施の形態の構成を示すブロック図である。
【図2】文章解析装置100の処理を示すフローチャート図である。
【符号の説明】
【0031】
100 文章解析装置
101 文字データ入力装置
102 通信装置
103 制御装置
103a 文章解析部
103b 解析結果比較部
103c インターネット検索部
103d スコア判定部
103e 音声出力
104 メモリ
104a 政治用語辞書
104b スポーツ用語辞書
104c 文学用語辞書
105 スピーカ

【特許請求の範囲】
【請求項1】
文字データ、および前記文字データの内容を示すジャンルを入力する工程と、
前記入力されたジャンルに基づいて、前記入力された文字データの読みを検索する工程と、
検索された前記文字データの読みを出力する工程とを有することを特徴とする文章解析方法。
【請求項2】
請求項1に記載の文章解析方法において、
前記文字データの読みを検索する工程は、
前記ジャンルごとに設けられた文章解析用辞書を参照して少なくとも2つ以上の前記文字データの読みを検索する工程と、
前記文字データの読みが複数の文章解析用語辞書から検索された場合に、その複数の読みの相違部分を抽出する工程とを含み、
前記相違部分が抽出された場合に、相違部分の文字列、および文字データのジャンルに基づいて、前記相違部分の読みを特定することを特徴とする文章解析方法。
【請求項3】
請求項2に記載の文章解析方法において、
前記相違部分の読みは、インターネットを用いて取得した前記相違部分の読み情報の検索結果に基づいて、特定することを特徴とする文章解析方法。
【請求項4】
請求項1〜3のいずれか一項に記載の文章解析方法において、
前記文字データの読みを音声で出力することを特徴とする文章解析方法。
【請求項5】
請求項1〜4のいずれか一項に記載の文章解析装置において、
前記文字データの読みを文字で出力することを特徴とする文章解析方法。
【請求項6】
請求項1〜5の少なくともいずれか一項に記載の文章解析方法の各工程をコンピュータで実行するためのコードが定義されていることを特徴とする文章解析プログラム。
【請求項7】
文字データ、および前記文字データの内容を示すジャンルを入力する入力手段と、
前記入力手段で入力された文字データの読みを検索する検索手段と、
前記検索手段で検索した前記文字データの読みを出力する出力手段とを備え、
前記検索手段は、請求項6に記載の文章解析プログラムのうち、請求項1〜5のいずれか一項に対応するプログラムを実行して、前記入力手段で入力された文字データの読みを、前記入力されたジャンルに基づいて検索することを特徴とする文章解析装置。
【請求項8】
請求項7に記載の文章解析装置と、
前記文章解析装置とインターネットを介して接続され、前記検索手段で用いる文字データの読み情報を収集して、前記文書解析装置へ送信する検索サーバとを備えることを特徴とする文章解析システム。

【図1】
image rotate

【図2】
image rotate