説明

語句解説装置および語句解説方法

【課題】文書中の特定のパターンをもった語句について自動的に解説を行うことができる語句解説装置および語句解説方法を提供する。
【解決手段】文字列の特定パターンと、文字列の特定パターンに対応するアドレス情報を記憶する記憶部と、外部から与えられる文字列の内、特定パターンをもつ文字列を検出する検出部と、検出部が検出した特定パターンに対応するアドレス情報が指定するウェブアプリケーションとネットワークを介して通信を行ない、ウェブアプリケーションから特定パターンをもつ文字列が含む語句の解説情報を取得する通信部を有する語句解説装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、与えられた文書データから特定のルールをもつ文字列を検出し、この文字列の語句を解説する語句解説装置および語句解説方法に関する。
【背景技術】
【0002】
従来から、文書情報の中の意味不明な語彙に関して、この語彙の調査に要する手間を最小限に抑えるべく、これらの語彙の意味を自動的に取得する技術が存在する。例えば、あらかじめ用意された専門用語のデータベースを用いて、特定の用語の意味を自動的に取得して文書情報と共に表示することで、文字情報を容易に理解しやすくなる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平09−16593号公報
【特許文献2】特開2009−294995号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、文書情報に用いられる意味不明な語句について、より広い範囲で自動的に解説を加えたいという要望がある。すなわち、特定のデータベースを利用するだけでは、広範な語句や特殊な語句について、必ずしも確実に解説を行うことができない。たとえば、文書情報中に“10ドル”という文字列があったとき、その時の為替レートで計算すると「何円」になるのかを調べることはユーザの負担となる。
【0005】
本発明は、文書中の特定のパターンをもった語句について自動的に解説を行うことができる語句解説装置および語句解説方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
課題を解決するための一実施形態は、
文字列の特定パターンと、前記文字列の特定パターンに対応するアドレス情報を記憶する記憶部と、
外部から与えられる文字列の内、前記特定パターンをもつ文字列を検出する検出部と、
前記検出部が検出した前記特定パターンに対応する前記アドレス情報が指定するウェブアプリケーションと、ネットワークを介して通信を行ない、前記ウェブアプリケーションから前記特定パターンを有する文字列が含む語句の解説情報を取得する通信部と、
を具備することを特徴とする語句解説装置である。
【図面の簡単な説明】
【0007】
【図1】実施形態の語句解説システムの構成の一例を示すシステム図。
【図2】同じく語句解説システムに含まれる中間サーバの構成を示すブロック図。
【図3】同じく中間サーバが有する情報アプリケーションの構成図。
【図4】同じく中間サーバが有するパターンマッチング用データベーステーブル。
【図5】同じく中間サーバが有するウェブサービス選定用データベーステーブル。
【図6】同じく中間サーバの語句解説処理の一例を示すフローチャート。
【発明を実施するための形態】
【0008】
以下、実施の形態について、図面を参照して説明する。
図1は、実施形態の語句解説システムの構成の一例を示すシステム図、図2は、同じく語句解説システムに含まれる中間サーバの構成を示すブロック図である。
【0009】
実施形態の語句解説システムは、図1に示すように、一例として、クライアントである例えばMFP(Multifunction Peripheral)2と、語句解説装置である中間サーバ1と、この中間サーバ1を例えばインターネット3を介して通信可能なインターネット上の通貨換算サイト4と、同じく専用サイト5と、Wikipedia(登録商標)、hatena(登録商標)等の事典サイト6を有している。なお、クライアントは、MFP2に限らず、例えば、ユーザのPC(Personal Computer)であってもよい。
【0010】
また、この中間サーバ1は、図2に示すように、全体の動作を制御するCPU(Central Processing Unit)等の制御部11と、RAM、ROM等のメモリである記憶部12と、メモリ、ハードディスクドライブ等の記録部13と、インターネット(登録商標)やLAN(登録商標)(Local Area Network)等の通信を行なうネットワーク通信部16を有する。
【0011】
記録部13には、情報収集アプリケーション14と、情報収集アプリケーション用データベース15が格納されている。情報収集アプリケーションは、図3が示すように、一例として、以下のモジュールによって構成され、単語受信部21と、単語特徴解析部22と、ウェブサービス選定部23と、単語送信部24と、解説受信部25と、単語・解説送信部26で構成される。しかし、これらのモジュールの機能を実現する図6のフローチャートに示すような処理を実行するコンピュータプログラムであってもよい。また、情報収集アプリケーション用データベース15は、図4に示すパターンマッチング用データベースと、図5に示すウェブサービス選定用データベースを含んでいる。
【0012】
実施形態である語句解説システムは、以上のような構成であるが、この構成はほんの一例であり、実際の実装はこの構成に限るものではない。例えば、データベースはアプリケーション組み込み型のものでも、同一サーバ内に別個設置するものでも、ネットワーク上の他のサーバに設置するものでも、CSVファイルなどデータベースの代替となるものでもかまわない。
【0013】
また、上記の実施形態では、中間サーバ1は、クライアントであるMFP2が設けられている側にLAN(登録商標)等を介して設置されている。しかし、中間サーバ1は、クライアントと離れて、インターネット3上のどこかに設置されるものであってもよい。
【0014】
次に、このような構成をもつ語句解説装置である中間サーバ1の語句解説処理を、図6のフローチャートを用いて以下に説明する。中間サーバ1においては、制御部11の制御下のもと、情報収集アプリケーション14が起動される。中間サーバ1の情報収集アプリケーション14が起動すると、文書情報などの文字列の受信待ち状態となり、文字列を受信したかどうかが判断される(ステップS11)。情報収集アプリケーション14は、例えば、ネットワーク通信部16を介してクライアント側であるMFP2からクライアント側から文書情報などの文字列およびプロパティ(プロパティはなくともよい)を受信すると、次に、クライアントのIPアドレスを取得し(ステップS12)、正規表現で文字列の特徴を解析する処理に遷移する(ステップS13)。
【0015】
すなわち、情報収集アプリケーション14は、文字列等を受信すると、情報収集アプリケーション用データベース15にアクセスし、パターンマッチング用データベーステーブル(図4)を参照して、受信した文字列とパターンマッチング用データベーステーブルが示すパターンとが一致するかどうかをチェックする(ステップS14)。そして、一致するパターンがある場合、情報収集アプリケーション14は、そのパターンIDを取得し(ステップS15)、一致するパターンがない場合は、パターンID=0とする(ステップS16)。具体的には、文字列が例えば“10ドル”であれば、図4のパターンマッチング用データベーステーブルが示すように、パターンID=1となる。
【0016】
次に、情報収集アプリケーション14は、受信した文字列の中にパターンマッチング用データベーステーブルが示すパターンと一致するものがある場合、情報収集アプリケーション用データベース15にアクセスし、ウェブサービス選定用データベーステーブル(図5)を参照して、語句解説処理に用いるウェブアプリケーションを選択する(ステップS17)。例えば、文字列が“10ドル”であれば、『http://xxx.excharge.com』のURLが示すウェブアプリケーションが選択される。
【0017】
もし、情報収集アプリケーション14は、文字列に対応するウェブアプリケーションを検出できなければ、ステップS31に進み、対象の文字列および“解説文が取得できませんでした”等のメッセージを、クライアントのIPアドレスへと送信して処理を終了する(ステップS31)。
【0018】
情報収集アプリケーション14は、ウェブサービス選定用データベーステーブル(図5)を参照して、文字列に対応するウェブアプリケーションを検出すれば(ステップS18)、ステップS19に進み、ウェブサービス選定用データベーステーブルから、ウェブサービスのURL、プロパティ、その他の情報を取得する(ステップS19)。次に、情報収集アプリケーション14は、前処理として、ウェブサービス用に文字列の加工処理を行う(ステップS20)。このとき受信した文字列を破壊しないように文字列をコピーして、コピーした文字列に処理を加える。例えば、文字列が“10ドル”であれば、ウェブサービス選定用データベーステーブルが示す前処理により、“ドル”が除去され、“10”という文字列へと加工処理される。
【0019】
また、情報収集アプリケーション14は、クライアントからプロパティを受信していれば受信したものを使用し、受信していなければデータベースに格納されているものをデフォルトとして使用する(ステップS21)。ここで、プロパティとはウェブサービスごとに必要となる、サービス内容を設定するデータである。
【0020】
次に、情報収集アプリケーション14は、上述したウェブサービスURLを参照し、そのURLへ前処理をした文字列(文字列が“10ドル”であれば、“10”)とプロパティを通信部16を用いて送信する(ステップS22)。次に、情報収集アプリケーション14は、内蔵する受信待機用のタイマーを開始する(ステップS23)。
【0021】
次に、情報収集アプリケーション14は、該当のウェブサービスURLから解説文の文字データを受信したかどうかを判断し(ステップS24)、受信したのであれば、受信した解説文の文字データが期待される返却値のパターンと一致しているかどうかを判断する(ステップS26)。
【0022】
情報収集アプリケーション14は、該当のウェブサービスURLから解説文の文字データが受信できておらず、タイマーが一定時間以上経過していれば(ステップS25)、タイマーを終了し(ステップS30)、ステップS31に進み、対象の文字列および“解説文が取得できませんでした”等のメッセージを、クライアントのIPアドレスへと送信して処理を終了する(ステップS31)。
【0023】
しかし、情報収集アプリケーション14が、受信した解説文の文字データが期待される返却値のパターンと一致していると判断すれば(ステップS26)、タイマーを終了する(ステップS27)。そして、情報収集アプリケーション14は、受信したデータを返却用に、ウェブサービス選定用データベーステーブルが示す後処理を行う(ステップS28)。一例として、後処理が(word)に“円”を追加するであれば、受信したデータは後処理により“1000円”となる。このように、以上に説明した語句解説処理によって、文書データ中の文字列が“10ドル”であれば、“10ドル”に関し、現在の為替レートで計算して“1000円”であることが解説されたものである。
【0024】
最後に情報収集アプリケーション14は、後処理された“1000円”という解説文をネットワーク通信部16を用いてLAN(登録商標)等のネットワークを介してクライアントのIPアドレスであるMFP2に送信する(ステップS29)。
【0025】
このように、この実施形態において、語句解説装置である中間サーバ1の語句解説処理によって、一般には難しいとされている、例えば“10ドル”という文字列が、現在の為替レートで計算して“何円”になるかという調査に関し、予め登録されたURLが示す為替計算機能をもつウェブアプリケーションから“何円”になるかの説明文を自動的に取得することが可能となる。
【0026】
なお、この実施形態の語句解説処理で用いられる図4のパターンマッチング用データベースが示すように、(数字)+“ドル”等の(数字)+“貨幣単位”以外にも、(数字)+(日,月,年)の文字列パターンに従って、その日時にあった事件を解説する場合、(数字)+(温度単位)の文字列パターンに従って、他の温度単位に置き換える場合、(化学式)の文字列パターンに従って、その(化学式)が示す物質の名称や性質を説明する場合等、他の文字列パターンに対応付けて、特定のアプリケーションを利用することが可能となる。すなわち、例えば、(化学式)“HO”であれば、これに対して、説明文“水分子”を供給するものである。
【0027】
以上、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0028】
1…中間サーバ、2…MFP、3…インターネット、4…通過換算サイト、5…専門サイト、6…事典サイト、11…制御部、12…記憶部、13…記録部、14…情報集アプリケーション、15…情報収集アプリケーション用データベース、16…インターネット通信部。

【特許請求の範囲】
【請求項1】
文字列の特定パターンと、前記文字列の特定パターンに対応するアドレス情報を記憶する記憶部と、
外部から与えられる文字列の内、前記特定パターンをもつ文字列を検出する検出部と、
前記検出部が検出した前記特定パターンに対応する前記アドレス情報が指定するウェブアプリケーションと、ネットワークを介して通信を行ない、前記ウェブアプリケーションから前記特定パターンを有する文字列が含む語句の解説情報を取得する通信部と、
を具備することを特徴とする語句解説装置。
【請求項2】
前記文字列の特定パターンとは、『数字と貨幣単位』と、『数字と温度単位』と、『数字と日、月、年』と、『化学式』の内の少なくとも一つを含むことを特徴とする請求項1記載の語句解説装置。
【請求項3】
前記通信部が取得した前記解説情報を、前記文書情報の供給元である外部のクライアント装置に供給する第2の通信部を更に有することを特徴とする請求項1記載の語句解説装置。
【請求項4】
文字列の特定パターンと、前記文字列の特定パターンに対応するアドレス情報を予め用意し、
与えられる文書情報に含まれる文字列の内、前記特定パターンをもつ文字列を検出し、
前記検出した前記特定パターンに対応する前記アドレス情報が指定するウェブアプリケーションと、ネットワークを介して通信を行ない、前記ウェブアプリケーションから前記特定パターンを有する文字列が含む語句の解説情報を取得することを特徴とする語句解説方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−18484(P2012−18484A)
【公開日】平成24年1月26日(2012.1.26)
【国際特許分類】
【出願番号】特願2010−154253(P2010−154253)
【出願日】平成22年7月6日(2010.7.6)
【出願人】(000003562)東芝テック株式会社 (5,631)
【Fターム(参考)】