説明

言語処理装置、言語処理方法、言語処理システムおよびプログラム

【課題】言語処理装置、言語処理方法、言語処理システムおよびプログラムを提供すること。
【解決手段】テキストデータと、前記テキストデータに含まれるいずれかの語句を示す語句項目または前記語句項目が記憶されている所在を示す所在情報の少なくともいずれかを含むメタデータと、さらにメタデータが所在情報を含む場合は所在情報で示される所在に存在する語句項目と、を通信網を介して取得する取得部218と、前記メタデータに基づいて取得された前記語句項目を含むデータベースを作成する作成部220と、前記作成部により作成された前記データベースを記憶する記憶部224と、前記テキストデータの一部または全体を前記データベースを用いて分割し、前記データベースに含まれる前記語句項目により示される特定の語句を得る分割部228とを備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、言語処理装置、言語処理方法、言語処理システムおよびプログラムに関する。
【背景技術】
【0002】
近日、入力されたある言語の文章(テキストデータ)を他の言語の文章に自動翻訳する翻訳装置が広く普及している。かかる翻訳装置は、あらかじめ記憶しているシステム辞書やユーザにより作成されたユーザ辞書に基づいて文章を解析し、他の言語に翻訳することができる。
【0003】
また、特許文献1には、数学辞書やスポーツ辞書など特定の分野で用いられる専門用語に特化した辞書を用意しておく自然言語処理システムが開示されている。このような専門用語に特化した辞書を用意しておけば、一般のシステム辞書だけでは対応できない特殊な分野に関して記述された文章を翻訳することが可能となる。
【0004】
【特許文献1】特開2003−157257号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかし、従来の自然言語処理システムでは、特定の分野でしか用いられない特殊な専門用語、商品名または部署名などの多数の語句のために記憶媒体のリソースを割り当てざるを得ないという問題があった。また、従来の自然言語処理システムにおける辞書には適切な辞書内容が登録されていない場合があった。
【0006】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、必要に応じて適切な語句を含むデータベースを作成し、該データベースを用いて入力されたテキストデータを処理することが可能な、新規かつ改良された言語処理装置、言語処理方法、言語処理システムおよびプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のある観点によれば、テキストデータと、テキストデータに含まれるいずれかの語句を示す語句項目または語句項目が記憶されている所在を示す所在情報の少なくともいずれかを含むメタデータと、さらにメタデータが所在情報を含む場合は所在情報で示される所在に存在する語句項目と、を通信網を介して取得する取得部と、取得部により取得されたメタデータに基づいて語句項目を取得し、語句項目を含むデータベースを作成する作成部と、作成部により作成されたデータベースを記憶する記憶部と、テキストデータの一部または全体をデータベースを用いて分割し、データベースに含まれる語句項目により示される特定の語句を得る分割部と、を備えることを特徴とする、言語処理装置が提供される。
【0008】
かかる構成においては、取得部がメタデータに含まれるテキストデータに含まれるいずれかの語句を示す語句項目、またはメタデータに含まれる所在情報に基づいて語句項目を取得し、作成部が取得部により取得された語句項目を含むデータベースを作成する。分割部は、例えばデータベースに含まれる語句項目により示される語句や通常の辞書データベースに記憶されている語句に基づいてテキストデータを語句単位に分割する。したがって、テキストデータに通常の辞書データベースに記憶されていない特定の分野でしか用いられないような語句が含まれていた場合であっても、本発明にかかる分割部は適切にテキストデータを語句単位に分割することができる。その結果、適切に分割された語句に基づいた正確性の高い翻訳や要旨の抽出が可能となる。
【0009】
語句項目は、テキストデータに含まれるいずれかの語句および語句の翻訳語が対応付けられており、テキストデータの分割により得られた特定の語句は、語句項目において特定の語句が対応付けられている翻訳語に翻訳する翻訳部を備えてもよい。かかる構成によれば、テキストデータに通常の辞書データベースに記憶されていない特定の分野でしか用いられないような語句が含まれていた場合であっても、該語句を示す語句項目がデータベースに含まれていた場合、翻訳部は該語句を語句項目において該語句が対応付けられている翻訳語に翻訳することができる。また、語句項目はテキストデータの作成者の意図に従い、テキストデータに含まれる語句の適切な翻訳語を含むように作成される場合がある。この場合、翻訳部は、特定の語句を翻訳する際に語句項目を参照することにより、特定の語句をテキストデータの作成者の意図する翻訳語に適切に翻訳することができる。
【0010】
テキストデータのうちで、特定の語句の分布状況が所定の設定基準を満たす部分を抽出する抽出部を備えてもよい。語句項目は、テキストデータの作成者の意図に従い、テキストデータを構成する語句のうちで重要な語句を示すように作成される場合がある。この場合、抽出部は、テキストデータのうちで語句項目により示される特定の語句の分布度合が例えば最も高い一文を該テキストデータの要旨として抽出することができる。
【0011】
抽出部は、特定の語句に重み付けをする重み付け部と、テキストデータを構成する各語句群ごとに、語句群に含まれる特定の語句に付された重みの総和を算出する算出部と、テキストデータを構成する各語句群のうちで、算出部により算出された重みの総和が設定基準を満たす語句群を抽出する抽出処理部と、を備えてもよい。かかる構成においては、抽出処理部は、例えば一文に対応する語句群のうちで、算出部により算出された重みの総和が所定の重み以上である文、または重み総和の順位が上位5パーセントに入る文を抽出することができる。
【0012】
抽出部は、テキストデータを構成する各語句に重み付けをする重み付け部と、テキストデータを構成する各語句群ごとに、語句群に含まれる語句に付された重みの総和を算出する算出部と、テキストデータを構成する各語句群のうちで、算出部により算出された重みの総和が設定基準を満たす語句群を抽出する抽出処理部と、を備え、重み付け部は、特定の語句には、特定の語句以外の語句より高い重み付けをしてもよい。
【0013】
また、上記課題を解決するために、本発明の別の観点によれば、テキストデータと、テキストデータに含まれるいずれかの語句を示す語句項目または語句項目が記憶されている所在を示す所在情報の少なくともいずれかを含むメタデータと、さらにメタデータが所在情報を含む場合は所在情報で示される所在に存在する語句項目と、を通信網を介して取得するステップと、取得部により取得されたメタデータに基づいて語句項目を取得し、語句項目を含むデータベースを作成するステップと、作成部により作成されたデータベースを記憶媒体に記録するステップと、テキストデータの一部または全体をデータベースを用いて分割し、データベースに含まれる語句項目により示される特定の語句を得るステップと、を含むことを特徴とする、言語処理方法が提供される。
【0014】
語句項目は、テキストデータに含まれるいずれかの語句および語句の翻訳語が対応付けられており、テキストデータの分割により得られた特定の語句は、語句項目において特定の語句が対応付けられている翻訳語に翻訳するステップを含んでもよい。
【0015】
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、テキストデータと、テキストデータに含まれるいずれかの語句を示す語句項目または語句項目が記憶されている所在を示す所在情報の少なくともいずれかを含むメタデータと、さらにメタデータが所在情報を含む場合は所在情報で示される所在に存在する語句項目と、を通信網を介して取得する取得部と、取得部により取得されたメタデータに基づいて語句項目を取得し、語句項目を含むデータベースを作成する作成部と、作成部により作成されたデータベースを記憶媒体に記録する記録部と、テキストデータの一部または全体をデータベースを用いて分割し、データベースに含まれる語句項目により示される特定の語句を得る分割部と、を備える言語処理装置として機能させるための、プログラムが提供される。
【0016】
かかる構成においては、例えばCPU、ROMまたはRAMなどを含むコンピュータのハードウェア資源に、上記のような取得部、作成部、記録部および分割部の機能を実行させることができる。すなわち、当該プログラムを用いるコンピュータを、上述の言語処理装置として機能させることが可能である。
【0017】
語句項目は、テキストデータに含まれるいずれかの語句および語句の翻訳語が対応付けられており、テキストデータの分割により得られた特定の語句は、語句項目において特定の語句が対応付けられている翻訳語に翻訳する翻訳部を備えてもよい。
【0018】
また、上記課題を解決するために、本発明の別の観点によれば、テキストデータを処理する言語処理装置と、言語処理装置と通信可能な情報処理装置と、を含む言語処理システムであって、情報処理装置は、任意のテキストデータに含まれるいずれかの語句を示す語句項目または語句項目が記憶されている所在を示す語句項目の所在情報の少なくともいずれかを含むメタデータが対応付けられているテキストデータの所在情報を言語処理装置に送信し、言語処理装置は、情報処理装置から受信したテキストデータの所在情報に基づき、テキストデータと、メタデータと、さらにメタデータが語句項目の所在情報を含む場合は語句項目の所在情報で示される所在に存在する語句項目と、を通信網を介して取得する取得部と、取得部により取得されたメタデータに基づいて語句項目を取得し、語句項目を含むデータベースを作成する作成部と、作成部により作成されたデータベースを記憶する記憶部と、テキストデータの一部または全体をデータベースを用いて分割し、データベースに含まれる語句項目により示される特定の語句を得る分割部とを含むことを特徴とする、言語処理システムが提供される。
【0019】
語句項目は、テキストデータに含まれるいずれかの語句および語句の翻訳語が対応付けられており、テキストデータの分割により得られた特定の語句は、語句項目において特定の語句が対応付けられている翻訳語に翻訳する翻訳部を備えてもよい。
【発明の効果】
【0020】
以上説明したように本発明にかかる言語処理装置、言語処理方法、言語処理システムおよびプログラムによれば、必要に応じて適切な語句を含むデータベースを作成し、該データベースを用いて入力されたテキストデータを処理することができる。
【発明を実施するための最良の形態】
【0021】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0022】
(第1の実施形態)
まず、本発明の第1の実施形態について説明する。本実施形態の説明においては、図1〜図4を参照して言語処理システム1について説明した後に、図5〜図10を参照して言語処理システム1を構成するPC(即ち、Personal Computer)20について説明し、図11および図12を参照して本実施形態の変形例を説明する。
【0023】
図1は、本実施形態にかかる言語処理システム1の構成を示した説明図である。言語処理システム1は、文書記憶サーバ10と、辞書記憶サーバ12と、PC20と、通信網22と、を含む。
【0024】
文書記憶サーバ10は、文書(テキストデータ)を記憶するテキストデータ記憶サーバとしての機能を有する。文書記憶サーバ10は、例えば図2に示す文書を記憶する。
【0025】
図2は、文書記憶サーバ10が記憶している文書の一例を示した説明図である。図2に示した文書例には企業内システムの技術紹介が記載されており、「従来のシステムは、・・・」という第1文C1、「これに対し、沖電気工業株式会社が開発したCTStageは、導入が容易であり、拡張性が高い。」という第14文C14、「このようなCTStageは業務の促進が期待されるため、多くの注目を集めている。」という第15文C15、「具体的には、CTStageは・・・」という第16文C16、「顧客はセンターに直接架電することができる。」という第35文C35などが含まれる。
【0026】
また、図2に示した文書例には、企業名「沖電気工業株式会社」や、製品名「CTStage」や、特殊用語「架電」などの特定の分野または組織でのみ用いられる語句が含まれている。したがって、このような文書を通常の辞書のみに基づいて適切に翻訳することはできない。一方、あらかじめ上記のような特定の分野または組織でのみ用いられる語句を含む辞書を用意しておくことはハードウェア容量および辞書作成の煩雑性などの観点から困難であるという問題があった。本実施形態にかかる言語処理装置としてのPC20はかかる問題点を一着眼点にして創作されるに至ったものである。
【0027】
なお、図2には日本語の文書例を示しているが、文書記憶サーバ10は英語、フランス語、ドイツ語など任意の言語による文書を記憶していてもよい。また、図2にはテキストデータのみからなる文書を示しているが、文書には図表、写真、動画などが含まれてもよい。
【0028】
また、図2に示した文書記憶サーバ10が記憶する文書(文書データ)には、図3に示すメタデータが対応付けられている。
【0029】
図3は、文書に対応付けられているメタデータの一例を示した説明図である。図3に示した例では、メタデータ110は、図2に示した文書に対応付けられており、辞書項目(語句項目)112と、参照辞書所在情報114と、を含む。
【0030】
辞書項目112は、図2に示した文書に含まれる語句と、該語句に対応付けられた該語句の翻訳語を含む。例えば辞書項目112は、「架電」という日本語と、「架電」に対応付けられた「call」という英語を含んでいる。このようなある語句と該語句の翻訳語との対を辞書項目と称しても、ある語句と該語句の翻訳語との対の集合を辞書項目と称してもよい。
【0031】
参照辞書所在情報114は、図2に示した文書に含まれる語句と、該語句に対応付けられた該語句の翻訳語とを含む参照辞書の所在を示す情報である。例えば参照辞書所在情報114は、「MTDictionary」という参照辞書が、「/mtdict.xml」で表される所在に記憶されていることを示している。
【0032】
このような参照辞書は、例えば図1に示した辞書記憶サーバ12に記憶されている。辞書記憶サーバ12が記憶する参照辞書の具体例を、図4を参照して説明する。
【0033】
図4は、辞書記憶サーバ12が記憶する参照辞書130の内容を示した説明図である。参照辞書130は、図2に示した文書に含まれる語句と、該語句の翻訳語とが対応付けられた複数の辞書項目を含む。例えば、「MTDictionary」という参照辞書130には、「沖電気工業株式会社」という日本語に「Oki Electric Industry Co.,Ltd.」という英語が対応付けられている辞書項目132や、「Oki Technical Review」という英語に「沖テクニカルレビュー」という日本語が対応付けられている辞書項目136が含まれる。
【0034】
また、辞書項目134は、「*」が付されている「CTStage」に「*」が付されている「CTStage」が対応付けられている。このように翻訳元および翻訳先の語句に「*」が付されている場合、翻訳元の言語および翻訳先の言語に拘らず「CTStage」は「CTStage」のまま出力される。
【0035】
なお、辞書記憶サーバ12は、図4に示した参照辞書130以外に複数の参照辞書を記憶していてもよく、また、参照辞書が記憶される所在は辞書記憶サーバ12に限られない。
【0036】
図1を用いて言語処理システム1の説明に戻ると、PC20は、通信網22を介して文書記憶サーバ10、および辞書記憶サーバ12と各種情報を送受信することができる。例えば、PC20は、文書記憶サーバ10から、文書と、該文書に含まれる語句に関する辞書項目または辞書項目を含む参照辞書の所在情報と、を含むメタデータを受信したり、辞書記憶サーバ12から参照辞書を受信することができる。
【0037】
なお、図1においては言語処理装置の一例としてPC20を示しているに過ぎず、言語処理装置は、PC(Personal Computer)、家庭用映像処理装置(DVDレコーダ、ビデオデッキなど)、携帯電話、PHS(Personal Handyphone System)、携帯用音楽再生装置、携帯用映像処理装置、PDA(Personal Digital Assistant)、家庭用ゲーム機器、携帯用ゲーム機器、家電機器などの情報処理装置であってもよい。また、通信網22は、銅線または光ファイバーなどの有線ケーブルや、無線電波などのデータの伝送路、またはルータや通信を制御する基地局などのデータの中継機などを含んでもよく、インターネットまたはイントラネットであってもよい。
【0038】
また、PC20は、文書記憶サーバ10から受信した文書を、文書記憶サーバ10から受信したメタデータに基づいて取得した辞書項目を用いて翻訳することができる。以下、このような言語処理装置の一例としてのPC20の構成および動作について説明する。
【0039】
図5は、本実施形態にかかるPC20のハードウェア構成を示した説明図である。PC20は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、ホストバス204と、ブリッジ205と、外部バス206と、インタフェース207と、入力装置208と、出力装置210と、記憶装置211と、通信装置215とを備える。
【0040】
CPU201は、ROM201に記憶されたプログラムや入力装置208や通信装置215を介して入力される指示に基づいて、PC20の動作全般を制御する。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201が演算処理を行う作業領域として機能し、CPU201が動作することにより適宜変化するパラメータ等を一次記憶する。これらは例えばCPUバスから構成されるホストバス204により相互に接続されている。
【0041】
ホストバス204は、ブリッジ205を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス206に接続されている。
【0042】
入力装置208は、例えば、マウス、キーボード、タッチパネル、スイッチ、レバーおよび音声電圧変換器など管理者が操作する操作手段と、操作手段が検出した管理者による操作を入力信号に変換し、CPU201に出力する入力制御回路などから構成されている。PC20の管理者は、該入力装置208を操作することにより、PC20に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0043】
出力装置210は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置などの表示装置と、スピーカおよびヘッドホンなどの音声出力装置や、振動発生装置などで構成される。
【0044】
記憶装置211は、本実施形態にかかるPC20の記憶部の一例として構成されたデータ格納用の装置であり、例えば、HDD(Hard Disk Drive)で構成される。この記憶装置211は、ハードディスクを駆動し、CPU201が実行するプログラムや各種データを格納する。また、この記憶装置211には、後述の、一時辞書および通常辞書を記憶する。
【0045】
通信装置215は、例えば、通信網22に接続するための通信デバイス等で構成された通信インタフェースである。この通信装置215は、例えば通信網22を介して文書記憶サーバ10から文書やメタデータを受信し、辞書記憶サーバ12から参照辞書を受信することができる。
【0046】
以上、図5を参照して本実施形態にかかる言語処理装置の一例としてのPC20のハードウェア構成を説明した。続いて、図6を参照してPC20の機能、構成を説明する。
【0047】
図6は、PC20の構成を示した機能ブロック図である。PC20は、通信部216と、取得部218と、一時辞書作成部220と、記憶部224と、形態素解析部228と、翻訳部232と、表示部236と、を備える。
【0048】
通信部216は、文書記憶サーバ10や辞書記憶サーバ12とのインターフェースとして機能する。具体的には、通信部216は、文書記憶サーバ10から図2に示したような文書を受信し、文書記憶サーバ10から図3に示したようなメタデータを受信し、辞書記憶サーバ12から図4に示したような参照辞書を受信する。なお、通信部216は、図5に示した通信装置215を機能させるためのソフトウェアであっても、該ソフトウェアに基づいて動作する通信装置215であってもよい。
【0049】
取得部218は、通信部216が文書と併せて受信したメタデータに基づいて辞書項目を取得する。具体的には、取得部218は、メタデータに辞書項目または参照辞書所在情報が含まれるか否かを判断する。そして、取得部218は、メタデータに辞書項目が含まれていると判断した場合、メタデータから辞書項目を取得(抽出)する。また、取得部218は、メタデータに参照辞書所在情報が含まれていると判断した場合、参照辞書所在情報により示される所在に参照辞書の送信要求を行い、参照辞書を取得し、参照辞書に含まれる辞書項目を取得する。
【0050】
例えば通信部216が図2に示した文書と併せて図3に示したメタデータを受信した場合、取得部218は、メタデータに辞書項目が含まれていると判断し、メタデータから辞書項目112を取得する。また、取得部218は、メタデータに参照辞書所在情報が含まれていると判断し、参照辞書所在情報114に基づいて図4に示した参照辞書130を取得し、参照辞書130に含まれる辞書項目132、134、および136を取得する。
【0051】
一時辞書作成部220は、取得部218が取得した辞書項目を用いて該辞書項目を含むデータベースとして一時辞書を作成する作成部として機能する。例えば通信部216が図2に示した文書と併せて図3に示したメタデータを受信した場合、一時辞書作成部220は、取得部218により取得された辞書項目112、132、134および136を含む一時辞書を作成する。このようにして一時辞書作成部220により作成される一時辞書の一例を図7を参照して説明する。
【0052】
図7は、一時辞書作成部220により作成される一時辞書の一例を示した説明図である。図7に示した一時辞書には、辞書項目132に対応する「沖電気工業株式会社」および「Oki Electric Industry Co.,Ltd」の組と、辞書項目112に対応する「架電」および「call」の組と、辞書項目134に対応する「CTStage」および「CTStage」の組とが含まれる。
【0053】
記憶部224は、上述のように一時辞書作成部220により作成された一時辞書と、一般語句やユーザ登録された語句などを含む通常辞書とを記憶する。より詳細には、記憶部224は、一時辞書や通常辞書などを記憶する記憶媒体と、記憶媒体に一時辞書や通常辞書などを記録する記録部と、を含む。以下に、通常辞書の一例を図8を参照して説明する。
【0054】
図8は、記憶部224が記憶する通常辞書の一例を示した説明図である。通常辞書は、一般に用いられる汎用性の高い語句を含んでもよい。例えば、図8に示した通常辞書には、「期待」および「expect」の組と、「業務」および「business」の組と、「システム」および「system」の組と、「注目を集める」および「hold the stage」の組と、「従来の」および「conventional」の組と、が含まれている。
【0055】
このような通常辞書や一時辞書を記憶する記憶部224は、EEPROM(Electrically Erasable Programmable Read−Only Memory)、EPRPM(Erasable Programmable Read Only Memory)などの不揮発性メモリや、ハードディスクおよび円盤型磁性体ディスクなどの磁気ディスクや、CD−R(Compact Disk Recordable)/RW(ReWritable)、DVD−R(Digital Versatile Disk Recordable)/RW/+R/+RW/RAM(Ramdam Access Memory)およびBD(Blu−Ray Disc(登録商標))―R/BD−REなどの光ディスクや、MO(Magneto Optical)ディスクなどの記憶媒体であってもよい。
【0056】
なお、通常辞書および一時辞書は、必ずしもPC20に内蔵される記憶部224に記録する必要はなく、ネットワーク上の任意のサーバに記録し、多数の情報処理装置により共有されるようにしてもよい。
【0057】
図6を参照してPC20の構成の説明に戻ると、形態素解析部228は、通信部216が文書記憶サーバ10から受信した文書を、記憶部224に記憶されている一時辞書および通常辞書を用いて言語として意味を持つ最小単位である形態素の列に分割する分割部としての機能を有する。例えば、図2に示した文書に含まれる第1文C1は、形態素解析部228により「従来」、「の」、「システム」、「は」といった形態素列に分割される。なお、本明細書においては1または2以上の形態素の集合を語句と称して説明に用いている。
【0058】
かかる形態素解析部228により、通信部216が文書記憶サーバ10から受信した文書から、記憶部224に記憶されている一時辞書に含まれる辞書項目に対応する語句、および記憶部224に記憶されている通常辞書に含まれる辞書項目に対応する語句が得られる。
【0059】
翻訳部232は、形態素解析部228により得られた各語句に基づいて、各語句の係り受けおよび節関係を解析し、記憶部224に記憶されている一時辞書および通常辞書を用いて文書の翻訳を行なう。具体的には、翻訳部232は、一時辞書に含まれる辞書項目により示される語句は該語句に対応付けられている翻訳語に翻訳し、通常辞書に含まれる辞書項目により示される語句は該語句に対応付けられている翻訳語に翻訳する。表示部236は例えば液晶ディスプレイであって、翻訳部232により翻訳された文書を表示する。翻訳部232により翻訳され、表示部236に表示される文書の一例を図9を参照して説明する。
【0060】
図9は、図2に示した文書の翻訳結果例を示した説明図である。図9に示したように、図2に示した文書に含まれている「沖電気工業株式会社」は一時辞書において対応付けられている「Oki Electric Industry Co.,Ltd」に翻訳され、「CTStage」は一時辞書において対応付けられている「CTStage」のまま出力され、「架電」は一時辞書において対応付けられている「call」に翻訳される。
【0061】
また、図2に示した文書に含まれている「従来」は通常辞書において対応付けられている「conventional」に翻訳され、「システム」は通常辞書において対応付けられている「system」に翻訳されるなどする。
【0062】
以上、本実施形態にかかる言語処理装置としてのPC20の機能および構成について説明した。続いて、図10を参照してPC20において実行される言語処理方法を説明する。
【0063】
図10は、PC20において実行される言語処理方法の流れを示したフローチャートである。まず、PC20の通信部216は、文書記憶サーバ10から文書を受信する(S304)。続いて、あるいは文書の受信と併せて通信部216は文書記憶サーバ10から該文書に対応付けられているメタデータを受信する(S308)。
【0064】
次いで、取得部218は、通信部216がメタデータを受信したか否か、すなわち通信部216が辞書項目または参照辞書所在情報を含むメタデータを受信したか否かを判断する(S312)。参照辞書所在情報を含むメタデータが受信されたと判断した場合、取得部218は、該参照辞書所在情報に基づいて参照辞書を辞書記憶サーバ12から取得する(S316)。その後、取得部218は、メタデータに含まれる辞書項目および参照辞書に含まれる辞書項目を抽出する(S320)。
【0065】
続いて、一時辞書作成部220は、取得部218により取得、抽出された辞書項目を用い、該辞書項目を含む一時辞書を作成し、記憶部224に記録する(S324)。S312において辞書項目または参照辞書所在情報を含むメタデータが通信部216により受信されなかったと判断された場合、またはS324の後、形態素解析部228は記憶部224が記憶している一時辞書および通常辞書を用いて通信部216により受信された文書の形態素解析を行なう(S328)。その後、翻訳部232は、形態素解析部228による文書の解析結果および記憶部224が記憶している一時辞書および通常辞書に基づいて文書の翻訳を行なう(S332)。なお、翻訳終了後に一時辞書を記憶部224から削除しても、そのまま記憶させておいてもよい。
【0066】
以上説明したように、本実施形態にかかる言語処理装置の一例としてのPC20によれば、取得部218が文書と併せて受信されたメタデータに基づいて該文書に含まれるいずれかの語句に対応する辞書項目を取得し、一時辞書作成部220が取得部218により取得された辞書項目を含む一時辞書を記憶部224に記憶させる。したがって、PC20が受信した文書に通常辞書に記憶されていない特定の分野でしか用いられないような語句や、特定のサイトページでのみ使用される語句が含まれていた場合であっても、該語句に対応する辞書項目が一時辞書に含まれていた場合、翻訳部232は該語句を一時辞書において該語句が対応付けられている翻訳語に翻訳することができる。
【0067】
また、辞書項目は文書の作成者の意図に従い、文書に含まれる語句の適切な翻訳語を含むように作成される場合がある。この場合、翻訳部232は、文書を翻訳する際に一時辞書を参照することにより、特定の語句を文書の作成者の意図する翻訳語に適切に翻訳することができる。
【0068】
なお、本実施形態においては辞書項目が翻訳元の語句と翻訳先の語句とからなる場合を説明したが、本実施形態はかかる場合に限定されない。例えば、辞書項目に語句の品詞、活用形および意味属性などを加えることにより、より精度の高い翻訳を実現することができる。
【0069】
また、本実施形態においては一時辞書は単一の辞書として処理される場合を説明したが、参照辞書ごとに一時辞書を作成することにより、複数の関連文書間で一時辞書を共有できるようにしてもよい。
【0070】
また、本実施形態においてはPC20が言語処理装置としての機能を担う場合を説明したが、本実施形態はかかる場合に限定されず、言語処理装置としての機能を複数のPC20により共有される翻訳サーバ30が担うようにしてもよい。言語処理装置としての機能を翻訳サーバ30が担う場合の変形例を図11および図12を参照して説明する。
【0071】
図11は、本実施形態の変形例にかかる言語処理システム2の構成を示した説明図である。言語処理システム2は、文書記憶サーバ10と、辞書記憶サーバ12と、通信網12と、PC20と、翻訳サーバ30と、を含む。文書記憶サーバ10と、辞書記憶サーバ12の構成は上述した内容と実質的に同一であるので説明を省略する。
【0072】
翻訳サーバ30は、PC20から翻訳要求のあった文書を翻訳し、PC20に翻訳した文書を送信する。かかる翻訳サーバ30は、上述したPC20における取得部218、一時辞書作成部220、記憶部224、形態素解析部228、および翻訳部232の機能を包含する。このような言語処理システム2の動作例を、図12を参照して説明する。
【0073】
図12は、言語処理システム2の動作の流れを示したシーケンス図である。言語処理システム2においては、まず、PC20が翻訳サーバ30による翻訳を所望する文書の所在を示す文書URLを翻訳サーバ30に送信する(S404)。翻訳サーバ30は、PC20から文書URLを受信すると、該文書URLに従って文書記憶サーバ10に対して文書の送信要求を行なう(S408)。
【0074】
文書記憶サーバ10は、翻訳サーバ30からの文書の送信要求に応じて翻訳サー30に文書および該文書に対応付けられているメタデータを送信する(S412)。翻訳サーバ30は、文書記憶サーバ10から文書および該文書に対応付けられているメタデータを受信すると、メタデータに含まれる参照辞書所在情報に従って辞書記憶サーバ12に対して参照辞書の送信要求を行なう(S416)。辞書記憶サーバ12は、翻訳サーバ30からの参照辞書の送信要求に応じて翻訳サーバ30に参照辞書を送信する(S420)。
【0075】
翻訳サーバ30は、辞書記憶サーバ12から参照辞書を受信すると、メタデータに含まれる辞書項目および参照辞書に含まれる辞書項目を含む一時辞書を作成する(S424)。その後、翻訳サーバ30は、一時辞書および通常辞書を用いて受信した文書の形態素解析を行なう(S428)。その後、翻訳サーバ30は、文書の形態素解析結果および一時辞書および通常辞書に基づいて文書の翻訳を行なう(S432)。そして、翻訳サーバ30は翻訳語の文書をPC20に送信する(S436)。
【0076】
このように言語処理装置としての機能をサーバ側に実装することも可能である。かかる構成によれば、個人が所有するPC20に一時辞書および通常辞書を記憶させるための記憶容量が不要となる、または一時辞書を複数のユーザで共有することができるなどの効果を奏する。
【0077】
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。本発明の第2の実施形態によれば、任意の文書のうちで重要と思われる部分を該文章の要旨として抽出することができる。以下、図13〜図19を参照して本実施形態にかかる言語処理装置の一例としてのPC24の構成および動作を説明する。
【0078】
図13は、本実施形態にかかるPC24の構成を示した機能ブロック図である。PC24は、通信部216と、取得部218と、一時辞書作成部220と、形態素解析部228と、表示部236と、記憶部240と、抽出部250とを備える。このようなPC24の各構成は、第1の実施形態において説明したPC20の構成と共通する部分が多いため、第1の実施形態で説明した内容と異なる部分に重点をおいて説明する。
【0079】
本実施形態においては、通信部216が文書記憶サーバ10から文書と併せて受信するメタデータは、文書に含まれるいずれかの語句に対応する辞書項目を含む。このような本実施形態にかかるメタデータの具体例を、図14を参照して説明する。
【0080】
図14は、辞書記憶サーバ12が図2に示した文書と対応付け記憶しているメタデータの一例を示した説明図である。図14に示したメタデータには、「架電」の語句からなる辞書項目140、「沖電気工業株式会社」の語句からなる辞書項目142、「CTStage」の語句からなる辞書項目144などが含まれる。このような辞書項目は、文書の内容から、文書の内容に比較的強く関連する語句(キーワード、重要語句)について作成される場合がある。したがって、「架電」、「沖電気工業株式会社」および「CTStage」などの語句は、図2に示した文書における重要語句である場合がある。
【0081】
なお、本実施形態におけるメタデータも参照辞書所在情報を含んでもよく、PC24は参照辞書所在情報に基づいて文書を構成するいずれかの語句からなる辞書項目を含む参照辞書を辞書記憶サーバ12から取得してもよい。
【0082】
一時辞書作成部220は、取得部218により取得された辞書項目に基づいて一時辞書を作成し、記憶部240に記憶させる。記憶部240は、一時辞書作成部220により作成された一時辞書と、一般に用いられる語句を含む通常辞書とを記憶する。以下、図15を参照して本実施形態における記憶部240が記憶する通常辞書の一例を説明する。
【0083】
図15は、記憶部240が記憶する通常辞書の一例を示した説明図である。本実施形態における通常辞書には、語句と、該語句に対応付けられた該語句の重みとが含まれる。該語句の重みは、汎用性のより高い語句には低い重みが付され、汎用性の低い語句には高い重みが付されていてもよい。または、内容をまとめる際に用いられる「このように」、「以上説明したように」などの語句には高い重みが付されるようにしてもよい。また、このような重み付けは、抽出部250の重み付け部252により行なわれてもよい。
【0084】
図15に示した例では、通常辞書は、重み「2」が付された語句「期待」と、重み「4」が付された語句「業務」と、重み「5」が付された語句「システム」と、重み「8」が付された語句「注目」と、重み「3」が付された語句「従来」を含む。
【0085】
図13を参照してPC24の構成の説明に戻ると、形態素解析部228は、通信部216が文書記憶サーバ10から受信した文書を、記憶部224に記憶されている一時辞書および通常辞書を用いて形態素の列に分割する。
【0086】
抽出部250は、重み付け部252と、算出部254と、抽出処理部256と、を備える。重み付け部252は、記憶部240が記憶する一時辞書に含まれる各語句に重み付けを行なう。重み付け部252は、一時辞書に含まれる各語句に通常辞書に含まれる語句より高い重みを付すことができる。また、重み付け部252は、一時辞書に含まれる語句の重みを、一時辞書に含まれる語句の文書内に出現する回数に応じて増減させてもよい。
【0087】
図16は、重み付け部252により重み付けされた一時辞書に含まれる各語句の具体例を示した説明図である。図16に示した例では、辞書項目142に対応する語句「沖電気工業株式会社」には重み「10」が付され、辞書項目140に対応する語句「架電」には重み「10」が付され、辞書項目144に対応する語句「CTStage」には重み「14」が付されている。
【0088】
算出部254は、文書を構成する各語句群、例えば一文ごとに、該一文に含まれる語句に付されている重みの総和を算出する。なお、語句群は必ずしも一文である必要は無く、例えば、2文以上の複数文であっても、1行または2行以上の複数行であっても、1段落または2段落以上の複数段落であってもよい。
【0089】
抽出処理部256は、算出部254により算出された重みの総和が設定基準を満たす語句群を抽出する。抽出処理部256は、重みの総和が所定の値を上回る語句群を設定基準を満たすと判断しても、重みの総和が上位所定順位に含まれる語句群を設定基準を満たすと判断してもよい。以下、図17および図18を参照して抽出処理部256により抽出される語句群の例を説明する。
【0090】
図17は、図2に示した文書を構成する一文ごとの重みの総和の一例を示した説明図である。図18は、抽出処理部256により抽出される文の一例を示した説明図である。
【0091】
図2に示したように、第14文C14、第15文C15などには一時辞書に含まれる辞書項目により示される語句「沖電気工業株式会社」や、語句「CTStage」が含まれている。その結果、第14文C14、第15文C15の重みの総和は、図17に示したように他の文に比べて高い値となる。
【0092】
ここで、抽出処理部256が、重みの総和が「30」を上回る文を設定基準を満たすと判断するとすれば、抽出部処理部256は第14文C14、第15文C15を図2に示した文書の要旨として抽出する。すなわち、抽出部250は図18に示した「これに対し、沖電気工業株式会社が開発したCTStageは、導入が容易であり、拡張性が高い。このようなCTStageは業務の促進が期待されるため、多くの注目を集めている。」という2文を抽出することができる。
【0093】
以上、本実施形態にかかるPC24の構成および機能について説明した。続いて、本実施形態にかかるPC24において実行される言語処理方法の一例としての要旨抽出方法を図19を参照して説明する。
【0094】
図19は、本実施形態にかかるPC24において実行される要旨抽出方法の流れを示したフローチャートである。PC24の通信部216は、文書記憶サーバ10から文書を受信する(S504)。続いて、あるいは文書の受信と併せて通信部216は文書記憶サーバ10から該文書に対応付けられているメタデータを受信する(S508)。
【0095】
次いで、取得部218は、通信部216がメタデータを受信したか否か、すなわち通信部216が辞書項目または参照辞書所在情報を含むメタデータを受信したか否かを判断する(S512)。参照辞書所在情報を含むメタデータが受信されたと判断した場合、取得部218は、該参照辞書所在情報に基づいて参照辞書を辞書記憶サーバ12から取得する(S516)。その後、取得部218は、メタデータに含まれる辞書項目および参照辞書に含まれる辞書項目を抽出する(S520)。
【0096】
続いて、一時辞書作成部220は、取得部218により取得、抽出された辞書項目を用い、該辞書項目を含む一時辞書を作成し、記憶部240に記録する(S524)。S512において辞書項目または参照辞書所在情報を含むメタデータが通信部216により受信されなかったと判断された場合、またはS524の後、形態素解析部228は記憶部240が記憶している一時辞書および通常辞書を用いて通信部216により受信された文書の形態素解析を行なう(S528)。その後、重み付け部252は、記憶部240に記憶されている一時辞書および/または通常辞書に含まれる各辞書項目に重み付けを行なう(S532)。
【0097】
さらに、算出部254は、文書を構成する各語句群ごとに、該語句群に含まれる語句に付されている重みの総和を算出する(S536)。その後、抽出処理部256は、算出部254により算出された重みの総和が設定基準を満たす語句群を抽出する(S540)。なお、抽出処理部256による語句群の抽出後に一時辞書を記憶部240から削除しても、そのまま記憶させておいてもよい。
【0098】
以上説明したように、本発明の第2の実施形態によれば、取得部218が文書と併せて受信されたメタデータに基づいて該文書に含まれるいずれかの語句に対応する辞書項目を取得し、一時辞書作成部220が取得部218により取得された辞書項目を含む一時辞書を記憶部240に記憶させる。ここで、辞書項目は、文書の作成者の意図に従い、文書を構成する語句のうちで重要な語句を示すように作成される場合がある。この場合、抽出部250は、文書を構成する各語句群のうちで辞書項目により示される特定の語句の分布度合が設定基準を満たす語句群を該文書の要旨として抽出することができる。
【0099】
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【0100】
例えば、上記実施形態では、文書を翻訳、または文書の要旨を抽出する言語処理装置について説明したが、本発明はかかる例に限定されない。例えば、辞書項目としてひらがなに漢字が対応付けられていれば、仮名文字を漢字に変換可能な言語処理装置が提供される。その他、目的や必要に応じたデータを辞書項目に包含させることにより、自然言語の処理一般を行なう言語処理装置が提供される。
【0101】
また、第2の実施形態において、一時辞書に含まれる辞書項目に対する重み付けをPC24側で行なう場合を説明したが、本発明はかかる場合に限定されない。例えば、メタデータの作成者があらかじめ辞書項目として語句と該語句の重みを対応付けて設定していた場合、PC24が該あらかじめ設定されている語句の重みに基づいて各語句群ごとの重みの総和を算出してもよい。
【0102】
また、第2の実施形態において、語句群を抽出するために重みの総和を用いる場合を説明したが、本発明はかかる場合に限定されない。例えば、抽出部250は、文書を構成する各語句群のうちで、一時辞書に含まれる語句を比較的多く含む語句群を該文書の要旨として抽出するようにしてもよい。かかる構成によれば、語句に対する重み付けや、重み付けの総和の算出処理が不要となり、構成の簡素化および処理負荷の軽減を図ることができる。
【0103】
本明細書の言語処理装置および言語処理システムの処理における各ステップは、必ずしもフローチャートまたはシーケンス図として記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むとしてもよい。
【0104】
また、PC20に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述したPC20の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
【図面の簡単な説明】
【0105】
【図1】本発明の第1の実施形態にかかる言語処理システムの構成を示した説明図である。
【図2】同実施形態にかかる文書記憶サーバが記憶している文書の一例を示した説明図である。
【図3】文書に対応付けられているメタデータの一例を示した説明図である。
【図4】辞書記憶サーバが記憶する参照辞書の内容を示した説明図である。
【図5】同実施形態にかかるPCのハードウェア構成を示した説明図である。
【図6】同実施形態にかかるPCの構成を示した機能ブロック図である。
【図7】一時辞書作成部により作成される一時辞書の一例を示した説明図である。
【図8】記憶部が記憶する通常辞書の一例を示した説明図である。
【図9】文書の翻訳結果例を示した説明図である。
【図10】同実施形態にかかるPCにおいて実行される言語処理方法の流れを示したフローチャートである。
【図11】同実施形態の変形例にかかる言語処理システムの構成を示した説明図である。
【図12】同実施形態の変形例にかかる言語処理システムの動作の流れを示したシーケンス図である。
【図13】本発明の第2の実施形態にかかるPCの構成を示した機能ブロック図である。
【図14】辞書記憶サーバが文書と対応付け記憶しているメタデータの一例を示した説明図である。
【図15】記憶部が記憶する通常辞書の一例を示した説明図である。
【図16】重み付け部により重み付けされた一時辞書に含まれる各語句の具体例を示した説明図である。
【図17】文書を構成する一文ごとの重みの総和の一例を示した説明図である。
【図18】抽出処理部により抽出される文の一例を示した説明図である。
【図19】同実施形態にかかるPCにおいて実行される要旨抽出方法の流れを示したフローチャートである。
【符号の説明】
【0106】
10 文書記憶サーバ
12 辞書記憶サーバ
20、24 PC
216 通信部
218 取得部
220 一時辞書作成部
224、240 記憶部
228 形態素解析部
232 翻訳部
236 表示部
250 抽出部
252 重み付け部
254 算出部
256 抽出処理部

【特許請求の範囲】
【請求項1】
テキストデータと、前記テキストデータに含まれるいずれかの語句を示す語句項目または前記語句項目が記憶されている所在を示す所在情報の少なくともいずれかを含むメタデータと、さらに前記メタデータが前記所在情報を含む場合は前記所在情報で示される所在に存在する語句項目と、を通信網を介して取得する取得部と;
前記メタデータに基づいて取得された前記語句項目を含むデータベースを作成する作成部と;
前記作成部により作成された前記データベースを記憶する記憶部と;
前記テキストデータの一部または全体を前記データベースを用いて分割し、前記データベースに含まれる前記語句項目により示される特定の語句を得る分割部と;
を備えることを特徴とする、言語処理装置。
【請求項2】
前記語句項目は、前記テキストデータに含まれるいずれかの語句および前記語句の翻訳語が対応付けられており、
前記テキストデータの分割により得られた前記特定の語句は、前記語句項目において前記特定の語句が対応付けられている翻訳語に翻訳する翻訳部;
を備えることを特徴とする、請求項1に記載の言語処理装置。
【請求項3】
前記テキストデータのうちで、前記特定の語句の分布状況が所定の設定基準を満たす部分を抽出する抽出部を備えることを特徴とする、請求項1に記載の言語処理装置。
【請求項4】
前記抽出部は、
前記特定の語句に重み付けをする重み付け部と;
前記テキストデータを構成する各語句群ごとに、前記語句群に含まれる前記特定の語句に付された重みの総和を算出する算出部と;
前記テキストデータを構成する各語句群のうちで、前記算出部により算出された前記重みの総和が前記設定基準を満たす語句群を抽出する抽出処理部と;
を備えることを特徴とする、請求項3に記載の言語処理装置。
【請求項5】
前記抽出部は、
前記テキストデータを構成する各語句に重み付けをする重み付け部と;
前記テキストデータを構成する各語句群ごとに、前記語句群に含まれる語句に付された重みの総和を算出する算出部と;
前記テキストデータを構成する各語句群のうちで、前記算出部により算出された前記重みの総和が前記設定基準を満たす語句群を抽出する抽出処理部と;
を備え、
前記重み付け部は、前記特定の語句には、前記特定の語句以外の語句より高い重み付けをすることを特徴とする、請求項3に記載の言語処理装置。
【請求項6】
テキストデータと、前記テキストデータに含まれるいずれかの語句を示す語句項目または前記語句項目が記憶されている所在を示す所在情報の少なくともいずれかを含むメタデータと、さらに前記メタデータが前記所在情報を含む場合は前記所在情報で示される所在に存在する語句項目と、を通信網を介して取得するステップと;
前記取得部により取得された前記メタデータに基づいて前記語句項目を取得し、前記語句項目を含むデータベースを作成するステップと;
前記作成部により作成された前記データベースを記憶媒体に記録するステップと;
前記テキストデータの一部または全体を前記データベースを用いて分割し、前記データベースに含まれる前記語句項目により示される特定の語句を得るステップと;
を含むことを特徴とする、言語処理方法。
【請求項7】
前記語句項目は、前記テキストデータに含まれるいずれかの語句および前記語句の翻訳語が対応付けられており、
前記テキストデータの分割により得られた前記特定の語句は、前記語句項目において前記特定の語句が対応付けられている翻訳語に翻訳するステップ;
を含むことを特徴とする、請求項6に記載の言語処理方法。
【請求項8】
コンピュータを、
テキストデータと、前記テキストデータに含まれるいずれかの語句を示す語句項目または前記語句項目が記憶されている所在を示す所在情報の少なくともいずれかを含むメタデータと、さらに前記メタデータが前記所在情報を含む場合は前記所在情報で示される所在に存在する語句項目と、を通信網を介して取得する取得部と;
前記取得部により取得された前記メタデータに基づいて前記語句項目を取得し、前記語句項目を含むデータベースを作成する作成部と;
前記作成部により作成された前記データベースを記憶媒体に記録する記録部と;
前記テキストデータの一部または全体を前記データベースを用いて分割し、前記データベースに含まれる前記語句項目により示される特定の語句を得る分割部と;
を備える言語処理装置として機能させるための、プログラム。
【請求項9】
前記語句項目は、前記テキストデータに含まれるいずれかの語句および前記語句の翻訳語が対応付けられており、
前記テキストデータの分割により得られた前記特定の語句は、前記語句項目において前記特定の語句が対応付けられている翻訳語に翻訳する翻訳部;
を備えることを特徴とする、請求項8に記載のプログラム。
【請求項10】
テキストデータを処理する言語処理装置と、前記言語処理装置と通信可能な情報処理装置と、を含む言語処理システムであって:
前記情報処理装置は、任意のテキストデータに含まれるいずれかの語句を示す語句項目または前記語句項目が記憶されている所在を示す前記語句項目の所在情報の少なくともいずれかを含むメタデータが対応付けられている前記テキストデータの所在情報を前記言語処理装置に送信し、
前記言語処理装置は、
前記情報処理装置から受信した前記テキストデータの所在情報に基づき、前記テキストデータと、前記メタデータと、さらに前記メタデータが前記語句項目の所在情報を含む場合は前記語句項目の所在情報で示される所在に存在する語句項目と、を通信網を介して取得する取得部と;
前記取得部により取得された前記メタデータに基づいて前記語句項目を取得し、前記語句項目を含むデータベースを作成する作成部と;
前記作成部により作成された前記データベースを記憶する記憶部と;
前記テキストデータの一部または全体を前記データベースを用いて分割し、前記データベースに含まれる前記語句項目により示される特定の語句を得る分割部と;
を含むことを特徴とする、言語処理システム。
【請求項11】
前記語句項目は、前記テキストデータに含まれるいずれかの語句および前記語句の翻訳語が対応付けられており、
前記テキストデータの分割により得られた前記特定の語句は、前記語句項目において前記特定の語句が対応付けられている翻訳語に翻訳する翻訳部;
を備えることを特徴とする、請求項10に記載の言語処理システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2008−217271(P2008−217271A)
【公開日】平成20年9月18日(2008.9.18)
【国際特許分類】
【出願番号】特願2007−52057(P2007−52057)
【出願日】平成19年3月1日(2007.3.1)
【出願人】(000000295)沖電気工業株式会社 (6,645)
【Fターム(参考)】