説明

文章表示方法、情報処理装置、情報処理システム、プログラム

【課題】 母国語でない文章を表示する方法であって、ユーザに単語誤使用の発見容易性を提供し、また、誤使用単語の修正方法を提供することを目的とする。
【解決手段】
情報処理装置を用いて、第一言語で記述された文章を表示する方法であって、第一言語で記述された文章の入力を受ける入力受信段階と、入力を受けた文章を構成単語ごとに分離する分離段階と、構成単語が所定の特定語であるかを判別する判別段階と、構成単語が所定の特定語であったことに応答して、構成単語の第二言語を表示する表示段階と、を備えることを特徴とする方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文章を使用するユーザの母国語でない文章を表示する方法、およびこれを実現する情報処理装置、プログラム及び情報処理システムに関する。
【背景技術】
【0002】
従来より、コンピュータ等で翻訳のプログラムを使用して、入力者の母国語でない文章(以下、適宜、「外国語文章」)の作成および読解を支援する方法が知られている。例えば、ユーザが入力した外国語文章に対して単語の綴りを確認するプログラムでは、この外国語の辞書と照らし合わせて、入力された単語のスペリングが正しいかを判断し、誤りがある場合には、ユーザに知らせる。
【0003】
このようなスペルチェック・プログラムにより、単語のスペルに関する誤りについては、ユーザに知らせることが可能となった。さらに、文章中のスペルミスを検出して、このスペルミスに対して正しい単語を表示する方法が知られている(例えば、特許文献1)。この方法によれば、スペルミスを検出して、このミスを修正するための候補となる単語を高い精度で表示することができる。
【特許文献1】特開2003−223437号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、上述のように文章中の各単語に対してスペルチェックを行ったとしても、単語の使用誤り(単語の誤使用)について、ユーザに警告を行うことはできない。すなわち、単語の綴りには、問題ない文章であるが、形態や発音が類似した単語と間違えて単語を使用してしまった場合には、スペルチェックの方法では、検出することができない。
【0005】
例えば、「The register on the planar should be changed.」という文章をユーザが作成したときに、この文章は全ての単語の綴りに問題がないため、スペルチェックにおいて問題は発生しない。しかし、ユーザは、「register(記録)」ではなく、「resister(チップ抵抗器)」と入力することを意図していたとすると、ユーザが意図しない、間違った単語で文章が作成されてしまう。このように、単語の綴りには間違いがないが、単語そのものを誤使用してしまう場合に、このようなミスをユーザに直感的に発見させ、修正させる方法を提供できることが望ましい。
【0006】
一方、文章の読解においても、これと同様に文章を読んでいるときに、誤りやすい語に対して、単語の翻訳を誤使用して読み進めてしまうこともある。このようなミスをユーザに直感的に発見させ、読解ミスを修正させる方法を提供できることが望ましい。
【0007】
本発明の目的は、外国語文章を表示する方法、装置、システムであって、ユーザに単語の誤使用を直感的に発見しやすくする文章作成支援方法、修正方法、情報処理装置、情報処理システムを提供することである。また、外国語文章を読解するユーザを支援する方法、装置、システムであって、ユーザに、外国語メール、あるいは、ホームページ等における誤りやすい語の対訳表示を行う、文章読解支援方法、情報処理装置、情報処理システムを提供することである。
【課題を解決するための手段】
【0008】
そこで、本発明者は、情報処理装置を用いて、第一言語で記述された文章を表示する方法であって、第一言語で記述された文章の入力を受ける入力受信段階と、
前記入力を受けた文章を構成単語ごとに分離する分離段階と、構成単語が所定の特定語であるかを判別する判別段階と、構成単語が所定の特定語であったことに応答して、構成単語の第二言語を表示する表示段階と、を備えることを特徴とする方法を提供する。
【0009】
さらに、具体的には、前記特定語とは、前記第一言語で使用される単語もしくは単語群のうち誤りやすい語であることを特徴とする方法を提供する。
【0010】
この発明によれば、第一言語で文章を表示する際に、第一言語で記述された文章に対して、この文章中の構成単語のうち、第一言語で誤りやすい語と判断された単語もしくは単語群に対して第二言語で表示する。したがって、第一言語で記述された文章中の構成単語のうち、どの単語が誤りやすい語であるかの判断を行うことなく、第二言語にて誤りやすい語が表示される。
【0011】
したがって、この発明によれば、ユーザが外国語文章を作成する際に、この文章を単語に分離して、分離した単語もしくは単語群のうち、ユーザが誤りやすい単語もしくは単語群を判別し、判別された語の母国語を表示するため、ユーザに対して誤って使用している単語もしくは単語群を認識しやすくさせることが可能である。また、ユーザが外国語文章を読解する際に、この文章を単語に分離して、分離した単語もしくは単語群のうち、ユーザが誤りやすい単語もしくは単語群を判別し、判別された語の母国語を表示するため、ユーザに対して文章読解支援手法を提供する。
【発明の効果】
【0012】
本発明によれば、第一言語で文章を表示する際に、第一言語で記述された文章に対して、この文章中の構成単語のうち、特定語と判断された単語もしくは単語群に対して第二言語で表示する。したがって、第一言語で記述された文章中の構成単語のうち、どの単語が特定語であるかの判断を行うことなく、特定語が第二言語で表示される。結果として、第一言語を閲覧しているユーザは、特別な操作を行うことなく、第二言語で表示されている特定語を見ることができる。
【発明を実施するための最良の形態】
【0013】
以下に、本発明の好適な実施形態を図面に基づいて説明する。
【0014】
図1に情報処理装置1のハードウェア構成を示した。情報処理装置1は、ユーザからの第一言語による文章の入力を受ける入力部12と、入力された第一言語やこの翻訳となる第二言語を表示する表示装置11と、入力された第一言語による文章の単語の認識や辞書検索を行う制御部10と、単語辞書等の辞書等を記憶する記憶部13とを備える。情報処理装置1は、通常のコンピュータであってもよいし、小型携帯端末(PDA等)、携帯電話等であってもよい。
【0015】
ここで、第一言語とは、ユーザの母国語でない言語のことであり、外国語であってよい。また、第二言語とは、ユーザの母国語、あるいは母国語に準ずる語である。また、特定語とは、第一言語のうち、第二言語の表示も必要とする単語もしくは単語群であり、例えば、第一言語の文書の作成あるいは、文章の読解において、一般に、誤りやすい語(単語もしくは単語群)であってよい。
【0016】
入力部12は、ユーザからの第一言語による文章の入力を受け、この入力された情報を制御部10や記憶部13に送信する。入力部12は、例えば、キーボード、マウス、音声入力装置(マイク等)であってもよい。表示装置11は、入力された外国語文章や制御部10による演算の結果等を表示する。例えば、コンピュータのモニタであり、液晶モニタを含んでもよい。
【0017】
制御部10は、情報処理装置1の情報を制御する。制御部10は、通常の中央処理装置(CPU)であってもよいし、制御部10に一時的にデータや情報、フラグ等を記憶するバッファ部23、及び編集部27を備えていてもよい。バッファ部23とは、例えば、中央処理装置のキャッシュやRAMである。バッファ部23は、制御部10ではなく、記憶部13に備えられていてもよい。バッファ部23は、判別しようとする単語あるいは単語群自体が記憶されてもよいし、この単語、単語群の属性に関する情報(該当する単語もしくは単語群の品詞情報、ストップワード情報、未知語情報など、以下「属性情報」)が記憶されてもよい。ここで、未知語情報とは、一般的に知られていない言葉(未知語)であるかに関する情報である。すなわち、未知語情報とは、通常の辞書等に記載されていない言葉に関する情報である。さらに、ストップワード情報とは、処理の対象外(この単語もしくは単語群の第二言語を表示しないなど)とする語属性に関する情報である。)誤りやすい語と判別された単語または単語群の、第二言語(翻訳)が記憶されてもよい。
【0018】
制御部10は、ユーザが入力した第1言語による文章の単語を分離する単語分離部20と、この単語または単語群が、他の単語または単語群と特定語であるかを判別する判別部22と、第一言語で表示された文章のうち、特定語であると判断された単語に対して、ユーザからの編集を受け付ける編集部27とを含んでいてもよい。さらに、単語分離部20が属性管理部21と、バッファ部23とを含んでいてもよい。属性管理部21は、分離した単語に対して、属性情報を、バッファ部23に、第一言語による単語および単語の第二言語(翻訳)とともに記憶してもよい。
【0019】
単語分離部20は、スペース、カンマ、コロン等の語句の区切りを目印として、第一言語による文章中の単語および単語群を構成単語に分離する。ここで構成単語とは、一の単語であっても、複数の単語による単語群であってもよい。さらに、単語分離部20は、単語辞書30に記載されている単語に基づいて、外国語文章中の単語の分離を行って属性を付けたりしてもよい。
【0020】
判別部22は、入力された構成単語を、特定語(誤りやすい語)か、それ以外の語かを判別する。この判別においては、判別部22は、記憶部13に記憶された誤りやすい語辞書32を参照して、この単語または単語群が、誤りやすい語辞書32に記憶されている場合には、誤りやすい語として判別する。
【0021】
記憶部13は、情報処理装置1が使用するデータ、辞書、外国語文章、翻訳等を記憶する。記憶部13は、例えば、ハードディスクやCD−ROM、DVD−ROM等であってもよい。記憶部13は、単語に関する大量のデータである辞書が記憶されており、第1辞書記憶部24と、第2辞書記憶部25と、頻出語辞書記憶部26とを備えていてよい。第1辞書記憶部24は、単語辞書30と、単語群辞書31とを記憶する。単語辞書30は、第一言語の単語とこの単語に対応した第2言語の単語(翻訳)と、この単語の品詞名とからなるデータである。単語群辞書31は、単語群、すなわちイディオムや、複合語(例えば“trick-or-treat”)とこの単語群に対応した翻訳と、この単語群の品詞名とからなるデータである。
【0022】
第2辞書記憶部25は、誤りやすい語辞書32を含んでいる。誤りやすい語辞書32は、誤りやすい語が第二言語となる対訳とともに、語の組となって登録されているレコード形式により構成される(図3参照)。誤りやすい語辞書のレコード形式は、見出し語、訳語、分類コード、似ている語、訳語とから構成されてよい。見出し語とは、第一言語で表現される構成単語であり、訳語とはこの第一言語の構成単語に対応した第二言語で表される語であり、似ている語とは、この第一言語の構成単語と、後述する規則等に基づいて類似していると判断される語であり、最後の訳語とは、この類似単語を第二言語で表した場合の語である。ここで、分類コードとは、後述する規則のどれに該当するか等の構成単語に関連した情報である。
【0023】
誤りやすい語辞書32は、単語または単語群のスペル(綴り)が似ている他の単語または単語群が存在するか否かで、誤りやすい語と分類したスペル類似辞書36を含んでいてもよいし、単語または単語群の発音が似ている他の単語または単語群が存在するか否かで、誤りやすい語と分類した発音類似辞書37を含んでいてもよいし、ユーザが登録した誤りやすい語を集めたユーザ定義辞書38を含んでいてもよい。ユーザ定義辞書38には誤りやすい語が対訳とともに、語の組、あるいは単独(見出し語-訳語-分類コードのみで、組ではない)で含まれていてもよい。(図2参照)。
【0024】
図4は、本発明の実施例である情報処理装置1が行う情報処理のフローチャート図である。最初に、入力部12からユーザから第一言語で記載された文章の入力を受ける(ステップS01)。入力を受ける際には、本発明の情報処理を行う専用のアプリケーション・ソフトを介してもよいし、汎用的な文章作成アプリケーション・ソフトを介して入力を受け、この入力された外国語文章に対して、本発明の情報処理を行うアプリケーション・ソフトが付随的に動作するように構成されていてもよい。
【0025】
この文章の入力においては、例えば、最初に、サーバから外国語文章の入力を受け、表示する形態であってもよい。これに関しては、図8を用いて後述する。
【0026】
また、一連の第一言語による文章の入力後に、ユーザからの翻訳確認の入力(アイコンのクリック等)を受けることで、ステップS02が始まってもよい。
【0027】
制御部10は、入力された第一言語による文章に対して、形態素解析を行う(ステップS02)。形態素解析とは、入力された第一言語による文章を単語ごとに分類し、個々の単語の品詞、属性、ストップワード属性、未知語属性などを付与することである。頻出語をストップワードとして登録してもよい。
【0028】
判別部22は、形態素解析での単語に関する情報と、記憶部13に記憶された各種辞書とに基づいて、単語が特定語(誤りやすい語)であるか、そうでないかを、誤りやすい語辞書を辞書引きして判別する(ステップS03とステップ04)。誤りやすい語であるかの判別は、誤りやすい語と判別するルーチン(図7)にて後述する。次に、判別部22は、単語が頻出語であるかの確認を行う(ステップS06)。頻出語とは、日常的に第一言語による文章を作成するときに頻繁に使用される単語のことである。すなわち、単語が頻出語であればユーザの誤りは少ないため、この単語が誤りやすい語ではないと判別する。単語が頻出語であるかどうかは、使用頻度が高い語を抽出して頻出語辞書33に登録することのみならず、固有名詞である単語、カタカナ訳される単語、この外国語の学校等で習う初級単語等を頻出語辞書33に登録してもよい。あるいは、頻出語に対しストップワード属性を付与して抽出してもよい。
【0029】
ステップS06で単語が頻出語であると判断された場合に、この第一言語による文章中に次の単語がある場合には(ステップS08)、次の単語に対して、誤りやすい語であるかの判別が行われる(ステップS05)。単語が頻出語でないと判断された場合には、ステップS07に移る。誤りやすい語と判断された場合には、単語を誤りやすい語の候補として、この単語の第二言語(訳語)を付けてバッファ部23等に記憶する(ステップS07)。誤りやすい語の候補として、この誤りやすい語の第二言語による単語を表示してもよい。
【0030】
例えば、1)誤りやすい語辞書32の語に記憶された語であるが頻出語ではない単語、2)誤りやすい語辞書に記憶された語で頻出語である単語、3)誤りやすい語辞書に記憶された語ではなく頻出語である単語、のうちの一つを第二言語で表示する、あるいは、それらの組み合わせを表示することを使用者が選択可能にすることもできる。また、上述の、第一言語の構成単語と、後述する規則等に基づいて類似していると判断される語である似ている語、非頻出語の閾値(抽出割合)は使用者が変更可能にすることもできる。
【0031】
さらに、誤りやすい語辞書には、レコード形式から、誤りやすい語に似ている語が記録されているため、修正候補となる単語として(修正候補単語)を、誤りやすい語と対応付けて表示する編集段階が備えられてもよい。すなわち、修正候補単語を表示することにより、ユーザに修正候補となる単語を選択させたり、修正を入力させるような編集を、ユーザが編集部27を介して、実施できるようにしてもよい。
【0032】
さらに、ステップS08の後に、ユーザからの入力を受けて、翻訳を表示した誤りやすい語を、他の単語に置換してもよい。すなわち、誤りやすい語が誤っているとユーザが認識した場合には、ユーザは修正する単語を入力する。このユーザからの入力を受けて、誤りやすい語を修正(置換)してもよい。
【0033】
図5を用いて、形態素解析の作用について説明する。単語分離部20が第一言語による文章を単語に分離する(ステップS10)。この単語について属性(品詞、ストップワード、未知語など)を付与する(ステップS11)。第1辞書記憶部24の単語辞書30にて、この単語を検索できたかを確認する(ステップS12)。検索できなかった場合には、正規表現処理、正規化処理、複合語処理を行ってもよい(ステップS13)。正規化処理とは、単語そのもの以外に、余計な文字や数字、記号等が入っている場合には、これらの文字等を除外した単語を単語辞書でさらに検索する処理であってよい。また、複合語処理とは、ハイフンで結ばれた複数の単語からなる一つの語や、イディオムに対して、個々の単語にのみ単語辞書による検索を行うのではなく、複数の単語を一つの語として、単語辞書による検索を行う処理であってよい。正規表現処理とは、例えば、URL(Uniform Resource Locator)などをひとつの語として認識させるような処理をいう。第一言語による文章中の全ての単語に対して、処理が終わるまでステップS11からの処理を繰り返す(ステップS14)。
【0034】
次に、情報処理装置1が、誤りやすい語を判別することについて説明する。誤りやすい語辞書32には、綴りや発音が「似ている語」を対訳付きで登録してあってよい。すなわち、誤りやすい語は、似ている語が存在するか否かで判別され、似ている語がある場合には、誤りやすい語であると判別される。また、ユーザからのカスタマイズも可能であり、ユーザが誤りやすい語と認識している単語を登録したり、削除することも可能である。誤りやすい語の辞書のレコード形式は、図3にて述べたように、見出し語:訳語;分類(;似ている語:訳語)の階層構造をとってもよい。
【0035】
一般的に、誤りやすい語として認識されている語を列挙した文献も存在する。例えば、Paul Brians著「Common Errors in English」では、誤りやすい語として列挙された文献である。この中の単語212組では、綴りが50%以上似ているのは、201組で全体の94.8%になる(図6グラフ50参照)。残りの11組は(accede/exceed,bare/bear,cite/sight,close/clothes,council/consul,counsel/consul等)であり、全て発音の類似が見られた。したがって、誤りやすい語として認識されている語は、綴りと発音との類似により、誤りやすい語を分類することができる。
【0036】
綴りの類似性とは、以下のような規則がある場合に該当する。ここで、各単語の先頭の文字もしくは、最後尾の文字のいずれか、あるいは両方の文字が単語どうしで一致することを条件とする。ここで文字数とは、単語の文字の数である(例えば、adaptとadoptは、文字数が5で同じ文字数である)。ここで「単語どうし」とは、「単語と、この単語と比較する単語」(例では、adaptとadopt)を意味する。なお、一致している割合は、一致している文字数を文字数が多い単語の文字数で割った値である。
【0037】
規則1:文字数が同じ、あるいは異なる場合に、単語どうしで同じ位置の文字が異なる数が、
2、3文字数の単語ならば:1文字のみ異なる場合
4、5文字数の単語ならば:2文字以下異なる場合
6、7文字数の単語ならば:3文字以下異なる場合
8、9文字数の単語ならば:4文字以下異なる場合
10文字以上の単語ならば:5文字以下異なる場合
例:adapt/adopt(4文字の一致)
(単語長が同じ場合:同じ位置の一致文字を数える。単語長が異なる場合:先頭の文字が一致する場合は、先頭から一致する数を数える。先頭の文字が一致しないで最後尾の文字が一致する場合には、最後尾から数える。)
【0038】
規則2:文字数が同じ、あるいは異なる場合に、単語どうしで同じ位置の文字が同じ割合が50%以上である場合(単語長が同じ場合:同じ位置の一致文字を数える。単語長が異なる場合:先頭の文字が一致する場合は、先頭から一致する数を数える。先頭の文字が一致しないで最後尾の文字が一致する場合には、最後尾から数える)。
例:continual/continuous(7文字の一致、7/10=70%の一致)
compliance/complaint(6文字の一致、6/10=60%の一致)
aural/oral(3文字の一致、3/5=60%の一致)
【0039】
規則3:文字数が同じ、あるいは異なる場合に、単語どうしで異なるあるいは同じ位置の文字が異なる数が、
2、3文字数の単語ならば:1文字のみ異なる場合
4、5文字数の単語ならば:2文字以下異なる場合
6、7文字数の単語ならば:3文字以下異なる場合
8、9文字数の単語ならば:4文字以下異なる場合
10文字以上の単語ならば:5文字以下異なる場合
(単語長が同じ場合:同じ位置の一致文字を数える。単語長が異なる場合:先頭の文字が一致する場合は、先頭から一致する数を数える。先頭の文字が一致しないで最後尾の文字が一致する場合には、最後尾から数える。)
【0040】
規則4:文字数が同じ、あるいは異なる場合に、単語どうしで異なるあるいは同じ位置の文字が同じ割合が50%以上である場合(単語長が同じ場合:同じ位置の一致文字を数える。単語長が異なる場合:先頭の文字が一致する場合は、先頭から一致する数を数える。先頭の文字が一致しないで最後尾の文字が一致する場合には、最後尾から数える)。
例:bear/bare(4文字の一致、4/4=100%の一致)
close/clothes(5文字の一致、5/7=71%の一致)
fiscal/physical(5文字の一致、5/8=63%の一致)
【0041】
規則5:文字数が同じ、あるいは異なる場合に、単語どうしで同じ位置の文字が同じ割合が80%以上である場合。および、文字数が5文字以下であり先頭から2文字が一致している場合(単語長が同じ場合:同じ位置の一致文字を数える。単語長が異なる場合:先頭の文字が一致する場合は、先頭から一致する数を数える。先頭の文字が一致しないで最後尾の文字が一致する場合には、最後尾から数える)。
【0042】
次に、発音の類似性とは、以下のような規則がある場合に該当する。ここで、各単語の先頭の音節もしくは、最後尾の音節のいずれか、あるいは両方の音節が音節どうしで一致することを条件とする。ここで音節数とは、音節の文字の数である(例えば、cite/sight (sa’it/sa’it)は、音節数が4で同じ音節数である)。ここで「単語どうし」とは、「単語と、この単語と比較する単語」(例では、citeとsight)を意味する。なお、一致している割合は、一致している音節数を音節数が多い単語の音節数で割った値である。
【0043】
規則6:音節数が同じ、あるいは異なる場合に、単語どうしで同じ位置の音節が異なる数が、
2、3音節数の単語ならば:1音節のみ異なる場合
4、5音節数の単語ならば:2音節以下異なる場合
6、7音節数の単語ならば:3音節以下異なる場合
8、9音節数の単語ならば:4音節以下異なる場合
10音節以上の単語ならば:5音節以下異なる場合
例:cite/sight(4音節の一致)
(単語長が同じ場合:同じ位置の一致音節を数える。単語長が異なる場合:先頭の音節が一致する場合は、先頭から一致する数を数える。先頭の文字が一致しないで最後尾の音節が一致する場合には、最後尾から数える。)
【0044】
規則7:音節数が同じ、あるいは異なる場合に、単語どうしで同じ位置の音節が同じ割合が50%以上である場合(単語長が同じ場合:同じ位置の一致音節を数える。単語長が異なる場合:先頭の音節が一致する場合は、先頭から一致する数を数える。先頭の文字が一致しないで最後尾の音節が一致する場合には、最後尾から数える)。
例:cite/sight → sa’it/sa’it(100%の一致)
【0045】
規則8:音節数が同じ、あるいは異なる場合に、単語どうしで異なるあるいは同じ位置の音節が異なる数が、
2、3音節数の単語ならば:1音節のみ異なる場合
4、5音節数の単語ならば:2音節以下異なる場合
6、7音節数の単語ならば:3音節以下異なる場合
8、9音節数の単語ならば:4音節以下異なる場合
10音節以上の単語ならば:5音節以下異なる場合
(単語長が同じ場合:同じ位置の一致音節を数える。単語長が異なる場合:先頭の音節が一致する場合は、先頭から一致する数を数える。先頭の文字が一致しないで最後尾の音節が一致する場合には、最後尾から数える。)
【0046】
規則9:音節数が同じ、あるいは異なる場合に、単語どうしで異なるあるいは同じ位置の音節が同じ割合が50%以上である場合(単語長が同じ場合:同じ位置の一致音節を数える。単語長が異なる場合:先頭の音節が一致する場合は、先頭から一致する数を数える。先頭の文字が一致しないで最後尾の音節が一致する場合には、最後尾から数える)。
【0047】
規則10:音節数が同じ、あるいは異なる場合に、単語どうしで同じ位置の音節が同じ割合が80%以上である場合。および、音節数が5文字以下であり先頭から2音節が一致している場合。(単語長が同じ場合:同じ位置の一致音節を数える。単語長が異なる場合:先頭の音節が一致する場合は、先頭から一致する数を数える。先頭の文字が一致しないで最後尾の音節が一致する場合には、最後尾から数える)。
【0048】
さらに他の規則として、非頻出の単語群(イディオム等)に対しては、誤りやすい語として判別することを含めてもよい。これらの規則1から10は、例えば、形態素解析にて単語の品詞を特定した後に、この特定した品詞内にて規則1から10を適用することで、誤りやすい語かを判別してもよい。
【0049】
図7は、誤りやすい語と判別するときのフローチャート図である。判別対象となる単語に対して、スペル類似辞書36、発音類似辞書37、ユーザ定義辞書38の検索を行う(ステップS20、ステップS22、ステップS25)。スペル類似辞書36、発音類似辞書37には、上述の規則1から規則10までの基準に従って、単語が誤りやすい語であるかの情報が登録されている。登録された情報に基づいて、対象となる単語が誤りやすい語であるのか、そうでないかの判別を行う。すなわち、対象となる単語が、規則1から規則5までの規則に該当するならば、この単語がスペル類似辞書36に誤りやすい語として登録されているため(ステップS21)、この単語を誤りやすい語と判別する。
【0050】
単語がスペル類似辞書36に誤りやすい語として登録されていないならば、次の発音類似辞書37に登録されているかの検索が始まる(ステップS22)。対象となる単語が、規則6から規則10を満たすならば、この単語が誤りやすい語として、発音類似辞書37に登録されているため、誤りやすい語として判別される(ステップS24、S23)。
【0051】
単語が発音類似辞書37に誤りやすい語として登録されていないならば、次の単語群辞書31に登録されているかの検索が始まる(ステップS27)。対象となる単語群が、例えば、頻出しない単語群であるならば、この単語群が誤りやすい語として、単語群辞書31に登録されているため、誤りやすい語として判別される(ステップS23)。単語群は、“Call for”のようなイディオムであってもよいし、“Trick-or-treat”のような複合語であってもよい。複合語については、このように単語群として認識せずに、一つの単語として処理が行われてもよい。
【0052】
単語群は単語群辞書31に誤りやすい語として登録されていない場合には、対象となる単語群は、通常の語として判別(ステップS29)して終了する。
【0053】
単語群については、図7のように、一つの単語ごとに単語群辞書31が用いられる手順ではなく、第一言語による文章中の全ての単語に対して、スペル類似辞書36の検索や発音類似辞書37の検索が終わった後に、単語群の確認が行われてもよい。
【0054】
図8は、入力した第一言語による文章と、この第一言語による文章中の誤りやすい語と判別された翻訳を表示した画面例である。このような画面イメージが、情報処理装置1の表示部11に表示される。図8に示すように、ユーザが入力した文章(第一言語による文章)に対応付けて、誤りやすい語と判別された単語の翻訳が表示されてもよい。
【0055】
本発明では、図8の第一言語による文章中の“compliance”、“supervise”等の単語に対しては、翻訳が表示されているが、“If”、“have”、“System”等の、ユーザが間違える可能性が少ない単語に対しては、翻訳が表示されない。したがって、ユーザは誤りやすい語のみの翻訳を確認することで、単語の誤使用を回避することができる。
【0056】
本発明の他の実施例として、図9にて示すように、情報処理システム100として、クライアント端末101と、サーバ103と、これらを接続する通信ネットワーク102から構成され、実現されてもよい。
【0057】
すなわち、クライアント端末101は、上述した情報処理装置1の表示部11、入力部12を備え、ユーザからの第一言語による文章の入力を受けて、結果を表示するコンピュータであってよい。すなわち、このクライアント端末101のクライアント入力部から、通信ネットワーク102を介して、ユーザから入力された第一言語による文章が、サーバ103に入力される。サーバ103には、上述の情報処理装置1の制御部10、記憶部13を備えており、入力された第一言語による文章の各単語に対して、形態素解析や誤りやすい語の判別が行われ、誤りやすい語の翻訳が、クライアント端末101に送信され、クライアント端末101の表示部に表示されてもよい。
【0058】
さらに、サーバ103は、記憶部13及び、クライアント端末101へ誤りやすい語の翻訳を送信するサーバ送信部を備えていてもよい。すなわち、判別部22により誤りやすい語と判別された単語と、この単語の翻訳とを対応づけたデータをサーバ送信部が、クライアント端末101へ送信してもよい。さらに、第1辞書記憶部24、第2辞書記憶部25と、頻出語辞書記憶部26とが異なる複数のサーバに記憶されていてもよい。また、通信ネットワーク102は、インターネットであってもよいし、クライアント端末101が複数であってもよい。
【0059】
このような実施形態を実現する情報処理装置、文章表示方法、文章処理システムを、コンピュータやサーバにて実行するためのプログラムにより実現することができる。このプログラムのための記憶媒体としては、光学記憶媒体、テープ媒体、半導体メモリ等が挙げられる。また、専用通信ネットワークやインターネットに接続されたサーバ・システムに設けられたハードディスク又はRAM等の記憶装置を記憶媒体として使用し、ネットワークを介してプログラムを提供してもよい。
【0060】
以上、本発明の実施形態を説明したが、具体例を例示したに過ぎず、特に本発明を限定しない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載された効果に限定されない。
【0061】
以上の実施形態によると、以下の各項目に示す情報処理装置、文章作成支援方法、文章処理システム、文章作成支援方法を実行するプログラムが実現される。
【産業上の利用可能性】
【0062】
本発明の対象となる第一言語による文章(外国語文章)としては、特定の言語に限定したものではなく、ユーザが、母国語でない文章を作成する場合であれば、その言語に依存せずに、実現することができる。さらに、本発明の対象となる、特定語としては、第一言語の使用において誤りやすい語のみを特定語と限定することなく、第一言語の使用時に、第二言語の表示が必要な語であれば、特定語であるとしてもよい。
【図面の簡単な説明】
【0063】
【図1】情報処理装置1のハードウェア構成を示す図である。
【図2】本発明の実施例である第2辞書記憶部25の構成図である。
【図3】本発明の実施例である誤りやすい語辞書のレコード形式を示す図である。
【図4】本発明の実施例である情報処理装置1が実行する動作を示すフローチャート図である。
【図5】形態素解析が実行する動作を示すフローチャート図である。
【図6】単語の綴り文字が一致する場合に、誤りやすい語と認定される割合を示すグラフである。
【図7】誤りやすい語と判別する動作を示すフローチャート図である。
【図8】第一言語による文章と、誤りやすい語と判別された語の翻訳を表示部に表示した画面イメージを示す。
【図9】情報処理システム100のハードウェア構成を示す図である。
【符号の説明】
【0064】
1 情報処理装置
10 制御部
11 表示装置
12 入力装置
13 記憶部
20 単語分離部
21 属性管理部
22 判別部
23 バッファ部
24 第1辞書記憶部
25 第2辞書記憶部
26 頻出語辞書記憶部
27 編集部
30 単語辞書
31 単語群辞書
32 誤りやすい語辞書
33 頻出語辞書
36 スペル類似辞書
37 発音類似辞書
38 ユーザ定義辞書
100 情報処理システム
101 クライアント端末
102 通信ネットワーク
103 サーバ

【特許請求の範囲】
【請求項1】
情報処理装置を用いて、第一言語で記述された文章を表示する方法であって、
前記第一言語で記述された文章の入力を受ける入力受信段階と、
前記入力を受けた文章を構成単語ごとに分離する分離段階と、
前記構成単語が所定の特定語であるかを判別する判別段階と、
前記構成単語が所定の特定語であったことに応答して、前記構成単語の第二言語を表示する表示段階と、
を備えることを特徴とする方法。
【請求項2】
請求項1に記載の方法であって、
前記特定語とは、前記第一言語で使用される単語もしくは単語群のうち誤りやすい語であることを特徴とする方法。
【請求項3】
請求項1に記載の方法であって、
前記表示段階では、前記構成単語に対応する修正候補単語を第一言語及び/又は第二言語で表示することを特徴とする方法。
【請求項4】
請求項1に記載の方法であって、
前記第二言語で表示した構成単語に対して、この構成単語に関連づけられた単語を第一言語及び/または第二言語で表示する編集段階を備えることを特徴とする方法。
【請求項5】
請求項4に記載の方法であって、
前記編集段階は、この構成単語を編集するために、ユーザからの入力を受け付けることを特徴とする方法。
【請求項6】
請求項1に記載の方法が、コンピュータにて実現されることを特徴とする方法。
【請求項7】
請求項1に記載の方法であって、前記分離段階では、形態素解析により、入力を受けた第一言語で記述した文章を単語ごとに分離し、前記単語の品詞を示す品詞属性、前記単語が未知の単語であるかを示す未知語属性、前記単語が特定語として処理することの対象外であることを示すストップワード属性を付与することを特徴とする方法。
【請求項8】
請求項2に記載の方法であって、前記判別段階では、前記誤りやすい語であるかを分類した誤りやすい語辞書に記載された単語もしくは単語群に対して、誤りやすい語とそれ以外の語とを判別することを特徴とする方法。
【請求項9】
請求項8に記載の方法であって、前記判別段階では、前記単語または単語群の綴りが似ているときに、この単語または単語群を誤りやすい語と分類したスペル類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項10】
請求項9に記載の方法であって、前記判別段階では、前記単語または単語群どうしで、同じ位置の文字が異なる数が所定の数以下であるときに、この単語または単語群を誤りやすい語と分類したスペル類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項11】
請求項9に記載の方法であって、前記判別段階では、前記単語または単語群どうしで、同じ位置の文字が異なる割合が所定の値以下であるときに、この単語または単語群を誤りやすい語と分類したスペル類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項12】
請求項9に記載の方法であって、前記判別段階では、前記単語または単語群どうしで、異なる、あるいは同じ位置の文字が一致する数が所定の数以上であるときに、この単語または単語群を誤りやすい語と分類したスペル類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項13】
請求項9に記載の方法であって、前記判別段階では、前記単語または単語群どうしで、異なる、あるいは同じ位置の文字が一致する割合が所定の値以上であるときに、この単語または単語群を誤りやすい語と分類したスペル類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項14】
請求項9に記載の方法であって、前記判別段階では、前記単語または単語群どうしで、異なる、あるいは同じ位置の文字が一致する割合が所定の値以上である場合で、かつ、一致割合ごとにある文字数以下の同じ位置の文字が一致する数が所定の数以上であるときに、この単語または単語群を誤りやすい語と分類したスペル類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項15】
請求項8に記載の方法であって、前記判別段階では、前記単語または単語群の発音が似ているときに、この単語または単語群を誤りやすい語と分類した発音類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項16】
請求項15に記載の方法であって、前記判別段階では、前記単語または単語群どうしで、同じ位置における発音記号の音節が異なる数が所定の数以下であるときに、この単語または単語群を誤りやすい語と分類した発音類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項17】
請求項15に記載の方法であって、前記判別段階では、前記単語または単語群どうしで、同じ位置における発音記号の音節が異なる割合が所定の値以下であるときに、この単語または単語群を誤りやすい語と分類した発音類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項18】
請求項15に記載の方法であって、前記判別段階では、前記単語または単語群どうしで、異なる、あるいは同じ位置における発音記号の音節が一致する数が所定の数以上であるときに、この単語または単語群を誤りやすい語と分類した発音類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項19】
請求項15に記載の方法であって、前記判別段階では、前記単語または単語群どうしで、異なる、あるいは同じ位置における発音記号の音節が一致する割合が所定の値以上であるときに、この単語または単語群を誤りやすい語と分類した発音類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項20】
請求項15に記載の方法であって、前記判別段階では、前記単語または単語群どうしで、異なる、あるいは同じ位置における発音記号の音節が一致する割合が所定の値以上である場合で、かつ、一致割合ごとにある音節数以下の同じ位置の音節が一致する数が所定の数以上であるときに、この単語または単語群を誤りやすい語と分類した発音類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項21】
請求項1に記載の方法であって、前記構成単語の品詞属性を検索し、前記検索した品詞属性に基づいて、前記特定語であることを判別することを特徴とする方法。
【請求項22】
請求項2に記載の方法であって、前記判別段階は、前記構成単語が、前記第一言語で記述された文章の作成時に頻繁に使用される単語または単語群であるかを判別し、頻繁に使用されないと判別されたことに応答して、前記単語もしくは単語群を、前記誤りやすい語と判別することを特徴とする方法。
【請求項23】
請求項2に記載の方法であって、前記判別段階は、前記構成単語が、前記第一言語で記述された文章の作成時に頻繁に使用される単語または単語群であるかを判別し、頻繁に使用されないと判別されたことに応答して、前記単語もしくは単語群を、前記誤りやすい語と判別することを特徴とする方法。
【請求項24】
請求項2に記載の方法であって、前記判別段階では、前記構成単語が、ユーザ定義の誤りやすい語であるときに、この単語または単語群をユーザ定義の誤りやすい語と分類したユーザ定義類似辞書により誤りやすい語であるかを判別することを特徴とする方法。
【請求項25】
第一言語で記述された文章を表示するコンピュータ・プログラムであって、
前記第一言語で記述された文章の入力を受ける入力受信機能と、
前記入力を受けた文章を構成単語ごとに分離する分離機能と、
前記構成単語が所定の特定語であるかを判別する判別機能と、
前記構成単語が所定の特定語であったことに応答して、前記構成単語の第二言語を表示する表示機能と、
を実現することを特徴とするコンピュータ・プログラム。
【請求項26】
請求項25に記載のコンピュータ・プログラムであって、
前記特定語とは、前記第一言語で使用される単語もしくは単語群のうち誤りやすい語であることを特徴とするコンピュータ・プログラム。
【請求項27】
請求項25に記載のコンピュータ・プログラムであって、
前記表示機能では、前記構成単語に対応する修正候補単語を第一言語及び/又は第二言語で表示する機能を実現することを特徴とするコンピュータ・プログラム。
【請求項28】
請求項25に記載のコンピュータ・プログラムであって、
前記第二言語で表示した構成単語に対して、この構成単語に関連づけられた単語を第一言語及び/または第二言語で表示する編集機能を実現することを特徴とするコンピュータ・プログラム。
【請求項29】
請求項28に記載のコンピュータ・プログラムであって、
前記編集機能は、この構成単語を編集するために、ユーザからの入力を受け付ける機能を実現することを特徴とするコンピュータ・プログラム。
【請求項30】
第一言語で記述された文章を表示する情報処理装置であって、
前記第一言語で記述された文章の入力を受ける入力装置と、
前記入力を受けた文章を構成単語ごとに分離する単語分離部と、
前記構成単語が所定の特定語であるかを判別する判別部と、
前記構成単語が所定の特定語であったことに応答して、前記構成単語の第二言語を表示する表示装置と、
を備えることを特徴とする情報処理装置。
【請求項31】
請求項30に記載の情報処理装置であって、
前記特定語とは、前記第一言語で使用される単語もしくは単語群のうち誤りやすい語であることを特徴とする情報処理装置。
【請求項32】
請求項30に記載の情報処理装置であって、
前記表示装置は、前記構成単語に対応する修正候補単語を第一言語及び/又は第二言語で表示することを特徴とする情報処理装置。
【請求項33】
請求項30に記載の情報処理装置であって、
前記第二言語で表示した構成単語に対して、この構成単語に関連づけられた単語を第一言語及び/または第二言語で表示する編集部を備えることを特徴とする情報処理装置。
【請求項34】
請求項33に記載の情報処理装置であって、
前記編集部は、この構成単語を編集するために、ユーザからの入力を受け付けることを特徴とする情報処理装置。
【請求項35】
サーバと、クライアント端末と、前記サーバと前記クライアント端末とを接続する通信ネットワークとからなるネットワーク・システムを用いて、第一言語で記述された文章を表示する情報処理システムであって、
前記クライアント端末は、前記第一言語で記述された文章の入力を受ける入力装置と、
入力された文章を前記サーバへ送信するクライアント送信部と、を備え、
前記サーバは、前記入力を受けた文章を構成単語ごとに分離する単語分離部と、前記構成単語が所定の特定語であるかを判別する判別部と、前記構成単語と、この構成単語のうち特定語の第二言語とを対応づけたデータを前記クライアント端末へ送信するサーバ送信部と、を備え、前記クライアント端末が、前記対応づけたデータを前記サーバから受信して表示することを特徴とする情報処理システム。
【請求項36】
請求項35に記載の情報処理システムであって、
前記特定語とは、前記第一言語で使用される単語もしくは単語群のうち誤りやすい語であることを特徴とする情報処理システム。
【請求項37】
請求項35に記載の情報処理システムであって、
前記クライアント端末の表示装置では、前記構成単語に対応する修正候補単語を第一言語及び/又は第二言語で表示することを特徴とする情報処理システム。
【請求項38】
請求項35に記載の情報処理システムであって、
前記クライアント端末は、前記第二言語で表示した構成単語に対して、この構成単語に関連づけられた単語を第一言語及び/または第二言語で表示する編集部を備えることを特徴とする情報処理システム。
【請求項39】
請求項38に記載の情報処理システムであって、
前記クライアント端末の編集部は、この構成単語を編集するために、ユーザからの入力を受け付けることを特徴とする情報処理システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2006−190006(P2006−190006A)
【公開日】平成18年7月20日(2006.7.20)
【国際特許分類】
【出願番号】特願2005−207(P2005−207)
【出願日】平成17年1月4日(2005.1.4)
【出願人】(390009531)インターナショナル・ビジネス・マシーンズ・コーポレーション (4,084)
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MASCHINES CORPORATION
【復代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
【Fターム(参考)】