説明

文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム

【課題】文章作成中の利用者による入力中の文について、その続きに入力されることが予測される候補を提示するに際し、当該入力中の文に先行する文とのつながりに基づいた候補を提示可能な技術を提案する。
【解決手段】
参照情報作成部10において、文間Nグラム解析部13が、既存の文章において文(i−1)に出現する各単語(先行語)を文単位でまとめた先行語群と、文(i)に出現する各単語(後続語)とを特定し、辞書DB21に対応付け情報を格納しておく。そして、文章入力支援部30において、補完候補列挙部35が、前文解析部33により得られた単語群(入力中の文に先行する文に含まれる単語群)を用いて辞書DB21を検索し、当該単語群に合致する先行語群に対応付けられた後続語を入力補完候補として特定し、補完候補提示部38が利用者により選択可能に提示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラムに関する。
【背景技術】
【0002】
コンピュータを用いて文書を作成する文書作成装置には、一例として、利用者によるタイプ入力の負荷を軽減するために、入力中の文について、次に利用者により挿入されるであろう単語を予測して補完候補として利用者に提示し、補完候補の中から利用者に選択された単語を文に挿入する入力支援機能を備えたものがある。
【0003】
ここで、上記のような文書作成装置における入力支援機能に関し、従前より種々の発明が提案されている。
例えば、ペン入力コンピュータにおいてテキスト入力中にその続きに入力されるであろう文字列を予測し、一つ或いは複数を提示することにより、利用者がその文字列を入力しなくても済むようにする発明が提案されている(特許文献1参照)。
例えば、携帯電話やPDAなどメモリの少ないハードウェア上でも予測入力できるように、既存のテキストコーパスからサイズの小さい辞書及び統計的言語モデルを学習し、それを利用して予測入力する発明であり、入力されたテキストの最後の幾つかの文字列に対して、テキストコーパス、辞書、言語モデルの中に同様の表現が出現しているかどうかを調べ、その続きの文字列を予測する発明が提案されている(特許文献2参照)。
例えば、電子メールの返信時のテキスト作成時において、返信元のテキストの文字列が予測入力の候補として上位に出現するように優先順位を調整する発明が提案されている(特許文献3参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平10−154033号公報
【特許文献2】特開2006−216044号公報
【特許文献3】特開2006−344039号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、文章作成中の利用者による入力中の文について、その続きに入力されることが予測される候補を提示するに際し、当該入力中の文に先行する文とのつながりに基づいた候補を提示可能な技術を提案することを目的とする。
【課題を解決するための手段】
【0006】
請求項1に係る本発明は、コンピュータに、利用者による操作入力に基づいて作成中の文章において、入力中の文に先行する文を解析して当該文に含まれる単語を特定する特定機能と、既存の文章中に含まれる連続する2つの文について、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として対応付けて記憶する記憶手段から、前記特定機能により特定された単語に合致する先行語に対応付けられた後続語を検索する検索機能と、前記検索機能により検索された後続語を利用者に対して提示する提示機能と、を実現させるためのプログラムである。
【0007】
請求項2に係る本発明は、請求項1に係る本発明において、前記記憶手段は、既存の文章において先行する文に含まれる各先行語を文単位でまとめた各先行語群と当該先行語群を含む文に後続する文に含まれる各後続語との対応付け情報と共に、既存の文章における当該先行語群を含む文の出現度合を示す文出現量、及び、当該先行語群を含む文に後続する文における当該後続語の出現度合を示す単語出現量を記憶しており、前記検索機能は、入力中の文に先行する文に含まれる単語群に合致する先行語群に対応する後続語を検索すると共に、当該先行語群に係る文出現量及び当該先行語群と当該後続語との組み合わせに係る単語出現量を検索し、前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された文出現量に対する単語出現量の比が高い順に提示する、ことを特徴とするプログラムである。
【0008】
請求項3に係る本発明は、請求項1に係る本発明において、前記記憶手段は、既存の文章において先行する文に含まれる各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、既存の文章における当該先行語を含む文の出現度合を示す文出現量、及び、当該先行語を含む文に後続する文における当該後続語の出現度合を示す単語出現量を記憶しており、前記検索機能は、入力中の文に先行する文に含まれる各単語に合致するそれぞれの先行語に対応する後続語を検索すると共に、当該先行語に係る文出現量及び当該先行語と当該後続語との組み合わせに係る単語出現量を検索し、前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された文出現量に対する単語出現量の比が高い順に提示する、ことを特徴とするプログラムである。
【0009】
請求項4に係る本発明は、請求項3に係る本発明において、前記記憶手段は、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、当該先行語の格の情報を記憶しており、前記特定機能は、入力中の文に先行する文に含まれる単語の格を特定し、前記検索機能は、入力中の文に先行する文に含まれる単語及び格が合致する先行語に対応付けられた後続語を検索する、ことを特徴とするプログラムである。
【0010】
請求項5に係る本発明は、コンピュータに、既存の文章中に含まれる連続する2つの文を解析し、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として特定する特定機能と、利用者による操作入力に基づいて作成中の文章における入力中の文について、当該文に先行する文に含まれる単語に合致する先行語に対応する後続語を利用者に対して提示する文章入力支援処理のために、前記特定機能により特定された先行語と後続語とを対応付けて記憶手段に記憶させる記憶機能と、を実現させるためのプログラムである。
【0011】
請求項6に係る本発明は、請求項5に係る本発明において、既存の文章において先行する文に含まれる各先行語を文単位でまとめた先行語群毎に、既存の文章における当該先行語群を含む文の出現度合を示す文出現量を算出すると共に、各先行語群と当該先行語群を含む文に後続する文に含まれる各後続語との組み合わせ毎に、当該先行語群を含む文に後続する文における当該後続語の出現度合を示す単語出現量を算出する算出機能を前記コンピュータに更に実現させ、前記文章入力支援処理において、入力中の文に先行する文に含まれる単語群に合致する先行語群に対応する後続語を、当該先行語群に係る文出現量に対する当該後続語に係る単語出現量の比が高い順に提示させるために、前記記憶機能は、各先行語群と当該先行語群を含む文に後続する文に含まれる各後続語との対応付け情報と共に、前記算出機能により算出された文出現量及び単語出現量を前記記憶手段に記憶させる、ことを特徴とするプログラムである。
【0012】
請求項7に係る本発明は、請求項5に係る本発明において、既存の文章において先行する文に含まれる先行語毎に、既存の文章における当該先行語を含む文の出現度合を示す文出現量を算出すると共に、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との組み合わせ毎に、当該先行語を含む文に後続する文における当該後続語の出現度合を示す単語出現量を算出する算出機能を前記コンピュータに更に実現させ、前記文章入力支援処理において、入力中の文に先行する文に含まれる各単語に合致するそれぞれの先行語に対応する後続語を、当該先行語に係る文出現量に対する当該後続語に係る単語出現量の比が高い順に提示させるために、前記記憶機能は、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、前記算出機能により算出された文出現量及び単語出現量を前記記憶手段に記憶させる、ことを特徴とするプログラムである。
【0013】
請求項8に係る本発明は、請求項7に係る本発明において、前記算出機能は、先行語毎の文出現量の算出を、当該先行語を含む文毎に、当該文の単語数が多いほど小さい値を加算することにより行い、また、先行語と後続語の組み合わせ毎の単語出現量の算出を、当該先行語を含む文に後続する文で且つ当該後続語を含む文毎に、当該文の単語数が多いほど小さい値を加算することにより行う、ことを特徴とするプログラムである。
【0014】
請求項9に係る本発明は、請求項7、8に係る本発明において、前記特定機能は、既存の文章において先行する文に含まれる先行語の格と、当該文に後続する文に含まれる後続語の格を特定し、前記算出機能は、前記特定された先行語と格が一致する後続語について、当該後続語に係る単語出現量に加算する値を大きくする、ことを特徴とするプログラムである。
【0015】
請求項10に係る本発明は、請求項7〜9に係る本発明において、前記特定機能は、既存の文章において先行する文に含まれる先行語の格を特定し、前記文章入力支援処理において、入力中の文に先行する文に含まれる単語及び格が合致する先行語に対応する後続語を提示させるために、前記記憶機能は、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、当該先行語の格の情報を前記記憶手段に記憶させる、ことを特徴とするプログラムである。
【0016】
請求項11に係る本発明は、既存の文章中に含まれる連続する2つの文を解析し、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として特定する第1特定手段と、前記第1特定手段により特定された先行語と後続語とを対応付けて記憶する記憶手段と、を有する参照情報作成部と、利用者による操作入力に基づいて作成中の文章において、入力中の文に先行する文を解析して当該文に含まれる単語を特定する第2特定手段と、前記第2特定手段により特定された単語に合致する先行語に対応付けられた後続語を前記記憶手段から検索する検索手段と、前記検索手段により検索された後続語を利用者に対して提示する提示手段と、を有する文章入力支援部と、を備えたことを特徴とする文章入力支援システムである。
【0017】
請求項12に係る本発明は、利用者による操作入力に基づいて作成中の文章において、入力中の文に先行する文を解析して当該文に含まれる単語を特定する特定手段と、既存の文章中に含まれる連続する2つの文について、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として対応付けて記憶する記憶手段から、前記特定手段により特定された単語に合致する先行語に対応付けられた後続語を検索する検索手段と、前記検索手段により検索された後続語を利用者に対して提示する提示手段と、を備えたことを特徴とする文章入力支援装置である。
【0018】
請求項13に係る本発明は、既存の文章中に含まれる連続する2つの文を解析し、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として特定する特定手段と、利用者による操作入力に基づいて作成中の文章における入力中の文について、当該文に先行する文に含まれる単語に合致する先行語に対応する後続語を利用者に対して提示する文章入力支援処理のために、前記特定手段により特定された先行語と後続語とを対応付けて記憶手段に記憶させる記憶手段と、を備えたことを特徴とする参照情報作成装置である。
【発明の効果】
【0019】
請求項1、5、11〜13に係る本発明によれば、文章作成中の利用者による入力中の文について、その続きに入力されることが予測される候補を提示するに際し、本発明を適用しない場合に比べて、当該入力中の文に先行する文とのつながりに基づいた候補となる単語を提示し、入力を支援することができる。
【0020】
請求項2、6に係る本発明によれば、入力中の文に先行する文との間で単語群が合致する既存の文に後続する文に含まれる単語を、当該既存の文に後続する文に当該単語が出現する条件付き確率に応じた順序で提示可能となる。
【0021】
請求項3、7に係る本発明によれば、入力中の文に先行する文との間で合致する単語を有する既存の文に後続する文に含まれる単語を、当該既存の文に後続する文に当該単語が出現する条件付き確率に応じた順序で提示可能となる。
【0022】
請求項4、10に係る本発明によれば、入力中の文に含まれる単語の格を考慮して、その続きに入力されることが予測される候補の単語を検索可能となる。
【0023】
請求項8に係る本発明によれば、条件付き確率の算出に用いる文出現量及び単語出現量を、その基となる文における単語の重みを加味して算出することができる。
【0024】
請求項9に係る本発明によれば、条件付き確率の算出に用いる単語出現量を、連続する文において同じ格の単語が出現し易い傾向にあることを加味して算出することができる。
【図面の簡単な説明】
【0025】
【図1】本発明の一実施形態に係る文章入力支援システムの第1構成例の機能ブロックを示す図である。
【図2】形態素解析の結果を例示する図である。
【図3】第1構成例に係る辞書を例示する図である。
【図4】本発明の一実施形態に係る文章入力支援システムの第2構成例の機能ブロックを示す図である。
【図5】第2構成例に係る辞書を例示する図である。
【図6】本発明の一実施形態に係る文章入力支援システムの第3構成例の機能ブロックを示す図である。
【図7】構文解析の結果を例示する図である。
【図8】第3構成例に係る辞書を例示する図である。
【図9】本発明の一実施形態に係る文章入力支援システムの第4構成例の機能ブロックを示す図である。
【図10】本発明の一実施形態に係る文章入力支援システムとして動作するコンピュータのハードウェア構成を例示する図である。
【図11】文章入力支援機能について説明する図である。
【図12】文章入力支援機能について説明する図である。
【発明を実施するための形態】
【0026】
本発明の具体的な説明に先立って、文章入力支援機能について図11、12を参照して説明する。
図11の例では、利用者が文章を作成するためにテキスト文を入力するテキスト入力部51に、「拡散強調像で」という文字列が入力されている。このとき、文章入力支援機能により、現在のカーソル位置より前の文字列に対してそれに続く可能性の高い文字列を推測し、当該推測により得られた各文字列を補完候補として子ウィンドウ52内に列挙して提示(表示)される。利用者は、子ウィンドウ52内に提示された補完候補の一つをキーボードやマウス等を操作して選択することで、その補完候補の文字列をタイプ入力することなく追加することができる。すなわち、その補完候補の文字列をタイプ入力するより少ない手間で文章作成を行うことができる。
【0027】
ここで、一つ以上の文が入力された後で、その続きの文を入力している場面を考える。
図12には、従来の文章入力支援機能において、利用者が一文を入力した後に次の文の数文字を入力した際に、その続きに入力されるであろう文字列を推定して提示した場面を例示してある。図12の例では、テキスト入力部61に、「右肺上部にT1強調像で著名な高信号域が見られます。」という1文目と、「その部位のT」という2文目の文頭の数文字が入力されており、2文目(入力中の文)の続きに追加する補完候補の文字列として、子ウィンドウ52に、「1強調像」、「2強調像」、「1領域」という3つの文字列が提示されている。すなわち、利用者が「その部位のT」と入力した際に、文章入力支援機能により、利用者が直前に入力した2〜3単語或いは数文字(本例では、「部位のT」)の文字列を参考にして、その続きに出現することが推定される「1強調像」、「2強調像」、「1領域」などの補完候補が提示されている。
【0028】
上記のような補完候補を提示するにあたり、従来の文章入力支援機能では、例えば、Nグラムモデルという、直前のN−1個の単語が出現したときのN番目の単語が出現するスコア(例えば確率など)を、予め用意された大量のテキスト(文章)から統計的に推定する手法が用いられる。
しかしながら、「T1強調像」は、入力中の文(2文目)に先行する前文(1文目)において既に記述がなされており、更に重ねて「T1強調像」に関する記述がなされることは考え難い。更に、MRI(Magnetic Resonance Imaging)撮像法では普通「T1強調像」と「T2強調像」は同時に得られ、両方の画像に関する記述がなされることがしばしばある。よって、この場合には、「T2強調像」の後半部分の文字列である「2強調像」が補完候補として最上位に表示されることが望ましい。
そこで、本発明では、入力中の文に先行する文(位置的に前の文)に入力された単語の情報を用いて、利用者に入力されることが推定される単語を(文字列)をより効果的に提示できるようにする。
【0029】
本発明の一実施例に係る文章入力支援システムの第1構成例について説明する。
図1には、第1構成例の文章入力支援システムの機能ブロックを示してある。
本例の文章入力支援システムは、利用者による操作入力に基づいて作成中の文章について、入力中の文に先行する文に含まれる単語に基づいて補完候補を提示する文章入力支援部30と、補完候補の提示に際して文章入力支援部30により参照される辞書(辞書DB21)を既存の文章に基づいて作成する参照情報作成部10とで構成されている。
【0030】
第1構成例に係る参照情報作成部10は、文書DB11に格納されている複数の既存の文書に含まれる文章を文単位に分割する文分割部12、対象の文を形態素解析して当該文に含まれる単語を特定する形態素解析部14を用いて、文分割部12により得られた文間の関係(以下では、文間Nグラムという)を解析する文間Nグラム解析部13、補完候補として列挙する単語の優先順を決定するためのスコアを算出する文−単語カウント部16、といった機能部を有し、これらの機能部による処理の結果として作成される辞書を辞書DB21に格納する。
【0031】
また、第1構成例に係る文章入力支援部30は、利用者により作成中の文章(テキスト)を取得するテキスト取得部31、テキスト取得部31により取得された文章における入力中の文に先行する文(前文)を取得する前文取得部32、対象の文を形態素解析して当該文に含まれる単語を特定する形態素解析部14を用いて、前文取得部32により得られた文(前文)を解析する前文解析部33、前文解析部33による解析結果に基づいて辞書DB21を検索して、補完候補となる単語を特定する補完候補列挙部35、補完候補列挙部35により得られた補完候補の各単語について優先順を決定する補完候補評価部37、補完候補評価部37により決定された優先順に沿って補完候補の単語の提示を行う補完候補提示部38、といった機能部を有し、提示した補完候補の中から選択された単語を入力中の文の続きに追加することで利用者の文章入力を支援する。
【0032】
ここで、文間Nグラムについて説明する。本例の文間Nグラムは、N−1番目の文が出現した場合に、これに後続するN番目の文に単語Wが存在するスコア(例えば、score(W|文1、・・・、文N−1))を算出して、補完候補の提示に利用するものである。
以下、N=2の場合(すなわち、入力中の文に対して直前の文だけを考慮する場合)について、自立語(名詞や動詞などそれ単独で意味のある単語)に着目して説明する。
例えば、大量の文章中に或る文sが出現する頻度(文出現頻度)をcs(s)とし、文sが出現した次の文に単語Wが出現する頻度(単語出現頻度)をcw(s,W)とすると、補完候補の提示に係るスコアとして、文出現頻度cs(s)に対する単語出現頻度cw(s,W)の比、すなわち、或る文sが出現した次の文に単語Wが出現する条件付き確率の推定値p(W|s)=cw(s,W)/cs(s)を用いることができる。
【0033】
文出現頻度cs(s)及び単語出現頻度cw(s,W)は、参照情報作成部10の各機能により、事前に以下のような手順で求められる。
まず、大量の文章(テキスト)を用意する。これは、Web上の文章や電子版の新聞記事などの外部資源や、本例の文章入力支援システムを利用する各利用者によって作成された文章などを利用することが出来る。本例では、これらの文章を予め収集して文書DB11に格納しているものとする。そして、これらの文章から連続する2つの文単位で文を取り出して、以下のような処理を行う。
【0034】
例えば、或る文章中のi−1番目の文が「右肺上部にT1強調像で著名な高信号域が見られます。」、i番目の文が「その部位にT2強調像では異常が見られません。」であった場合、これらの文を文分割部12により文単位に分割して形態素解析部14により形態素解析すると、図2に例示するように、文毎にその文に含まれる単語が特定される。本例の形態素解析部14では単語分割と共に品詞付与も行っており、図2の例では、i−1番目の文である文(i−1)、i番目の文である文(i)の各文について、単語の切れ目を空白で示すと共に、自立語に下線を付して示している。
【0035】
文間Nグラム解析部13は、形態素解析部14による解析結果に基づき、文(i−1)に出現する各単語(以下、先行語という)を文単位でまとめた先行語群と、文(i)に出現する各単語(以下、後続語という)とを特定し、文−単語カウント部16が、先行語群毎に、文書DB11中の各文章における当該先行語群を含む文の文出現頻度cs(s)を算出すると共に、各先行語群と各後続語との組み合わせ毎に、当該先行語群を含む文に後続する文における当該後続語の単語出現頻度cw(s,W)を算出する。
なお、本例の文−単語カウント部16では、該当する先行語群を含む文毎に、予め定められた値(本例では1)を加算して文出現頻度cs(s)を算出し、また、該当する先行語群及び後続語との組み合わせ毎に、予め定められた値(本例では1)を加算して単語出現頻度cw(s,W)を算出するようにしている。
【0036】
上述した処理の結果、図3に例示するような文間Nグラムの辞書が作成されて、辞書DB21に記憶される。本例では、図3(a)に示すように、先行語群と後続語との対応(組み合わせ)に係る単語出現頻度cw(s,W)を設定した第1辞書と、図3(b)に示すように、先行語群に係る文出現頻度cs(s)を設定した第2辞書とを作成している。
【0037】
次に、文間Nグラムによる文章入力支援の例として、利用者がテキスト入力部に「右肺上部にT1強調像で著名な高信号域が見られます。鮮明ではありませんが」という文章を入力した場合について説明する。
まず、テキスト取得部31により取得された利用者による作成中の文章から、前文取得部32が、当該文章においてカーソル位置の文或いは最後の文字が入力された文に対して先行する文を取り出す。本例の場合、「右肺上部にT1強調像で著名な高信号域が見られます。」という文が取り出される。
そして、前文解析部33は、前文取得部32により得られた文を形態素解析部14により形態素解析し、辞書DB21に対するデータベース検索を行うための表現に変換する。本例の場合、「右肺−上部−T1強調像−著名−高信号域−見られ」という単語群に変換される。
【0038】
次に、補完候補列挙部35が、前文解析部33により得られた単語群を用いて辞書DB21を検索し、当該単語群に合致する先行語群に対応付けられた後続語を特定すると共に、当該先行語群に係る文出現頻度cs(s)及び当該先行語群と当該後続語との組み合わせに係る単語出現頻度cw(s,W)を取得する。
そして、補完候補評価部37が、補完候補列挙部35により特定された各後続語について、スコア=cw(s,W)/cs(s)を算出し、当該算出したスコアが閾値以上となる1つ或いは複数の単語Wを補完候補として特定する。
【0039】
その後、補完候補提示部38が、テキスト入力部におけるカーソル位置(或いは最後の文字の入力位置)の付近(本例では右下部分)に表示する子ウィンドウ内に、補完候補の各単語をスコア順に列挙して利用者により選択可能に提示する。当該子ウィンドウに候補として提示された単語は、利用者に選択された際に、カーソル位置(或いは最後の文字の入力位置)に続けて追加されることになる。
【0040】
なお、前文解析部33により得られた単語群を用いたデータベース検索を、当該単語群に含まれる各単語の文中での並び順を無視して行うようにしてもよく、並び順を考慮して行うようにしてもよい。並び順を考慮した検索を行う場合には、辞書中の各先行語群に、当該先行語群に含まれる各先行語の並び順の情報を付加しておけばよい。
【0041】
本発明の一実施例に係る文章入力支援システムの第2構成例について説明する。
図4には、第2構成例に係る文章入力支援システムの機能ブロックを示してある。
本例の文章入力支援システムは、第1構成例の参照情報作成部10における文−単語出現カウント部16に代えて、単語−単語出現カウント部17を設けた構成となっている。
【0042】
第2構成例においては、或る文sが単語w1、・・・、wkを含む場合に、1≦j≦kとなる全てのjについて、大量の文章中にwjを含む文が出現する頻度(文出現頻度)をcs(wj)とし、当該文が出現した次の文に単語Wが出現する頻度(単語出現頻度)をcw(wj,W)として、補完候補の提示に係るスコアとして、文出現頻度cs(wj)に対する単語出現頻度cw(wj,W)の比の総和を用いる。
【0043】
第2構成例に係る参照情報作成部10では、文間Nグラム解析部13が、形態素解析部14による解析結果に基づき、文(i−1)に出現する各先行語と、文(i)に出現する各後続語とを特定し、単語−単語カウント部17が、先行語毎に、文書DB11中の各文章における当該先行語を含む文の文出現頻度cs(w)を算出すると共に、各先行語と各後続語との組み合わせ毎に、当該先行語を含む文に後続する文における当該後続語の単語出現頻度cw(w,W)を算出する。
【0044】
なお、単語−単語カウント部17では、該当する先行語を含む文毎に、予め定められた式により定まる値(本例では、文中の単語数kで1を割った値(1/k))を加算して文出現頻度cs(w)を算出し、また、該当する先行語及び後続語との組み合わせ毎に、予め定められた式により定まる値(本例では、文中の単語数kで1を割った値(1/k))を加算して単語出現頻度cw(w,W)を算出するようにしている。すなわち、文中の単語数が多いほど小さい値を加算して文出現頻度及び単語出現頻度を算出するものであり、同一文内に共起する単語数が多いほど加算する値を割り引くようにして、各文における単語の重みを文出現頻度及び単語出現頻度に反映させている。
【0045】
上述した処理の結果、図5に例示するような文間Nグラムの辞書が作成されて、辞書DB21に記憶される。本例では、図5(a)に示すように、先行語と後続語との対応(組み合わせ)に係る単語出現頻度cw(w,W)を設定した第1辞書と、図5(b)に示すように、先行語に係る文出現頻度cs(w)を設定した第2辞書とを作成している。
【0046】
第2構成例に係る文章入力支援部30では、前文解析部33が、前文取得部32により得られた文を形態素解析部14により形態素解析し、辞書DB21に対するデータベース検索を行うための表現に変換する。本例の場合、w1=「右肺」、w2=「上部」、w3=「T1強調像」、w4=「著名」、w5=「高信号域」、w6=「見られ」の単語wj(1≦j≦k)が得られる。
【0047】
次に、補完候補列挙部35が、前文解析部33により得られた各単語wjを用いて辞書DB21を検索し、各単語wjに合致する先行語にそれぞれ対応付けられた後続語を特定すると共に、当該先行語に係る文出現頻度cs(wj)及び当該先行語と当該後続語との組み合わせに係る単語出現頻度cw(wj,W)を取得する。
そして、補完候補評価部37が、補完候補列挙部35により特定された各後続語について、以下の(式1)によりスコアを算出し、当該算出したスコアが閾値以上となる1つ或いは複数の単語Wを補完候補として特定する。その後、補完候補提示部38が、補完候補の各単語をスコア順に列挙して利用者により選択可能に提示する。
【数1】

【0048】
本発明の一実施例に係る文章入力支援システムの第3構成例について説明する。
図6には、第3構成例に係る文章入力支援システムの機能ブロックを示してある。
本例の文章入力支援システムは、第2構成例の参照情報作成部10に構文解析部15を追加した構成となっている。
【0049】
前述した第2構成例では、文出現頻度cs(wj)及び単語出現頻度cw(wj,W)のデータベース(図5参照)を作成する際に、一律して1/kを加えていたところ、第3構成例では、構文解析部15により上下2文の構文解析を行って文中の単語間の係り受け構造を特定し、その結果に応じて加算する値を調整する。
すなわち、第3構成例は、(1)連続する文の間で主語或いはその他の格が共通していることが多いこと、(2)テキストの記述の流れに従った表現パターンがあること(例1;「走る」の次の文に「こける」が出現し易いが、その逆は出現し難い。例2;「T1強調像で」の後に「T2強調像で」が出現し易い。)、などに着目したものであり、上下2文の構文解析の結果に基づき、先行語と後続語との格が一致する組み合わせについては、当該後続語に係る単語出現頻度cw(wj,W)に加算する値を大きくする。
【0050】
第3構成例に係る参照情報作成部10では、文間Nグラム解析部13が、形態素解析部14による解析結果に基づき、文(i−1)に出現する各先行語と、文(i)に出現する各後続語とを特定し、単語−単語カウント部17が、先行語毎に、文書DB11中の各文章における当該先行語を含む文の文出現頻度cs(w)を算出すると共に、各先行語と各後続語との組み合わせ毎に、当該先行語を含む文に後続する文における当該後続語の単語出現頻度cw(w,W)を算出する。このとき、構文解析部15による解析結果に基づき、先行語と後続語との格が一致する組み合わせについては、当該後続語に係る単語出現頻度cw(wj,W)に加算する値を他に比べて大きくなるように調整する。
【0051】
例えば、図2に例示した各文の構文解析結果は、図7のように表現することができる。図7(a)は文(i−1)の構文解析結果、図7(b)は文(i)の構文解析結果を例示したものであり、単語間の係り受け構造を矢印で示してある。図7(a)、(b)によれば、文(i−1)は、述語「見られ」について、主格「高信号域」、処格「右肺上部」、具格「T1強調像」という係り受け関係を有しており、文(i)は、述語「見られ」について、主格「異常」、処格「部位」、具格「T2強調像」という係り受け関係を有している。なお、図7では、詳細な係り受け構造については省略してある。
【0052】
ここで、それぞれの格を構成する単語、すなわち、述語「見られ」と「見られ」、主格「高信号域」と「異常」、処格「右肺上部」と「部位」、具格「T1強調像」と「T2強調像」の対応を特定し、それらのペア(先行語と後続語との組み合わせ)における後続語に係る単語出現頻度cw(wj,W)が大きくなるように加算する値を調整する。本例では、先行語と後続語との対応(組み合わせ)に係る単語出現頻度cw(w,W)を設定した第1辞書を図8に例示するように、格が一致する組み合わせにおける後続語に係る単語出現頻度cw(wj,W)をそれ以外の2倍に設定するようにしているが、これに限定するものではなく、例えば、一致する格の種別に応じて加算する値を変化させるようにしてもよい。
【0053】
本発明の一実施例に係る文章入力支援システムの第4構成例について説明する。
図9には、第4構成例に係る文章入力支援システムの機能ブロックを示してある。
本例の文章入力支援システムは、第3構成例の文章入力支援部30に構文解析部35を追加した構成となっている。
第4構成例は、補完候補として、入力中の文に先行する文に含まれる単語及び格が合致する先行語に対応付けられた後続語を提示するものである。なお、補完候補を検索する辞書DB21には、図8に例示するように、先行語と後続語との対応(組み合わせ)に係る単語出現頻度cw(w,W)を設定した第1辞書において、先行語の格(及び後続語の格)を更に対応付けて記憶しているものとする。
【0054】
第4構成例に係る文章入力支援部30では、前文解析部33が、形態素解析部14による解析結果に対して構文解析部35を用いて構文解析を行って各単語の格を同定し、辞書DB21に対するデータベース検索を行うための表現に変換する。その結果、例えば、w1=「右肺(処格)」、w2=「上部(処格)」、w3=「T1強調像(具格)」、w4=「著名」、w5=「高信号域(主格)」、w6=「見られ(述語)」の格情報付きの単語wj(1≦j≦k)が得られる。
【0055】
次に、補完候補列挙部35が、前文解析部33により得られた各単語wjを用いて辞書DB21を検索し、各単語wjとその格が合致する先行語にそれぞれ対応付けられた後続語を特定すると共に、当該先行語に係る文出現頻度cs(wj)及び当該先行語と当該後続語との組み合わせに係る単語出現頻度cw(wj,W)を取得する。
そして、補完候補評価部37が、補完候補列挙部35により特定された各後続語について、前述した(式1)によりスコアを算出し、当該算出したスコアが閾値以上となる1つ或いは複数の単語Wを補完候補として特定する。その後、補完候補提示部38が、補完候補の各単語をスコア順に列挙して利用者により選択可能に提示する。
【0056】
ここで、上述した各構成例に係る文章入力支援システムは、参照情報作成部10として動作する参照情報作成装置と、文章入力支援部30として動作する文章入力支援装置とを別体の装置に設け、参照情報作成装置により作成された辞書を各文章入力支援装置に配布するように構成しているが、これに限定するものではなく、例えば、各文章入力支援装置が参照情報作成装置に保持されている辞書を参照する構成としてもよく、参照情報作成部10と文章入力支援部30とを一体の装置に設けた構成としてもよい。
【0057】
また、上述した各構成例では、連続する2つの文に基づいて補完候補を提示する構成としているが、連続する3つ以上の文に基づいて補完候補を提示する構成としてもよい。すなわち、例えば、入力中の文に先行する文(1つ前の文)に含まれる単語wxと、更に先行する文(2つ前の文)に含まれる単語wyとした場合において、既存の文章中に単語wyを含む文syが存在し且つ文syの次に単語wxを含む文sxが存在する場合に、文sxの次の文に出現する単語を補完候補として提示するようにする。
【0058】
また、上述した各構成例では、入力中の文に先行する文に含まれる単語と辞書DB21中の先行語との一致を条件に、当該先行語に対応付けられた後続語を補完候補として特定しているが、例えば、表現が異なる単語同士であっても同義語や関連語などであれば一致する単語と見做して、該当する先行語に対応付けられた後続語を補完候補として特定するようにしてもよい。
【0059】
また、上述した各構成例では、補完候補として特定される単語の数が比較的少ないことが想定されるため、例えば、各構成例により得られた補完候補を、従来手法により得られた補完候補とマージ(合成)して提示するようにしてもよい。また、更に、各構成例により得られた補完候補のスコアと従来手法により得られた補完候補のスコアとを合計して、そのスコア順に補完候補を提示するようにしてもよい。
【0060】
また、上述した第1構成例〜第4構成例では、幅広い分野の文書入力の支援を行うべく、分野を特定せずに文章を収集して補完候補の提示に用いる辞書を作成するようにしているが、例えば、カルテ等の医療文書に基づいて、医療文書の作成時に専用的に用いる辞書を作成するようにしたり、報告書等の社内文書に基づいて、社内文書の作成時に専用的に用いる辞書を作成するようにしたりする等、定型的な文が用いられる特定の種別の文書を収集し、当該種別の文書の作成時に専用的に用いる辞書を作成するようにしてもよい。また、各利用者が自分で作成した文書に基づいて、自分用の辞書を作成するようにしてもよい。
【0061】
図10には、第1構成例〜第4構成例に係る文章入力支援システムにおいて、参照情報作成部10として動作する参照情報作成装置のコンピュータ、及び、文章入力支援部30として動作する文章入力支援装置のコンピュータのハードウェア構成を例示してある。
本例のコンピュータは、各種演算処理を行うCPU(Central Processing Unit)41、CPU41の作業領域となるRAM(Random Access Memory)42や基本的な制御プログラムを記録したROM(Read Only Memory)43等の主記憶装置、本発明の一実施形態に係るプログラムや各種データを記憶するHDD(Hard Disk Drive)44等の補助記憶装置、各種情報を表示出力するための表示装置及び操作者により入力操作に用いられる操作ボタンやタッチパネル等の入力機器とのインタフェースである入出力I/F45、他の装置との間で有線又は無線により通信を行うインタフェースである通信I/F46、等のハードウェア資源を有している。
そして、本発明の一実施形態に係るプログラムを補助記憶装置44等から読み出してRAM42に展開し、これをCPU41により実行させることで、上述した各機能部をコンピュータ上に実現している。
【0062】
なお、本発明の一実施形態に係るプログラムは、例えば、当該プログラムを記憶したCD−ROM等の外部記憶媒体から読み込む形式や、通信網等を介して受信する形式などにより、本例に係るコンピュータに設定される。
また、本例のようなソフトウェア構成により各機能部を実現する態様に限られず、それぞれの機能部を専用のハードウェア資源で実現するようにしてもよい。
【符号の説明】
【0063】
11:文書DB、 12:文分割部、 13:文間Nグラム解析部、 14:形態素解析部、 15:構文解析部、 16:単語−文出現カウント部、 17:単語−単語出現カウント部、 21:辞書DB、 31:テキスト取得部、 32:前文取得部、 33:前文解析部、 34:形態素解析部、 35:構文解析部、 36:補完候補列挙部、 37:補完候補評価部、 38:補完候補提示部

【特許請求の範囲】
【請求項1】
コンピュータに、
利用者による操作入力に基づく作成中の文章において、入力中の文に先行する文を解析して当該文に含まれる単語を特定する特定機能と、
既存の文章中に含まれる連続する2つの文について、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として対応付けて記憶する記憶手段から、前記特定機能により特定された単語に合致する先行語に対応付けられた後続語を検索する検索機能と、
前記検索機能により検索された後続語を利用者に対して提示する提示機能と、
を実現させるためのプログラム。
【請求項2】
前記記憶手段は、既存の文章において先行する文に含まれる各先行語を文単位でまとめた各先行語群と当該先行語群を含む文に後続する文に含まれる各後続語との対応付け情報と共に、既存の文章における当該先行語群を含む文の出現度合を示す文出現量、及び、当該先行語群を含む文に後続する文における当該後続語の出現度合を示す単語出現量を記憶しており、
前記検索機能は、入力中の文に先行する文に含まれる単語群に合致する先行語群に対応する後続語を検索すると共に、当該先行語群に係る文出現量及び当該先行語群と当該後続語との組み合わせに係る単語出現量を検索し、
前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された文出現量に対する単語出現量の比が高い順に提示する、
ことを特徴とする請求項1に記載のプログラム。
【請求項3】
前記記憶手段は、既存の文章において先行する文に含まれる各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、既存の文章における当該先行語を含む文の出現度合を示す文出現量、及び、当該先行語を含む文に後続する文における当該後続語の出現度合を示す単語出現量を記憶しており、
前記検索機能は、入力中の文に先行する文に含まれる各単語に合致するそれぞれの先行語に対応する後続語を検索すると共に、当該先行語に係る文出現量及び当該先行語と当該後続語との組み合わせに係る単語出現量を検索し、
前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された文出現量に対する単語出現量の比が高い順に提示する、
ことを特徴とする請求項1に記載のプログラム。
【請求項4】
前記記憶手段は、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、当該先行語の格の情報を記憶しており、
前記特定機能は、入力中の文に先行する文に含まれる単語の格を特定し、
前記検索機能は、入力中の文に先行する文に含まれる単語及び格が合致する先行語に対応付けられた後続語を検索する、
ことを特徴とする請求項3に記載のプログラム。
【請求項5】
コンピュータに、
既存の文章中に含まれる連続する2つの文を解析し、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として特定する特定機能と、
利用者による操作入力に基づいて作成中の文章における入力中の文について、当該文に先行する文に含まれる単語に合致する先行語に対応する後続語を利用者に対して提示する文章入力支援処理のために、前記特定機能により特定された先行語と後続語とを対応付けて記憶手段に記憶させる記憶機能と、
を実現させるためのプログラム。
【請求項6】
既存の文章において先行する文に含まれる各先行語を文単位でまとめた先行語群毎に、既存の文章における当該先行語群を含む文の出現度合を示す文出現量を算出すると共に、各先行語群と当該先行語群を含む文に後続する文に含まれる各後続語との組み合わせ毎に、当該先行語群を含む文に後続する文における当該後続語の出現度合を示す単語出現量を算出する算出機能を前記コンピュータに更に実現させ、
前記文章入力支援処理において、入力中の文に先行する文に含まれる単語群に合致する先行語群に対応する後続語を、当該先行語群に係る文出現量に対する当該後続語に係る単語出現量の比が高い順に提示させるために、前記記憶機能は、各先行語群と当該先行語群を含む文に後続する文に含まれる各後続語との対応付け情報と共に、前記算出機能により算出された文出現量及び単語出現量を前記記憶手段に記憶させる、
ことを特徴とする請求項5に記載のプログラム。
【請求項7】
既存の文章において先行する文に含まれる先行語毎に、既存の文章における当該先行語を含む文の出現度合を示す文出現量を算出すると共に、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との組み合わせ毎に、当該先行語を含む文に後続する文における当該後続語の出現度合を示す単語出現量を算出する算出機能を前記コンピュータに更に実現させ、
前記文章入力支援処理において、入力中の文に先行する文に含まれる各単語に合致するそれぞれの先行語に対応する後続語を、当該先行語に係る文出現量に対する当該後続語に係る単語出現量の比が高い順に提示させるために、前記記憶機能は、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、前記算出機能により算出された文出現量及び単語出現量を前記記憶手段に記憶させる、
ことを特徴とする請求項5に記載のプログラム。
【請求項8】
前記算出機能は、先行語毎の文出現量の算出を、当該先行語を含む文毎に、当該文の単語数が多いほど小さい値を加算することにより行い、また、先行語と後続語の組み合わせ毎の単語出現量の算出を、当該先行語を含む文に後続する文で且つ当該後続語を含む文毎に、当該文の単語数が多いほど小さい値を加算することにより行う、
ことを特徴とする請求項7に記載のプログラム。
【請求項9】
前記特定機能は、既存の文章において先行する文に含まれる先行語の格と、当該文に後続する文に含まれる後続語の格を特定し、
前記算出機能は、前記特定された先行語と格が一致する後続語について、当該後続語に係る単語出現量に加算する値を大きくする、
ことを特徴とする請求項7又は請求項8に記載のプログラム。
【請求項10】
前記特定機能は、既存の文章において先行する文に含まれる先行語の格を特定し、
前記文章入力支援処理において、入力中の文に先行する文に含まれる単語及び格が合致する先行語に対応する後続語を提示させるために、前記記憶機能は、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、当該先行語の格の情報を前記記憶手段に記憶させる、
ことを特徴とする請求項7乃至請求項9のいずれか1項に記載のプログラム。
【請求項11】
既存の文章中に含まれる連続する2つの文を解析し、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として特定する第1特定手段と、前記第1特定手段により特定された先行語と後続語とを対応付けて記憶する記憶手段と、を有する参照情報作成部と、
利用者による操作入力に基づいて作成中の文章において、入力中の文に先行する文を解析して当該文に含まれる単語を特定する第2特定手段と、前記第2特定手段により特定された単語に合致する先行語に対応付けられた後続語を前記記憶手段から検索する検索手段と、前記検索手段により検索された後続語を利用者に対して提示する提示手段と、を有する文章入力支援部と、
を備えたことを特徴とする文章入力支援システム。
【請求項12】
利用者による操作入力に基づいて作成中の文章において、入力中の文に先行する文を解析して当該文に含まれる単語を特定する特定手段と、
既存の文章中に含まれる連続する2つの文について、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として対応付けて記憶する記憶手段から、前記特定手段により特定された単語に合致する先行語に対応付けられた後続語を検索する検索手段と、
前記検索手段により検索された後続語を利用者に対して提示する提示手段と、
を備えたことを特徴とする文章入力支援装置。
【請求項13】
既存の文章中に含まれる連続する2つの文を解析し、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として特定する特定手段と、
利用者による操作入力に基づいて作成中の文章における入力中の文について、当該文に先行する文に含まれる単語に合致する先行語に対応する後続語を利用者に対して提示する文章入力支援処理のために、前記特定手段により特定された先行語と後続語とを対応付けて記憶手段に記憶させる記憶手段と、
を備えたことを特徴とする参照情報作成装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2012−155520(P2012−155520A)
【公開日】平成24年8月16日(2012.8.16)
【国際特許分類】
【出願番号】特願2011−13942(P2011−13942)
【出願日】平成23年1月26日(2011.1.26)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】