文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム

【課題】文章作成中の利用者による入力中の文について、その続きに入力されることが予測される候補を提示するに際し、当該入力中の文に先行する文とのつながりに基づいた候補を提示可能な技術を提案する。
【解決手段】
参照情報作成部１０において、文間Ｎグラム解析部１３が、既存の文章において文（ｉ−１）に出現する各単語（先行語）を文単位でまとめた先行語群と、文（ｉ）に出現する各単語（後続語）とを特定し、辞書ＤＢ２１に対応付け情報を格納しておく。そして、文章入力支援部３０において、補完候補列挙部３５が、前文解析部３３により得られた単語群（入力中の文に先行する文に含まれる単語群）を用いて辞書ＤＢ２１を検索し、当該単語群に合致する先行語群に対応付けられた後続語を入力補完候補として特定し、補完候補提示部３８が利用者により選択可能に提示する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラムに関する。
【背景技術】
【０００２】
コンピュータを用いて文書を作成する文書作成装置には、一例として、利用者によるタイプ入力の負荷を軽減するために、入力中の文について、次に利用者により挿入されるであろう単語を予測して補完候補として利用者に提示し、補完候補の中から利用者に選択された単語を文に挿入する入力支援機能を備えたものがある。
【０００３】
ここで、上記のような文書作成装置における入力支援機能に関し、従前より種々の発明が提案されている。
例えば、ペン入力コンピュータにおいてテキスト入力中にその続きに入力されるであろう文字列を予測し、一つ或いは複数を提示することにより、利用者がその文字列を入力しなくても済むようにする発明が提案されている（特許文献１参照）。
例えば、携帯電話やＰＤＡなどメモリの少ないハードウェア上でも予測入力できるように、既存のテキストコーパスからサイズの小さい辞書及び統計的言語モデルを学習し、それを利用して予測入力する発明であり、入力されたテキストの最後の幾つかの文字列に対して、テキストコーパス、辞書、言語モデルの中に同様の表現が出現しているかどうかを調べ、その続きの文字列を予測する発明が提案されている（特許文献２参照）。
例えば、電子メールの返信時のテキスト作成時において、返信元のテキストの文字列が予測入力の候補として上位に出現するように優先順位を調整する発明が提案されている（特許文献３参照）。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平１０−１５４０３３号公報
【特許文献２】特開２００６−２１６０４４号公報
【特許文献３】特開２００６−３４４０３９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
本発明は、文章作成中の利用者による入力中の文について、その続きに入力されることが予測される候補を提示するに際し、当該入力中の文に先行する文とのつながりに基づいた候補を提示可能な技術を提案することを目的とする。
【課題を解決するための手段】
【０００６】
請求項１に係る本発明は、コンピュータに、利用者による操作入力に基づいて作成中の文章において、入力中の文に先行する文を解析して当該文に含まれる単語を特定する特定機能と、既存の文章中に含まれる連続する２つの文について、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として対応付けて記憶する記憶手段から、前記特定機能により特定された単語に合致する先行語に対応付けられた後続語を検索する検索機能と、前記検索機能により検索された後続語を利用者に対して提示する提示機能と、を実現させるためのプログラムである。
【０００７】
請求項２に係る本発明は、請求項１に係る本発明において、前記記憶手段は、既存の文章において先行する文に含まれる各先行語を文単位でまとめた各先行語群と当該先行語群を含む文に後続する文に含まれる各後続語との対応付け情報と共に、既存の文章における当該先行語群を含む文の出現度合を示す文出現量、及び、当該先行語群を含む文に後続する文における当該後続語の出現度合を示す単語出現量を記憶しており、前記検索機能は、入力中の文に先行する文に含まれる単語群に合致する先行語群に対応する後続語を検索すると共に、当該先行語群に係る文出現量及び当該先行語群と当該後続語との組み合わせに係る単語出現量を検索し、前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された文出現量に対する単語出現量の比が高い順に提示する、ことを特徴とするプログラムである。
【０００８】
請求項３に係る本発明は、請求項１に係る本発明において、前記記憶手段は、既存の文章において先行する文に含まれる各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、既存の文章における当該先行語を含む文の出現度合を示す文出現量、及び、当該先行語を含む文に後続する文における当該後続語の出現度合を示す単語出現量を記憶しており、前記検索機能は、入力中の文に先行する文に含まれる各単語に合致するそれぞれの先行語に対応する後続語を検索すると共に、当該先行語に係る文出現量及び当該先行語と当該後続語との組み合わせに係る単語出現量を検索し、前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された文出現量に対する単語出現量の比が高い順に提示する、ことを特徴とするプログラムである。
【０００９】
請求項４に係る本発明は、請求項３に係る本発明において、前記記憶手段は、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、当該先行語の格の情報を記憶しており、前記特定機能は、入力中の文に先行する文に含まれる単語の格を特定し、前記検索機能は、入力中の文に先行する文に含まれる単語及び格が合致する先行語に対応付けられた後続語を検索する、ことを特徴とするプログラムである。
【００１０】
請求項５に係る本発明は、コンピュータに、既存の文章中に含まれる連続する２つの文を解析し、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として特定する特定機能と、利用者による操作入力に基づいて作成中の文章における入力中の文について、当該文に先行する文に含まれる単語に合致する先行語に対応する後続語を利用者に対して提示する文章入力支援処理のために、前記特定機能により特定された先行語と後続語とを対応付けて記憶手段に記憶させる記憶機能と、を実現させるためのプログラムである。
【００１１】
請求項６に係る本発明は、請求項５に係る本発明において、既存の文章において先行する文に含まれる各先行語を文単位でまとめた先行語群毎に、既存の文章における当該先行語群を含む文の出現度合を示す文出現量を算出すると共に、各先行語群と当該先行語群を含む文に後続する文に含まれる各後続語との組み合わせ毎に、当該先行語群を含む文に後続する文における当該後続語の出現度合を示す単語出現量を算出する算出機能を前記コンピュータに更に実現させ、前記文章入力支援処理において、入力中の文に先行する文に含まれる単語群に合致する先行語群に対応する後続語を、当該先行語群に係る文出現量に対する当該後続語に係る単語出現量の比が高い順に提示させるために、前記記憶機能は、各先行語群と当該先行語群を含む文に後続する文に含まれる各後続語との対応付け情報と共に、前記算出機能により算出された文出現量及び単語出現量を前記記憶手段に記憶させる、ことを特徴とするプログラムである。
【００１２】
請求項７に係る本発明は、請求項５に係る本発明において、既存の文章において先行する文に含まれる先行語毎に、既存の文章における当該先行語を含む文の出現度合を示す文出現量を算出すると共に、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との組み合わせ毎に、当該先行語を含む文に後続する文における当該後続語の出現度合を示す単語出現量を算出する算出機能を前記コンピュータに更に実現させ、前記文章入力支援処理において、入力中の文に先行する文に含まれる各単語に合致するそれぞれの先行語に対応する後続語を、当該先行語に係る文出現量に対する当該後続語に係る単語出現量の比が高い順に提示させるために、前記記憶機能は、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、前記算出機能により算出された文出現量及び単語出現量を前記記憶手段に記憶させる、ことを特徴とするプログラムである。
【００１３】
請求項８に係る本発明は、請求項７に係る本発明において、前記算出機能は、先行語毎の文出現量の算出を、当該先行語を含む文毎に、当該文の単語数が多いほど小さい値を加算することにより行い、また、先行語と後続語の組み合わせ毎の単語出現量の算出を、当該先行語を含む文に後続する文で且つ当該後続語を含む文毎に、当該文の単語数が多いほど小さい値を加算することにより行う、ことを特徴とするプログラムである。
【００１４】
請求項９に係る本発明は、請求項７、８に係る本発明において、前記特定機能は、既存の文章において先行する文に含まれる先行語の格と、当該文に後続する文に含まれる後続語の格を特定し、前記算出機能は、前記特定された先行語と格が一致する後続語について、当該後続語に係る単語出現量に加算する値を大きくする、ことを特徴とするプログラムである。
【００１５】
請求項１０に係る本発明は、請求項７〜９に係る本発明において、前記特定機能は、既存の文章において先行する文に含まれる先行語の格を特定し、前記文章入力支援処理において、入力中の文に先行する文に含まれる単語及び格が合致する先行語に対応する後続語を提示させるために、前記記憶機能は、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、当該先行語の格の情報を前記記憶手段に記憶させる、ことを特徴とするプログラムである。
【００１６】
請求項１１に係る本発明は、既存の文章中に含まれる連続する２つの文を解析し、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として特定する第１特定手段と、前記第１特定手段により特定された先行語と後続語とを対応付けて記憶する記憶手段と、を有する参照情報作成部と、利用者による操作入力に基づいて作成中の文章において、入力中の文に先行する文を解析して当該文に含まれる単語を特定する第２特定手段と、前記第２特定手段により特定された単語に合致する先行語に対応付けられた後続語を前記記憶手段から検索する検索手段と、前記検索手段により検索された後続語を利用者に対して提示する提示手段と、を有する文章入力支援部と、を備えたことを特徴とする文章入力支援システムである。
【００１７】
請求項１２に係る本発明は、利用者による操作入力に基づいて作成中の文章において、入力中の文に先行する文を解析して当該文に含まれる単語を特定する特定手段と、既存の文章中に含まれる連続する２つの文について、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として対応付けて記憶する記憶手段から、前記特定手段により特定された単語に合致する先行語に対応付けられた後続語を検索する検索手段と、前記検索手段により検索された後続語を利用者に対して提示する提示手段と、を備えたことを特徴とする文章入力支援装置である。
【００１８】
請求項１３に係る本発明は、既存の文章中に含まれる連続する２つの文を解析し、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として特定する特定手段と、利用者による操作入力に基づいて作成中の文章における入力中の文について、当該文に先行する文に含まれる単語に合致する先行語に対応する後続語を利用者に対して提示する文章入力支援処理のために、前記特定手段により特定された先行語と後続語とを対応付けて記憶手段に記憶させる記憶手段と、を備えたことを特徴とする参照情報作成装置である。
【発明の効果】
【００１９】
請求項１、５、１１〜１３に係る本発明によれば、文章作成中の利用者による入力中の文について、その続きに入力されることが予測される候補を提示するに際し、本発明を適用しない場合に比べて、当該入力中の文に先行する文とのつながりに基づいた候補となる単語を提示し、入力を支援することができる。
【００２０】
請求項２、６に係る本発明によれば、入力中の文に先行する文との間で単語群が合致する既存の文に後続する文に含まれる単語を、当該既存の文に後続する文に当該単語が出現する条件付き確率に応じた順序で提示可能となる。
【００２１】
請求項３、７に係る本発明によれば、入力中の文に先行する文との間で合致する単語を有する既存の文に後続する文に含まれる単語を、当該既存の文に後続する文に当該単語が出現する条件付き確率に応じた順序で提示可能となる。
【００２２】
請求項４、１０に係る本発明によれば、入力中の文に含まれる単語の格を考慮して、その続きに入力されることが予測される候補の単語を検索可能となる。
【００２３】
請求項８に係る本発明によれば、条件付き確率の算出に用いる文出現量及び単語出現量を、その基となる文における単語の重みを加味して算出することができる。
【００２４】
請求項９に係る本発明によれば、条件付き確率の算出に用いる単語出現量を、連続する文において同じ格の単語が出現し易い傾向にあることを加味して算出することができる。
【図面の簡単な説明】
【００２５】
【図１】本発明の一実施形態に係る文章入力支援システムの第１構成例の機能ブロックを示す図である。
【図２】形態素解析の結果を例示する図である。
【図３】第１構成例に係る辞書を例示する図である。
【図４】本発明の一実施形態に係る文章入力支援システムの第２構成例の機能ブロックを示す図である。
【図５】第２構成例に係る辞書を例示する図である。
【図６】本発明の一実施形態に係る文章入力支援システムの第３構成例の機能ブロックを示す図である。
【図７】構文解析の結果を例示する図である。
【図８】第３構成例に係る辞書を例示する図である。
【図９】本発明の一実施形態に係る文章入力支援システムの第４構成例の機能ブロックを示す図である。
【図１０】本発明の一実施形態に係る文章入力支援システムとして動作するコンピュータのハードウェア構成を例示する図である。
【図１１】文章入力支援機能について説明する図である。
【図１２】文章入力支援機能について説明する図である。
【発明を実施するための形態】
【００２６】
本発明の具体的な説明に先立って、文章入力支援機能について図１１、１２を参照して説明する。
図１１の例では、利用者が文章を作成するためにテキスト文を入力するテキスト入力部５１に、「拡散強調像で」という文字列が入力されている。このとき、文章入力支援機能により、現在のカーソル位置より前の文字列に対してそれに続く可能性の高い文字列を推測し、当該推測により得られた各文字列を補完候補として子ウィンドウ５２内に列挙して提示（表示）される。利用者は、子ウィンドウ５２内に提示された補完候補の一つをキーボードやマウス等を操作して選択することで、その補完候補の文字列をタイプ入力することなく追加することができる。すなわち、その補完候補の文字列をタイプ入力するより少ない手間で文章作成を行うことができる。
【００２７】
ここで、一つ以上の文が入力された後で、その続きの文を入力している場面を考える。
図１２には、従来の文章入力支援機能において、利用者が一文を入力した後に次の文の数文字を入力した際に、その続きに入力されるであろう文字列を推定して提示した場面を例示してある。図１２の例では、テキスト入力部６１に、「右肺上部にＴ１強調像で著名な高信号域が見られます。」という１文目と、「その部位のＴ」という２文目の文頭の数文字が入力されており、２文目（入力中の文）の続きに追加する補完候補の文字列として、子ウィンドウ５２に、「１強調像」、「２強調像」、「１領域」という３つの文字列が提示されている。すなわち、利用者が「その部位のＴ」と入力した際に、文章入力支援機能により、利用者が直前に入力した２〜３単語或いは数文字（本例では、「部位のＴ」）の文字列を参考にして、その続きに出現することが推定される「１強調像」、「２強調像」、「１領域」などの補完候補が提示されている。
【００２８】
上記のような補完候補を提示するにあたり、従来の文章入力支援機能では、例えば、Ｎグラムモデルという、直前のＮ−１個の単語が出現したときのＮ番目の単語が出現するスコア（例えば確率など）を、予め用意された大量のテキスト（文章）から統計的に推定する手法が用いられる。
しかしながら、「Ｔ１強調像」は、入力中の文（２文目）に先行する前文（１文目）において既に記述がなされており、更に重ねて「Ｔ１強調像」に関する記述がなされることは考え難い。更に、ＭＲＩ（ＭａｇｎｅｔｉｃＲｅｓｏｎａｎｃｅＩｍａｇｉｎｇ）撮像法では普通「Ｔ１強調像」と「Ｔ２強調像」は同時に得られ、両方の画像に関する記述がなされることがしばしばある。よって、この場合には、「Ｔ２強調像」の後半部分の文字列である「２強調像」が補完候補として最上位に表示されることが望ましい。
そこで、本発明では、入力中の文に先行する文（位置的に前の文）に入力された単語の情報を用いて、利用者に入力されることが推定される単語を（文字列）をより効果的に提示できるようにする。
【００２９】
本発明の一実施例に係る文章入力支援システムの第１構成例について説明する。
図１には、第１構成例の文章入力支援システムの機能ブロックを示してある。
本例の文章入力支援システムは、利用者による操作入力に基づいて作成中の文章について、入力中の文に先行する文に含まれる単語に基づいて補完候補を提示する文章入力支援部３０と、補完候補の提示に際して文章入力支援部３０により参照される辞書（辞書ＤＢ２１）を既存の文章に基づいて作成する参照情報作成部１０とで構成されている。
【００３０】
第１構成例に係る参照情報作成部１０は、文書ＤＢ１１に格納されている複数の既存の文書に含まれる文章を文単位に分割する文分割部１２、対象の文を形態素解析して当該文に含まれる単語を特定する形態素解析部１４を用いて、文分割部１２により得られた文間の関係（以下では、文間Ｎグラムという）を解析する文間Ｎグラム解析部１３、補完候補として列挙する単語の優先順を決定するためのスコアを算出する文−単語カウント部１６、といった機能部を有し、これらの機能部による処理の結果として作成される辞書を辞書ＤＢ２１に格納する。
【００３１】
また、第１構成例に係る文章入力支援部３０は、利用者により作成中の文章（テキスト）を取得するテキスト取得部３１、テキスト取得部３１により取得された文章における入力中の文に先行する文（前文）を取得する前文取得部３２、対象の文を形態素解析して当該文に含まれる単語を特定する形態素解析部１４を用いて、前文取得部３２により得られた文（前文）を解析する前文解析部３３、前文解析部３３による解析結果に基づいて辞書ＤＢ２１を検索して、補完候補となる単語を特定する補完候補列挙部３５、補完候補列挙部３５により得られた補完候補の各単語について優先順を決定する補完候補評価部３７、補完候補評価部３７により決定された優先順に沿って補完候補の単語の提示を行う補完候補提示部３８、といった機能部を有し、提示した補完候補の中から選択された単語を入力中の文の続きに追加することで利用者の文章入力を支援する。
【００３２】
ここで、文間Ｎグラムについて説明する。本例の文間Ｎグラムは、Ｎ−１番目の文が出現した場合に、これに後続するＮ番目の文に単語Ｗが存在するスコア（例えば、ｓｃｏｒｅ（Ｗ｜文１、・・・、文Ｎ−１））を算出して、補完候補の提示に利用するものである。
以下、Ｎ＝２の場合（すなわち、入力中の文に対して直前の文だけを考慮する場合）について、自立語（名詞や動詞などそれ単独で意味のある単語）に着目して説明する。
例えば、大量の文章中に或る文ｓが出現する頻度（文出現頻度）をｃｓ（ｓ）とし、文ｓが出現した次の文に単語Ｗが出現する頻度（単語出現頻度）をｃｗ（ｓ，Ｗ）とすると、補完候補の提示に係るスコアとして、文出現頻度ｃｓ（ｓ）に対する単語出現頻度ｃｗ（ｓ，Ｗ）の比、すなわち、或る文ｓが出現した次の文に単語Ｗが出現する条件付き確率の推定値ｐ（Ｗ｜ｓ）＝ｃｗ（ｓ，Ｗ）／ｃｓ（ｓ）を用いることができる。
【００３３】
文出現頻度ｃｓ（ｓ）及び単語出現頻度ｃｗ（ｓ，Ｗ）は、参照情報作成部１０の各機能により、事前に以下のような手順で求められる。
まず、大量の文章（テキスト）を用意する。これは、Ｗｅｂ上の文章や電子版の新聞記事などの外部資源や、本例の文章入力支援システムを利用する各利用者によって作成された文章などを利用することが出来る。本例では、これらの文章を予め収集して文書ＤＢ１１に格納しているものとする。そして、これらの文章から連続する２つの文単位で文を取り出して、以下のような処理を行う。
【００３４】
例えば、或る文章中のｉ−１番目の文が「右肺上部にＴ１強調像で著名な高信号域が見られます。」、ｉ番目の文が「その部位にＴ２強調像では異常が見られません。」であった場合、これらの文を文分割部１２により文単位に分割して形態素解析部１４により形態素解析すると、図２に例示するように、文毎にその文に含まれる単語が特定される。本例の形態素解析部１４では単語分割と共に品詞付与も行っており、図２の例では、ｉ−１番目の文である文（ｉ−１）、ｉ番目の文である文（ｉ）の各文について、単語の切れ目を空白で示すと共に、自立語に下線を付して示している。
【００３５】
文間Ｎグラム解析部１３は、形態素解析部１４による解析結果に基づき、文（ｉ−１）に出現する各単語（以下、先行語という）を文単位でまとめた先行語群と、文（ｉ）に出現する各単語（以下、後続語という）とを特定し、文−単語カウント部１６が、先行語群毎に、文書ＤＢ１１中の各文章における当該先行語群を含む文の文出現頻度ｃｓ（ｓ）を算出すると共に、各先行語群と各後続語との組み合わせ毎に、当該先行語群を含む文に後続する文における当該後続語の単語出現頻度ｃｗ（ｓ，Ｗ）を算出する。
なお、本例の文−単語カウント部１６では、該当する先行語群を含む文毎に、予め定められた値（本例では１）を加算して文出現頻度ｃｓ（ｓ）を算出し、また、該当する先行語群及び後続語との組み合わせ毎に、予め定められた値（本例では１）を加算して単語出現頻度ｃｗ（ｓ，Ｗ）を算出するようにしている。
【００３６】
上述した処理の結果、図３に例示するような文間Ｎグラムの辞書が作成されて、辞書ＤＢ２１に記憶される。本例では、図３（ａ）に示すように、先行語群と後続語との対応（組み合わせ）に係る単語出現頻度ｃｗ（ｓ，Ｗ）を設定した第１辞書と、図３（ｂ）に示すように、先行語群に係る文出現頻度ｃｓ（ｓ）を設定した第２辞書とを作成している。
【００３７】
次に、文間Ｎグラムによる文章入力支援の例として、利用者がテキスト入力部に「右肺上部にＴ１強調像で著名な高信号域が見られます。鮮明ではありませんが」という文章を入力した場合について説明する。
まず、テキスト取得部３１により取得された利用者による作成中の文章から、前文取得部３２が、当該文章においてカーソル位置の文或いは最後の文字が入力された文に対して先行する文を取り出す。本例の場合、「右肺上部にＴ１強調像で著名な高信号域が見られます。」という文が取り出される。
そして、前文解析部３３は、前文取得部３２により得られた文を形態素解析部１４により形態素解析し、辞書ＤＢ２１に対するデータベース検索を行うための表現に変換する。本例の場合、「右肺−上部−Ｔ１強調像−著名−高信号域−見られ」という単語群に変換される。
【００３８】
次に、補完候補列挙部３５が、前文解析部３３により得られた単語群を用いて辞書ＤＢ２１を検索し、当該単語群に合致する先行語群に対応付けられた後続語を特定すると共に、当該先行語群に係る文出現頻度ｃｓ（ｓ）及び当該先行語群と当該後続語との組み合わせに係る単語出現頻度ｃｗ（ｓ，Ｗ）を取得する。
そして、補完候補評価部３７が、補完候補列挙部３５により特定された各後続語について、スコア＝ｃｗ（ｓ，Ｗ）／ｃｓ（ｓ）を算出し、当該算出したスコアが閾値以上となる１つ或いは複数の単語Ｗを補完候補として特定する。
【００３９】
その後、補完候補提示部３８が、テキスト入力部におけるカーソル位置（或いは最後の文字の入力位置）の付近（本例では右下部分）に表示する子ウィンドウ内に、補完候補の各単語をスコア順に列挙して利用者により選択可能に提示する。当該子ウィンドウに候補として提示された単語は、利用者に選択された際に、カーソル位置（或いは最後の文字の入力位置）に続けて追加されることになる。
【００４０】
なお、前文解析部３３により得られた単語群を用いたデータベース検索を、当該単語群に含まれる各単語の文中での並び順を無視して行うようにしてもよく、並び順を考慮して行うようにしてもよい。並び順を考慮した検索を行う場合には、辞書中の各先行語群に、当該先行語群に含まれる各先行語の並び順の情報を付加しておけばよい。
【００４１】
本発明の一実施例に係る文章入力支援システムの第２構成例について説明する。
図４には、第２構成例に係る文章入力支援システムの機能ブロックを示してある。
本例の文章入力支援システムは、第１構成例の参照情報作成部１０における文−単語出現カウント部１６に代えて、単語−単語出現カウント部１７を設けた構成となっている。
【００４２】
第２構成例においては、或る文ｓが単語ｗ１、・・・、ｗｋを含む場合に、１≦ｊ≦ｋとなる全てのｊについて、大量の文章中にｗｊを含む文が出現する頻度（文出現頻度）をｃｓ（ｗｊ）とし、当該文が出現した次の文に単語Ｗが出現する頻度（単語出現頻度）をｃｗ（ｗｊ，Ｗ）として、補完候補の提示に係るスコアとして、文出現頻度ｃｓ（ｗｊ）に対する単語出現頻度ｃｗ（ｗｊ，Ｗ）の比の総和を用いる。
【００４３】
第２構成例に係る参照情報作成部１０では、文間Ｎグラム解析部１３が、形態素解析部１４による解析結果に基づき、文（ｉ−１）に出現する各先行語と、文（ｉ）に出現する各後続語とを特定し、単語−単語カウント部１７が、先行語毎に、文書ＤＢ１１中の各文章における当該先行語を含む文の文出現頻度ｃｓ（ｗ）を算出すると共に、各先行語と各後続語との組み合わせ毎に、当該先行語を含む文に後続する文における当該後続語の単語出現頻度ｃｗ（ｗ，Ｗ）を算出する。
【００４４】
なお、単語−単語カウント部１７では、該当する先行語を含む文毎に、予め定められた式により定まる値（本例では、文中の単語数ｋで１を割った値（１／ｋ））を加算して文出現頻度ｃｓ（ｗ）を算出し、また、該当する先行語及び後続語との組み合わせ毎に、予め定められた式により定まる値（本例では、文中の単語数ｋで１を割った値（１／ｋ））を加算して単語出現頻度ｃｗ（ｗ，Ｗ）を算出するようにしている。すなわち、文中の単語数が多いほど小さい値を加算して文出現頻度及び単語出現頻度を算出するものであり、同一文内に共起する単語数が多いほど加算する値を割り引くようにして、各文における単語の重みを文出現頻度及び単語出現頻度に反映させている。
【００４５】
上述した処理の結果、図５に例示するような文間Ｎグラムの辞書が作成されて、辞書ＤＢ２１に記憶される。本例では、図５（ａ）に示すように、先行語と後続語との対応（組み合わせ）に係る単語出現頻度ｃｗ（ｗ，Ｗ）を設定した第１辞書と、図５（ｂ）に示すように、先行語に係る文出現頻度ｃｓ（ｗ）を設定した第２辞書とを作成している。
【００４６】
第２構成例に係る文章入力支援部３０では、前文解析部３３が、前文取得部３２により得られた文を形態素解析部１４により形態素解析し、辞書ＤＢ２１に対するデータベース検索を行うための表現に変換する。本例の場合、ｗ１＝「右肺」、ｗ２＝「上部」、ｗ３＝「Ｔ１強調像」、ｗ４＝「著名」、ｗ５＝「高信号域」、ｗ６＝「見られ」の単語ｗｊ（１≦ｊ≦ｋ）が得られる。
【００４７】
次に、補完候補列挙部３５が、前文解析部３３により得られた各単語ｗｊを用いて辞書ＤＢ２１を検索し、各単語ｗｊに合致する先行語にそれぞれ対応付けられた後続語を特定すると共に、当該先行語に係る文出現頻度ｃｓ（ｗｊ）及び当該先行語と当該後続語との組み合わせに係る単語出現頻度ｃｗ（ｗｊ，Ｗ）を取得する。
そして、補完候補評価部３７が、補完候補列挙部３５により特定された各後続語について、以下の（式１）によりスコアを算出し、当該算出したスコアが閾値以上となる１つ或いは複数の単語Ｗを補完候補として特定する。その後、補完候補提示部３８が、補完候補の各単語をスコア順に列挙して利用者により選択可能に提示する。
【数１】

【００４８】
本発明の一実施例に係る文章入力支援システムの第３構成例について説明する。
図６には、第３構成例に係る文章入力支援システムの機能ブロックを示してある。
本例の文章入力支援システムは、第２構成例の参照情報作成部１０に構文解析部１５を追加した構成となっている。
【００４９】
前述した第２構成例では、文出現頻度ｃｓ（ｗｊ）及び単語出現頻度ｃｗ（ｗｊ，Ｗ）のデータベース（図５参照）を作成する際に、一律して１／ｋを加えていたところ、第３構成例では、構文解析部１５により上下２文の構文解析を行って文中の単語間の係り受け構造を特定し、その結果に応じて加算する値を調整する。
すなわち、第３構成例は、（１）連続する文の間で主語或いはその他の格が共通していることが多いこと、（２）テキストの記述の流れに従った表現パターンがあること（例１；「走る」の次の文に「こける」が出現し易いが、その逆は出現し難い。例２；「Ｔ１強調像で」の後に「Ｔ２強調像で」が出現し易い。）、などに着目したものであり、上下２文の構文解析の結果に基づき、先行語と後続語との格が一致する組み合わせについては、当該後続語に係る単語出現頻度ｃｗ（ｗｊ，Ｗ）に加算する値を大きくする。
【００５０】
第３構成例に係る参照情報作成部１０では、文間Ｎグラム解析部１３が、形態素解析部１４による解析結果に基づき、文（ｉ−１）に出現する各先行語と、文（ｉ）に出現する各後続語とを特定し、単語−単語カウント部１７が、先行語毎に、文書ＤＢ１１中の各文章における当該先行語を含む文の文出現頻度ｃｓ（ｗ）を算出すると共に、各先行語と各後続語との組み合わせ毎に、当該先行語を含む文に後続する文における当該後続語の単語出現頻度ｃｗ（ｗ，Ｗ）を算出する。このとき、構文解析部１５による解析結果に基づき、先行語と後続語との格が一致する組み合わせについては、当該後続語に係る単語出現頻度ｃｗ（ｗｊ，Ｗ）に加算する値を他に比べて大きくなるように調整する。
【００５１】
例えば、図２に例示した各文の構文解析結果は、図７のように表現することができる。図７（ａ）は文（ｉ−１）の構文解析結果、図７（ｂ）は文（ｉ）の構文解析結果を例示したものであり、単語間の係り受け構造を矢印で示してある。図７（ａ）、（ｂ）によれば、文（ｉ−１）は、述語「見られ」について、主格「高信号域」、処格「右肺上部」、具格「Ｔ１強調像」という係り受け関係を有しており、文（ｉ）は、述語「見られ」について、主格「異常」、処格「部位」、具格「Ｔ２強調像」という係り受け関係を有している。なお、図７では、詳細な係り受け構造については省略してある。
【００５２】
ここで、それぞれの格を構成する単語、すなわち、述語「見られ」と「見られ」、主格「高信号域」と「異常」、処格「右肺上部」と「部位」、具格「Ｔ１強調像」と「Ｔ２強調像」の対応を特定し、それらのペア（先行語と後続語との組み合わせ）における後続語に係る単語出現頻度ｃｗ（ｗｊ，Ｗ）が大きくなるように加算する値を調整する。本例では、先行語と後続語との対応（組み合わせ）に係る単語出現頻度ｃｗ（ｗ，Ｗ）を設定した第１辞書を図８に例示するように、格が一致する組み合わせにおける後続語に係る単語出現頻度ｃｗ（ｗｊ，Ｗ）をそれ以外の２倍に設定するようにしているが、これに限定するものではなく、例えば、一致する格の種別に応じて加算する値を変化させるようにしてもよい。
【００５３】
本発明の一実施例に係る文章入力支援システムの第４構成例について説明する。
図９には、第４構成例に係る文章入力支援システムの機能ブロックを示してある。
本例の文章入力支援システムは、第３構成例の文章入力支援部３０に構文解析部３５を追加した構成となっている。
第４構成例は、補完候補として、入力中の文に先行する文に含まれる単語及び格が合致する先行語に対応付けられた後続語を提示するものである。なお、補完候補を検索する辞書ＤＢ２１には、図８に例示するように、先行語と後続語との対応（組み合わせ）に係る単語出現頻度ｃｗ（ｗ，Ｗ）を設定した第１辞書において、先行語の格（及び後続語の格）を更に対応付けて記憶しているものとする。
【００５４】
第４構成例に係る文章入力支援部３０では、前文解析部３３が、形態素解析部１４による解析結果に対して構文解析部３５を用いて構文解析を行って各単語の格を同定し、辞書ＤＢ２１に対するデータベース検索を行うための表現に変換する。その結果、例えば、ｗ１＝「右肺（処格）」、ｗ２＝「上部（処格）」、ｗ３＝「Ｔ１強調像（具格）」、ｗ４＝「著名」、ｗ５＝「高信号域（主格）」、ｗ６＝「見られ（述語）」の格情報付きの単語ｗｊ（１≦ｊ≦ｋ）が得られる。
【００５５】
次に、補完候補列挙部３５が、前文解析部３３により得られた各単語ｗｊを用いて辞書ＤＢ２１を検索し、各単語ｗｊとその格が合致する先行語にそれぞれ対応付けられた後続語を特定すると共に、当該先行語に係る文出現頻度ｃｓ（ｗｊ）及び当該先行語と当該後続語との組み合わせに係る単語出現頻度ｃｗ（ｗｊ，Ｗ）を取得する。
そして、補完候補評価部３７が、補完候補列挙部３５により特定された各後続語について、前述した（式１）によりスコアを算出し、当該算出したスコアが閾値以上となる１つ或いは複数の単語Ｗを補完候補として特定する。その後、補完候補提示部３８が、補完候補の各単語をスコア順に列挙して利用者により選択可能に提示する。
【００５６】
ここで、上述した各構成例に係る文章入力支援システムは、参照情報作成部１０として動作する参照情報作成装置と、文章入力支援部３０として動作する文章入力支援装置とを別体の装置に設け、参照情報作成装置により作成された辞書を各文章入力支援装置に配布するように構成しているが、これに限定するものではなく、例えば、各文章入力支援装置が参照情報作成装置に保持されている辞書を参照する構成としてもよく、参照情報作成部１０と文章入力支援部３０とを一体の装置に設けた構成としてもよい。
【００５７】
また、上述した各構成例では、連続する２つの文に基づいて補完候補を提示する構成としているが、連続する３つ以上の文に基づいて補完候補を提示する構成としてもよい。すなわち、例えば、入力中の文に先行する文（１つ前の文）に含まれる単語ｗｘと、更に先行する文（２つ前の文）に含まれる単語ｗｙとした場合において、既存の文章中に単語ｗｙを含む文ｓｙが存在し且つ文ｓｙの次に単語ｗｘを含む文ｓｘが存在する場合に、文ｓｘの次の文に出現する単語を補完候補として提示するようにする。
【００５８】
また、上述した各構成例では、入力中の文に先行する文に含まれる単語と辞書ＤＢ２１中の先行語との一致を条件に、当該先行語に対応付けられた後続語を補完候補として特定しているが、例えば、表現が異なる単語同士であっても同義語や関連語などであれば一致する単語と見做して、該当する先行語に対応付けられた後続語を補完候補として特定するようにしてもよい。
【００５９】
また、上述した各構成例では、補完候補として特定される単語の数が比較的少ないことが想定されるため、例えば、各構成例により得られた補完候補を、従来手法により得られた補完候補とマージ（合成）して提示するようにしてもよい。また、更に、各構成例により得られた補完候補のスコアと従来手法により得られた補完候補のスコアとを合計して、そのスコア順に補完候補を提示するようにしてもよい。
【００６０】
また、上述した第１構成例〜第４構成例では、幅広い分野の文書入力の支援を行うべく、分野を特定せずに文章を収集して補完候補の提示に用いる辞書を作成するようにしているが、例えば、カルテ等の医療文書に基づいて、医療文書の作成時に専用的に用いる辞書を作成するようにしたり、報告書等の社内文書に基づいて、社内文書の作成時に専用的に用いる辞書を作成するようにしたりする等、定型的な文が用いられる特定の種別の文書を収集し、当該種別の文書の作成時に専用的に用いる辞書を作成するようにしてもよい。また、各利用者が自分で作成した文書に基づいて、自分用の辞書を作成するようにしてもよい。
【００６１】
図１０には、第１構成例〜第４構成例に係る文章入力支援システムにおいて、参照情報作成部１０として動作する参照情報作成装置のコンピュータ、及び、文章入力支援部３０として動作する文章入力支援装置のコンピュータのハードウェア構成を例示してある。
本例のコンピュータは、各種演算処理を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４１、ＣＰＵ４１の作業領域となるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）４２や基本的な制御プログラムを記録したＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）４３等の主記憶装置、本発明の一実施形態に係るプログラムや各種データを記憶するＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）４４等の補助記憶装置、各種情報を表示出力するための表示装置及び操作者により入力操作に用いられる操作ボタンやタッチパネル等の入力機器とのインタフェースである入出力Ｉ／Ｆ４５、他の装置との間で有線又は無線により通信を行うインタフェースである通信Ｉ／Ｆ４６、等のハードウェア資源を有している。
そして、本発明の一実施形態に係るプログラムを補助記憶装置４４等から読み出してＲＡＭ４２に展開し、これをＣＰＵ４１により実行させることで、上述した各機能部をコンピュータ上に実現している。
【００６２】
なお、本発明の一実施形態に係るプログラムは、例えば、当該プログラムを記憶したＣＤ−ＲＯＭ等の外部記憶媒体から読み込む形式や、通信網等を介して受信する形式などにより、本例に係るコンピュータに設定される。
また、本例のようなソフトウェア構成により各機能部を実現する態様に限られず、それぞれの機能部を専用のハードウェア資源で実現するようにしてもよい。
【符号の説明】
【００６３】
１１：文書ＤＢ、１２：文分割部、１３：文間Ｎグラム解析部、１４：形態素解析部、１５：構文解析部、１６：単語−文出現カウント部、１７：単語−単語出現カウント部、２１：辞書ＤＢ、３１：テキスト取得部、３２：前文取得部、３３：前文解析部、３４：形態素解析部、３５：構文解析部、３６：補完候補列挙部、３７：補完候補評価部、３８：補完候補提示部

【特許請求の範囲】
【請求項１】
コンピュータに、
利用者による操作入力に基づく作成中の文章において、入力中の文に先行する文を解析して当該文に含まれる単語を特定する特定機能と、
既存の文章中に含まれる連続する２つの文について、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として対応付けて記憶する記憶手段から、前記特定機能により特定された単語に合致する先行語に対応付けられた後続語を検索する検索機能と、
前記検索機能により検索された後続語を利用者に対して提示する提示機能と、
を実現させるためのプログラム。
【請求項２】
前記記憶手段は、既存の文章において先行する文に含まれる各先行語を文単位でまとめた各先行語群と当該先行語群を含む文に後続する文に含まれる各後続語との対応付け情報と共に、既存の文章における当該先行語群を含む文の出現度合を示す文出現量、及び、当該先行語群を含む文に後続する文における当該後続語の出現度合を示す単語出現量を記憶しており、
前記検索機能は、入力中の文に先行する文に含まれる単語群に合致する先行語群に対応する後続語を検索すると共に、当該先行語群に係る文出現量及び当該先行語群と当該後続語との組み合わせに係る単語出現量を検索し、
前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された文出現量に対する単語出現量の比が高い順に提示する、
ことを特徴とする請求項１に記載のプログラム。
【請求項３】
前記記憶手段は、既存の文章において先行する文に含まれる各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、既存の文章における当該先行語を含む文の出現度合を示す文出現量、及び、当該先行語を含む文に後続する文における当該後続語の出現度合を示す単語出現量を記憶しており、
前記検索機能は、入力中の文に先行する文に含まれる各単語に合致するそれぞれの先行語に対応する後続語を検索すると共に、当該先行語に係る文出現量及び当該先行語と当該後続語との組み合わせに係る単語出現量を検索し、
前記提示機能は、前記検索機能により検索された後続語を、当該後続語と共に検索された文出現量に対する単語出現量の比が高い順に提示する、
ことを特徴とする請求項１に記載のプログラム。
【請求項４】
前記記憶手段は、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、当該先行語の格の情報を記憶しており、
前記特定機能は、入力中の文に先行する文に含まれる単語の格を特定し、
前記検索機能は、入力中の文に先行する文に含まれる単語及び格が合致する先行語に対応付けられた後続語を検索する、
ことを特徴とする請求項３に記載のプログラム。
【請求項５】
コンピュータに、
既存の文章中に含まれる連続する２つの文を解析し、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として特定する特定機能と、
利用者による操作入力に基づいて作成中の文章における入力中の文について、当該文に先行する文に含まれる単語に合致する先行語に対応する後続語を利用者に対して提示する文章入力支援処理のために、前記特定機能により特定された先行語と後続語とを対応付けて記憶手段に記憶させる記憶機能と、
を実現させるためのプログラム。
【請求項６】
既存の文章において先行する文に含まれる各先行語を文単位でまとめた先行語群毎に、既存の文章における当該先行語群を含む文の出現度合を示す文出現量を算出すると共に、各先行語群と当該先行語群を含む文に後続する文に含まれる各後続語との組み合わせ毎に、当該先行語群を含む文に後続する文における当該後続語の出現度合を示す単語出現量を算出する算出機能を前記コンピュータに更に実現させ、
前記文章入力支援処理において、入力中の文に先行する文に含まれる単語群に合致する先行語群に対応する後続語を、当該先行語群に係る文出現量に対する当該後続語に係る単語出現量の比が高い順に提示させるために、前記記憶機能は、各先行語群と当該先行語群を含む文に後続する文に含まれる各後続語との対応付け情報と共に、前記算出機能により算出された文出現量及び単語出現量を前記記憶手段に記憶させる、
ことを特徴とする請求項５に記載のプログラム。
【請求項７】
既存の文章において先行する文に含まれる先行語毎に、既存の文章における当該先行語を含む文の出現度合を示す文出現量を算出すると共に、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との組み合わせ毎に、当該先行語を含む文に後続する文における当該後続語の出現度合を示す単語出現量を算出する算出機能を前記コンピュータに更に実現させ、
前記文章入力支援処理において、入力中の文に先行する文に含まれる各単語に合致するそれぞれの先行語に対応する後続語を、当該先行語に係る文出現量に対する当該後続語に係る単語出現量の比が高い順に提示させるために、前記記憶機能は、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、前記算出機能により算出された文出現量及び単語出現量を前記記憶手段に記憶させる、
ことを特徴とする請求項５に記載のプログラム。
【請求項８】
前記算出機能は、先行語毎の文出現量の算出を、当該先行語を含む文毎に、当該文の単語数が多いほど小さい値を加算することにより行い、また、先行語と後続語の組み合わせ毎の単語出現量の算出を、当該先行語を含む文に後続する文で且つ当該後続語を含む文毎に、当該文の単語数が多いほど小さい値を加算することにより行う、
ことを特徴とする請求項７に記載のプログラム。
【請求項９】
前記特定機能は、既存の文章において先行する文に含まれる先行語の格と、当該文に後続する文に含まれる後続語の格を特定し、
前記算出機能は、前記特定された先行語と格が一致する後続語について、当該後続語に係る単語出現量に加算する値を大きくする、
ことを特徴とする請求項７又は請求項８に記載のプログラム。
【請求項１０】
前記特定機能は、既存の文章において先行する文に含まれる先行語の格を特定し、
前記文章入力支援処理において、入力中の文に先行する文に含まれる単語及び格が合致する先行語に対応する後続語を提示させるために、前記記憶機能は、各先行語と当該先行語を含む文に後続する文に含まれる各後続語との対応付け情報と共に、当該先行語の格の情報を前記記憶手段に記憶させる、
ことを特徴とする請求項７乃至請求項９のいずれか１項に記載のプログラム。
【請求項１１】
既存の文章中に含まれる連続する２つの文を解析し、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として特定する第１特定手段と、前記第１特定手段により特定された先行語と後続語とを対応付けて記憶する記憶手段と、を有する参照情報作成部と、
利用者による操作入力に基づいて作成中の文章において、入力中の文に先行する文を解析して当該文に含まれる単語を特定する第２特定手段と、前記第２特定手段により特定された単語に合致する先行語に対応付けられた後続語を前記記憶手段から検索する検索手段と、前記検索手段により検索された後続語を利用者に対して提示する提示手段と、を有する文章入力支援部と、
を備えたことを特徴とする文章入力支援システム。
【請求項１２】
利用者による操作入力に基づいて作成中の文章において、入力中の文に先行する文を解析して当該文に含まれる単語を特定する特定手段と、
既存の文章中に含まれる連続する２つの文について、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として対応付けて記憶する記憶手段から、前記特定手段により特定された単語に合致する先行語に対応付けられた後続語を検索する検索手段と、
前記検索手段により検索された後続語を利用者に対して提示する提示手段と、
を備えたことを特徴とする文章入力支援装置。
【請求項１３】
既存の文章中に含まれる連続する２つの文を解析し、先行する文に含まれる単語を先行語とし、後続する文に含まれる単語を後続語として特定する特定手段と、
利用者による操作入力に基づいて作成中の文章における入力中の文について、当該文に先行する文に含まれる単語に合致する先行語に対応する後続語を利用者に対して提示する文章入力支援処理のために、前記特定手段により特定された先行語と後続語とを対応付けて記憶手段に記憶させる記憶手段と、
を備えたことを特徴とする参照情報作成装置。

【図１】