記号入力支援装置、記号入力支援方法、及びプログラム
【課題】入力文中へ絵文字等の記号を挿入する際に、文の内容を考慮した記号を決定し、実際の使用方法に沿った役割と位置を考慮した記号の挿入を、自動的に行う。
【解決手段】記号入力支援装置において、学習用の文中の各記号について、共起する単語との出現頻度を表す共起単語情報と、コンテクスト情報と、当該記号と記号ごとに与えられた所定の辞書中の語との共起情報とを算出し、算出結果を学習結果として学習結果格納手段に格納する記号出現頻度学習手段と、入力文中における記号挿入位置候補の位置ごとに、挿入対象である各記号について、前記学習結果格納手段に格納された前記学習結果を用いて、前記記号挿入位置候補の各位置に記号を挿入した場合における文特徴量を算出し、当該文特徴量に基づき、挿入に最も適した記号と挿入位置を特定し、当該記号と挿入位置とを変換候補記号格納手段に格納する挿入記号選定手段と、を備えて構成する。
【解決手段】記号入力支援装置において、学習用の文中の各記号について、共起する単語との出現頻度を表す共起単語情報と、コンテクスト情報と、当該記号と記号ごとに与えられた所定の辞書中の語との共起情報とを算出し、算出結果を学習結果として学習結果格納手段に格納する記号出現頻度学習手段と、入力文中における記号挿入位置候補の位置ごとに、挿入対象である各記号について、前記学習結果格納手段に格納された前記学習結果を用いて、前記記号挿入位置候補の各位置に記号を挿入した場合における文特徴量を算出し、当該文特徴量に基づき、挿入に最も適した記号と挿入位置を特定し、当該記号と挿入位置とを変換候補記号格納手段に格納する挿入記号選定手段と、を備えて構成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力文中へ絵文字等の記号を挿入することを支援する記号入力支援装置、記号入力支援方法、及びプログラムに関するものである。
【背景技術】
【0002】
イラスト風の記号文字(絵文字)を、文中で簡単に入力できるようにした携帯電話機やパソコンなどの文字入力装置が従来からある。
【0003】
例えば特許文献1には、「です」や「ます」といった特定の文末文字列が入力されると、文末文字列に続く可能性が高い絵文字や句点などの文字列候補を自動的に挿入することによって文末文字の入力の手間を省く文字入力装置が開示されている。
【0004】
また、特許文献2には、絵文字と所定の文字列とを関連づける記憶部を持ち、入力文字列中の所定の文字列を、記憶部に登録されている特定の絵文字に変換することによって絵文字を自動的に挿入し、絵文字入力の手間を省く携帯端末装置が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006-331066号公報
【特許文献2】特開2010-15221号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、文末文字の入力支援に特化した特許文献1に記載された技術では、文章の内容を考慮しない絵文字が入力候補として表示される可能性がある。また、絵文字の挿入位置についても文末のみへの挿入になり、文中で用いられることもある絵文字の実際の使用方法に即さない可能性がある。
【0007】
特許文献2に記載された技術では、文中に出現する記憶部に登録してある単語の後ろに絵文字を挿入するため、単語の代わりや文末に出現する絵文字の実際の使用方法に即さない可能性がある。また、単語とのマッチングで挿入を行うため、文章の一部の内容は考慮されているものの、文章全体の内容は考慮されていない。
【0008】
本発明は、上記の問題点に鑑みてなされたものであり、入力文中へ絵文字等の記号を挿入する際に、文の内容を考慮した記号を決定し、実際の使用方法に沿った役割と位置を考慮した記号の挿入を、自動的に行う技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記の課題を解決するために、本発明は、入力文に記号を挿入するための記号入力支援装置であって、学習用の文中の各記号について、共起する単語との出現頻度を表す共起単語情報と、コンテクスト情報と、当該記号と記号ごとに与えられた所定の辞書中の語との共起情報とを算出し、算出結果を学習結果として学習結果格納手段に格納する記号出現頻度学習手段と、前記入力文中における記号挿入位置候補の位置ごとに、挿入対象である各記号について、前記学習結果格納手段に格納された前記学習結果を用いて、前記記号挿入位置候補の各位置に記号を挿入した場合における文特徴量を算出し、当該文特徴量に基づき、挿入に最も適した記号と挿入位置を特定し、当該記号と挿入位置とを変換候補記号格納手段に格納する挿入記号選定手段と、を備えたことを特徴とする記号入力支援装置として構成される。
【0010】
前記挿入記号選定手段は、前記入力文において前記記号挿入位置候補の位置に記号が挿入された場合における、共起単語情報、コンテクスト情報、前記所定の辞書中の語との共起情報を、前記学習結果を用いて求め、これらの情報に基づく記号出現確率を前記文特徴量として算出するよう構成することができる。
また、前記記号入力支援装置は、前記挿入記号選定手段により特定された記号と挿入位置とを用いて、前記入力文に記号を挿入する文字列変換手段を更に備えるようにしてもよい。
【0011】
前記文字列変換手段は、前記挿入記号選定手段により、複数の同一の記号が特定された場合において、当該複数の同一の記号に対応するそれぞれの文特徴量に基づいて、当該複数の同一の記号のうちの1つの記号を選択し、当該記号を、前記入力文における当該記号に対応する挿入位置に挿入するように構成できる。
【0012】
また、本発明は、上記記号入力支援装置における各処理に対応する各ステップを備えた記号入力支援方法として構成してもよい。また、本発明は、上記記号入力支援方法における各ステップを実行させるためのプログラムとして構成してもよい。
【発明の効果】
【0013】
本発明によれば、入力文中へ絵文字等の記号を挿入する際に、文の内容を考慮した記号を決定し、実際の使用方法に沿った役割と位置を考慮した記号の挿入を、自動的に行うことが可能となる。
【図面の簡単な説明】
【0014】
【図1】本発明の実施の形態における記号入力支援装置10の機能構成図である。
【図2】記号一覧の一例を示す図である。
【図3】テキスト集合の一例を示す図である。
【図4】語義辞書の一例を示す図である。
【図5】記号入力支援装置10の動作の概要を説明するためのフローチャートである。
【図6】記号出現頻度学習部3の動作を説明するためのフローチャートである。
【図7】共起する単語と、共起関係の算出結果の例を示す図である。
【図8】左右の語との共起関係の算出結果の例を示す図である。
【図9】左右の品詞ごとの共起関係の算出結果の例を示す図である。
【図10】挿入記号選定部4の動作を説明するためのフローチャートである。
【図11】形態素間を記号挿入位置候補とした場合の記号挿入位置候補の例を示す図である。
【図12】内容語形態素を記号挿入位置候補とした場合の記号挿入位置候補の例を示す図である。
【図13】挿入記号選定部4が実行する形態素区切りごとの記号特定処理を説明するためのフローチャートである。
【図14】挿入記号選定部4が実行する内容語形態素ごとの記号特定処理を説明するためのフローチャートである。
【図15】文字列変換部5の動作を説明するためのフローチャートである。
【発明を実施するための形態】
【0015】
以下、図面とともに本発明の実施の形態の一例を説明する。
【0016】
(装置構成)
図1は本発明の実施の形態における、入力された文字列の適切な位置に文脈に沿った記号を挿入する記号入力支援装置10の機能構成図を示す。
【0017】
図1に示すように、記号入力支援装置10は、入力部1、出力部2、記号出現頻度学習部3、挿入記号選定部4、文字列変換部5、学習用データ格納部6、学習結果格納部7、語義辞書格納部8、及び変換候補記号格納部9を備える。
【0018】
入力部1は、記号を挿入する対象となる文(文字列)を入力するための機能部である。出力部2は、記号が挿入された文を出力するための機能部である。記号出現頻度学習部3は、学習用データ格納部6に格納された学習用データを用いて、記号と他の語との共起関係等を学習し、学習結果を学習結果格納部7に格納する機能部である。挿入記号選定部4は、学習結果を利用して、入力文に挿入する記号と挿入位置を特定する機能部である。文字列変換部5は、挿入記号選定部4により特定された記号と挿入位置に基づいて、入力文中に記号を挿入し、記号が挿入された文を出力部2を介して出力する機能部である。
【0019】
学習用データ格納部6は、学習用データとしてテキスト集合、及び記号一覧を格納している。図2に、記号一覧の例を示す。図2に示すように、本実施の形態で使用する記号は、携帯電話機等から入力可能な絵文字である。もちろん、記号として絵文字以外を用いることも可能である。また、テキスト集合は、一文中に記号一覧における記号を含むテキストの集合である。テキスト集合の例を図3に示す。
【0020】
学習結果格納部7は、記号出現頻度学習部3による学習結果を格納する。語義辞書格納部8は、語義辞書を格納する。語義辞書は、記号が含まれる文と、記号が持つ語義との関係を算出する際に用いる辞書であり、記号と、記号を表す言語表現(語)との対の集合からなる。図4に語義辞書の一例を示す。変換候補記号格納部9は、記号挿入位置候補毎の挿入対象記号が格納される。
【0021】
なお、記号入力支援装置10において、記号出現頻度学習部3を備えない構成とすることもできる。この場合、別の装置で学習を行い、学習結果を学習結果格納部7に格納する。また、記号入力支援装置10において、文字列変換部5を備えない構成とすることもできる。この場合、例えば、挿入記号選定部4による処理結果と入力文を、文字列変換部5を備える別の装置に送信し、当該別の装置で入力文への記号挿入を行い、出力を行う。
【0022】
(動作概要)
以下、図5に示すフローチャートを参照して、図1の構成を有する記号入力支援装置10の動作の概要を説明する。
【0023】
ステップ11)まず、記号出現頻度学習部3が、学習用データ格納部6に格納されたテキスト集合と記号一覧を用いて、テキストに含まれる記号と単語との共起情報である共起単語情報、該記号がどのようなコンテクストによって出現したかを表すコンテクスト情報、該記号と記号ごとに与えられた語義辞書中の語との共起情報を算出し、算出した結果を学習結果格納部7に格納する。
【0024】
ステップ12)次に、挿入記号選定部4が、入力文中の各記号挿入位置候補における、共起単語情報、コンテクスト情報、語義辞書中の語との共起情報を用い、該記号ごとに、学習結果格納部7に格納されたコンテクスト情報、出現単語情報の共起情報を参照し、各記号挿入位置候補における最も適切な記号と挿入位置を特定し、処理結果を変換候補記号格納部9に格納する。
【0025】
ステップ13)文字列変換部5が、ステップ12で選定された記号と挿入位置に基づいて、入力文に記号を挿入し、記号を挿入した文を出力部2を介して出力する。
【0026】
(記号出現頻度学習部3の動作詳細)
次に、記号出現頻度学習部3の処理動作について詳細に説明する。
記号出現頻度学習部3は、学習用データ格納部6に格納された記号一覧の記号を含むテキスト集合を用いて学習を行うことにより、与えられた入力文の最適な位置に、文脈に沿った記号を挿入するためのモデルを学習結果として生成する。この学習では、テキスト集合に出現する記号一覧の記号それぞれについて、単語との共起情報、該記号がどのようなコンテクストによって出現したかというコンテクスト情報、該記号と記号ごとに与えられた語義辞書中の語との共起情報を算出し、算出結果を学習結果格納部7に格納する。
【0027】
本実施の形態において、記号出現頻度学習部3は、学習の手法としてNaive Bayes法を用いている。以下、Naive Bayes法について説明する。
【0028】
ある事例xが要素ベクトルとして以下のように表されるとする。
【0029】
【数1】
xの分類先のクラスを以下とする。
【0030】
【数2】
与えられた事例について、適した記号を決定するためには、P(ci|x)を最大にするciを求めればよい。ベイズの定理から、
【0031】
【数3】
より、P(ci)P(x|ci)を最大にするciを求めればよい。ここで、
【0032】
【数4】
と仮定してP(x|ci)の計算を行うことにより、求めるciは、下記の式(5)と表される。
【0033】
【数5】
本発明の実施の形態では、事例xを入力文、事例xにおける要素ベクトルの各ベクトルを、記号とほかの単語との共起情報、該記号がどのようなコンテクストによって出現したかというコンテクスト情報、該記号と記号ごとに与えられた語義辞書中の語との共起情報とし、分類先クラスを、事例xに挿入される各記号として、本手法に適用する。
【0034】
記号出現頻度学習部3が実行する学習では、要素ベクトルの各ベクトル要素であるP(x|ci)を学習する。以下、記号出現頻度学習部3が実行する処理を、図6のフローチャートに沿って説明する。
【0035】
ステップ21)ステップ21では、共起単語の重要度算出処理を行う。すなわち、記号出現頻度学習部3は、学習データ格納部6から、テキスト集合と記号一覧を読み出し、テキスト集合に出現する、記号一覧の記号ごとに、該記号と共起する全ての単語との共起頻度を抽出し、該記号と単語との共起関係(重要度に相当)を算出し、算出結果を学習結果格納部7に格納する。共起関係の算出方法は以下の式(6)に示すとおりである。
【0036】
式(6) P(単語|記号i)
図7に、共起する単語と、共起関係の算出結果の例を示す。例えば、図7において、IDが1の欄の記号と単語(送る)の共起関係は、上記式の算出結果としての確率(3/1000)として表されている。
【0037】
ステップ22)ステップ22では、文脈の重要度算出を行う。ここでは、記号出現頻度学習部3は、テキスト集合に出現する、記号一覧の記号ごとに、出現箇所の左右のコンテクスト情報(語、品詞)との共起頻度を抽出し、該記号とコンテクストとの共起関係を算出し、算出結果を学習結果格納部7に格納する。共起関係の算出方法は以下の式(7)に示すとおりである。
【0038】
式(7) P(コンテクスト|記号i)
図8に、左右の語との共起関係の算出結果の例を示し、図9に、左右の品詞ごとの共起関係の算出結果の例を示す。
【0039】
ステップ23)ステップ23では、語義辞書との距離の算出を行う。つまり、記号出現頻度学習部3は、語義辞書を参照することにより、テキスト集合に出現する、記号一覧の記号ごとに、記号ごとに与えられた語義辞書(図4)中の語との共起情報を算出し、算出結果を学習結果格納部7に格納する。共起関係の算出方法は、以下の式(8)に示すとおりである。
【0040】
式(8) P(辞書中の語|記号i)
(挿入記号選定部4の動作詳細)
次に、挿入記号選定部4の処理動作を詳細に説明する。
【0041】
挿入記号選定部4は、入力文中の各記号挿入位置候補における、共起単語情報、コンテクスト情報、語義辞書中の語との共起情報を用い、学習結果格納部7に格納されている学習結果に基づいて、該記号挿入位置候補において、記号一覧の記号のうち最も適切な挿入候補記号を特定する。本実施の形態において、記号挿入位置候補は、入力文について形態素解析を行った結果のうち、全ての形態素間と、内容語である形態素部分としている。以下、挿入記号選定部4が実行する処理を、図10のフローチャートに沿って説明する。
【0042】
ステップ31)挿入記号選定部4は、入力部1から入力された入力文の形態素解析を行う。
【0043】
ステップ32)次に、挿入記号選定部4は、形態素区切りごとの記号特定処理を行う。すなわち、挿入記号選定部4は、ステップ31で形態素解析された全ての形態素間を記号挿入位置候補として、該記号挿入位置候補における共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を用い、学習結果格納部7に格納された学習結果に基づいて、記号一覧の記号のうち、挿入に最も適切な記号を特定する。図11に、入力文における記号挿入位置候補の例を示す。図11中、矢印で示された部分が記号挿入位置候補である。
【0044】
ステップ33)ここでは、内容語形態素ごとの記号特定処理を行う。すなわち、挿入記号選定部4は、ステップ31で形態素解析された形態素のうち内容語である形態素部分を、記号挿入位置候補として、該記号挿入位置候補におけるコンテクスト情報、共起単語情報、記号辞書中の語との共起情報を用い、学習結果格納部7に格納された学習結果に基づいて、記号一覧の記号のうち、挿入に最も適切な記号を特定する。図12に記号挿入位置候補の例を示す。
【0045】
(形態素区切りごとの記号特定処理の詳細)
以下、図13のフローチャートに沿って、挿入記号選定部4が実行する形態素区切りごとの記号特定処理(図10のステップ32)をより詳細に説明する。
【0046】
ここでは、入力文の全ての形態素間を、記号入力位置候補とし、該記号入力位置候補における共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を用い、学習結果格納部7に格納された学習結果に基づいて、記号一覧の記号のうち、挿入に最も適切な記号と挿入位置を特定する。このように、形態素解析された全ての形態素間を記号挿入位置候補とすることで、文末や、形態素間で用いられる記号の使われ方に沿った記号の特定を行う。
【0047】
ステップ41)挿入記号選定部4は、図10のステップ31で形態素解析された入力文における全ての形態素間を、記号入力位置候補として抽出する。
ステップ42) 挿入記号選定部4は、特定の記号入力位置候補に、記号一覧中の各記号(c1, c2, c3, ..., cj)が挿入された場合の、共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を、学習結果格納部7に格納された学習結果を用いて算出し、該記号が入力文に挿入された場合の文特徴量を記号ごとに算出する。算出方法は、式(9)のとおりであり、文特徴量は記号の出現確率として算出される。なお、文特徴量の算出において、要素ベクトルの各ベクトル要素であるP(xt|ci)が存在しない場合は、0または、微小な値を与える。
【0048】
【数6】
ステップ43)挿入記号選定部4は、前記の式(5)に基づいて、ステップ42において記号一覧の記号ごとに与えられた文特徴量のうち、最も文特徴量が大きくなった記号(すなわち、確率が最も高い記号)を特定する。
ステップ44)挿入記号選定部4は、ステップ43で特定された記号の、該記号が入力文に挿入された場合の文特徴量が、予め定めた閾値以上であるか否かを確認する。
【0049】
確認の結果、文特徴量が閾値以上であった場合には、ステップ45に移行し、文特徴量が閾値未満であった場合には、ステップ46に移行する。
【0050】
ステップ45)ステップ44で閾値以上とされた記号が、該記号入力位置候補において挿入される記号であるとし、当該記号を特定する。
【0051】
ステップ46)該記号入力位置候補において、挿入される記号は無いとして、変換対象記号はなしと判定する。
【0052】
ステップ47)挿入記号選定部4は、処理対象である現在の記号入力位置候補を表す情報と、ステップ45で特定された記号と文特徴量、もしくは、ステップ46で特定された記号なしという情報とを、変換候補記号格納部9に格納する。
【0053】
ステップ48)挿入記号選定部4は、現在の記号入力位置候補が、最後の記号入力位置候補であるか否かを確認し、最後でなかった場合には、次の記号入力位置候補に移行して処理を行い、最後であった場合は、処理を終了する。
【0054】
(内容語形態素ごとの記号特定の詳細)
次に、図14のフローチャートに沿って、挿入記号選定部4が実行する内容語形態素ごとの記号特定処理(図10のステップ33)をより詳細に説明する。
【0055】
ここでは、入力文の内容語の形態素部分を、記号入力位置候補とし、該記号入力位置候補における共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を用い、学習結果格納部7に格納された学習結果に基づいて、記号一覧の記号のうち、挿入に最も適切な記号と挿入位置を特定する。このように、形態素解析された形態素のうち内容語である形態素部分を記号挿入位置候補とすることで、内容語の代わりとして用いられる記号の使われ方に沿った記号の特定を行う。
【0056】
ステップ51)挿入記号選定部4は、図10のステップ31で形態素解析された入力文の、全ての内容語の形態素部分を、記号入力位置候補として抽出する。
【0057】
ステップ52)挿入記号選定部4は、ステップ51で抽出された、各記号入力位置候補に記号一覧中の各記号(c1, c2, c3, ..., cj)が挿入された場合の、共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を、学習結果格納部7に格納された学習結果を用いて算出し、該記号が入力文に挿入された場合の文特徴量を算出する。ここでは、内容語の代わりとして用いられる記号の使われ方に沿った記号の特定を行うため、記号辞書中の語との共起関係を算出する際に閲覧する対象語は、記号入力位置候補となっている内容語とする。文特徴量の算出方法は、式(9)のとおりであり、文特徴量は記号の出現確率として算出される。なお、文特徴量の算出において、要素ベクトルの各ベクトル要素であるP(xt|ci)が存在しない場合は、0または、微小な値を与える。
【0058】
ステップ53〜ステップ58は、ステップ43〜ステップ48と同様である。
(文字列変換部5の動作詳細)
続いて、文字列変換部5の処理動作を詳細に説明する。
【0059】
文字列変換部5は、変換候補記号格納部9に格納された各記号挿入位置候補における挿入対象記号を、入力文に挿入する処理を行う。ここでは、変換候補記号格納部9に格納された結果に沿って挿入を行う際に、複数の同じ記号が入力文中に出現する可能性があるため、記号挿入位置候補ごとに特定された記号に与えられている文特徴量を用いて、複数の同じ記号が入力文に出現するのを防いでいる。以下、文字列変換部5が実行する処理を、図15のフローチャートに沿って説明する。
【0060】
ステップ61)文字列変換部5は、変換候補記号格納部9から、各記号挿入位置候補の記号を抽出する。
【0061】
ステップ62)文字列変換部5は、変換候補記号格納部9から抽出した記号に、複数の同一記号が含まれるか否かを確認する。含まれる場合は、ステップ63に移行する。含まれない場合は、ステップ65に移行して、変換候補記号格納部9に該記号を格納する。
【0062】
ステップ63)文字列変換部5は、変換候補記号格納部9に含まれる複数の同一記号のうち、より入力文に適した記号を選定するため、複数の同一記号にそれぞれに与えられている文特徴量のうち、最も文特徴量が大きい記号を変換候補とし、変換候補記号格納部9に該記号を格納する。複数の同一記号のうち、最も文特徴量が大きい記号以外の記号は変換候補記号格納部9に格納しない。このような処理を、複数同一記号の集合のそれぞれについて行う。
【0063】
ステップ64)文字列変換部5は、上記の処理により変換候補記号格納部9に格納された記号を、入力文におけるそれぞれの挿入位置に挿入し、記号を挿入した文を出力結果として出力部2を介して出力する。
【0064】
これまでに説明した記号入力支援装置10は、例えば、CPUやメモリ等を備えたコンピュータに、各処理に対応するプログラムを実行させることにより実現可能である。当該プログラムは、可搬メモリ等のコンピュータ読み取り可能な記録媒体に記録して配布してもよいし、ネットワーク上のサーバからダウンロードすることもできる。このように、記号入力支援装置10をコンピュータで実現する場合、文字列等の処理データは、メモリ等に記憶され、プログラムの命令に従って、適宜、CPUにより読み出されて処理されることになる。なお、上記「コンピュータ」は、PC端末等に限らず、例えば、携帯電話機等、コンピュータと同等の機能を備えた様々な機器を含む意味で使用している。
【0065】
また、記号入力支援装置10は、1つのコンピュータで実現してもよいし、複数のコンピュータを、ネットワークを介して接続することにより実現してもよい。例えば、複数の格納部のうちの1つ又は複数を外部のサーバ装置として構成することは、記号入力支援装置10を複数のコンピュータで実現する場合の一例である。また、記号出現頻度学習部3と、それ以外の機能部とを別々のコンピュータで構成することも、記号入力支援装置10を複数のコンピュータで実現する場合の一例である。更に、文字列変換部5とそれ以外の機能部とを別々のコンピュータで構成してもよい。
【0066】
(実施の形態の効果)
本実施の形態に係る技術によれば、記号を特定する際に、事前に、記号と文特徴量の関係性や、記号と出現位置の関係性、記号と役割の関係性を学習し、学習結果に基づいて挿入を行うため、文章の内容を考慮し、記号の実際の使われ方を反映した結果を得ることができる。
【0067】
また、記号の出現における学習の際に、記号と記号の出現位置に着目した学習を行うことにより、実際の使われ方に沿った出現位置に記号を挿入することが可能となる。
【0068】
また、学習の際に、記号と記号が含まれる文の、共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を学習することにより、文脈に即した記号の挿入が可能となる。
【0069】
更に、記号が単語として用いられる役割に着目した学習を行うことで、記号の役割を考慮した挿入が可能となる。
【産業上の利用可能性】
【0070】
本発明は、入力文のコンテクストに適合した記号を、入力文の適切な位置に挿入する装置に適用可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【符号の説明】
【0071】
1 入力部
2 出力部
3 記号出現頻度学習部
4 挿入記号選定部
5 文字列変換部
6 学習用データ格納部
7 学習結果格納部
8 語義辞書格納部
9 変換候補記号格納部
10 記号入力支援装置
【技術分野】
【0001】
本発明は、入力文中へ絵文字等の記号を挿入することを支援する記号入力支援装置、記号入力支援方法、及びプログラムに関するものである。
【背景技術】
【0002】
イラスト風の記号文字(絵文字)を、文中で簡単に入力できるようにした携帯電話機やパソコンなどの文字入力装置が従来からある。
【0003】
例えば特許文献1には、「です」や「ます」といった特定の文末文字列が入力されると、文末文字列に続く可能性が高い絵文字や句点などの文字列候補を自動的に挿入することによって文末文字の入力の手間を省く文字入力装置が開示されている。
【0004】
また、特許文献2には、絵文字と所定の文字列とを関連づける記憶部を持ち、入力文字列中の所定の文字列を、記憶部に登録されている特定の絵文字に変換することによって絵文字を自動的に挿入し、絵文字入力の手間を省く携帯端末装置が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006-331066号公報
【特許文献2】特開2010-15221号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、文末文字の入力支援に特化した特許文献1に記載された技術では、文章の内容を考慮しない絵文字が入力候補として表示される可能性がある。また、絵文字の挿入位置についても文末のみへの挿入になり、文中で用いられることもある絵文字の実際の使用方法に即さない可能性がある。
【0007】
特許文献2に記載された技術では、文中に出現する記憶部に登録してある単語の後ろに絵文字を挿入するため、単語の代わりや文末に出現する絵文字の実際の使用方法に即さない可能性がある。また、単語とのマッチングで挿入を行うため、文章の一部の内容は考慮されているものの、文章全体の内容は考慮されていない。
【0008】
本発明は、上記の問題点に鑑みてなされたものであり、入力文中へ絵文字等の記号を挿入する際に、文の内容を考慮した記号を決定し、実際の使用方法に沿った役割と位置を考慮した記号の挿入を、自動的に行う技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記の課題を解決するために、本発明は、入力文に記号を挿入するための記号入力支援装置であって、学習用の文中の各記号について、共起する単語との出現頻度を表す共起単語情報と、コンテクスト情報と、当該記号と記号ごとに与えられた所定の辞書中の語との共起情報とを算出し、算出結果を学習結果として学習結果格納手段に格納する記号出現頻度学習手段と、前記入力文中における記号挿入位置候補の位置ごとに、挿入対象である各記号について、前記学習結果格納手段に格納された前記学習結果を用いて、前記記号挿入位置候補の各位置に記号を挿入した場合における文特徴量を算出し、当該文特徴量に基づき、挿入に最も適した記号と挿入位置を特定し、当該記号と挿入位置とを変換候補記号格納手段に格納する挿入記号選定手段と、を備えたことを特徴とする記号入力支援装置として構成される。
【0010】
前記挿入記号選定手段は、前記入力文において前記記号挿入位置候補の位置に記号が挿入された場合における、共起単語情報、コンテクスト情報、前記所定の辞書中の語との共起情報を、前記学習結果を用いて求め、これらの情報に基づく記号出現確率を前記文特徴量として算出するよう構成することができる。
また、前記記号入力支援装置は、前記挿入記号選定手段により特定された記号と挿入位置とを用いて、前記入力文に記号を挿入する文字列変換手段を更に備えるようにしてもよい。
【0011】
前記文字列変換手段は、前記挿入記号選定手段により、複数の同一の記号が特定された場合において、当該複数の同一の記号に対応するそれぞれの文特徴量に基づいて、当該複数の同一の記号のうちの1つの記号を選択し、当該記号を、前記入力文における当該記号に対応する挿入位置に挿入するように構成できる。
【0012】
また、本発明は、上記記号入力支援装置における各処理に対応する各ステップを備えた記号入力支援方法として構成してもよい。また、本発明は、上記記号入力支援方法における各ステップを実行させるためのプログラムとして構成してもよい。
【発明の効果】
【0013】
本発明によれば、入力文中へ絵文字等の記号を挿入する際に、文の内容を考慮した記号を決定し、実際の使用方法に沿った役割と位置を考慮した記号の挿入を、自動的に行うことが可能となる。
【図面の簡単な説明】
【0014】
【図1】本発明の実施の形態における記号入力支援装置10の機能構成図である。
【図2】記号一覧の一例を示す図である。
【図3】テキスト集合の一例を示す図である。
【図4】語義辞書の一例を示す図である。
【図5】記号入力支援装置10の動作の概要を説明するためのフローチャートである。
【図6】記号出現頻度学習部3の動作を説明するためのフローチャートである。
【図7】共起する単語と、共起関係の算出結果の例を示す図である。
【図8】左右の語との共起関係の算出結果の例を示す図である。
【図9】左右の品詞ごとの共起関係の算出結果の例を示す図である。
【図10】挿入記号選定部4の動作を説明するためのフローチャートである。
【図11】形態素間を記号挿入位置候補とした場合の記号挿入位置候補の例を示す図である。
【図12】内容語形態素を記号挿入位置候補とした場合の記号挿入位置候補の例を示す図である。
【図13】挿入記号選定部4が実行する形態素区切りごとの記号特定処理を説明するためのフローチャートである。
【図14】挿入記号選定部4が実行する内容語形態素ごとの記号特定処理を説明するためのフローチャートである。
【図15】文字列変換部5の動作を説明するためのフローチャートである。
【発明を実施するための形態】
【0015】
以下、図面とともに本発明の実施の形態の一例を説明する。
【0016】
(装置構成)
図1は本発明の実施の形態における、入力された文字列の適切な位置に文脈に沿った記号を挿入する記号入力支援装置10の機能構成図を示す。
【0017】
図1に示すように、記号入力支援装置10は、入力部1、出力部2、記号出現頻度学習部3、挿入記号選定部4、文字列変換部5、学習用データ格納部6、学習結果格納部7、語義辞書格納部8、及び変換候補記号格納部9を備える。
【0018】
入力部1は、記号を挿入する対象となる文(文字列)を入力するための機能部である。出力部2は、記号が挿入された文を出力するための機能部である。記号出現頻度学習部3は、学習用データ格納部6に格納された学習用データを用いて、記号と他の語との共起関係等を学習し、学習結果を学習結果格納部7に格納する機能部である。挿入記号選定部4は、学習結果を利用して、入力文に挿入する記号と挿入位置を特定する機能部である。文字列変換部5は、挿入記号選定部4により特定された記号と挿入位置に基づいて、入力文中に記号を挿入し、記号が挿入された文を出力部2を介して出力する機能部である。
【0019】
学習用データ格納部6は、学習用データとしてテキスト集合、及び記号一覧を格納している。図2に、記号一覧の例を示す。図2に示すように、本実施の形態で使用する記号は、携帯電話機等から入力可能な絵文字である。もちろん、記号として絵文字以外を用いることも可能である。また、テキスト集合は、一文中に記号一覧における記号を含むテキストの集合である。テキスト集合の例を図3に示す。
【0020】
学習結果格納部7は、記号出現頻度学習部3による学習結果を格納する。語義辞書格納部8は、語義辞書を格納する。語義辞書は、記号が含まれる文と、記号が持つ語義との関係を算出する際に用いる辞書であり、記号と、記号を表す言語表現(語)との対の集合からなる。図4に語義辞書の一例を示す。変換候補記号格納部9は、記号挿入位置候補毎の挿入対象記号が格納される。
【0021】
なお、記号入力支援装置10において、記号出現頻度学習部3を備えない構成とすることもできる。この場合、別の装置で学習を行い、学習結果を学習結果格納部7に格納する。また、記号入力支援装置10において、文字列変換部5を備えない構成とすることもできる。この場合、例えば、挿入記号選定部4による処理結果と入力文を、文字列変換部5を備える別の装置に送信し、当該別の装置で入力文への記号挿入を行い、出力を行う。
【0022】
(動作概要)
以下、図5に示すフローチャートを参照して、図1の構成を有する記号入力支援装置10の動作の概要を説明する。
【0023】
ステップ11)まず、記号出現頻度学習部3が、学習用データ格納部6に格納されたテキスト集合と記号一覧を用いて、テキストに含まれる記号と単語との共起情報である共起単語情報、該記号がどのようなコンテクストによって出現したかを表すコンテクスト情報、該記号と記号ごとに与えられた語義辞書中の語との共起情報を算出し、算出した結果を学習結果格納部7に格納する。
【0024】
ステップ12)次に、挿入記号選定部4が、入力文中の各記号挿入位置候補における、共起単語情報、コンテクスト情報、語義辞書中の語との共起情報を用い、該記号ごとに、学習結果格納部7に格納されたコンテクスト情報、出現単語情報の共起情報を参照し、各記号挿入位置候補における最も適切な記号と挿入位置を特定し、処理結果を変換候補記号格納部9に格納する。
【0025】
ステップ13)文字列変換部5が、ステップ12で選定された記号と挿入位置に基づいて、入力文に記号を挿入し、記号を挿入した文を出力部2を介して出力する。
【0026】
(記号出現頻度学習部3の動作詳細)
次に、記号出現頻度学習部3の処理動作について詳細に説明する。
記号出現頻度学習部3は、学習用データ格納部6に格納された記号一覧の記号を含むテキスト集合を用いて学習を行うことにより、与えられた入力文の最適な位置に、文脈に沿った記号を挿入するためのモデルを学習結果として生成する。この学習では、テキスト集合に出現する記号一覧の記号それぞれについて、単語との共起情報、該記号がどのようなコンテクストによって出現したかというコンテクスト情報、該記号と記号ごとに与えられた語義辞書中の語との共起情報を算出し、算出結果を学習結果格納部7に格納する。
【0027】
本実施の形態において、記号出現頻度学習部3は、学習の手法としてNaive Bayes法を用いている。以下、Naive Bayes法について説明する。
【0028】
ある事例xが要素ベクトルとして以下のように表されるとする。
【0029】
【数1】
xの分類先のクラスを以下とする。
【0030】
【数2】
与えられた事例について、適した記号を決定するためには、P(ci|x)を最大にするciを求めればよい。ベイズの定理から、
【0031】
【数3】
より、P(ci)P(x|ci)を最大にするciを求めればよい。ここで、
【0032】
【数4】
と仮定してP(x|ci)の計算を行うことにより、求めるciは、下記の式(5)と表される。
【0033】
【数5】
本発明の実施の形態では、事例xを入力文、事例xにおける要素ベクトルの各ベクトルを、記号とほかの単語との共起情報、該記号がどのようなコンテクストによって出現したかというコンテクスト情報、該記号と記号ごとに与えられた語義辞書中の語との共起情報とし、分類先クラスを、事例xに挿入される各記号として、本手法に適用する。
【0034】
記号出現頻度学習部3が実行する学習では、要素ベクトルの各ベクトル要素であるP(x|ci)を学習する。以下、記号出現頻度学習部3が実行する処理を、図6のフローチャートに沿って説明する。
【0035】
ステップ21)ステップ21では、共起単語の重要度算出処理を行う。すなわち、記号出現頻度学習部3は、学習データ格納部6から、テキスト集合と記号一覧を読み出し、テキスト集合に出現する、記号一覧の記号ごとに、該記号と共起する全ての単語との共起頻度を抽出し、該記号と単語との共起関係(重要度に相当)を算出し、算出結果を学習結果格納部7に格納する。共起関係の算出方法は以下の式(6)に示すとおりである。
【0036】
式(6) P(単語|記号i)
図7に、共起する単語と、共起関係の算出結果の例を示す。例えば、図7において、IDが1の欄の記号と単語(送る)の共起関係は、上記式の算出結果としての確率(3/1000)として表されている。
【0037】
ステップ22)ステップ22では、文脈の重要度算出を行う。ここでは、記号出現頻度学習部3は、テキスト集合に出現する、記号一覧の記号ごとに、出現箇所の左右のコンテクスト情報(語、品詞)との共起頻度を抽出し、該記号とコンテクストとの共起関係を算出し、算出結果を学習結果格納部7に格納する。共起関係の算出方法は以下の式(7)に示すとおりである。
【0038】
式(7) P(コンテクスト|記号i)
図8に、左右の語との共起関係の算出結果の例を示し、図9に、左右の品詞ごとの共起関係の算出結果の例を示す。
【0039】
ステップ23)ステップ23では、語義辞書との距離の算出を行う。つまり、記号出現頻度学習部3は、語義辞書を参照することにより、テキスト集合に出現する、記号一覧の記号ごとに、記号ごとに与えられた語義辞書(図4)中の語との共起情報を算出し、算出結果を学習結果格納部7に格納する。共起関係の算出方法は、以下の式(8)に示すとおりである。
【0040】
式(8) P(辞書中の語|記号i)
(挿入記号選定部4の動作詳細)
次に、挿入記号選定部4の処理動作を詳細に説明する。
【0041】
挿入記号選定部4は、入力文中の各記号挿入位置候補における、共起単語情報、コンテクスト情報、語義辞書中の語との共起情報を用い、学習結果格納部7に格納されている学習結果に基づいて、該記号挿入位置候補において、記号一覧の記号のうち最も適切な挿入候補記号を特定する。本実施の形態において、記号挿入位置候補は、入力文について形態素解析を行った結果のうち、全ての形態素間と、内容語である形態素部分としている。以下、挿入記号選定部4が実行する処理を、図10のフローチャートに沿って説明する。
【0042】
ステップ31)挿入記号選定部4は、入力部1から入力された入力文の形態素解析を行う。
【0043】
ステップ32)次に、挿入記号選定部4は、形態素区切りごとの記号特定処理を行う。すなわち、挿入記号選定部4は、ステップ31で形態素解析された全ての形態素間を記号挿入位置候補として、該記号挿入位置候補における共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を用い、学習結果格納部7に格納された学習結果に基づいて、記号一覧の記号のうち、挿入に最も適切な記号を特定する。図11に、入力文における記号挿入位置候補の例を示す。図11中、矢印で示された部分が記号挿入位置候補である。
【0044】
ステップ33)ここでは、内容語形態素ごとの記号特定処理を行う。すなわち、挿入記号選定部4は、ステップ31で形態素解析された形態素のうち内容語である形態素部分を、記号挿入位置候補として、該記号挿入位置候補におけるコンテクスト情報、共起単語情報、記号辞書中の語との共起情報を用い、学習結果格納部7に格納された学習結果に基づいて、記号一覧の記号のうち、挿入に最も適切な記号を特定する。図12に記号挿入位置候補の例を示す。
【0045】
(形態素区切りごとの記号特定処理の詳細)
以下、図13のフローチャートに沿って、挿入記号選定部4が実行する形態素区切りごとの記号特定処理(図10のステップ32)をより詳細に説明する。
【0046】
ここでは、入力文の全ての形態素間を、記号入力位置候補とし、該記号入力位置候補における共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を用い、学習結果格納部7に格納された学習結果に基づいて、記号一覧の記号のうち、挿入に最も適切な記号と挿入位置を特定する。このように、形態素解析された全ての形態素間を記号挿入位置候補とすることで、文末や、形態素間で用いられる記号の使われ方に沿った記号の特定を行う。
【0047】
ステップ41)挿入記号選定部4は、図10のステップ31で形態素解析された入力文における全ての形態素間を、記号入力位置候補として抽出する。
ステップ42) 挿入記号選定部4は、特定の記号入力位置候補に、記号一覧中の各記号(c1, c2, c3, ..., cj)が挿入された場合の、共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を、学習結果格納部7に格納された学習結果を用いて算出し、該記号が入力文に挿入された場合の文特徴量を記号ごとに算出する。算出方法は、式(9)のとおりであり、文特徴量は記号の出現確率として算出される。なお、文特徴量の算出において、要素ベクトルの各ベクトル要素であるP(xt|ci)が存在しない場合は、0または、微小な値を与える。
【0048】
【数6】
ステップ43)挿入記号選定部4は、前記の式(5)に基づいて、ステップ42において記号一覧の記号ごとに与えられた文特徴量のうち、最も文特徴量が大きくなった記号(すなわち、確率が最も高い記号)を特定する。
ステップ44)挿入記号選定部4は、ステップ43で特定された記号の、該記号が入力文に挿入された場合の文特徴量が、予め定めた閾値以上であるか否かを確認する。
【0049】
確認の結果、文特徴量が閾値以上であった場合には、ステップ45に移行し、文特徴量が閾値未満であった場合には、ステップ46に移行する。
【0050】
ステップ45)ステップ44で閾値以上とされた記号が、該記号入力位置候補において挿入される記号であるとし、当該記号を特定する。
【0051】
ステップ46)該記号入力位置候補において、挿入される記号は無いとして、変換対象記号はなしと判定する。
【0052】
ステップ47)挿入記号選定部4は、処理対象である現在の記号入力位置候補を表す情報と、ステップ45で特定された記号と文特徴量、もしくは、ステップ46で特定された記号なしという情報とを、変換候補記号格納部9に格納する。
【0053】
ステップ48)挿入記号選定部4は、現在の記号入力位置候補が、最後の記号入力位置候補であるか否かを確認し、最後でなかった場合には、次の記号入力位置候補に移行して処理を行い、最後であった場合は、処理を終了する。
【0054】
(内容語形態素ごとの記号特定の詳細)
次に、図14のフローチャートに沿って、挿入記号選定部4が実行する内容語形態素ごとの記号特定処理(図10のステップ33)をより詳細に説明する。
【0055】
ここでは、入力文の内容語の形態素部分を、記号入力位置候補とし、該記号入力位置候補における共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を用い、学習結果格納部7に格納された学習結果に基づいて、記号一覧の記号のうち、挿入に最も適切な記号と挿入位置を特定する。このように、形態素解析された形態素のうち内容語である形態素部分を記号挿入位置候補とすることで、内容語の代わりとして用いられる記号の使われ方に沿った記号の特定を行う。
【0056】
ステップ51)挿入記号選定部4は、図10のステップ31で形態素解析された入力文の、全ての内容語の形態素部分を、記号入力位置候補として抽出する。
【0057】
ステップ52)挿入記号選定部4は、ステップ51で抽出された、各記号入力位置候補に記号一覧中の各記号(c1, c2, c3, ..., cj)が挿入された場合の、共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を、学習結果格納部7に格納された学習結果を用いて算出し、該記号が入力文に挿入された場合の文特徴量を算出する。ここでは、内容語の代わりとして用いられる記号の使われ方に沿った記号の特定を行うため、記号辞書中の語との共起関係を算出する際に閲覧する対象語は、記号入力位置候補となっている内容語とする。文特徴量の算出方法は、式(9)のとおりであり、文特徴量は記号の出現確率として算出される。なお、文特徴量の算出において、要素ベクトルの各ベクトル要素であるP(xt|ci)が存在しない場合は、0または、微小な値を与える。
【0058】
ステップ53〜ステップ58は、ステップ43〜ステップ48と同様である。
(文字列変換部5の動作詳細)
続いて、文字列変換部5の処理動作を詳細に説明する。
【0059】
文字列変換部5は、変換候補記号格納部9に格納された各記号挿入位置候補における挿入対象記号を、入力文に挿入する処理を行う。ここでは、変換候補記号格納部9に格納された結果に沿って挿入を行う際に、複数の同じ記号が入力文中に出現する可能性があるため、記号挿入位置候補ごとに特定された記号に与えられている文特徴量を用いて、複数の同じ記号が入力文に出現するのを防いでいる。以下、文字列変換部5が実行する処理を、図15のフローチャートに沿って説明する。
【0060】
ステップ61)文字列変換部5は、変換候補記号格納部9から、各記号挿入位置候補の記号を抽出する。
【0061】
ステップ62)文字列変換部5は、変換候補記号格納部9から抽出した記号に、複数の同一記号が含まれるか否かを確認する。含まれる場合は、ステップ63に移行する。含まれない場合は、ステップ65に移行して、変換候補記号格納部9に該記号を格納する。
【0062】
ステップ63)文字列変換部5は、変換候補記号格納部9に含まれる複数の同一記号のうち、より入力文に適した記号を選定するため、複数の同一記号にそれぞれに与えられている文特徴量のうち、最も文特徴量が大きい記号を変換候補とし、変換候補記号格納部9に該記号を格納する。複数の同一記号のうち、最も文特徴量が大きい記号以外の記号は変換候補記号格納部9に格納しない。このような処理を、複数同一記号の集合のそれぞれについて行う。
【0063】
ステップ64)文字列変換部5は、上記の処理により変換候補記号格納部9に格納された記号を、入力文におけるそれぞれの挿入位置に挿入し、記号を挿入した文を出力結果として出力部2を介して出力する。
【0064】
これまでに説明した記号入力支援装置10は、例えば、CPUやメモリ等を備えたコンピュータに、各処理に対応するプログラムを実行させることにより実現可能である。当該プログラムは、可搬メモリ等のコンピュータ読み取り可能な記録媒体に記録して配布してもよいし、ネットワーク上のサーバからダウンロードすることもできる。このように、記号入力支援装置10をコンピュータで実現する場合、文字列等の処理データは、メモリ等に記憶され、プログラムの命令に従って、適宜、CPUにより読み出されて処理されることになる。なお、上記「コンピュータ」は、PC端末等に限らず、例えば、携帯電話機等、コンピュータと同等の機能を備えた様々な機器を含む意味で使用している。
【0065】
また、記号入力支援装置10は、1つのコンピュータで実現してもよいし、複数のコンピュータを、ネットワークを介して接続することにより実現してもよい。例えば、複数の格納部のうちの1つ又は複数を外部のサーバ装置として構成することは、記号入力支援装置10を複数のコンピュータで実現する場合の一例である。また、記号出現頻度学習部3と、それ以外の機能部とを別々のコンピュータで構成することも、記号入力支援装置10を複数のコンピュータで実現する場合の一例である。更に、文字列変換部5とそれ以外の機能部とを別々のコンピュータで構成してもよい。
【0066】
(実施の形態の効果)
本実施の形態に係る技術によれば、記号を特定する際に、事前に、記号と文特徴量の関係性や、記号と出現位置の関係性、記号と役割の関係性を学習し、学習結果に基づいて挿入を行うため、文章の内容を考慮し、記号の実際の使われ方を反映した結果を得ることができる。
【0067】
また、記号の出現における学習の際に、記号と記号の出現位置に着目した学習を行うことにより、実際の使われ方に沿った出現位置に記号を挿入することが可能となる。
【0068】
また、学習の際に、記号と記号が含まれる文の、共起単語情報、コンテクスト情報、記号辞書中の語との共起情報を学習することにより、文脈に即した記号の挿入が可能となる。
【0069】
更に、記号が単語として用いられる役割に着目した学習を行うことで、記号の役割を考慮した挿入が可能となる。
【産業上の利用可能性】
【0070】
本発明は、入力文のコンテクストに適合した記号を、入力文の適切な位置に挿入する装置に適用可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【符号の説明】
【0071】
1 入力部
2 出力部
3 記号出現頻度学習部
4 挿入記号選定部
5 文字列変換部
6 学習用データ格納部
7 学習結果格納部
8 語義辞書格納部
9 変換候補記号格納部
10 記号入力支援装置
【特許請求の範囲】
【請求項1】
入力文に記号を挿入するための記号入力支援装置であって、
学習用の文中の各記号について、共起する単語との出現頻度を表す共起単語情報と、コンテクスト情報と、当該記号と記号ごとに与えられた所定の辞書中の語との共起情報とを算出し、算出結果を学習結果として学習結果格納手段に格納する記号出現頻度学習手段と、
前記入力文中における記号挿入位置候補の位置ごとに、挿入対象である各記号について、前記学習結果格納手段に格納された前記学習結果を用いて、前記記号挿入位置候補の各位置に記号を挿入した場合における文特徴量を算出し、当該文特徴量に基づき、挿入に最も適した記号と挿入位置を特定し、当該記号と挿入位置とを変換候補記号格納手段に格納する挿入記号選定手段と、
を備えたことを特徴とする記号入力支援装置。
【請求項2】
前記挿入記号選定手段は、前記入力文において前記記号挿入位置候補の位置に記号が挿入された場合における、共起単語情報、コンテクスト情報、前記所定の辞書中の語との共起情報を、前記学習結果を用いて求め、これらの情報に基づく記号出現確率を前記文特徴量として算出することを特徴とする請求項1に記載の記号入力支援装置。
【請求項3】
前記挿入記号選定手段により特定された記号と挿入位置とを用いて、前記入力文に記号を挿入する文字列変換手段を更に備えたことを特徴とする請求項1又は2に記載の記号入力支援装置。
【請求項4】
前記文字列変換手段は、前記挿入記号選定手段により、複数の同一の記号が特定された場合において、当該複数の同一の記号に対応するそれぞれの文特徴量に基づいて、当該複数の同一の記号のうちの1つの記号を選択し、当該記号を、前記入力文における当該記号に対応する挿入位置に挿入することを特徴とする請求項3に記載の記号入力支援装置。
【請求項5】
入力文に記号を挿入するための記号入力支援装置が実行する記号入力支援方法であって、
学習用の文中の各記号について、共起する単語との出現頻度を表す共起単語情報と、コンテクスト情報と、当該記号と記号ごとに与えられた所定の辞書中の語との共起情報とを算出し、算出結果を学習結果として学習結果格納手段に格納する記号出現頻度学習ステップと、
前記入力文中における記号挿入位置候補の位置ごとに、挿入対象である各記号について、前記学習結果格納手段に格納された前記学習結果を用いて、前記記号挿入位置候補の各位置に記号を挿入した場合における文特徴量を算出し、当該文特徴量に基づき、挿入に最も適した記号と挿入位置を特定し、当該記号と挿入位置とを変換候補記号格納手段に格納する挿入記号選定ステップと、
を備えたことを特徴とする記号入力支援方法。
【請求項6】
前記挿入記号選定ステップにおいて、前記記号入力支援装置は、前記入力文において前記記号挿入位置候補の位置に記号が挿入された場合における、共起単語情報、コンテクスト情報、前記所定の辞書中の語との共起情報を、前記学習結果を用いて求め、これらの情報に基づく記号出現確率を前記文特徴量として算出することを特徴とする請求項5に記載の記号入力支援方法。
【請求項7】
前記挿入記号選定ステップにより特定された記号と挿入位置とを用いて、前記入力文に記号を挿入する文字列変換ステップを更に備えたことを特徴とする請求項5又は6に記載の記号入力支援方法。
【請求項8】
前記文字列変換ステップにおいて、前記記号入力支援装置は、前記挿入記号選定ステップにより、複数の同一の記号が特定された場合において、当該複数の同一の記号に対応するそれぞれの文特徴量に基づいて、当該複数の同一の記号のうちの1つの記号を選択し、当該記号を、前記入力文における当該記号に対応する挿入位置に挿入することを特徴とする請求項7に記載の記号入力支援方法。
【請求項9】
コンピュータに、請求項5ないし8のうちいずれか1項に記載の記号入力支援方法における各ステップを実行させるためのプログラム。
【請求項1】
入力文に記号を挿入するための記号入力支援装置であって、
学習用の文中の各記号について、共起する単語との出現頻度を表す共起単語情報と、コンテクスト情報と、当該記号と記号ごとに与えられた所定の辞書中の語との共起情報とを算出し、算出結果を学習結果として学習結果格納手段に格納する記号出現頻度学習手段と、
前記入力文中における記号挿入位置候補の位置ごとに、挿入対象である各記号について、前記学習結果格納手段に格納された前記学習結果を用いて、前記記号挿入位置候補の各位置に記号を挿入した場合における文特徴量を算出し、当該文特徴量に基づき、挿入に最も適した記号と挿入位置を特定し、当該記号と挿入位置とを変換候補記号格納手段に格納する挿入記号選定手段と、
を備えたことを特徴とする記号入力支援装置。
【請求項2】
前記挿入記号選定手段は、前記入力文において前記記号挿入位置候補の位置に記号が挿入された場合における、共起単語情報、コンテクスト情報、前記所定の辞書中の語との共起情報を、前記学習結果を用いて求め、これらの情報に基づく記号出現確率を前記文特徴量として算出することを特徴とする請求項1に記載の記号入力支援装置。
【請求項3】
前記挿入記号選定手段により特定された記号と挿入位置とを用いて、前記入力文に記号を挿入する文字列変換手段を更に備えたことを特徴とする請求項1又は2に記載の記号入力支援装置。
【請求項4】
前記文字列変換手段は、前記挿入記号選定手段により、複数の同一の記号が特定された場合において、当該複数の同一の記号に対応するそれぞれの文特徴量に基づいて、当該複数の同一の記号のうちの1つの記号を選択し、当該記号を、前記入力文における当該記号に対応する挿入位置に挿入することを特徴とする請求項3に記載の記号入力支援装置。
【請求項5】
入力文に記号を挿入するための記号入力支援装置が実行する記号入力支援方法であって、
学習用の文中の各記号について、共起する単語との出現頻度を表す共起単語情報と、コンテクスト情報と、当該記号と記号ごとに与えられた所定の辞書中の語との共起情報とを算出し、算出結果を学習結果として学習結果格納手段に格納する記号出現頻度学習ステップと、
前記入力文中における記号挿入位置候補の位置ごとに、挿入対象である各記号について、前記学習結果格納手段に格納された前記学習結果を用いて、前記記号挿入位置候補の各位置に記号を挿入した場合における文特徴量を算出し、当該文特徴量に基づき、挿入に最も適した記号と挿入位置を特定し、当該記号と挿入位置とを変換候補記号格納手段に格納する挿入記号選定ステップと、
を備えたことを特徴とする記号入力支援方法。
【請求項6】
前記挿入記号選定ステップにおいて、前記記号入力支援装置は、前記入力文において前記記号挿入位置候補の位置に記号が挿入された場合における、共起単語情報、コンテクスト情報、前記所定の辞書中の語との共起情報を、前記学習結果を用いて求め、これらの情報に基づく記号出現確率を前記文特徴量として算出することを特徴とする請求項5に記載の記号入力支援方法。
【請求項7】
前記挿入記号選定ステップにより特定された記号と挿入位置とを用いて、前記入力文に記号を挿入する文字列変換ステップを更に備えたことを特徴とする請求項5又は6に記載の記号入力支援方法。
【請求項8】
前記文字列変換ステップにおいて、前記記号入力支援装置は、前記挿入記号選定ステップにより、複数の同一の記号が特定された場合において、当該複数の同一の記号に対応するそれぞれの文特徴量に基づいて、当該複数の同一の記号のうちの1つの記号を選択し、当該記号を、前記入力文における当該記号に対応する挿入位置に挿入することを特徴とする請求項7に記載の記号入力支援方法。
【請求項9】
コンピュータに、請求項5ないし8のうちいずれか1項に記載の記号入力支援方法における各ステップを実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2011−248538(P2011−248538A)
【公開日】平成23年12月8日(2011.12.8)
【国際特許分類】
【出願番号】特願2010−119800(P2010−119800)
【出願日】平成22年5月25日(2010.5.25)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成23年12月8日(2011.12.8)
【国際特許分類】
【出願日】平成22年5月25日(2010.5.25)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]