説明

文字変換用辞書の更新方法および文字変換用辞書の更新情報作成システム

【課題】端末装置の変換用辞書をユーザの志向に適合する内容に更新する。
【解決手段】文字入力システム10を有する携帯端末1から、学習辞書100や利用頻度テーブル104など文字変換処理での単語の利用状況を示す情報を送信する。アップデート処理システム2には推定処理部202により携帯端末1から送信された情報を用いて文字変換処理での単語の利用状況を分析することによって、様々な分野別に設定された分野別辞書群21の各分野の中から携帯端末1のユーザが志向する分野を推定する。アップデート辞書作成部203は、携帯端末1の可変辞書103を対象に、推定された分野に属する単語が増加し、推定されなかった分野に属する単語が削減された内容のアップデート辞書を作成する。アップデート辞書は携帯端末1に送信され、更新処理部12によって可変辞書103に置き換えられる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文字変換機能を有する端末装置に対するメンテナンス処理に関するもので、特に、文字変換処理に使用される辞書(以下、「文字変換用辞書」または単に「辞書」という。)を更新するための方法および文字変換用辞書の更新情報を作成するコンピュータシステムに関する。
【背景技術】
【0002】
携帯電話をはじめとする文字変換機能を有する端末装置には、機種が同じであれば全て同じ内容の変換用辞書が搭載されるが、文字入力のために必要とされる単語は、それぞれのユーザが関心を持つ分野や、職業、居住地、年齢、性別などによって異なる。また辞書に登録されていない単語が呼び出されるようにするには、ユーザ自身が単語を登録しなければならず、ユーザに負担がかかる。
【0003】
上記の問題点に関連する技術として、変換用辞書を必要に応じてアップデートする技術がある。
たとえば特許文献1には、個々の端末装置から文字入力履歴の送信を受け付けて、各受信情報を用いて新語リストを生成し、この新語リストが追加された辞書を各端末装置に送信することが記載されている。
【0004】
特許文献2には、端末装置において、文字変換処理において選択された単語がどの分野に関係するものであるかを判別してその判別結果を単語に対応づけて蓄積し、蓄積された情報に基づいて追加の必要がある分野を選択し、その分野用の辞書を辞書サーバ装置からダウンロードすることが記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2009−205350号公報
【特許文献2】特開2010−39847号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に記載された発明は、流行語など、多くのユーザが使用するようになった単語を各端末装置の辞書に追加することができるというメリットがあるが、各ユーザの辞書が画一的に更新されるだけで、各ユーザの細かい志向の違いに対応することはできない。
【0007】
特許文献2に記載された発明によれば、個々の端末装置における文字入力の履歴に基づいて辞書を追加することができる。しかし、この発明では、どの分野の辞書をダウンロードするかを端末装置で判別しているため、端末装置に登録されていない新規分野の単語を追加するのは困難である。勿論、新しい分野に対応できるように端末装置の機能を更新すれば良いが、そうなると、ユーザが必要としない分野に関する機能まで更新される可能性があり、端末装置の処理が煩雑になる。またメモリも無駄に使用される。
また携帯型の端末装置では、メモリ容量に制限があるために辞書のサイズにも上限が設けられている場合が多いが、特許文献2には辞書データを追加することしか記載されておらず、不要な辞書データを削除するという思想が認められない。
【0008】
本発明は上記の問題点に着目し、端末装置の変換用辞書をユーザの志向に適合する内容に更新すること、およびその更新を、端末装置に大きな負担をかけることなく、容易に実施できるようにすることを課題とする。
【課題を解決するための手段】
【0009】
本発明による文字変換用辞書の更新方法では、文字変換機能を有する端末装置に組み込まれている文字変換用の辞書のうち更新の対象となる部分と同内容の辞書データを含む管理情報が保存される管理情報保存手段と、複数種の分野別に単語が分類されて登録された単語登録手段とを具備するコンピュータシステムを構築し、このコンピュータシステムに、端末装置における文字変換処理で変換後の単語として利用された単語の利用状況を示す情報をコンピュータネットワークを介して送信する。
この情報の送信を受けたコンピュータシステムでは、当該情報を用いて前記端末装置における文字変換処理での単語の利用状況を分析することによって、端末装置のユーザが志向する分野を推定する。そして管理情報と比べてユーザが志向すると推定された分野につき単語登録手段に登録されている単語が増える一方で、ユーザが志向すると推定されなかった分野に属する単語が削減された内容の更新用の辞書の辞書データを作成し、作成された辞書データを端末装置に送信するためにコンピュータネットワークに出力する。また端末装置では、コンピュータネットワークを介して更新用の辞書データの送信を受け付けたことに応じて、自装置の変換用辞書のうちの更新の対象とされる部分を受信したデータに基づき更新する。
【0010】
「ユーザが志向する分野」とはユーザの意識が向いている分野を意味する。たとえばユーザの趣味に関する分野や関心を寄せている分野、ユーザが属する社会(地域、職場、学校など)に関係する分野などが考えられる。ここで推定される分野は1つに限らず、複数の分野を推定することができる。その場合の更新用辞書には、推定された分野毎に、その分野に属する単語を追加することができる。
【0011】
コンピュータシステムへの情報の送信は端末装置から直接行ってもよいが、これに限らず、端末装置から他の装置を介してコンピュータシステムに送信してもよい。コンピュータシステムからの更新用の辞書データの送信も同様に、コンピュータシステムから直接端末装置に送信してもよいし、他の装置を介して端末装置に送信してもよい。また、管理情報保存手段に保存される管理情報には、少なくも更新の対象となる辞書データが含まれていればよいが、文字変換用の辞書の全辞書データを含めてもよい。また管理情報は端末装置側の文字変換用辞書と同じ形式の情報に限らず、文字変換用辞書の中の更新の対象となる部分に含まれる単語を判別できる内容のものであればよい。
【0012】
上記の方法を実施するための情報処理システムは、端末装置に組み込まれている文字変換用の辞書のうち更新の対象となる部分と同内容の辞書データを含む管理情報が保存される管理情報保存手段と、複数種の分野別に単語が分類されて登録された単語登録手段と、端末装置における文字変換処理で変換後の単語として利用された単語の利用状況を示す情報をコンピュータネットワークを介して受け付ける入力手段と、入力手段により受け付けられた情報を用いて端末装置における文字変換処理での単語の利用状況を分析することによって、端末装置のユーザが志向する分野を推定する推定手段と、推定手段による推定結果に基づいて更新用の辞書の辞書データを作成する更新用辞書作成手段と、更新用辞書作成手段により作成された辞書データを端末装置に送信するためにコンピュータネットワークに出力する出力手段とを具備する。さらに更新用辞書作成手段は、管理情報と比較して推定手段によりユーザが志向すると推定された分野につき単語登録手段に登録されている単語が増える一方で、ユーザが志向すると推定されなかった分野に属する単語が削減された内容の更新用辞書を形成するための辞書データを作成する。
【0013】
本発明によれば、推定処理の結果に基づきユーザが志向すると推定された分野に属するが現在の変換用辞書に含まれていない単語を追加する一方で、現在の変換用辞書に含まれているが、ユーザにより選択される可能性が低い単語が削減された内容になるように、変換用辞書を更新することができる。端末装置では、文字変換処理で変換後の単語として利用された単語の利用状況を送信することによって、更新用辞書の辞書データの送信を受け付けて変換用辞書を更新することができるので、端末装置に大きな負担をかけずに変換用辞書を更新することができる。また辞書に含めることが可能な分野が増えた場合でも、システム側の単語登録手段に新分野の単語を登録すれば、端末装置のユーザが新分野を志向する場合には、その分野の単語が追加された更新用辞書を作成して、端末装置の辞書を更新することができる。
【0014】
上記のシステムの一実施形態では、更新用辞書作成手段は、更新後の辞書のサイズをあらかじめ定められた上限値以内にすること、および変換後の単語として利用された単語を更新後の辞書から削除しないことを条件に、更新用辞書に含める単語を選択する。このようにすれば、端末装置の辞書のサイズに制限が設けられていても、その制限を超えないように単語数を調整しながら使用される可能性の高い単語と使用される可能性の低い単語とを入れ替えることができる。また、ユーザが志向していない分野に関する単語であっても、過去の文字入力処理で使用されたものは維持されるので、利用される可能性のある単語を呼び出せなくなる可能性を低くすることができる。
【0015】
上記システムの他の実施形態では、入力手段が受け付ける情報には、端末装置の文字変換用辞書に登録されている各単語の利用頻度が格納された利用頻度テーブルの情報が含まれる。またこの実施形態には、利用頻度テーブルが更新用辞書に適合する内容になるように利用頻度テーブルの更新情報を作成する利用頻度テーブル更新手段がさらに含まれ、出力手段は、更新用辞書の辞書データと共に利用頻度テーブルの更新情報を出力する。
【0016】
変換用辞書の各単語の利用頻度を利用頻度テーブルにより管理していると、端末装置の辞書に新しい単語を追加したり、登録されていた単語を削除した場合に、更新後の辞書と利用頻度テーブルの情報との整合がとれなくなる。しかし上記の実施形態によれば、追加された単語に対応する利用頻度を挿入したり、削除された単語に対応する利用頻度を削除するなど、更新用辞書の構成に適合する内容になるように利用頻度テーブルを更新することができ、変換用辞書の更新後に各単語に対応する利用頻度を参照することができる。
【0017】
他の実施形態では、入力手段が受け付ける情報には、上記の利用頻度テーブルの情報のほか、端末装置の文字変換処理で変換後の単語として選択された単語が蓄積された学習辞書の辞書データが含まれる。推定手段は、入力手段により入力された情報を用いて変換後の単語として利用された単語およびその利用頻度を判別し、判別された各単語と複数種の分野との関係に基づいてユーザが志向する分野を推定する。また更新用辞書作成手段は、推定手段により判別された利用単語を全て含む更新用辞書の辞書データを作成する。
さらにこの実施形態では、利用頻度テーブルが更新用辞書に適合し、かつ各利用単語に推定手段により判別された当該単語の利用頻度が適用された内容になるように、利用頻度テーブルの更新情報を作成する利用頻度テーブル更新手段が含まれる。出力手段は、更新用辞書の辞書データと共に利用頻度テーブルの更新情報を出力する。
【0018】
上記の実施形態によれば、携帯端末の文字変換処理に利用された単語の全てが更新後の辞書に引き継がれると共に、これらの単語に関する利用頻度がそれぞれこれまでの利用状況に基づく数値に設定されるように利用頻度テーブルを更新することができる。よって、変換用辞書が更新された後も、これまでの学習結果を反映した文字入力処理を行うことができる。
【発明の効果】
【0019】
本発明によれば、個々の端末装置での文字入力処理における単語の利用状況に基づいて、ユーザ毎にそのユーザが志向する分野を推定し、推定された分野に属する単語が増えるように変換用辞書を更新することができるので、同じ機種であっても、使用されるうちに、変換用辞書は、ユーザによって内容の異なるものになる。よって文字入力における利便性を高めることが可能になる。
【0020】
また本発明によれば、端末装置は、自装置における単語の利用状況を示す情報を送信することにより、更新用辞書の辞書データを受信してこれにより変換用辞書を更新することができるので、端末装置に大きな負荷をかけずに変換用辞書を更新することが可能になる。またユーザに利用される可能性の低い単語が削減されるので、新しい単語が追加されて辞書の容量が膨大になるのを防ぐことができる。
【図面の簡単な説明】
【0021】
【図1】文字入力システムを有する携帯型端末装置およびアップデート処理システムを含むネットワークシステムの機能ブロック図である。
【図2】端末装置とアップデート処理システムとにおける処理の流れを対応づけて示したシーケンス図である。
【図3】可変辞書および利用頻度テーブルの更新の具体例を示す説明図である。
【図4】図2のステップQ,Rの詳細な手順を示すフローチャートである。
【図5】図2のステップSの詳細な手順を示すフローチャートである。
【図6】図2のステップTの詳細な手順を示すフローチャートである。
【発明を実施するための形態】
【0022】
図1は、文字入力システム10を有する携帯型端末装置1(以下、「携帯端末1」という。)と、この携帯端末1の文字変換用辞書のアップデートサービスに関わるシステム2(以下、「アップデート処理システム2」という。)とを含むネットワークシステムを示す。
【0023】
携帯端末1はたとえば携帯電話であって、文字入力システム10のほか、分析用データ送信部11や更新処理部12の機能が設定される。分析用データ送信部11は、分析用データ転送サーバ3を介してアップデート処理システム2に分析用データを送信する。更新処理部12は、アップデート送信用サーバ4を介して後記するアップデート用の情報を受信し、辞書のアップデート処理を実行する。
【0024】
アップデート処理システム2は、複数台のコンピュータにより構成され、複数種の機種の携帯端末1に対応できるように設計されている。システム内には、ユーザ毎の情報を管理するためのユーザ別データベース20や分野別辞書群21が組み込まれ、分析用データ入力部201、推定処理部202、アップデート辞書作成部203、利用頻度テーブル作成部204、送信処理部205などの機能が設定される。なお、各機能が確保できるのであれば、1台のコンピュータによりアップデート処理システム2を構成してもよい。
【0025】
この実施例の携帯端末1と各サーバ3,4との間の通信、および各サーバ3,4とアップデート処理システム2との間の通信には、いずれもインターネットが用いられるが、サーバ3,4とアップデート処理システム2との間の通信は専用回線により行ってもよい。分析用データ転送サーバ3およびアップデート送信用サーバ4は1つに統合してもよいし、反対に、各サーバ3,4を複数のコンピュータにより構成してもよい。またサーバ3,4を置かずに、アップデート処理システム2と携帯端末1との間で直接に通信をしてもよい。
【0026】
携帯端末1の文字入力システム10には、学習辞書100、ユーザ辞書101、基本辞書102、可変辞書103、利用頻度テーブル104、およびこれらを用いて文字入力処理を行う文字入力処理部105が含まれる。各辞書100〜103は、いずれも1つのデータファイルに限らず、複数のデータファイルの集合として構成される場合もある。
【0027】
基本辞書102は、各ユーザに共通して利用される可能性が高い単語を集めた辞書であり、書き換えが禁止されている。可変辞書103には基本辞書102に含まれていない単語のほか、更新の可能性のある単語が基本辞書102と重複して登録される。この可変辞書103はアップデート処理システム2から送信される情報によって更新することができる。また基本辞書102および可変辞書103に含まれる単語単位の辞書データには、後述する図3に示すように、単語の読み、表記、品詞情報、初期頻度などが含まれる。また各辞書データには識別番号が割り当てられる。以下では、この識別番号を「単語番号」という。
【0028】
このほか、基本辞書102や可変辞書103には、入力された単語に関連する単語を呼び出しやすくするために、繋がり関係を持つ単語への紐付け情報が設定された単語が含まれる。たとえば「ありがとう」には「ございます」が紐付けられ、「京都」には「駅」「タワー」などが紐付けられる。また各辞書102,103には、入力された仮名文字列に前方一致する単語を呼び出すための入力予測利用情報や、確定された単語に関連する単語を呼び出す機能(予測入力)の利用を許可する情報も含まれる。
【0029】
ユーザ辞書101には、ユーザの登録操作により設定された単語が登録される。この辞書101の辞書データにも、読み、表記、品詞情報が含まれるが、初期頻度は含めなくてもよい。
【0030】
学習辞書100には、文字入力処理において入力文字列として確定された単語および単語間の繋がりの関係が登録される。図1中の100aは、学習辞書100内の一部のデータを抜粋したものである。この抜粋データ100aに示すように、学習辞書100には、確定された単語毎にその読みおよび表記、品詞情報、1つ前の単語に繋がる単語であるか否かを示す情報(繋がり情報)を含むレコードが格納される。各レコードは時系列で蓄積されるが、学習辞書100の容量には制限があり、容量が上限値に達すると、その後は、一番古い情報が削除されてから新しい情報が追加される。
【0031】
利用頻度テーブル104には、基本辞書102および可変辞書103に登録されている単語を対象に、各対象単語の単語番号と利用頻度との組み合わせが格納される。
なお、基本辞書102および可変辞書103における単語番号の設定範囲は、両者の間で単語番号が重複することがないように分離されている。これに応じて利用頻度テーブル104も、基本辞書102内の単語の利用頻度を管理するパート(基本辞書用パート)と、可変辞書103の単語の利用頻度を管理するパート(可変辞書用パート)とに分かれている。
【0032】
文字入力処理部105は、図示しない入力部から変換前の仮名文字列の入力を受け付け、上記の各辞書100〜103を参照して変換候補の単語を抽出する。また、辞書102,103に登録されている初期頻度、利用頻度テーブル104に登録されている利用頻度、および学習辞書100の繋がり情報から割り出される優先度などに基づいて各候補の表示順序を定め、定められた順序で各候補を表示する。表示された候補のいずれかが選択されると、文字入力部105は、選択された候補の単語を確定し、この単語に関するレコードを学習辞書100に追加する。また基本辞書102や可変辞書103に登録されている単語が確定された場合には、その単語の単語番号に組み合わせられている利用頻度を更新する。
【0033】
上記の携帯端末1のユーザがアップデート処理システム2への登録処理を行うと、アップデート処理システム2のユーザ別データベース20に、そのユーザ専用の情報格納エリア(以下「ユーザ専用エリア」という。)が設定される。このユーザ専用エリアには、携帯端末1内の基本辞書102および可変辞書103の初期データ(アップデートが開始される前のデータ)、前回送信されたアップデート辞書のバックアップ情報、アップデートのために携帯端末1から送信された分析用データや分析結果などが保存される。なお、これらアップデート処理システム2に保存される情報は、携帯端末1内の基本辞書102や可変辞書103と同形式の辞書データにより形成される。
【0034】
なお、基本辞書102および可変辞書103の初期データは、携帯端末1の機種が同じであれば同内容となるため、同じ機種を使用するユーザ毎に共通のデータとして登録してもよい。たとえば、ユーザ別データベース20に機種毎の領域を設定して、各領域にそれぞれ該当する機種の基本辞書102および可変辞書103の初期データを登録し、各ユーザ専用エリアにそれぞれのユーザの携帯端末1の機種情報を登録しておくことができる。
【0035】
分野別辞書群21は、様々な分野別に、その分野に関係する単語を収集することにより作成される。たとえば、年齢別にその年齢でよく使う単語を集めた辞書が作成され、地域別にその地域の方言、地名、名産品などを集めた辞書が作成される。また学問、スポーツ、音楽、ファッション、芸能情報、政治経済、時事問題などのカテゴリに関する情報を細分化することによって多数の辞書が作成される。また顔文字を集めた辞書や絵文字を集めた辞書も作成される。これらの辞書も、携帯端末1の基本辞書102や可変辞書103と同形式の辞書データにより形成される。
なお、分野別辞書と登録単語との関係は一対一にする必要はなく、複数の分野別辞書に重複登録される単語があってもよい。
【0036】
上記の登録が完了した携帯端末1とアップデート処理システム2との間では、以後、図2に示すシーケンスに沿って処理を実行する。以下、この図2を参照して、携帯端末1の可変辞書103をアップデートする(可変辞書103を改良された内容に更新することを言う。)ために具体的に実施される処理を説明する。
【0037】
まず携帯端末1の分析用データ送信部11は、自装置の学習辞書100への情報の蓄積状態に基づいて分析用データの送信時期を判断する(ステップA)。この実施例では学習辞書100への蓄積がほぼ一巡するタイミングを分析用データの送信時期としている。情報処理としては、たとえば学習辞書100における未送信の単語が占める割合を求め、この割合があらかじめ定めた上限値(100パーセントに近い値)を超えたことをもって送信の時期であると判断する。
【0038】
分析用データ送信部11は、送信の時期を判断すると、現在の学習辞書100およびユーザ辞書101ならびに利用頻度テーブル104を、分析用データとして送信する(ステップB)。また携帯端末1の可変辞書103の容量には制限が設けられているので、ステップBでは、アップデート辞書のサイズの上限値を通知する処理も行われる。
【0039】
アップデート処理システム2では、上記の分析用データおよびアップデート辞書のサイズの上限値を分析用データ入力部201により受け付け、ユーザ別データベース20のユーザ専用エリアに格納する(ステップP)。
【0040】
つぎに推定処理部202が、受信した分析用データに対する分析処理を行って、携帯端末1で利用された単語(以下、「利用単語」という。)およびその利用頻度を取得する(ステップQ)。さらに推定処理部202は、分野別辞書群21のインデックス情報を用いて各利用単語がどの分野に属するかを判別し、その判別結果に基づいて単語の利用状況に適合する分野を推定する(ステップR)。具体的には、携帯端末1で利用されている頻度が高い分野が利用状況に適合する分野、言い換えればユーザが志向する分野であると推定される。なお、ユーザが志向する分野には、年齢、性別、職業、居住地域などのユーザの属性に応じて決まるものと、ユーザの趣味や関心によって決まるものとがある。
【0041】
推定処理部202による処理が終了すると、アップデート辞書作成部203により、アップデート辞書を作成する処理が実施される(ステップS)。詳細は後述するが、この処理では、適合分野に属する単語を増やす一方で、適合分野以外の分野に属する単語を削減する。ただし、適合分野に属さない単語であっても、過去に利用されている単語は残す。また辞書101,102,103に登録されていない利用単語(学習辞書100のみに登録されている単語)をアップデート辞書に追加する。またアップデート辞書のサイズが携帯端末1から通知された上限値以内のサイズに収まるように、単語の数が調整される。
【0042】
アップデート辞書が作成されると、利用頻度テーブル作成部204の処理に移り、アップデート辞書に整合する内容に更新された可変辞書用パートを含む利用頻度テーブルが作成される(ステップT)。アップデート辞書では、元の可変辞書103に含まれていた単語の単語番号が変動する場合があるが、更新後の可変辞書パートはその変動後の単語番号に対応したものになる。またこれまでに携帯端末1で利用された単語に関しては、新規にアップデート辞書に登録されたものも含め、ステップQで取得した利用頻度が設定される。
【0043】
この後は、送信処理部205により、アップデート辞書作成部203により作成されたアップデート辞書および利用頻度テーブル作成部204により作成された利用頻度テーブルが送信される。送信された情報はアップデート送信用サーバ4を経て携帯端末1に送信される。携帯端末1では、上記の送信情報を更新処理部12により受け付けて(ステップC)、アップデート辞書により現在の可変辞書103を更新すると共に、送信された利用頻度テーブルにより現在の利用頻度テーブル104を更新する(ステップD)。
【0044】
図3は、携帯端末1内の可変辞書103および利用頻度テーブル104のデータ構成がアップデート処理によってどのように変化するかを例示したものである。
先に述べたように、可変辞書103の単語単位の辞書データには、単語番号、読み、表記、品詞情報、初期頻度の各情報が含まれ、利用頻度テーブル104には単語番号と利用頻度との組み合わせが格納される。この例では、便宜上、可変辞書103内の各単語に、1から順に単語番号が割り当てられるものとする。
【0045】
図3中の(a)に示すアップデート前の可変辞書103には、地名を表す「浅草橋」、地名または人名を表す「足利」、一般名詞の「鮎」が含まれている。図中の(b)に示す利用頻度によれば、携帯端末1において利用されたのは「鮎」だけであり、しかもその利用頻度は1回である。
【0046】
図3中の(e)は、アップデート処理システム2の推定処理部202によって抽出された利用単語および利用頻度のリスト(以下、「利用単語リスト」という。)の一部を抜粋したものである。この例によれば、携帯端末1のユーザは、「あかん」「おおきに」「まいど」などの関西弁による単語を好んで利用している。これらの単語はアップデート前の可変辞書103には含まれていないが、ユーザが平仮名を直接入力することによって入力されて学習辞書100に登録されたものである。
なお、利用単語リストは、アップデート辞書の作成に使用されるもので、ユーザ別データベース20のユーザ専用エリアに保存される。
【0047】
図3の例では、推定処理部202が、上記の分析結果から、単語の利用状況に適合する分野として「関西」という分野を推定し、この推定結果を受けたアップデート処理部203は「関西」の分野別辞書に含まれている単語を追加し、「関西」と関係がなく、利用されていない単語を除いたアップデート辞書を作成している。この結果、図中の(c)に示すように、アップデート後の可変辞書103には、実際に利用された「あかん」「おおきに」「まいど」のほか、「阿倍野」「阿波座」といった関西の地名を示す単語が含まれる。なお、これらの地名も更新前の可変辞書103には含まれていなかったものである。
アップデート前の可変辞書103に含まれていた「浅草橋」や「足利」は削除されているが、「鮎」は利用されているので残されている。
【0048】
アップデート処理での単語の追加や削除に伴い、「鮎」の単語番号は3から4に変更されているが、図中の(d)に示す更新後の利用頻度を見ると、単語番号4にはアップデート前の単号番号3の利用頻度が引き継がれている。またアップデートにより追加された「あかん」「おおきに」「まいど」の利用頻度は、更新前の利用頻度テーブル104には保存されていないが、更新後の利用頻度テーブル104には、それぞれ該当する単語番号に分析処理により抽出された利用頻度が組み合わせられて保存されている。
【0049】
上記の例の「阿倍野」「阿波座」のように、アップデート後の可変辞書103にはこれまでに利用されていない単語が追加されるが、追加される単語はユーザが志向する分野に属する単語であるので、他の分野の単語よりも利用される可能性が高いと思われる。
特に、趣味に関する分野やユーザが関心を持つ分野に関して追加された単語は、利用される可能性がかなり高いと思われる。
【0050】
よって上記のアップデート処理が行われると、ユーザが文字入力処理において新しい単語を入力する場合に目的の単語が候補として呼び出されやすい状態となり、変換処理が容易になる。また、更新後の利用頻度テーブルでも、過去に利用された単語の利用頻度が維持されるので、アップデート前に学習された内容が損なわれることもない。
【0051】
以下、図4〜図6を参照して、アップデート処理システム2の推定処理部202、アップデート辞書作成部203、利用頻度テーブル作成部204による処理の詳細な手順を説明する。
【0052】
図4は、推定処理部202による処理(ステップQ,R)の詳細な手順を示す。
このフローチャートのステップQ1からQ4までは、ステップQを細分化したものである。まずステップQ1では、携帯端末1から送信された分析用データ中の利用頻度テーブルと、既にユーザ専用エリアに登録されていたバックアップ辞書とを使用する。なお、バックアップ辞書には、登録処理時に携帯端末1から送信された基本辞書と一段階前のアップデート処理で作成されたアップデート辞書が含まれるが、今回が初めてのアップデート処理である場合には、アップデート処理システム1にあらかじめ登録されている可変辞書103の初期データがバックアップ辞書に含められる。すなわちバックアップ辞書は現在の携帯端末1に格納されている基本辞書102および可変辞書103と同じ内容のものであり、利用頻度テーブルもこれらに対応するものである。
【0053】
ステップQ1では、バックアップ辞書の各単語の単語番号により利用頻度テーブルを照合し、利用頻度が1以上の単語およびその利用頻度を抽出する。
【0054】
つぎにステップQ2では、携帯端末1から送信された分析用データ中のユーザ辞書101を前回送信されたユーザ辞書101と比較するなどして、ユーザ辞書101に新たに登録された単語を抽出する。そして抽出された単語に一定数の利用頻度を設定する。つぎのステップQ3では、携帯端末1から送信された学習辞書100から単語を抽出しながら同一の単語の出現頻度を計数する。
【0055】
ステップQ1の処理によれば、これまでに基本辞書102や可変辞書103から読み出されて利用された全ての単語をその利用頻度と共に取得することができる。また、ステップQ2およびQ3の処理によれば、最近利用された単語やその利用頻度を取得することができ、また基本辞書102や可変辞書103に登録されていない単語を取得することができる。ステップQ4では、これら3段階の処理による結果を統合することにより、利用単語および利用頻度を確定する。なお、利用頻度を統合する場合には、各ステップで重複して抽出された単語の利用頻度を単純に加算してもよいが、学習辞書100に含まれる単語の利用頻度に重みを付けるなど、次の推定処理の確度を高めるのに適した処理を実行するのが望ましい。
【0056】
ステップQ1〜Q4により確定された利用単語および利用頻度の組み合わせは、図3に示した利用単語リストとなってユーザ専用エリアに保存される。この利用単語リストは、以後の推定処理のほか、アップデート辞書の作成処理や利用頻度テーブルの作成処理にも使用される。
【0057】
利用単語リストが保存されると、推定処理に移り、ステップR1,R2を含むループLPを実行する。このループLPでは利用単語に順に着目し、分野別辞書群21のインデックス情報を用いて着目中の単語がどの分野に含まれるかを特定するステップR1と、特定された分野の評価値(初期値はゼロ)に着目中の単語の利用頻度に応じた数値を加算するステップR2とを繰り返す。これらの処理を全ての利用単語に対して実行することにより加算回数が多かった分野や、利用頻度の高い単語による値が加算された分野の評価値が高められる。
【0058】
ループLPが終了すると、ステップR3では、各分野の評価値の中にあらかじめ定めた基準値を超える値があるか否かを判別する。基準値を超える評価値が見つかった場合(ステップR3が「YES」)には、その評価値が得られた分野を適合分野に設定する(ステップR4)。
【0059】
一方、基準値を超える評価値が見つからなかった場合(ステップR3が「NO」)にはユーザ専用エリアから前回のアップデート処理のときに適合分野とされた分野を読み出し、これを適合分野として流用する。ただし、初回のアップデート処理など前回のアップデート処理の情報がない場合には「適合分野なし」と判断してよい。また、基準値を超える評価値が見つからずにステップR3が「NO」となった場合にも、前回の情報を流用せずに「適合分野なし」としてもよい。
【0060】
つぎに図5は、アップデート辞書作成部103による処理(図2のステップS)の詳細な手順を示す。この処理では、推定処理部102の処理により設定された分野毎の評価値を用いてアップデート辞書に含める候補の単語を抽出し、アップデート辞書用のエントリ領域に保存する。
【0061】
まずステップS1では、適合分野が設定されているか否かを判別し、設定されている場合(ステップS1が「YES」)には、ステップS2に進む。ステップS2では、分野別辞書群21中の適合分野の辞書から所定数の単語を抽出し、これらをアップデート辞書のエントリ領域(ユーザ専用エリア内に設定される作業領域である。)に保存する。ここでは評価値が高くなるほど抽出される単語が増えるようにする。また、優先度の高い単語から順に抽出するが、推定処理部102の分析処理により利用単語として認識された単語は抽出対象から除外する。また、適合分野が複数設定されている場合には、分野ごとに、その分野の評価値に応じた数の単語を抽出する。
なお、適合分野が設定されていない場合には、ステップS2はスキップされる。
【0062】
つぎにステップS3では、全ての分野の辞書を対象に、各ユーザに共通で使用されるものとして登録されている単語(新語を含む。)を初期頻度が高い順に抽出し、これらをエントリ領域に保存する。
なお、ここで抽出される新語は、アップデート処理システム2の運営者が分野別辞書群21の内容を見直すことにより登録されたものである。また抽出対象となる単語には、容易に見分けられるように、識別用のフラグなどが設定されている。
【0063】
つぎのステップS4では、推定処理部202の分析処理により作成された利用単語リスト中の各単語をエントリ領域に保存する。これにより過去に利用された単語の全てをアップデート辞書に引き継ぐことが可能になる。
【0064】
続いてステップS5では、分野別辞書群21の各辞書に評価値が低いものから順に着目し、着目した辞書に属する単語の中からアップデート辞書から除外する単語を選択する。この処理では、評価値が低いほど選択される単語が増えるようにする。ただし、いずれの分野でも初期頻度の低い単語から順に選択し、原則として、初期頻度が所定の値以上となる単語が残されるか、あらかじめ最小限度の数として定めた数の単語が残されるようにする。
【0065】
ステップS6では、ステップS5で選択された単語を除く各単語をエントリ領域に保存する。
ステップS5およびS6の処理によれば、適合分野に属さない分野やアップデート処理システム2に新規に設定された分野からもある程度の数の単語を抽出して、これらの単語をアップデート辞書に含めることができる。しかし、特に評価値がゼロまたはゼロに近い分野(ユーザに利用されていない分野)については、ステップS5でかなりの数の単語が選択される上に、次に述べる間引き処理の対象にもなるので、アップデート前の辞書より単語数が削減される。
【0066】
このように、ステップS2〜S6において、複数とおりの基準に基づいて単語が抽出され、アップデート辞書のエントリ領域に保存される。ステップS7では、エントリ領域内の各単語を読みなどに基づいてソートする。
【0067】
ステップS8では、複数のステップで重複して抽出された単語を、そのうちの1つを残して削除することにより、単語の重複登録を解消する。また削除後の辞書のサイズが、携帯端末1から通知された上限値に応じた数を上回る場合には、辞書のサイズが上限値以内になるように登録単語を間引く処理を行う。この間引きでは原則として、ステップS6で登録された単語の中から、属する分野の評価値や初期頻度が低い単語を選択して削除する。
【0068】
単語番号は各単語がエントリ領域に保存される際に仮設定され、ステップS7およびステップS8の処理を経ることによって単語番号が確定する。これによりアップデート辞書が完成する。ステップS9では、完成したアップデート辞書をバックアップ用に保存し、処理を終了する。
なお、エントリ領域内の情報は送信が終了するまで保持される。またステップS9では前回のアップデート辞書を上書きするが、これに限らず、毎回のアップデート辞書を残すようにしてもよい。
【0069】
最後の図6は、利用頻度テーブル作成部204による処理(図2のステップT)の詳細な手順を示す。
まずステップT1において、着目する単語を特定するためのカウンタnに単語番号の初期値(図3の例によれば「1」)を設定する。ステップT2では、アップデート辞書のエントリ領域から単語番号がnの単語を読み出し、この単語により利用単語リストを照合する。
【0070】
着目中の単語が利用単語リストに含まれている場合(ステップT3が「YES」)には、さらに利用単語リスト中の該当する単語の利用頻度を読み出し、これを着目中の単語の利用頻度に適用する(ステップT4)。一方、着目中の単語が利用単語リストに含まれていない場合(ステップT3が「NO」)には、ステップT5に進み、当該単語の利用頻度を0に設定する。
【0071】
ステップT6では、nの値に上記の利用頻度を組み合わせ、この組み合わせを利用頻度テーブルのエントリ領域に格納する。以下、nの値が上限値に達するまでnをインクリメントし(ステップT7,T8)、nにより特定される単語毎に同様の処理を実行する。この処理により、アップデート辞書における単語の利用頻度にそれぞれアップデート辞書と同じ単語番号が組み合わせられて保存されたテーブルが作成される。このテーブルは、利用頻度テーブルの可変辞書用パートに該当する。
【0072】
nの値が上限値に達すると(ステップT7が「YES」)、最後のステップT9に進む。このステップT9では、ユーザ専用領域に格納されている利用頻度テーブル(携帯端末1から送信された分析用データに含まれていたもの)から基本辞書用パートの情報を読み出し、これを上記のエントリ領域に追加する。これにより更新用の利用頻度テーブルが完成し、処理が終了する。
【0073】
なお、利用頻度テーブルの全てを更新することは必ずしも必要ではなく、可変辞書用パートの部分のみを更新してもよい。その場合には図6のステップT9の処理は不要となる。
【0074】
以上に説明したように、この実施例では、携帯端末1で利用された単語の履歴を分析することによって単語の利用状況に適合する分野を推定し、推定された分野に属する単語が増加すると共に、他の分野に属する単語で利用されていない単語が削減されたアップデート辞書を作成し、これを用いて携帯端末1の可変辞書103を更新する。また可変辞書103の更新後も、それまでに利用された単語に関しては過去の利用履歴に基づく頻度が引き継がれる。
これらの処理により、携帯端末1における文字入力の利便性が大幅に高められ、ユーザは効率の良い文字入力を行うことが可能になる。
【0075】
なお、上記の実施例では、携帯端末1における学習辞書100の蓄積情報がほぼ一巡するタイミングで分析用データを送信し、これを用いてアップデート処理を実施するものとしたが、分析用データの送信を複数回行ってからアップデート処理を実施してもよい。
たとえば、あらかじめアップデートを行うまでの送信の回数を定め、その回数に達するまでは、携帯端末1から学習辞書100のみを送信し、その間、アップデート処理システム2において、送信された学習辞書100をユーザ別データベースのユーザ専用エリアに格納する。定められた回数の通信が行われると、次の送信では、携帯端末1から学習辞書100と共にユーザ辞書101および利用頻度テーブル104を送信する。アップデート処理システム2の推定処理部202は、この分析用データと先に蓄積された学習辞書100とをまとめて分析処理を実行する。
【0076】
上記のように、学習辞書の送信を複数回行った後にアップデート処理を実施すれば、単語の利用履歴を示すサンプルデータが豊富になるので、安定した推定処理を行うことができ、適合分野の推定の確度を高めることができる。
なお、アップデート処理を行わない間に送信された学習辞書100を蓄積する処理は、図1に示した分析用データ転送サーバ3に担当させてもよい。
【0077】
またアップデートのための分析用データを送信するタイミングは特に限定されるものではないが、文字入力を行っているときなど、携帯端末1がビジー状態のときを送信のタイミングから除外するのが望ましい。たとえば携帯端末1が使用されていない待ち受け期間中に送信を行う方法が考えられる。またはモニタに辞書のアップデートを行うかどうかのメッセージを表示し、ユーザがアップデートを行うことを選択したことに応じて分析用データの送信を開始してもよい。
【0078】
また、上記の実施例は、携帯端末1から自装置に保存されている辞書100,101や利用頻度テーブル104の辞書データを送信し、アップデートシステム2から可変辞書103および利用頻度テーブル104の更新用の辞書データを送信するものであるが、送信データや情報処理の形態はこれに限定されるものではない。たとえば携帯端末1において、学習辞書100やユーザ辞書101の登録情報を分析して、利用単語の読み、表記、利用頻度などを組み合わせた情報を作成し、作成された情報群をアップデート処理システム2に送信してもよい。この送信を、学習辞書100の蓄積情報が一巡する都度実施すれば、アップデート処理システム2では、携帯端末1から送信された情報から利用単語および利用頻度を容易に抽出して、これらをアップデート辞書に必ず登録する必要のある単語として選択することができる。
【0079】
またアップデート辞書に含める単語を全て選択した後は、選択された単語毎に、読み、表記、品詞情報、初期頻度から成る基本の辞書データに利用頻度を加えた内容の拡張辞書データを作成し、各単語の各拡張辞書データを携帯端末1に送信することができる。これに応じて携帯端末1では、拡張辞書データから可変辞書103および利用頻度テーブル104の更新情報を作成し、これらにより現在の可変辞書103および利用頻度テーブル104を更新することができる。なお、拡張辞書データとして、たとえば、各種情報の内容をテキストデータにより表したXML形式のデータを作成することができる。
【0080】
上記によれば、アップデート処理システム2では、次のアップデート処理のためのバックアップ情報として、送信した拡張辞書データを保存すればよく、基本辞書100や可変辞書103の初期データも、同様の拡張辞書データとして端末機種毎に保存することができる。これにより利用されていない単語をユーザ専用エリアに保存する必要がないため、各ユーザの登録情報の容量を抑え、多数のユーザに対応することが可能になる。
【符号の説明】
【0081】
1 携帯端末
2 アップデート処理システム
11 分析用データ送信部
12 更新処理部
20 ユーザ別データベース
21 分野別辞書群
100 学習辞書
101 ユーザ辞書
102 基本辞書
103 可変辞書
104 利用頻度テーブル
201 分析用データ入力部
202 推定処理部
203 アップデート辞書作成部
204 利用頻度テーブル作成部
205 送信処理部

【特許請求の範囲】
【請求項1】
文字変換機能を有する端末装置で使用される文字変換用辞書を更新するための方法であって、
前記端末装置に組み込まれている文字変換用の辞書のうち更新の対象となる部分と同内容の辞書データを含む管理情報が保存される管理情報保存手段と、複数種の分野別に単語が分類されて登録された単語登録手段とを具備するコンピュータシステムを構築し、このコンピュータシステムに、前記端末装置における文字変換処理で変換後の単語として利用された単語の利用状況を示す情報をコンピュータネットワークを介して送信し、
前記情報の送信を受けたコンピュータシステムにおいて、当該情報を用いて前記端末装置における文字変換処理での単語の利用状況を分析することによって、前記端末装置のユーザが志向する分野を推定するステップと、管理情報と比べてユーザが志向すると推定された分野につき単語登録手段に登録されている単語が増える一方で、ユーザが志向すると推定されなかった分野に属する単語が削減された内容の更新用の辞書の辞書データを作成するステップと、作成された辞書データを前記端末装置に送信するためにコンピュータネットワークに出力するステップとを実行し、
前記端末装置は、コンピュータネットワークを介して前記更新用の辞書データの送信を受け付けたことに応じて、自装置の変換用辞書のうちの更新の対象とされる部分を受信したデータに基づき更新する、
ことを特徴とする文字変換用辞書の更新方法。
【請求項2】
文字変換機能を有する端末装置で使用される文字変換用辞書の更新用の情報を作成するシステムであって、
前記端末装置に組み込まれている文字変換用の辞書のうち更新の対象となる部分と同内容の辞書データを含む管理情報が保存される管理情報保存手段と、
複数種の分野別に単語が分類されて登録された単語登録手段と、
前記端末装置における文字変換処理で変換後の単語として利用された単語の利用状況を示す情報をコンピュータネットワークを介して受け付ける入力手段と、
入力手段により受け付けられた情報を用いて端末装置における文字変換処理での単語の利用状況を分析することによって、前記端末装置のユーザが志向する分野を推定する推定手段と、
前記推定手段による推定結果に基づいて更新用の辞書の辞書データを作成する更新用辞書作成手段と、
更新用辞書作成手段により作成された辞書データを前記端末装置に送信するためにコンピュータネットワークに出力する出力手段とを具備し、
前記更新用辞書作成手段は、前記管理情報と比べて前記推定手段によりユーザが志向すると推定された分野につき前記単語登録手段に登録されている単語が増える一方で、ユーザが志向すると推定されなかった分野に属する単語が削減された内容の更新用辞書を形成するための辞書データを作成する、文字変換用辞書の更新情報作成システム。
【請求項3】
前記更新用辞書作成手段は、更新後の辞書のサイズをあらかじめ定められた上限値以内にすること、および変換後の単語として利用された単語を更新後の辞書から削除しないことを条件に、更新用辞書に含める単語を選択する、請求項2に記載された文字変換用辞書の更新情報作成システム。
【請求項4】
前記入力手段が受け付ける情報には、前記端末装置の文字変換用辞書に登録されている各単語の利用頻度が格納された利用頻度テーブルの情報が含まれており、
前記利用頻度テーブルが前記更新用辞書に適合する内容になるように利用頻度テーブルの更新情報を作成する利用頻度テーブル更新手段をさらに具備し、
前記出力手段は、更新用辞書の辞書データと共に利用頻度テーブルの更新情報を出力する、
請求項2または3に記載された文字変換用辞書の更新情報作成システム。
【請求項5】
前記入力手段が受け付ける情報には、前記端末装置の文字変換用辞書に登録されている各単語の利用頻度が格納された利用頻度テーブルの情報と、端末装置の文字変換処理で変換後の単語として選択された単語が蓄積された学習辞書の辞書データとが含まれており、
前記推定手段は、前記入力手段により入力された情報を用いて変換後の単語として利用された単語およびその利用頻度を判別し、判別された各単語と前記複数種の分野との関係に基づいてユーザが志向する分野を推定し、
前記更新用辞書作成手段は、前記推定手段により判別された利用単語を全て含む更新用辞書の辞書データを作成し、
前記利用頻度テーブルが更新用辞書に適合し、かつ各利用単語に前記推定手段により判別された当該単語の利用頻度が適用された内容になるように、前記利用頻度テーブルの更新情報を作成する利用頻度テーブル更新手段をさらに具備し、
前記出力手段は、更新用辞書の辞書データと共に利用頻度テーブルの更新情報を出力する、請求項2または3に記載された文字変換用辞書の更新情報作成システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−194674(P2012−194674A)
【公開日】平成24年10月11日(2012.10.11)
【国際特許分類】
【出願番号】特願2011−56823(P2011−56823)
【出願日】平成23年3月15日(2011.3.15)
【出願人】(000002945)オムロン株式会社 (3,542)
【Fターム(参考)】