データ処理装置、プログラムおよびデータ処理方法

【課題】作業効率を常に向上させることができるデータ処理装置、プログラムおよびデータ処理方法を提供する。
【解決手段】新しく入力されたデータについての特徴量から予測器を用いて最適な処理内容を予測し（Ｓ４）、予測した最適な処理内容についての作業効率を評価し（Ｓ１０）、作業効率が向上すると予想される場合にのみ（Ｓ１１のＹｅｓ）、予測した最適な処理内容をユーザに提示するようにした（Ｓ１２）。これにより、予測器の学習が十分ではなく予測精度が低い場合に、予測した処理内容を逐一ユーザが修正しなければならず、かえって作業効率が落ちることを回避することができるようになるので、作業効率を常に向上させることができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、データ処理装置、プログラムおよびデータ処理方法に関する。
【背景技術】
【０００２】
近年、カラースキャナやデジタルカメラの普及により、カラー入力された文書画像についての蓄積、出力および再利用がなされている。さらに、カラー入力された文書画像についてのネットワークを介しての遠隔地への送信も行われている。
【０００３】
ところで、このように文書画像を多様な利用目的に最適な形で活用できるようなシステムを構築するにあたっては、処理対象である文書画像の種類も多様であり、さらに、ユーザの嗜好や利用目的も多様であることが問題となっている。
【０００４】
そこで、特許文献１や特許文献２では、入力機器やアプリケーション（ユーザのタスク）の「多様性」に対応するためのデータ処理装置が開示されている。
【０００５】
ここで、「多様性」のもう一つの重要な要因として考えなければならないのが、ユーザの「目的」である。すなわち、同じような文書画像を処理するとしても、個々のユーザの目的によって、施す処理内容やパラメータが異なってくる。例えば、文書画像の階調補正技術では、地肌の色を白にしてしまう（地肌除去）か、あるいは、原本の色を保持したまま、汚れや裏写りを取り除く（地肌クリーニング）だけにするかは、ユーザの目的に依存する選択である。
【０００６】
現状のデータ処理システムでは、大量の画像に対して、このような個々のユーザの目的に依存する処理を施す場合には、ユーザがアルゴリズムや処理パラメータを１枚ごとに逐一指定しなければならないので、ユーザに負担がかかるとともに、作業効率が低下してしまう。
【０００７】
このような「多様性」に適応できるようなシステムを構築するには、以下に示すような操作をオンサイト、すなわち、稼働している装置上で実行するようなメカニズムを構築する必要がある。
（１）データのコンテンツを表現する多次元特徴量ベクトルと、そのユーザが適用したアルゴリズムや処理パラメータとの組を記録した履歴・事例を蓄積する。
（２）蓄積された履歴・事例を用いて、特徴量ベクトルから各アルゴリズムや処理パラメータの適切さを予測する関数を学習する。
（３）未知のデータに対して、その特徴量ベクトルから何をしたいか（適切なアルゴリズムや処理パラメータ）を予測する。
【０００８】
つまり、「多様性」に適応できるようなシステムを構築するには、履歴情報や事例（データのコンテンツを表現する特徴量ベクトルとそのときに施した処理内容や用いたパラメータの組から成るリスト）に基づいて、適切な処理や機能（アルゴリズム，パラメータ）を推奨するような機能が要求される。このような推奨機能によれば、以前に処理したデータと類似のものについては同一の処理内容をユーザに推奨することにより、ユーザとしては、推奨されたものが気に入らない場合にのみ、アルゴリズムとパラメータを指定しなおせばよい。すなわち、使っているうちに、目的に合ったアルゴリズムやパラメータが最優先（デフォルト）で選択されるようなシステムが望ましい。
【０００９】
そこで、本出願人は、上述したような機構を実現する方法について、特願２００７−１８３００号や特願２００７−２４２６８２号において提案している。
【００１０】
【特許文献１】特開２００６−０５３６９０号公報
【特許文献２】特開２００６−０７４３３１号公報
【発明の開示】
【発明が解決しようとする課題】
【００１１】
しかしながら、ユーザへの推奨機構が実現できたとしても、予測器の学習が十分ではなく予測精度が低い場合には、推奨を逐一ユーザが修正しなければならないので、修正の手間により、かえって作業効率が低下することもありうる。
【００１２】
したがって、予測精度が十分に高く、推奨によって作業効率が向上するような場合に限って予測による推奨を行うべきである。
【００１３】
なお、作業効率は、予測器の精度だけでなく、各ユーザ固有の作業スピードにも依存するので、履歴から計算される予測精度を単純に閾値処理するだけでは不十分である。
【００１４】
本発明は、上記に鑑みてなされたものであって、作業効率を常に向上させることができるデータ処理装置、プログラムおよびデータ処理方法を提供することを目的とする。
【課題を解決するための手段】
【００１５】
上述した課題を解決し、目的を達成するために、請求項１にかかる発明のデータ処理装置は、データの入力を受け付けるデータ入力手段と、入力された前記データについての特徴量ベクトルを計算する特徴量計算手段と、処理内容を提示してユーザによる前記処理内容の選択を受け付ける選択受付手段と、前記特徴量計算手段で計算された前記特徴量ベクトルと、前記選択受付手段を介してユーザが適用した処理内容を時系列で記録した処理履歴情報とを履歴データベースに蓄積する履歴蓄積手段と、前記データに対する最適な処理内容を予測する識別アルゴリズムの予測器を、前記履歴データベースに蓄積された前記処理履歴情報を用いて構築する予測器構築手段と、新しく入力された前記データについての前記特徴量ベクトルから、前記予測器を用いて最適な処理内容を予測する最適機能予測手段と、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する評価手段と、前記評価手段による評価が閾値以上の時に、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段を介してユーザに提示する提示手段と、を備えることを特徴とする。
【００１６】
また、請求項２にかかる発明は、請求項１記載のデータ処理装置において、前記評価手段は、前記予測器の予測精度と、前記選択受付手段を介した各ユーザについての作業に要する時間に基づくユーザ固有の作業スピードとから、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する、ことを特徴とする。
【００１７】
また、請求項３にかかる発明は、請求項１または２記載のデータ処理装置において、前記選択受付手段は、メニューから１つの項目を選ぶことによってデータに適用する処理を指定するようなメニュー選択型タスクにより処理内容を提示する、ことを特徴とする。
【００１８】
また、請求項４にかかる発明は、請求項１または２記載のデータ処理装置において、前記選択受付手段は、データに任意個のタグ、あるいは、インデックスをつけるようなタグ付け型タスクにより処理内容を提示する、ことを特徴とする。
【００１９】
また、請求項５にかかる発明は、請求項３記載のデータ処理装置において、前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に施した処理とは異なるものの割合である、ことを特徴とする。
【００２０】
また、請求項６にかかる発明は、請求項４記載のデータ処理装置において、前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に付与したタグ、あるいは、インデックスと異なる割合である、ことを特徴とする。
【００２１】
また、請求項７にかかる発明は、請求項３記載のデータ処理装置において、前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率ｒを下記の式により評価する、
ｒ＝Ｓ／（Ｐ＋Ｖ＋（Ｓ＋Ｌ）Ｅ）
Ｓ：ユーザのメニュー選択時間
Ｐ：最適機能予測手段における予測時間
Ｖ：ユーザが確認する時間
Ｌ：予測器構築手段における予測器の構築に要する時間
Ｅ：予測誤り率
ことを特徴とする。
【００２２】
また、請求項８にかかる発明は、請求項４記載のデータ処理装置において、前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率ｒを下記の式により評価する、
ｒ＝Ｓ／（ＭＰ＋Ｖ＋ＥＭ（Ｃ＋Ｌ））
Ｓ：ユーザのメニュー選択時間
Ｍ：タグ、あるいは、インデックスの個数
Ｐ：最適機能予測手段における予測時間
Ｖ：ユーザが確認する時間
Ｃ：ユーザが訂正する時間
Ｌ：予測器構築手段における予測器の構築に要する時間
Ｅ：予測誤り率
ことを特徴とする。
【００２３】
また、請求項９にかかる発明は、請求項１ないし８のいずれか一記載のデータ処理装置において、前記提示手段は、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段でハイライト表示してユーザに提示する、ことを特徴とする。
【００２４】
また、請求項１０にかかる発明のプログラムは、コンピュータを、データの入力を受け付けるデータ入力手段と、入力された前記データについての特徴量ベクトルを計算する特徴量計算手段と、処理内容を提示してユーザによる前記処理内容の選択を受け付ける選択受付手段と、前記特徴量計算手段で計算された前記特徴量ベクトルと、前記選択受付手段を介してユーザが適用した処理内容を時系列で記録した処理履歴情報とを履歴データベースに蓄積する履歴蓄積手段と、前記データに対する最適な処理内容を予測する識別アルゴリズムの予測器を、前記履歴データベースに蓄積された前記処理履歴情報を用いて構築する予測器構築手段と、新しく入力された前記データについての前記特徴量ベクトルから、前記予測器を用いて最適な処理内容を予測する最適機能予測手段と、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する評価手段と、前記評価手段による評価が閾値以上の時に、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段を介してユーザに提示する提示手段と、として機能させることを特徴とする。
【００２５】
また、請求項１１にかかる発明は、請求項１０記載のプログラムにおいて、前記評価手段は、前記予測器の予測精度と、前記選択受付手段を介した各ユーザについての作業に要する時間に基づくユーザ固有の作業スピードとから、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する、ことを特徴とする。
【００２６】
また、請求項１２にかかる発明は、請求項１０または１１記載のプログラムにおいて、前記選択受付手段は、メニューから１つの項目を選ぶことによってデータに適用する処理を指定するようなメニュー選択型タスクにより処理内容を提示する、ことを特徴とする。
【００２７】
また、請求項１３にかかる発明は、請求項１０または１１記載のプログラムにおいて、前記選択受付手段は、データに任意個のタグ、あるいは、インデックスをつけるようなタグ付け型タスクにより処理内容を提示する、ことを特徴とする。
【００２８】
また、請求項１４にかかる発明は、請求項１２記載のプログラムにおいて、前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に施した処理とは異なるものの割合である、ことを特徴とする。
【００２９】
また、請求項１５にかかる発明は、請求項１３記載のプログラムにおいて、前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に付与したタグ、あるいは、インデックスと異なる割合である、ことを特徴とする。
【００３０】
また、請求項１６にかかる発明は、請求項１２記載のプログラムにおいて、前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率ｒを下記の式により評価する、
ｒ＝Ｓ／（Ｐ＋Ｖ＋（Ｓ＋Ｌ）Ｅ）
Ｓ：ユーザのメニュー選択時間
Ｐ：最適機能予測手段における予測時間
Ｖ：ユーザが確認する時間
Ｌ：予測器構築手段における予測器の構築に要する時間
Ｅ：予測誤り率
ことを特徴とする。
【００３１】
また、請求項１７にかかる発明は、請求項１３記載のプログラムにおいて、前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率ｒを下記の式により評価する、
ｒ＝Ｓ／（ＭＰ＋Ｖ＋ＥＭ（Ｃ＋Ｌ））
Ｓ：ユーザのメニュー選択時間
Ｍ：タグ、あるいは、インデックスの個数
Ｐ：最適機能予測手段における予測時間
Ｖ：ユーザが確認する時間
Ｃ：ユーザが訂正する時間
Ｌ：予測器構築手段における予測器の構築に要する時間
Ｅ：予測誤り率
ことを特徴とする。
【００３２】
また、請求項１８にかかる発明は、請求項１０ないし１７のいずれか一記載のプログラムにおいて、前記提示手段は、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段でハイライト表示してユーザに提示する、ことを特徴とする。
【００３３】
また、請求項１９にかかる発明のデータ処理方法は、データ処理装置で実行されるデータ処理方法であって、前記データ処理装置は、制御部と記憶部を備え、前記制御部において実行される、データ入力手段が、データの入力を受け付けるステップと、特徴量計算手段が、入力された前記データについての特徴量ベクトルを計算するステップと、選択受付手段が、処理内容を提示してユーザによる前記処理内容の選択を受け付けるステップと、履歴蓄積手段が、前記特徴量計算手段で計算された前記特徴量ベクトルと、前記選択受付手段を介してユーザが適用した処理内容を時系列で記録した処理履歴情報とを前記記憶部に蓄積するステップと、予測器構築手段が、前記データに対する最適な処理内容を予測する識別アルゴリズムの予測器を、前記記憶部に蓄積された前記処理履歴情報を用いて構築するステップと、最適機能予測手段が、新しく入力された前記データについての前記特徴量ベクトルから、前記予測器を用いて最適な処理内容を予測するステップと、評価手段が、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価するステップと、提示手段が、前記評価手段による評価が閾値以上の時に、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段を介してユーザに提示するステップと、を含むことを特徴とする。
【００３４】
また、請求項２０にかかる発明は、請求項１９記載のデータ処理方法において、前記評価手段は、前記予測器の予測精度と、前記選択受付手段を介した各ユーザについての作業に要する時間に基づくユーザ固有の作業スピードとから、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する、ことを特徴とする。
【発明の効果】
【００３５】
本発明によれば、新しく入力されたデータについての特徴量から予測器を用いて最適な処理内容を予測し、予測した最適な処理内容についての作業効率を評価し、作業効率が向上すると予想される場合にのみ、予測した最適な処理内容をユーザに提示するようにしたことにより、予測器の学習が十分ではなく予測精度が低い場合に、予測した処理内容を逐一ユーザが修正しなければならず、かえって作業効率が落ちることを回避することができるようになるので、作業効率を常に向上させることができる、という効果を奏する。
【発明を実施するための最良の形態】
【００３６】
以下に添付図面を参照して、この発明にかかるデータ処理装置、プログラムおよびデータ処理方法の最良な実施の形態を詳細に説明する。
【００３７】
［第１の実施の形態］
本発明の第１の実施の形態を図１ないし図８に基づいて説明する。図１は、本発明の第１の実施の形態にかかるデータ処理装置１の電気的な接続を示すブロック図である。図１に示すように、データ処理装置１は、ＰＣ（Personal Computer）などのコンピュータであり、データ処理装置１の各部を集中的に制御する制御部であるＣＰＵ（Central Processing Unit）２、情報を格納するＲＯＭ（Read Only Memory）３及びＲＡＭ（Random Access Memory）４等の一次記憶装置５、データファイル（例えば、カラービットマップ画像データ）を記憶する記憶部であるＨＤＤ（Hard Disk Drive）６等の二次記憶装置７、情報を保管したり外部に情報を配布したり外部から情報を入手するためのＣＤ−ＲＯＭドライブ等のリムーバブルディスク装置８、ネットワーク９を介して外部の他のコンピュータと通信により情報を伝達するためのネットワークインターフェース１０、処理経過や結果等を操作者に表示するＣＲＴ（Cathode Ray Tube）やＬＣＤ（Liquid Crystal Display）等の表示装置１１、並びに操作者がＣＰＵ２に命令や情報等を入力するためのキーボード１２、マウス等のポインティングデバイス１３等から構成されており、これらの各部間で送受信されるデータをバスコントローラ１４が調停して動作する。
【００３８】
なお、本実施の形態においては、データ処理装置１として一般的なパーソナルコンピュータを適用して説明しているが、これに限るものではなく、ＰＤＡ（Personal Digital Assistants）と称される携帯用情報端末、palmTopＰＣ、携帯電話、ＰＨＳ（Personal Handyphone System）等であっても良い。
【００３９】
このようなデータ処理装置１では、ユーザが電源を投入するとＣＰＵ２がＲＯＭ３内のローダーというプログラムを起動させ、ＨＤＤ６よりオペレーティングシステムというコンピュータのハードウェアとソフトウェアとを管理するプログラムをＲＡＭ７に読み込み、このオペレーティングシステムを起動させる。このようなオペレーティングシステムは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。オペレーティングシステムのうち代表的なものとしては、Ｗｉｎｄｏｗｓ（登録商標）、ＵＮＩＸ（登録商標）等が知られている。これらのオペレーティングシステム上で走る動作プログラムをアプリケーションプログラムと呼んでいる。
【００４０】
ここで、データ処理装置１は、アプリケーションプログラムとして、データ処理プログラムをＨＤＤ６に記憶している。この意味で、ＨＤＤ６は、データ処理プログラムを記憶する記憶媒体として機能する。
【００４１】
また、一般的には、データ処理装置１のＨＤＤ６等の二次記憶装置７にインストールされるアプリケーションプログラムは、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の光情報記録メディアやＦＤ等の磁気メディア等の記憶媒体８ａに記録され、この記憶媒体８ａに記録されたアプリケーションプログラムがＨＤＤ６等の二次記憶装置７にインストールされる。このため、ＣＤ−ＲＯＭ等の光情報記録メディアやＦＤ等の磁気メディア等の可搬性を有する記憶媒体８ａも、データ処理プログラムを記憶する記憶媒体となり得る。さらには、データ処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、例えばネットワークインターフェース１０を介して外部からダウンロードさせることにより、ＨＤＤ６等の二次記憶装置７にインストールするように構成しても良い。また、本実施の形態のデータ処理装置１で実行されるデータ処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
【００４２】
データ処理装置１は、オペレーティングシステム上で動作するデータ処理プログラムが起動すると、このデータ処理プログラムに従い、ＣＰＵ２が各種の演算処理を実行して各部を集中的に制御する。
【００４３】
なお、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路（図示せず）を別途設け、論理回路の動作により各種の演算処理を実行するようにするのが望ましい。
【００４４】
データ処理装置１のＣＰＵ２が実行する各種の演算処理のうち、本実施の形態の特長的な処理であるデータ処理について以下に説明する。
【００４５】
図２はデータ処理装置１のＣＰＵ２が実行するデータ処理にかかる機能を示す機能ブロック図である。図２に示すように、データ処理装置１は、データ入力手段として機能するデータ入力部２１と、特徴量計算手段として機能する特徴量ベクトル計算部２２と、履歴データベース２３と、予測器構築手段として機能する予測器構築部２４と、最適機能予測手段として機能する最適機能予測部２５と、選択受付手段および提示手段として機能するユーザインタフェース部２６と、評価手段として機能する予測効果評価部２７と、を備えている。以下において、各構成部の動作と作用を詳述する。
【００４６】
ユーザインタフェース部２６は、データに適用する処理（アルゴリズム，パラメータなど）を選択させるメニューを表示装置１１に提示し、ユーザに選択させる。本実施の形態のユーザインタフェース部２６が表示装置１１に提示するメニューとしては、図３に示すプルダウンメニュー１００が用意されている。本実施の形態においては、ユーザがマウス等のポインティングデバイス１３を用いてプルダウンメニュー１００から１つの項目を選ぶことによってデータに適用する処理を指定するようなメニュー選択型タスクを例示する。なお、本実施の形態においては、Ｍ個のプルダウンメニュー１００が用意されているものとする。
【００４７】
データ入力部２１は、データの入力を受け付け、入力されたデータに前処理を施す。たとえば、データが文書画像の場合には、入力された文書画像中の文書の傾きを補正する「スキュー補正」などを施す。
【００４８】
特徴量ベクトル計算部２２は、データ入力部２１から出力されたデータを入力とし、特徴量ベクトルを計算する。そして、特徴量ベクトル計算部２２は、計算した特徴量ベクトルを、履歴データベース２３と最適機能予測部２５とに出力する。テキストデータの場合には、「Bag-Of-Words」、すなわち、文書中に出現する単語の頻度を並べたベクトルを用いることができる。また、データが文書画像の場合には、特許第３２５３３５６号公報や特許第３２１５１６３号公報に開示されているような文書画像の特徴量を並べたベクトルを組み合わせて構成することができる。さらに、色や輝度の分布から得られる統計量、あるいは、エッジ強度の分布から得られる統計量などを加えて用いても良い。
【００４９】
履歴データベース２３は、ＨＤＤ６に形成されていて、特徴量ベクトル計算部２２から出力された特徴量ベクトルと、ユーザインタフェース部２６から出力されたユーザ選択によるメニューにかかるアルゴリズムや処理パラメータとを入力とする処理履歴情報を格納する。ここに、履歴蓄積手段が実現されている。履歴データベース２３に格納される処理履歴情報Ｈは、下記の式で示される。
Ｈ＝｛（ｘ（１），α１（１），・・・，αＭ（１）），（ｘ（２），α１（２）），・・・，αＭ（２）｝｝，・・・｝
ただし、ｘ（ｋ）はｋ番目のデータから抽出された特徴量ベクトルであり、αｊ（ｋ）はｊ番目のメニューから選ばれたアルゴリズムや処理パラメータである。履歴データベース２３には、これらが時系列で記録される。ｊ番目のメニューから何も選ばれなかった場合には、欠落値を表す値を入れておけばよい。
【００５０】
予測器構築部２４は、履歴データベース２３に蓄えられているデータを用いた学習により予測器を構築する。本実施の形態の予測器構築部２４は、ユーザインタフェース部２６が用意するＭ個のプルダウンメニュー１００に対応して、合計Ｍ個の予測器を、最適機能予測部２５で用いられている識別アルゴリズムに合わせた学習により構築する。
【００５１】
最適機能予測部２５は、特徴量ベクトル計算部２２から出力された特徴量ベクトルを入力とし、予測器構築部２４で構築されたＭ個の予測器を用いて、最適な機能（処理内容）であるアルゴリズムや処理パラメータを予測する。最適機能予測部２５は、任意の識別アルゴリズムの予測器に対して特徴量ベクトル計算部２２から出力された特徴量ベクトルを与えて、最適と予測される機能（処理内容）として推奨するクラス（アルゴリズムや処理パラメータに対応）を出力することができる。たとえば、識別アルゴリズムとしては、最近傍識別、ニューラルネットワーク、サポートベクトルマシンなどがある。
【００５２】
ユーザインタフェース部２６は、最適機能予測部２５から最適と予測される機能（処理内容）が出力される場合には、図４に示すように最適と予測される機能（処理内容）に対応する項目をプルダウンメニュー１００中にハイライト表示する等によって、ユーザに提示する。ユーザは最適と予測される機能（処理内容）を気に入ったか、気に入らないかを、マウス等のポインティングデバイス１３を使って入力する。例えば、ユーザが最適と予測される機能（処理内容）を気に入らない場合には、マウス等のポインティングデバイス１３を使って、他の処理やパラメータをメニューから選択し直すようにすれば良い。ユーザの応答結果は、ユーザインタフェース部２６から履歴データベース２３と予測効果評価部２７とに出力される。
【００５３】
予測効果評価部２７は、上述したようなユーザがプルダウンメニュー１００からデータに施す操作・機能を選択するような場合に、ユーザの作業の効率化という観点から、予測効果の評価指標を導入する。
【００５４】
ここで、作業効率は、予測器構築部２４で構築されたＭ個の予測器の精度だけでなく、各ユーザ固有の作業スピードにも依存するので、処理履歴情報から計算される予測精度を単純に閾値処理するだけでは不十分である。そこで、本実施の形態においては、予測効果評価部２７を備えることにより、作業効率の評価基準として、予測器構築部２４で構築されたＭ個の予測器の精度だけでなく、ユーザインタフェース部２６で測定した各ユーザに固有の作業スピードを考慮した定量的尺度を用いて、最悪の場合でも予測による作業効率劣化を防ぐようにしたものである。この点については、後述する。
【００５５】
ユーザインタフェース部２６は、各ユーザについての作業に要する時間に基づく固有の作業スピードを測定する。ユーザのメニュー選択時間をＳ秒／メニュー、ユーザが推奨結果を確認する時間をＶ秒／メニューとすると、ＳとＶは次のようにして求められる。
（１）まず、ユーザインタフェース部２６で、予測による推奨をユーザに提示しない場合の作業時間を測定し、これをＱ秒とする。Ｍ個のプルダウンメニュー１００のそれぞれについて選択作業を行うので、合計でＭＳ秒の時間がかかる。したがって、
Ｓ＝Ｑ／Ｍ
となる。
（２）次に、予測による推奨をユーザに提示する場合の作業時間を測定し、これをＲ秒とする。ユーザに修正が必要なものの個数をＫ個とすると、推奨結果の確認にＭＶ秒、修正にＫＳ秒かかるので、
Ｒ＝ＭＶ＋ＫＳ＝ＭＶ＋ＫＱ／Ｍ
すなわち、
Ｖ＝（ＭＲ−ＫＱ）／（Ｍ＊Ｍ）
となる。
【００５６】
なお、Ｑ、ＲまたはＫの値については、２個以上のデータから得られた平均値を用いてもよい。
【００５７】
上述した各ユーザに固有の作業スピードは、ユーザの応答結果として、ユーザインタフェース部２６から履歴データベース２３と予測効果評価部２７とに出力される。
【００５８】
予測効果評価部２７は、性能に影響するパラメータおよび作業に要する時間によって予測による推奨提示による作業効率化を計算し、計算した評価指標値を閾値処理して、作業効率が改善されるときにのみ、予測による推奨をユーザに提示する。
（１）性能（作業時間）に影響するパラメータ
性能（作業時間）に影響するパラメータとしては、以下に示すものが挙げられる。
［メニューの数：Ｍ］
・メニューの数：Ｍ。各プルダウンメニュー１００から１つを選ぶ。各メニューに対応して、合計Ｍ個の予測器を学習により構築する。
［予測器の性能］
・予測誤り率：Ｅ（０≦Ｅ≦１）。この量は、履歴データベース２３に記憶されている処理履歴情報から計算できる。具体的には、現在の予測器で履歴データの各々を予測し、処理履歴情報として記録されている、実際に施した処理と異なるものの割合を計算すればよい。
・学習時間：Ｌ秒／メニュー。この量は、予測器構築部２４に要する時間を測ることによって得られる。詳細は後述するが、予測器構築は予測が誤ったときだけ起動する（図５のフローチャート参照）ので、合計時間の期待値はＥＭＬ秒となる。
・予測時間：Ｐ秒／メニュー。この量は、最適機能予測部２５に要する時間を測ることによって得られる。すなわち、合計でＭＰ秒となる。
［ユーザ固有の作業スピード］
・ユーザのメニュー選択時間：Ｓ秒／メニューとすると、合計でＭＳ秒である。
・ユーザが確認する時間：Ｖ秒／メニューとすると、合計ＭＶ秒である。
（２）作業に要する時間
予測による推奨のユーザへの提示の有無により、作業時間は次のようになる。
［予測による推奨の提示］
・予測による推奨の提示なし：Ｔ_０＝ＭＳ
各メニューについて、ユーザが逐一選択する。
・予測による推奨の提示あり：Ｔ_１＝Ｍ（Ｐ＋Ｖ＋（Ｓ＋Ｌ）Ｅ）
予測 → ユーザが確認 → 誤ったものについてだけ、ユーザ入力＋予測器構築
（３）予測による効果の評価指標
予測による推奨提示による作業効率化は、以下に示す式で計算できる。
ｒ＝Ｔ_０／Ｔ_１＝Ｓ／（Ｐ＋Ｖ＋（Ｓ＋Ｌ）Ｅ）
この式で定義される量ｒが1を超える場合には、推奨提示により、作業効率が改善されることを、そして、１を下回る場合には、推奨提示により、作業が妨げられることを意味する。評価指標値ｒを閾値処理することにより、作業効率が改善されるときにのみ、予測による推奨をユーザに提示する。
【００５９】
次に、データ処理の流れについて図５のフローチャートを参照して説明する。図５に示すように、作業が開始されると、まず、最適機能予測部２５はプルダウンメニュー１００中にハイライト表示する等の推奨提示をＯＦＦにする（ステップＳ１）。
【００６０】
その後、データが入力されると、データ入力部２１で入力されたデータに前処理を施し（ステップＳ２）、特徴量ベクトル計算部２２でデータ入力部２１から出力されたデータの特徴量ベクトルを計算し、履歴データベース２３と最適機能予測部２５とに出力する（ステップＳ３）。
【００６１】
次いで、最適機能予測部２５では、特徴量ベクトル計算部２２から出力された特徴量ベクトルを入力とし、予測器構築部２４で構築されたＭ個の予測器を用いて、最適な機能（処理内容）を予測する（ステップＳ４）。
【００６２】
続くステップＳ５では、推奨提示がＯＮであるか否かを判断する。推奨提示がＯＦＦであれば（ステップＳ５のＮｏ）、ユーザインタフェース部２６が表示装置１１に提示するＭ個のプルダウンメニュー１００に対するユーザからの選択入力に待機する（ステップＳ６）。
【００６３】
一方、推奨提示がＯＮであれば（ステップＳ５のＹｅｓ）、図４に示すように最適機能予測部２５からの最適と予測される機能（処理内容）に対応する項目をプルダウンメニュー１００中にハイライト表示する等のユーザへ推奨機能を出力するとともに、Ｍ個のプルダウンメニュー１００に対するユーザからの選択入力に待機する（ステップＳ７）。
【００６４】
ここで、ユーザからの選択入力があった場合に、推奨とユーザ選択が異なるか否かを判断する（ステップＳ８）。
【００６５】
推奨とユーザ選択が異なる場合には（ステップＳ８のＹｅｓ）、予測器構築部２４で履歴データベース２３に蓄えられているユーザの応答結果を用いて予測器の更新（学習）を行なう（ステップＳ９）。
【００６６】
予測器の更新（学習）を行なった場合（ステップＳ９）、ユーザからの選択入力があった場合（ステップＳ６）、推奨とユーザ選択が一致する場合（ステップＳ８のＮｏ）、ステップＳ１０に進み、ユーザインタフェース部２６から送られるユーザの応答結果に基づき、予測効果評価部２７で予測効果の評価指標値を計算する。
【００６７】
評価指標値が閾値以上であれば（ステップＳ１１のＹｅｓ）、予測器の学習が十分であると判断して、推奨表示をＯＮにする（ステップＳ１２）。
【００６８】
評価指標値が閾値以上でなければ（ステップＳ１１のＮｏ）、予測器の学習が十分ではなく予測精度が低いと判断して、推奨表示をＯＦＦにする（ステップＳ１３）。
【００６９】
そして、作業が終了してなければ（ステップＳ１４のＮｏ）、ステップＳ２に進み、次のデータ入力に待機する。
【００７０】
上述したように、データ処理装置１は、予測を常に行うが、予測結果をユーザに推奨として提示するのは、予測効果評価部２７で計算された評価値がある一定以上、すなわち、推奨によって作業効率が向上すると判定された場合に限る。
【００７１】
［予測効果の評価指標の算出例］
次に、上述した構成のデータ処理装置１の予測効果評価部２７における予測効果の評価指標値の算出例を示す。ここで、データ処理装置１の性能は、次のようなものとする。
（１）オンライン学習時間Ｌ＝０．０１（秒）：プロトタイプが２０００個以下で測定した結果で、プロトタイプ数に依らずほぼ一定である。
（２）予測に要する時間Ｐ＝０．００（秒）：計算には時間がほとんどかからない。
【００７２】
評価指標値は、データ処理装置１の予測精度に依存する。典型的ユーザの場合、メニュー選択と確認に要する時間は、
Ｓ＝２〜５（秒）
Ｖ＝１（秒）
であるので、評価指標値は、
ｒ＝Ｓ／１＋Ｅ（Ｓ＋０．０１）
として計算することができる。
【００７３】
ユーザ固有の作業時間Ｓによって、予測精度（１−Ｅ）と評価指標値の関係は、図５に示すグラフのようになる。このグラフからは、次に示すような結論が得られる。８０％程度の予測精度があれば、作業効率が２倍以上に向上する。ただし、作業が速いユーザ（Ｓ＝２）にとっては、予測がないよりはやや効率が良いという程度である。
【００７４】
ところで、ユーザの一連の作業中、予測精度（１−Ｅ（ｔ））は、最適機能予測部２５におけるオンライン学習により時間変化する。最適機能予測部２５におけるオンライン学習アルゴリズムによる予測誤り率Ｅは、時間ｔの関数として、下記に示す式のようにモデル化することができる。
ｄＥ／ｄｔ＝ −αＥ（α＞０）
これは、予測誤り率Ｅが、誤りの数が多いほど大きく減るように変化し、誤りの数が少なければ変化しないことを意味する。最適機能予測部２５におけるオンライン学習が起動されるのは、予測が誤ったときであり、かつ、学習に用いられるプロトタイプは誤ったものの固定サイズの近傍に限られるため、上記のような単純な微分方程式で記述できる。
【００７５】
したがって、予測誤り率Ｅは、凸関数
Ｅ（ｔ）＝Ｅ_０ｅｘｐ（−αｔ）
Ｅ_０＝Ｅ（０）
となる。いくつかの実例をもとに、予測精度の変化（１−Ｅ（ｔ））をプロットすると、図６に示すように時間ｔについての凹関数１となる。多くの場合、すぐに８０％の予測精度が達成できる。
【００７６】
したがって、評価指標値は、下記式のように表される。
【数１】

これにより、評価指標値は、図７のグラフに示すように、やはり時間ｔについての凹関数となる。これは、ユーザの一連の作業中に、効率も素早く向上することを意味している。
【００７７】
このような簡単な定量的モデルによる分析により、次のような知見が得られた。
（１）メニュー選択型のタスクでは、効率が２倍以上向上する。ただし、作業が速いユーザにとっては、予測がないよりは効率がやや良いという程度である。
（２）ユーザの一連の作業中にオンライン学習中を稼働することにより、作業効率が即座に改善する。
【００７８】
このように本実施の形態によれば、新しく入力されたデータについての特徴量から予測器を用いて最適な処理内容を予測し、予測した最適な処理内容についての作業効率を評価し、作業効率が向上すると予想される場合にのみ、予測した最適な処理内容をユーザに提示するようにしたことにより、予測器の学習が十分ではなく予測精度が低い場合に、予測した処理内容を逐一ユーザが修正しなければならず、かえって作業効率が落ちることを回避することができるようになるので、作業効率を常に向上させることができる。
【００７９】
また、作業効率は、予測器の精度だけでなく、各ユーザ固有の作業スピードにも依存するので、単純に、履歴から計算される予測精度を閾値処理するだけでは不十分である。作業効率の評価基準として、予測器の精度だけでなく、各ユーザに固有の作業スピードを考慮した定量的尺度を用いることにより、最悪の場合でも予測による作業効率劣化を防ぐことができる。
【００８０】
さらに、メニュー選択型（データに施す操作・機能をユーザがメニューから選択する）のタスクでは、効率が２倍以上向上すると期待することができる。また、ユーザの一連の作業中にオンライン学習を稼働することにより、作業効率が即座（立ち上がりが早い）に改善することができる。
【００８１】
［第２の実施の形態］
次に、本発明の第２の実施の形態を図９ないし図１５に基づいて説明する。なお、前述した第１の実施の形態と同じ部分は同じ符号で示し説明も省略する。
【００８２】
第１の実施の形態では、プルダウンメニュー１００から１つの項目を選ぶことによってデータに適用する処理を指定するようなメニュー選択型タスクを使用する場合について説明した。本実施の形態においては、データに任意個のタグ、あるいは、インデックスをつけるようなタグ付け型タスクを使用する場合について説明する。
【００８３】
図９はデータ処理装置３０のＣＰＵ２が実行するデータ処理にかかる機能を示す機能ブロック図である。図９に示すように、データ処理装置３０は、データ入力手段として機能するデータ入力部２１と、特徴量計算手段として機能する特徴量ベクトル計算部２２と、履歴データベース３１と、予測器構築手段として機能する予測器構築部３２と、最適機能予測手段として機能する最適機能予測部３３と、選択受付手段および提示手段として機能するユーザインタフェース部３４と、評価手段として機能する予測効果評価部３５と、を備えている。以下において、各構成部の動作と作用を詳述する。なお、データ入力部２１および特徴量ベクトル計算部２２については、前述した第１の実施の形態と同様であるので、その説明は省略する。
【００８４】
ユーザインタフェース部３４は、データに適用する処理（アルゴリズム，パラメータなど）を選択させるメニューを表示装置１１に提示し、ユーザに選択させる。本実施の形態のユーザインタフェース部３４が表示装置１１に提示するメニューとしては、図１０に示すチェックボックス付のメニュー２００のように、Ｍ個の候補タグ、あるいは、インデックスの個数（語彙のサイズ）が用意されている。なお、Ｍが１００個程度であれば、単語リストから適切なものを選ぶという操作によりタグ付けできる。しかしながら、Ｍが大きい場合には（辞書と同等のサイズの場合には）、タグは自由入力になる。一般的なチェックボックスでは、画面に矩形が表示される。この矩形をユーザがマウス等のポインティングデバイス１３を用いてクリックすることで、０／１判別（０：その単語をタグに用いない／１：用いる）をトグルさせることができる。チェックボックスがＯＮ（１：用いる）になると、図１０に示すように矩形の中身に×マークが表示される。したがって、タグ付け型タスクには、前述したように、語彙のサイズにより、画面に語彙をすべて表示し、その中からユーザがポインティングデバイス１３で選択するという方式、あるいは、ユーザが単語をキーボード１２で自由入力する方式の２通りがある。
【００８５】
履歴データベース３１は、ＨＤＤ６に形成されていて、特徴量ベクトル計算部２２から出力された特徴量ベクトルと、ユーザインタフェース部３４から出力されたユーザ選択によるメニューにかかるアルゴリズムや処理パラメータとを入力とする処理履歴情報を格納する。ここに、履歴蓄積手段が実現されている。履歴データベース３１に格納される処理履歴情報Ｈは、下記の式で示される。
Ｈ＝｛（ｘ（１），α１（１），α１（２），・・・）,（ｘ（２），α２（１），α２（２），・・・），・・・｝
ただし、ｘ（ｋ）はｋ番目のデータから抽出された特徴量ベクトルであり、αｋ（・）はｋ番目のデータに付けられたタグである。履歴データベース３１には、これらが時系列で記録される。
【００８６】
予測器構築部３２は、履歴データベース３１に蓄えられているデータを用いた学習により予測器を構築する。本実施の形態の予測器構築部３２は、本実施の形態の予測器構築部２４は、ユーザインタフェース部３４が用意する合計Ｍ個のタグ、あるいは、インデックス（各単語）の０／１判別を行う２クラス予測器を、最適機能予測部３３で用いられている識別アルゴリズムに合わせた学習により構築する。
【００８７】
最適機能予測部３３は、特徴量ベクトル計算部２２から出力された特徴量ベクトルを入力とし、予測器構築部３２で構築されたＭ個の予測器を用いて、最適な機能（アルゴリズムや処理パラメータ）を予測する。最適機能予測部３３は、任意の識別アルゴリズムの予測器に対して特徴量ベクトル計算部２２から出力された特徴量ベクトルを与えて、最適と予測される機能（処理内容）として推奨するクラス（アルゴリズムや処理パラメータに対応）を出力することができる。たとえば、識別アルゴリズムとしては、最近傍識別、ニューラルネットワーク、サポートベクトルマシンなどがある。
【００８８】
ユーザインタフェース部３４は、最適機能予測部３３から最適と予測される機能（処理内容）が出力される場合には、図１１に示すように最適と予測される機能（処理内容）に対応する項目をチェックボックス付のメニュー２００中にハイライト表示する等によって、推奨タグをユーザに提示する。ユーザは最適と予測される機能（処理内容）を気に入ったか、気に入らないかを、マウス等のポインティングデバイス１３を使って入力する。例えば、ユーザが最適と予測される機能（処理内容）を気に入らない場合には、マウス等のポインティングデバイス１３を使って、他の処理やパラメータをメニューから選択し直すようにすれば良い。ユーザの応答結果は、ユーザインタフェース部３４から履歴データベース３１と予測効果評価部３５とに出力される。
【００８９】
予測効果評価部３５は、上述したようなユーザがチェックボックス付のメニュー２００からデータに施す操作・機能を選択するような場合に、ユーザの作業の効率化という観点から、予測効果の評価指標を導入する。
【００９０】
ここで、作業効率は、予測器構築部３２で構築されたＭ個の０／１判別を行う２クラス予測器の精度だけでなく、各ユーザ固有の作業スピードにも依存するので、処理履歴情報から計算される予測精度を単純に閾値処理するだけでは不十分である。そこで、本実施の形態においては、予測効果評価部３５を備えることにより、作業効率の評価基準として、予測器構築部３２で構築されたＭ個の０／１判別を行う２クラス予測器の精度だけでなく、ユーザインタフェース部３４で測定した各ユーザに固有の作業スピードを考慮した定量的尺度を用いて、最悪の場合でも予測による作業効率劣化を防ぐようにしたものである。この点については、後述する。
【００９１】
ユーザインタフェース部３４は、各ユーザについての作業に要する時間に基づく固有の作業スピードを測定する。
（１）まず、ユーザインタフェース部３４で、予測による推奨をユーザに提示しない場合の作業時間を測定し、これをＳ秒とする。
（２）次に、予測による推奨をユーザに提示する場合の作業時間を測定する。ユーザが推奨結果を確認する時間をＶ秒、ユーザが修正する時間をＣ秒／単語とすると、ＶとＣは次のようにして求められる。２つのデータについて、作業時間とユーザに修正が必要なものの個数を測定し、それぞれＲ（ｊ）秒とＫ（ｊ）個（ｊ＝１，２）とすると、推奨結果の確認にＶ秒、修正にＫ（ｊ）・Ｃ秒かかるので、
Ｒ（１）＝Ｖ＋Ｋ（１）・Ｃ
Ｒ（２）＝Ｖ＋Ｋ（２）・Ｃ
となる。この２式を、２つの未知数ＶとＣに関する連立方程式をして解けば、ＶとＣが求められる。
【００９２】
なお、ＶとＣの値については、３つ以上のデータについて測定されたＲ（ｊ）秒とＫ（ｊ）から作られる過剰拘束の連立方程式（変数よりも方程式が多い）から得られる最小２乗解を用いることもできる。
【００９３】
上述した各ユーザに固有の作業スピードは、ユーザの応答結果として、ユーザインタフェース部３４から履歴データベース３１と予測効果評価部３５とに出力される。
【００９４】
予測効果評価部３５は、性能に影響するパラメータおよび作業に要する時間によって予測による推奨提示による作業効率化を計算し、計算した評価指標値を閾値処理して、作業効率が改善されるときにのみ、予測による推奨をユーザに提示する。
（１）性能（作業時間）に影響するパラメータ
性能（作業時間）に影響するパラメータとしては、以下に示すものが挙げられる。
［予測器の性能］
・予測誤り率：Ｅ（０≦Ｅ≦１）。この量は、履歴データベース３１に記憶されている処理履歴情報から計算できる。具体的には、現在の予測器で履歴データの各々を予測し、処理履歴情報として記録されている、実際に付与したタグと異なる割合を計算すればよい。
・学習時間：Ｌ秒／単語。この量は、予測器構築部３２に要する時間を測ることによって得られる。詳細は後述するが、予測器構築は予測が誤ったときだけ起動する（図５のフローチャート参照）ので、合計時間の期待値はＥＭＬ秒となる。
・予測時間：Ｐ秒／単語。この量は、最適機能予測部３３に要する時間を測ることによって得られる。すなわち、合計でＭＰ秒となる。
［ユーザ固有の作業スピード］
・予測による推奨の提示無
タグを選択する時間：Ｓ秒
・予測による推奨の提示有
ユーザが確認する時間：Ｖ秒
ユーザが訂正する時間：Ｃ秒／単語
（２）作業に要する時間
予測による推奨のユーザへの提示の有無により、作業時間は次のようになる。
［予測による推奨の提示］
・予測による推奨の提示なし：Ｔ_０＝Ｓ
ユーザがタグを入力（単語リストから選択、あるいは、自由入力）
・予測による推奨の提示あり：Ｔ_１＝ＭＰ＋Ｖ＋ＥＭ（Ｃ＋Ｌ）
予測 → ユーザが確認 → 誤ったものについてだけ，ユーザ訂正＋予測器構築
（３）予測による効果の評価指標
予測による推奨提示による作業効率化は、以下に示す式で計算できる。
ｒ＝Ｔ_０／Ｔ_１＝Ｓ／（ＭＰ＋Ｖ＋ＥＭ（Ｃ＋Ｌ））
この式で定義される量ｒが1を超える場合には、推奨提示により、作業効率が改善されることを、そして、１を下回る場合には、推奨提示により、作業が妨げられることを意味する。評価指標値ｒを閾値処理することにより、作業効率が改善されるときにのみ、予測による推奨をユーザに提示する。
【００９５】
次に、データ処理の流れについて図１２のフローチャートを参照して説明する。図１２に示すように、作業が開始されると、まず、最適機能予測部３３はチェックボックス付のメニュー２００中にハイライト表示する等の推奨提示をＯＦＦにする（ステップＳ３１）。
【００９６】
その後、データが入力されると、データ入力部２１で入力されたデータに前処理を施し（ステップＳ３２）、特徴量ベクトル計算部２２でデータ入力部２１から出力されたデータの特徴量ベクトルを計算し、履歴データベース３１と最適機能予測部３３とに出力する（ステップＳ３３）。
【００９７】
次いで、最適機能予測部３３では、特徴量ベクトル計算部２２から出力された特徴量ベクトルを入力とし、予測器構築部３２で構築されたＭ個の予測器を用いて、最適な機能（処理内容）を予測する（ステップＳ３４）。
【００９８】
続くステップＳ３５では、推奨提示がＯＮであるか否かを判断する。推奨提示がＯＦＦであれば（ステップＳ３５のＮｏ）、ユーザインタフェース部３４が表示装置１１に提示するチェックボックス付のメニュー２００のＭ個のタグ、あるいは、インデックスに対するユーザからの選択入力に待機する（ステップＳ３６）。
【００９９】
一方、推奨提示がＯＮであれば（ステップＳ３５のＹｅｓ）、図１１に示すように最適機能予測部３３からの最適と予測される機能（処理内容）に対応する項目をチェックボックス付のメニュー２００中にハイライト表示する等のユーザへ推奨機能を出力するとともに、チェックボックス付のメニュー２００のＭ個のタグ、あるいは、インデックスに対するユーザからの選択入力に待機する（ステップＳ３７）。
【０１００】
ここで、ユーザからの選択入力があった場合に、推奨とユーザ選択が異なるか否かを判断する（ステップＳ３８）。
【０１０１】
推奨とユーザ選択が異なる場合には（ステップＳ３８のＹｅｓ）、予測器構築部３２で履歴データベース３１に蓄えられているユーザの応答結果を用いて予測器の更新（学習）を行なう（ステップＳ３９）。
【０１０２】
予測器の更新（学習）を行なった場合（ステップＳ３９）、ユーザからの選択入力があった場合（ステップＳ３６）、推奨とユーザ選択が一致する場合（ステップＳ３８のＮｏ）、ステップＳ４０に進み、ユーザインタフェース部２６から送られるユーザの応答結果に基づき、予測効果評価部２７で予測効果の評価指標値を計算する。
【０１０３】
評価指標値が閾値以上であれば（ステップＳ４１のＹｅｓ）、予測器の学習が十分であると判断して、推奨表示をＯＮにする（ステップＳ４２）。
【０１０４】
評価指標値が閾値以上でなければ（ステップＳ４１のＮｏ）、予測器の学習が十分ではなく予測精度が低いと判断して、推奨表示をＯＦＦにする（ステップＳ４３）。
【０１０５】
そして、作業が終了してなければ（ステップＳ４４のＮｏ）、ステップＳ３２に進み、次のデータ入力に待機する。
【０１０６】
上述したように、データ処理装置３０は、予測を常に行うが、予測結果をユーザに推奨として提示するのは、予測効果評価部３５で計算された評価値がある一定以上、すなわち、推奨によって作業効率が向上すると判定された場合に限る。
【０１０７】
［予測効果の評価指標の算出例］
次に、上述した構成のデータ処理装置３０の予測効果評価部３５における予測効果の評価指標値の算出例を示す。ここで、データ処理装置３０の性能は、次のようなものとする。
（１）オンライン学習時間Ｌ＝０．０１（秒）：プロトタイプが２０００個以下で測定した結果で、プロトタイプ数に依らずほぼ一定である。
（２）予測に要する時間Ｐ＝０．００（秒）：計算には時間がほとんどかからない。
【０１０８】
評価指標値は、データ処理装置３０の予測精度に依存する。予測による推奨をユーザに提示しない場合の作業時間Ｓやユーザが推奨結果を確認する時間Ｖの値は、個々のユーザとタグ入力方法（単語リストから選択／自由入力）に依存する。
【０１０９】
まず、リスト選択方式（Ｍ＜１００）の場合について説明する。ＳやＶは語彙のサイズＭに比例すると仮定し、ユーザ固有の作業の速さを示すパラメータａ（タグ選択作業）およびｂ（確認作業）を用いて、
Ｓ＝ａＭ
Ｖ＝ｂＭ（ａ＜ｂ）
Ｃ＝１．０
と表してみる。すると、評価指標値は、下記式のように表される。
【数２】

ここで、ａの値は、通常、０．５〜１．２程度である。すなわち、５０個の単語リストから適当なものを複数個選ぶような作業にかかる時間は、２５〜６０秒程度である。また、ｂの値であるが、ａの値に比例するとして、ｂ＝０．５ａとしてみる（５０個の項目について、ＯＮ／ＯＦＦを確認する時間が１２〜３０秒に相当）。すると、ユーザ固有のパラメータａによって、予測精度（１−Ｅ）と評価指標値の関係は、図１３に示すグラフのようになる。
【０１１０】
図１３に示すグラフから次のような結論が得られる。タグを単語リストから選択するタイプのタスクでは、８５％程度の予測精度があれば、作業効率が１．５倍以上向上する。ただし、作業が速いユーザにとっては，予測がないよりはやや効率が良いという程度であり、７０％以下になると、逆に作業効率が落ちる。
【０１１１】
さらに、予測誤り率Ｅは、凸関数
Ｅ（ｔ）＝Ｅ_０ｅｘｐ（−αｔ）
Ｅ_０＝Ｅ（０）
となるので、評価指標値の時間変化は、下記式のように表される。
【数３】

この関数は大局的には時間ｔについての凹関数であり、立ち上がりが速く、時間が経過すると飽和するような変化をする。しかし、図１４に示すグラフからわかるように，実際に意味のある時間帯ではほぼ直線的な変化である。
【０１１２】
次に、自由入力方式（Ｍが辞書規模）の場合について説明する。語彙サイズＭが辞書サイズほどに大きく、タグを自由入力するような場合には、ＳやＶはＭとの依存性がない。むしろ、対象としているデータの性質に依存することになり、解析は難しい。ＳやＶをユーザ固有の作業時間の平均値として、上述した解析と同様に、
Ｖ＝０．５Ｓ
Ｃ＝１．０
と表してみる。すると、評価指標値は、評価指標値は、下記式のように表される。
【数４】

【０１１３】
そして、ＥＭ／Ｓと評価指標値の関係は、図１５に示すグラフのようになる。図１５のグラフに示されるように、ＥＭ／Ｓ＜０．１になって、初めて評価指標値が１．７以上になる。ここで、Ｓが３０秒としてみると、ＥＭ＜３であり、さらに、Ｍは大きい（少なくとも１００）から、Ｅ＜０．０３、すなわち、９７%以上の予測精度で効果がでることになる。したがって、タグを自由入力するタイプのタスクでは、ほぼ１００％の精度が出ない限り、作業効率への効果はない。
【０１１４】
このような簡単な定量的モデルによる分析により、次のような知見が得られた。
（１）タグを単語リストから選択するタイプのタスクでは、８５％程度の予測精度があれば、作業効率が１．５倍以上向上する。ただし、作業が速いユーザにとっては，予測がないよりはやや効率が良いという程度であり、７０％以下になると、逆に作業効率が落ちる。
（２）タグを自由入力するタイプのタスクでは、ほぼ１００％の精度が出ない限り、作業効率への効果はない。
【０１１５】
このように本実施の形態によれば、新しく入力されたデータについての特徴量から予測器を用いて最適な処理内容を予測し、予測した最適な処理内容についての作業効率を評価し、作業効率が向上すると予想される場合にのみ、予測した最適な処理内容をユーザに提示するようにしたことにより、予測器の学習が十分ではなく予測精度が低い場合に、予測した処理内容を逐一ユーザが修正しなければならず、かえって作業効率が落ちることを回避することができるようになるので、作業効率を常に向上させることができる。
【０１１６】
また、作業効率は、予測器の精度だけでなく、各ユーザ固有の作業スピードにも依存するので、単純に、履歴から計算される予測精度を閾値処理するだけでは不十分である。作業効率の評価基準として、予測器の精度だけでなく、各ユーザに固有の作業スピードを考慮した定量的尺度を用いることにより、最悪の場合でも予測による作業効率劣化を防ぐことができる。
【０１１７】
さらに、タグ付け型（データに複数個のタグを付ける）のタスクでは、タグを単語リストから選択する場合には、８５％程度の予測精度があれば、作業効率が１．５倍以上向上する。なお、タグを自由入力するタイプのタスクでは、ほぼ１００％の精度が出る場合に、作業効率が向上する。
【０１１８】
［第３の実施の形態］
次に、本発明の第３の実施の形態を図１６に基づいて説明する。なお、前述した第１の実施の形態または第２の実施の形態と同じ部分は同じ符号で示し説明も省略する。
【０１１９】
第１の実施の形態および第２の実施の形態においては、データ処理装置１，３０としてＰＣなどのコンピュータを適用したが、本実施の形態は、データ処理装置１，３０としてデジタル複合機などに備えられる情報処理装置を適用したものである。
【０１２０】
図１６は、本発明の第３の実施の形態にかかるデジタル複合機５０を示す外観斜視図である。図１６に示すように、画像読取手段であるスキャナ部５１及び画像印刷装置であるプリンタ部５２を備えた画像形成装置であるデジタル複合機５０に備えられる情報処理装置にデータ処理装置１，３０を適用し、デジタル複合機５０のスキャナ部５１で読み取ったスキャン画像に対してデータ処理を施すようにしたものである。
【０１２１】
［第４の実施の形態］
次に、本発明の第４の実施の形態を図１７に基づいて説明する。なお、前述した第１の実施の形態または第２の実施の形態と同じ部分は同じ符号で示し説明も省略する。
【０１２２】
第１の実施の形態および第２の実施の形態においては、データ処理装置１，３０としてローカルなシステム（例えば、パーソナルコンピュータ単体）を適用したが、本実施の形態は、データ処理装置１，３０としてサーバクライアントシステムを構成するサーバコンピュータを適用したものである。
【０１２３】
図１７は、本発明の第４の実施の形態にかかるサーバクライアントシステムを示す模式図である。図１７に示すように、サーバコンピュータＳにネットワークＮを介してクライアントコンピュータＣが複数台接続されたサーバクライアントシステムを適用しており、各クライアントコンピュータＣからサーバコンピュータＳに対して画像を送信し、サーバコンピュータＳ（データ処理装置１，３０）において画像に対してデータ処理を施すようにしたものである。また、ネットワークＮ上には、ネットワークスキャナＮＳが設けられている。
【図面の簡単な説明】
【０１２４】
【図１】本発明の第１の実施の形態にかかるデータ処理装置の電気的な接続を示すブロック図である。
【図２】データ処理にかかる機能を示す機能ブロック図である。
【図３】プルダウンメニューを示す正面図である。
【図４】ハイライト表示されたプルダウンメニューを示す正面図である。
【図５】データ処理の流れを概略的に示すフローチャートである。
【図６】予測精度と評価指標値の関係を示すグラフである。
【図７】予測精度と時間の関係を示すグラフである。
【図８】評価指標値の時間変化を示すグラフである。
【図９】本発明の第２の実施の形態のデータ処理にかかる機能を示す機能ブロック図である。
【図１０】チェックボックス付のメニューを示す正面図である。
【図１１】ハイライト表示されたチェックボックス付のメニューを示す正面図である。
【図１２】データ処理の流れを概略的に示すフローチャートである。
【図１３】予測精度と評価指標値の関係を示すグラフである。
【図１４】評価指標値の時間変化を示すグラフである。
【図１５】評価指標値とＥＭ／Ｓとの関係を示すグラフである。
【図１６】本発明の第３の実施の形態にかかるデジタル複合機を示す外観斜視図である。
【図１７】本発明の第４の実施の形態にかかるサーバクライアントシステムを示す模式図である。
【符号の説明】
【０１２５】
１，３０データ処理装置
２制御部
６記憶部
２１データ入力手段
２２特徴量計算手段
２３，３１履歴データベース
２４，３２予測器構築手段
２５，３３最適機能予測手段
２６，３４選択受付手段、提示手段
２７，３５評価手段

【特許請求の範囲】
【請求項１】
データの入力を受け付けるデータ入力手段と、
入力された前記データについての特徴量ベクトルを計算する特徴量計算手段と、
処理内容を提示してユーザによる前記処理内容の選択を受け付ける選択受付手段と、
前記特徴量計算手段で計算された前記特徴量ベクトルと、前記選択受付手段を介してユーザが適用した処理内容を時系列で記録した処理履歴情報とを履歴データベースに蓄積する履歴蓄積手段と、
前記データに対する最適な処理内容を予測する識別アルゴリズムの予測器を、前記履歴データベースに蓄積された前記処理履歴情報を用いて構築する予測器構築手段と、
新しく入力された前記データについての前記特徴量ベクトルから、前記予測器を用いて最適な処理内容を予測する最適機能予測手段と、
前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する評価手段と、
前記評価手段による評価が閾値以上の時に、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段を介してユーザに提示する提示手段と、
を備えることを特徴とするデータ処理装置。
【請求項２】
前記評価手段は、前記予測器の予測精度と、前記選択受付手段を介した各ユーザについての作業に要する時間に基づくユーザ固有の作業スピードとから、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する、
ことを特徴とする請求項１記載のデータ処理装置。
【請求項３】
前記選択受付手段は、メニューから１つの項目を選ぶことによってデータに適用する処理を指定するようなメニュー選択型タスクにより処理内容を提示する、
ことを特徴とする請求項１または２記載のデータ処理装置。
【請求項４】
前記選択受付手段は、データに任意個のタグ、あるいは、インデックスをつけるようなタグ付け型タスクにより処理内容を提示する、
ことを特徴とする請求項１または２記載のデータ処理装置。
【請求項５】
前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に施した処理とは異なるものの割合である、
ことを特徴とする請求項３記載のデータ処理装置。
【請求項６】
前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に付与したタグ、あるいは、インデックスと異なる割合である、
ことを特徴とする請求項４記載のデータ処理装置。
【請求項７】
前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率ｒを下記の式により評価する、
ｒ＝Ｓ／（Ｐ＋Ｖ＋（Ｓ＋Ｌ）Ｅ）
Ｓ：ユーザのメニュー選択時間
Ｐ：最適機能予測手段における予測時間
Ｖ：ユーザが確認する時間
Ｌ：予測器構築手段における予測器の構築に要する時間
Ｅ：予測誤り率
ことを特徴とする請求項３記載のデータ処理装置。
【請求項８】
前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率ｒを下記の式により評価する、
ｒ＝Ｓ／（ＭＰ＋Ｖ＋ＥＭ（Ｃ＋Ｌ））
Ｓ：ユーザのメニュー選択時間
Ｍ：タグ、あるいは、インデックスの個数
Ｐ：最適機能予測手段における予測時間
Ｖ：ユーザが確認する時間
Ｃ：ユーザが訂正する時間
Ｌ：予測器構築手段における予測器の構築に要する時間
Ｅ：予測誤り率
ことを特徴とする請求項４記載のデータ処理装置。
【請求項９】
前記提示手段は、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段でハイライト表示してユーザに提示する、
ことを特徴とする請求項１ないし８のいずれか一記載のデータ処理装置。
【請求項１０】
コンピュータを、
データの入力を受け付けるデータ入力手段と、
入力された前記データについての特徴量ベクトルを計算する特徴量計算手段と、
処理内容を提示してユーザによる前記処理内容の選択を受け付ける選択受付手段と、
前記特徴量計算手段で計算された前記特徴量ベクトルと、前記選択受付手段を介してユーザが適用した処理内容を時系列で記録した処理履歴情報とを履歴データベースに蓄積する履歴蓄積手段と、
前記データに対する最適な処理内容を予測する識別アルゴリズムの予測器を、前記履歴データベースに蓄積された前記処理履歴情報を用いて構築する予測器構築手段と、
新しく入力された前記データについての前記特徴量ベクトルから、前記予測器を用いて最適な処理内容を予測する最適機能予測手段と、
前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する評価手段と、
前記評価手段による評価が閾値以上の時に、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段を介してユーザに提示する提示手段と、
として機能させることを特徴とするプログラム。
【請求項１１】
前記評価手段は、前記予測器の予測精度と、前記選択受付手段を介した各ユーザについての作業に要する時間に基づくユーザ固有の作業スピードとから、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する、
ことを特徴とする請求項１０記載のプログラム。
【請求項１２】
前記選択受付手段は、メニューから１つの項目を選ぶことによってデータに適用する処理を指定するようなメニュー選択型タスクにより処理内容を提示する、
ことを特徴とする請求項１０または１１記載のプログラム。
【請求項１３】
前記選択受付手段は、データに任意個のタグ、あるいは、インデックスをつけるようなタグ付け型タスクにより処理内容を提示する、
ことを特徴とする請求項１０または１１記載のプログラム。
【請求項１４】
前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に施した処理とは異なるものの割合である、
ことを特徴とする請求項１２記載のプログラム。
【請求項１５】
前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に付与したタグ、あるいは、インデックスと異なる割合である、
ことを特徴とする請求項１３記載のプログラム。
【請求項１６】
前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率ｒを下記の式により評価する、
ｒ＝Ｓ／（Ｐ＋Ｖ＋（Ｓ＋Ｌ）Ｅ）
Ｓ：ユーザのメニュー選択時間
Ｐ：最適機能予測手段における予測時間
Ｖ：ユーザが確認する時間
Ｌ：予測器構築手段における予測器の構築に要する時間
Ｅ：予測誤り率
ことを特徴とする請求項１２記載のプログラム。
【請求項１７】
前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率ｒを下記の式により評価する、
ｒ＝Ｓ／（ＭＰ＋Ｖ＋ＥＭ（Ｃ＋Ｌ））
Ｓ：ユーザのメニュー選択時間
Ｍ：タグ、あるいは、インデックスの個数
Ｐ：最適機能予測手段における予測時間
Ｖ：ユーザが確認する時間
Ｃ：ユーザが訂正する時間
Ｌ：予測器構築手段における予測器の構築に要する時間
Ｅ：予測誤り率
ことを特徴とする請求項１３記載のプログラム。
【請求項１８】
前記提示手段は、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段でハイライト表示してユーザに提示する、
ことを特徴とする請求項１０ないし１７のいずれか一記載のプログラム。
【請求項１９】
データ処理装置で実行されるデータ処理方法であって、前記データ処理装置は、制御部と記憶部を備え、
前記制御部において実行される、
データ入力手段が、データの入力を受け付けるステップと、
特徴量計算手段が、入力された前記データについての特徴量ベクトルを計算するステップと、
選択受付手段が、処理内容を提示してユーザによる前記処理内容の選択を受け付けるステップと、
履歴蓄積手段が、前記特徴量計算手段で計算された前記特徴量ベクトルと、前記選択受付手段を介してユーザが適用した処理内容を時系列で記録した処理履歴情報とを前記記憶部に蓄積するステップと、
予測器構築手段が、前記データに対する最適な処理内容を予測する識別アルゴリズムの予測器を、前記記憶部に蓄積された前記処理履歴情報を用いて構築するステップと、
最適機能予測手段が、新しく入力された前記データについての前記特徴量ベクトルから、前記予測器を用いて最適な処理内容を予測するステップと、
評価手段が、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価するステップと、
提示手段が、前記評価手段による評価が閾値以上の時に、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段を介してユーザに提示するステップと、
を含むことを特徴とするデータ処理方法。
【請求項２０】
前記評価手段は、前記予測器の予測精度と、前記選択受付手段を介した各ユーザについての作業に要する時間に基づくユーザ固有の作業スピードとから、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する、
ことを特徴とする請求項１９記載のデータ処理方法。

【図１】