説明

データ処理装置、プログラムおよびデータ処理方法

【課題】作業効率を常に向上させることができるデータ処理装置、プログラムおよびデータ処理方法を提供する。
【解決手段】新しく入力されたデータについての特徴量から予測器を用いて最適な処理内容を予測し(S4)、予測した最適な処理内容についての作業効率を評価し(S10)、作業効率が向上すると予想される場合にのみ(S11のYes)、予測した最適な処理内容をユーザに提示するようにした(S12)。これにより、予測器の学習が十分ではなく予測精度が低い場合に、予測した処理内容を逐一ユーザが修正しなければならず、かえって作業効率が落ちることを回避することができるようになるので、作業効率を常に向上させることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理装置、プログラムおよびデータ処理方法に関する。
【背景技術】
【0002】
近年、カラースキャナやデジタルカメラの普及により、カラー入力された文書画像についての蓄積、出力および再利用がなされている。さらに、カラー入力された文書画像についてのネットワークを介しての遠隔地への送信も行われている。
【0003】
ところで、このように文書画像を多様な利用目的に最適な形で活用できるようなシステムを構築するにあたっては、処理対象である文書画像の種類も多様であり、さらに、ユーザの嗜好や利用目的も多様であることが問題となっている。
【0004】
そこで、特許文献1や特許文献2では、入力機器やアプリケーション(ユーザのタスク)の「多様性」に対応するためのデータ処理装置が開示されている。
【0005】
ここで、「多様性」のもう一つの重要な要因として考えなければならないのが、ユーザの「目的」である。すなわち、同じような文書画像を処理するとしても、個々のユーザの目的によって、施す処理内容やパラメータが異なってくる。例えば、文書画像の階調補正技術では、地肌の色を白にしてしまう(地肌除去)か、あるいは、原本の色を保持したまま、汚れや裏写りを取り除く(地肌クリーニング)だけにするかは、ユーザの目的に依存する選択である。
【0006】
現状のデータ処理システムでは、大量の画像に対して、このような個々のユーザの目的に依存する処理を施す場合には、ユーザがアルゴリズムや処理パラメータを1枚ごとに逐一指定しなければならないので、ユーザに負担がかかるとともに、作業効率が低下してしまう。
【0007】
このような「多様性」に適応できるようなシステムを構築するには、以下に示すような操作をオンサイト、すなわち、稼働している装置上で実行するようなメカニズムを構築する必要がある。
(1)データのコンテンツを表現する多次元特徴量ベクトルと、そのユーザが適用したアルゴリズムや処理パラメータとの組を記録した履歴・事例を蓄積する。
(2)蓄積された履歴・事例を用いて、特徴量ベクトルから各アルゴリズムや処理パラメータの適切さを予測する関数を学習する。
(3)未知のデータに対して、その特徴量ベクトルから何をしたいか(適切なアルゴリズムや処理パラメータ)を予測する。
【0008】
つまり、「多様性」に適応できるようなシステムを構築するには、履歴情報や事例(データのコンテンツを表現する特徴量ベクトルとそのときに施した処理内容や用いたパラメータの組から成るリスト)に基づいて、適切な処理や機能(アルゴリズム,パラメータ)を推奨するような機能が要求される。このような推奨機能によれば、以前に処理したデータと類似のものについては同一の処理内容をユーザに推奨することにより、ユーザとしては、推奨されたものが気に入らない場合にのみ、アルゴリズムとパラメータを指定しなおせばよい。すなわち、使っているうちに、目的に合ったアルゴリズムやパラメータが最優先(デフォルト)で選択されるようなシステムが望ましい。
【0009】
そこで、本出願人は、上述したような機構を実現する方法について、特願2007−18300号や特願2007−242682号において提案している。
【0010】
【特許文献1】特開2006−053690号公報
【特許文献2】特開2006−074331号公報
【発明の開示】
【発明が解決しようとする課題】
【0011】
しかしながら、ユーザへの推奨機構が実現できたとしても、予測器の学習が十分ではなく予測精度が低い場合には、推奨を逐一ユーザが修正しなければならないので、修正の手間により、かえって作業効率が低下することもありうる。
【0012】
したがって、予測精度が十分に高く、推奨によって作業効率が向上するような場合に限って予測による推奨を行うべきである。
【0013】
なお、作業効率は、予測器の精度だけでなく、各ユーザ固有の作業スピードにも依存するので、履歴から計算される予測精度を単純に閾値処理するだけでは不十分である。
【0014】
本発明は、上記に鑑みてなされたものであって、作業効率を常に向上させることができるデータ処理装置、プログラムおよびデータ処理方法を提供することを目的とする。
【課題を解決するための手段】
【0015】
上述した課題を解決し、目的を達成するために、請求項1にかかる発明のデータ処理装置は、データの入力を受け付けるデータ入力手段と、入力された前記データについての特徴量ベクトルを計算する特徴量計算手段と、処理内容を提示してユーザによる前記処理内容の選択を受け付ける選択受付手段と、前記特徴量計算手段で計算された前記特徴量ベクトルと、前記選択受付手段を介してユーザが適用した処理内容を時系列で記録した処理履歴情報とを履歴データベースに蓄積する履歴蓄積手段と、前記データに対する最適な処理内容を予測する識別アルゴリズムの予測器を、前記履歴データベースに蓄積された前記処理履歴情報を用いて構築する予測器構築手段と、新しく入力された前記データについての前記特徴量ベクトルから、前記予測器を用いて最適な処理内容を予測する最適機能予測手段と、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する評価手段と、前記評価手段による評価が閾値以上の時に、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段を介してユーザに提示する提示手段と、を備えることを特徴とする。
【0016】
また、請求項2にかかる発明は、請求項1記載のデータ処理装置において、前記評価手段は、前記予測器の予測精度と、前記選択受付手段を介した各ユーザについての作業に要する時間に基づくユーザ固有の作業スピードとから、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する、ことを特徴とする。
【0017】
また、請求項3にかかる発明は、請求項1または2記載のデータ処理装置において、前記選択受付手段は、メニューから1つの項目を選ぶことによってデータに適用する処理を指定するようなメニュー選択型タスクにより処理内容を提示する、ことを特徴とする。
【0018】
また、請求項4にかかる発明は、請求項1または2記載のデータ処理装置において、前記選択受付手段は、データに任意個のタグ、あるいは、インデックスをつけるようなタグ付け型タスクにより処理内容を提示する、ことを特徴とする。
【0019】
また、請求項5にかかる発明は、請求項3記載のデータ処理装置において、前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に施した処理とは異なるものの割合である、ことを特徴とする。
【0020】
また、請求項6にかかる発明は、請求項4記載のデータ処理装置において、前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に付与したタグ、あるいは、インデックスと異なる割合である、ことを特徴とする。
【0021】
また、請求項7にかかる発明は、請求項3記載のデータ処理装置において、前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率rを下記の式により評価する、
r=S/(P+V+(S+L)E)
S:ユーザのメニュー選択時間
P:最適機能予測手段における予測時間
V:ユーザが確認する時間
L:予測器構築手段における予測器の構築に要する時間
E:予測誤り率
ことを特徴とする。
【0022】
また、請求項8にかかる発明は、請求項4記載のデータ処理装置において、前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率rを下記の式により評価する、
r=S/(MP+V+EM(C+L))
S:ユーザのメニュー選択時間
M:タグ、あるいは、インデックスの個数
P:最適機能予測手段における予測時間
V:ユーザが確認する時間
C:ユーザが訂正する時間
L:予測器構築手段における予測器の構築に要する時間
E:予測誤り率
ことを特徴とする。
【0023】
また、請求項9にかかる発明は、請求項1ないし8のいずれか一記載のデータ処理装置において、前記提示手段は、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段でハイライト表示してユーザに提示する、ことを特徴とする。
【0024】
また、請求項10にかかる発明のプログラムは、コンピュータを、データの入力を受け付けるデータ入力手段と、入力された前記データについての特徴量ベクトルを計算する特徴量計算手段と、処理内容を提示してユーザによる前記処理内容の選択を受け付ける選択受付手段と、前記特徴量計算手段で計算された前記特徴量ベクトルと、前記選択受付手段を介してユーザが適用した処理内容を時系列で記録した処理履歴情報とを履歴データベースに蓄積する履歴蓄積手段と、前記データに対する最適な処理内容を予測する識別アルゴリズムの予測器を、前記履歴データベースに蓄積された前記処理履歴情報を用いて構築する予測器構築手段と、新しく入力された前記データについての前記特徴量ベクトルから、前記予測器を用いて最適な処理内容を予測する最適機能予測手段と、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する評価手段と、前記評価手段による評価が閾値以上の時に、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段を介してユーザに提示する提示手段と、として機能させることを特徴とする。
【0025】
また、請求項11にかかる発明は、請求項10記載のプログラムにおいて、前記評価手段は、前記予測器の予測精度と、前記選択受付手段を介した各ユーザについての作業に要する時間に基づくユーザ固有の作業スピードとから、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する、ことを特徴とする。
【0026】
また、請求項12にかかる発明は、請求項10または11記載のプログラムにおいて、前記選択受付手段は、メニューから1つの項目を選ぶことによってデータに適用する処理を指定するようなメニュー選択型タスクにより処理内容を提示する、ことを特徴とする。
【0027】
また、請求項13にかかる発明は、請求項10または11記載のプログラムにおいて、前記選択受付手段は、データに任意個のタグ、あるいは、インデックスをつけるようなタグ付け型タスクにより処理内容を提示する、ことを特徴とする。
【0028】
また、請求項14にかかる発明は、請求項12記載のプログラムにおいて、前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に施した処理とは異なるものの割合である、ことを特徴とする。
【0029】
また、請求項15にかかる発明は、請求項13記載のプログラムにおいて、前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に付与したタグ、あるいは、インデックスと異なる割合である、ことを特徴とする。
【0030】
また、請求項16にかかる発明は、請求項12記載のプログラムにおいて、前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率rを下記の式により評価する、
r=S/(P+V+(S+L)E)
S:ユーザのメニュー選択時間
P:最適機能予測手段における予測時間
V:ユーザが確認する時間
L:予測器構築手段における予測器の構築に要する時間
E:予測誤り率
ことを特徴とする。
【0031】
また、請求項17にかかる発明は、請求項13記載のプログラムにおいて、前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率rを下記の式により評価する、
r=S/(MP+V+EM(C+L))
S:ユーザのメニュー選択時間
M:タグ、あるいは、インデックスの個数
P:最適機能予測手段における予測時間
V:ユーザが確認する時間
C:ユーザが訂正する時間
L:予測器構築手段における予測器の構築に要する時間
E:予測誤り率
ことを特徴とする。
【0032】
また、請求項18にかかる発明は、請求項10ないし17のいずれか一記載のプログラムにおいて、前記提示手段は、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段でハイライト表示してユーザに提示する、ことを特徴とする。
【0033】
また、請求項19にかかる発明のデータ処理方法は、データ処理装置で実行されるデータ処理方法であって、前記データ処理装置は、制御部と記憶部を備え、前記制御部において実行される、データ入力手段が、データの入力を受け付けるステップと、特徴量計算手段が、入力された前記データについての特徴量ベクトルを計算するステップと、選択受付手段が、処理内容を提示してユーザによる前記処理内容の選択を受け付けるステップと、履歴蓄積手段が、前記特徴量計算手段で計算された前記特徴量ベクトルと、前記選択受付手段を介してユーザが適用した処理内容を時系列で記録した処理履歴情報とを前記記憶部に蓄積するステップと、予測器構築手段が、前記データに対する最適な処理内容を予測する識別アルゴリズムの予測器を、前記記憶部に蓄積された前記処理履歴情報を用いて構築するステップと、最適機能予測手段が、新しく入力された前記データについての前記特徴量ベクトルから、前記予測器を用いて最適な処理内容を予測するステップと、評価手段が、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価するステップと、提示手段が、前記評価手段による評価が閾値以上の時に、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段を介してユーザに提示するステップと、を含むことを特徴とする。
【0034】
また、請求項20にかかる発明は、請求項19記載のデータ処理方法において、前記評価手段は、前記予測器の予測精度と、前記選択受付手段を介した各ユーザについての作業に要する時間に基づくユーザ固有の作業スピードとから、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する、ことを特徴とする。
【発明の効果】
【0035】
本発明によれば、新しく入力されたデータについての特徴量から予測器を用いて最適な処理内容を予測し、予測した最適な処理内容についての作業効率を評価し、作業効率が向上すると予想される場合にのみ、予測した最適な処理内容をユーザに提示するようにしたことにより、予測器の学習が十分ではなく予測精度が低い場合に、予測した処理内容を逐一ユーザが修正しなければならず、かえって作業効率が落ちることを回避することができるようになるので、作業効率を常に向上させることができる、という効果を奏する。
【発明を実施するための最良の形態】
【0036】
以下に添付図面を参照して、この発明にかかるデータ処理装置、プログラムおよびデータ処理方法の最良な実施の形態を詳細に説明する。
【0037】
[第1の実施の形態]
本発明の第1の実施の形態を図1ないし図8に基づいて説明する。図1は、本発明の第1の実施の形態にかかるデータ処理装置1の電気的な接続を示すブロック図である。図1に示すように、データ処理装置1は、PC(Personal Computer)などのコンピュータであり、データ処理装置1の各部を集中的に制御する制御部であるCPU(Central Processing Unit)2、情報を格納するROM(Read Only Memory)3及びRAM(Random Access Memory)4等の一次記憶装置5、データファイル(例えば、カラービットマップ画像データ)を記憶する記憶部であるHDD(Hard Disk Drive)6等の二次記憶装置7、情報を保管したり外部に情報を配布したり外部から情報を入手するためのCD−ROMドライブ等のリムーバブルディスク装置8、ネットワーク9を介して外部の他のコンピュータと通信により情報を伝達するためのネットワークインターフェース10、処理経過や結果等を操作者に表示するCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等の表示装置11、並びに操作者がCPU2に命令や情報等を入力するためのキーボード12、マウス等のポインティングデバイス13等から構成されており、これらの各部間で送受信されるデータをバスコントローラ14が調停して動作する。
【0038】
なお、本実施の形態においては、データ処理装置1として一般的なパーソナルコンピュータを適用して説明しているが、これに限るものではなく、PDA(Personal Digital Assistants)と称される携帯用情報端末、palmTopPC、携帯電話、PHS(Personal Handyphone System)等であっても良い。
【0039】
このようなデータ処理装置1では、ユーザが電源を投入するとCPU2がROM3内のローダーというプログラムを起動させ、HDD6よりオペレーティングシステムというコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM7に読み込み、このオペレーティングシステムを起動させる。このようなオペレーティングシステムは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。オペレーティングシステムのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)等が知られている。これらのオペレーティングシステム上で走る動作プログラムをアプリケーションプログラムと呼んでいる。
【0040】
ここで、データ処理装置1は、アプリケーションプログラムとして、データ処理プログラムをHDD6に記憶している。この意味で、HDD6は、データ処理プログラムを記憶する記憶媒体として機能する。
【0041】
また、一般的には、データ処理装置1のHDD6等の二次記憶装置7にインストールされるアプリケーションプログラムは、CD−ROMやDVD−ROM等の光情報記録メディアやFD等の磁気メディア等の記憶媒体8aに記録され、この記憶媒体8aに記録されたアプリケーションプログラムがHDD6等の二次記憶装置7にインストールされる。このため、CD−ROM等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体8aも、データ処理プログラムを記憶する記憶媒体となり得る。さらには、データ処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、例えばネットワークインターフェース10を介して外部からダウンロードさせることにより、HDD6等の二次記憶装置7にインストールするように構成しても良い。また、本実施の形態のデータ処理装置1で実行されるデータ処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
【0042】
データ処理装置1は、オペレーティングシステム上で動作するデータ処理プログラムが起動すると、このデータ処理プログラムに従い、CPU2が各種の演算処理を実行して各部を集中的に制御する。
【0043】
なお、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路(図示せず)を別途設け、論理回路の動作により各種の演算処理を実行するようにするのが望ましい。
【0044】
データ処理装置1のCPU2が実行する各種の演算処理のうち、本実施の形態の特長的な処理であるデータ処理について以下に説明する。
【0045】
図2はデータ処理装置1のCPU2が実行するデータ処理にかかる機能を示す機能ブロック図である。図2に示すように、データ処理装置1は、データ入力手段として機能するデータ入力部21と、特徴量計算手段として機能する特徴量ベクトル計算部22と、履歴データベース23と、予測器構築手段として機能する予測器構築部24と、最適機能予測手段として機能する最適機能予測部25と、選択受付手段および提示手段として機能するユーザインタフェース部26と、評価手段として機能する予測効果評価部27と、を備えている。以下において、各構成部の動作と作用を詳述する。
【0046】
ユーザインタフェース部26は、データに適用する処理(アルゴリズム,パラメータなど)を選択させるメニューを表示装置11に提示し、ユーザに選択させる。本実施の形態のユーザインタフェース部26が表示装置11に提示するメニューとしては、図3に示すプルダウンメニュー100が用意されている。本実施の形態においては、ユーザがマウス等のポインティングデバイス13を用いてプルダウンメニュー100から1つの項目を選ぶことによってデータに適用する処理を指定するようなメニュー選択型タスクを例示する。なお、本実施の形態においては、M個のプルダウンメニュー100が用意されているものとする。
【0047】
データ入力部21は、データの入力を受け付け、入力されたデータに前処理を施す。たとえば、データが文書画像の場合には、入力された文書画像中の文書の傾きを補正する「スキュー補正」などを施す。
【0048】
特徴量ベクトル計算部22は、データ入力部21から出力されたデータを入力とし、特徴量ベクトルを計算する。そして、特徴量ベクトル計算部22は、計算した特徴量ベクトルを、履歴データベース23と最適機能予測部25とに出力する。テキストデータの場合には、「Bag-Of-Words」、すなわち、文書中に出現する単語の頻度を並べたベクトルを用いることができる。また、データが文書画像の場合には、特許第3253356号公報や特許第3215163号公報に開示されているような文書画像の特徴量を並べたベクトルを組み合わせて構成することができる。さらに、色や輝度の分布から得られる統計量、あるいは、エッジ強度の分布から得られる統計量などを加えて用いても良い。
【0049】
履歴データベース23は、HDD6に形成されていて、特徴量ベクトル計算部22から出力された特徴量ベクトルと、ユーザインタフェース部26から出力されたユーザ選択によるメニューにかかるアルゴリズムや処理パラメータとを入力とする処理履歴情報を格納する。ここに、履歴蓄積手段が実現されている。履歴データベース23に格納される処理履歴情報Hは、下記の式で示される。
H={(x(1),α1(1),・・・,αM(1)),(x(2),α1(2)),・・・,αM(2)}},・・・}
ただし、x(k)はk番目のデータから抽出された特徴量ベクトルであり、αj(k)はj番目のメニューから選ばれたアルゴリズムや処理パラメータである。履歴データベース23には、これらが時系列で記録される。j番目のメニューから何も選ばれなかった場合には、欠落値を表す値を入れておけばよい。
【0050】
予測器構築部24は、履歴データベース23に蓄えられているデータを用いた学習により予測器を構築する。本実施の形態の予測器構築部24は、ユーザインタフェース部26が用意するM個のプルダウンメニュー100に対応して、合計M個の予測器を、最適機能予測部25で用いられている識別アルゴリズムに合わせた学習により構築する。
【0051】
最適機能予測部25は、特徴量ベクトル計算部22から出力された特徴量ベクトルを入力とし、予測器構築部24で構築されたM個の予測器を用いて、最適な機能(処理内容)であるアルゴリズムや処理パラメータを予測する。最適機能予測部25は、任意の識別アルゴリズムの予測器に対して特徴量ベクトル計算部22から出力された特徴量ベクトルを与えて、最適と予測される機能(処理内容)として推奨するクラス(アルゴリズムや処理パラメータに対応)を出力することができる。たとえば、識別アルゴリズムとしては、最近傍識別、ニューラルネットワーク、サポートベクトルマシンなどがある。
【0052】
ユーザインタフェース部26は、最適機能予測部25から最適と予測される機能(処理内容)が出力される場合には、図4に示すように最適と予測される機能(処理内容)に対応する項目をプルダウンメニュー100中にハイライト表示する等によって、ユーザに提示する。ユーザは最適と予測される機能(処理内容)を気に入ったか、気に入らないかを、マウス等のポインティングデバイス13を使って入力する。例えば、ユーザが最適と予測される機能(処理内容)を気に入らない場合には、マウス等のポインティングデバイス13を使って、他の処理やパラメータをメニューから選択し直すようにすれば良い。ユーザの応答結果は、ユーザインタフェース部26から履歴データベース23と予測効果評価部27とに出力される。
【0053】
予測効果評価部27は、上述したようなユーザがプルダウンメニュー100からデータに施す操作・機能を選択するような場合に、ユーザの作業の効率化という観点から、予測効果の評価指標を導入する。
【0054】
ここで、作業効率は、予測器構築部24で構築されたM個の予測器の精度だけでなく、各ユーザ固有の作業スピードにも依存するので、処理履歴情報から計算される予測精度を単純に閾値処理するだけでは不十分である。そこで、本実施の形態においては、予測効果評価部27を備えることにより、作業効率の評価基準として、予測器構築部24で構築されたM個の予測器の精度だけでなく、ユーザインタフェース部26で測定した各ユーザに固有の作業スピードを考慮した定量的尺度を用いて、最悪の場合でも予測による作業効率劣化を防ぐようにしたものである。この点については、後述する。
【0055】
ユーザインタフェース部26は、各ユーザについての作業に要する時間に基づく固有の作業スピードを測定する。ユーザのメニュー選択時間をS秒/メニュー、ユーザが推奨結果を確認する時間をV秒/メニューとすると、SとVは次のようにして求められる。
(1)まず、ユーザインタフェース部26で、予測による推奨をユーザに提示しない場合の作業時間を測定し、これをQ秒とする。M個のプルダウンメニュー100のそれぞれについて選択作業を行うので、合計でMS秒の時間がかかる。したがって、
S=Q/M
となる。
(2)次に、予測による推奨をユーザに提示する場合の作業時間を測定し、これをR秒とする。ユーザに修正が必要なものの個数をK個とすると、推奨結果の確認にMV秒、修正にKS秒かかるので、
R=MV+KS=MV+KQ/M
すなわち、
V=(MR−KQ)/(M*M)
となる。
【0056】
なお、Q、RまたはKの値については、2個以上のデータから得られた平均値を用いてもよい。
【0057】
上述した各ユーザに固有の作業スピードは、ユーザの応答結果として、ユーザインタフェース部26から履歴データベース23と予測効果評価部27とに出力される。
【0058】
予測効果評価部27は、性能に影響するパラメータおよび作業に要する時間によって予測による推奨提示による作業効率化を計算し、計算した評価指標値を閾値処理して、作業効率が改善されるときにのみ、予測による推奨をユーザに提示する。
(1)性能(作業時間)に影響するパラメータ
性能(作業時間)に影響するパラメータとしては、以下に示すものが挙げられる。
[メニューの数:M]
・メニューの数:M。各プルダウンメニュー100から1つを選ぶ。各メニューに対応して、合計M個の予測器を学習により構築する。
[予測器の性能]
・予測誤り率:E(0≦E≦1)。この量は、履歴データベース23に記憶されている処理履歴情報から計算できる。具体的には、現在の予測器で履歴データの各々を予測し、処理履歴情報として記録されている、実際に施した処理と異なるものの割合を計算すればよい。
・学習時間:L秒/メニュー。この量は、予測器構築部24に要する時間を測ることによって得られる。詳細は後述するが、予測器構築は予測が誤ったときだけ起動する(図5のフローチャート参照)ので、合計時間の期待値はEML秒となる。
・予測時間:P秒/メニュー。この量は、最適機能予測部25に要する時間を測ることによって得られる。すなわち、合計でMP秒となる。
[ユーザ固有の作業スピード]
・ユーザのメニュー選択時間:S秒/メニューとすると、合計でMS秒である。
・ユーザが確認する時間:V秒/メニューとすると、合計MV秒である。
(2)作業に要する時間
予測による推奨のユーザへの提示の有無により、作業時間は次のようになる。
[予測による推奨の提示]
・予測による推奨の提示なし:T=MS
各メニューについて、ユーザが逐一選択する。
・予測による推奨の提示あり:T=M(P+V+(S+L)E)
予測 → ユーザが確認 → 誤ったものについてだけ、ユーザ入力+予測器構築
(3)予測による効果の評価指標
予測による推奨提示による作業効率化は、以下に示す式で計算できる。
r=T/T=S/(P+V+(S+L)E)
この式で定義される量rが1を超える場合には、推奨提示により、作業効率が改善されることを、そして、1を下回る場合には、推奨提示により、作業が妨げられることを意味する。評価指標値rを閾値処理することにより、作業効率が改善されるときにのみ、予測による推奨をユーザに提示する。
【0059】
次に、データ処理の流れについて図5のフローチャートを参照して説明する。図5に示すように、作業が開始されると、まず、最適機能予測部25はプルダウンメニュー100中にハイライト表示する等の推奨提示をOFFにする(ステップS1)。
【0060】
その後、データが入力されると、データ入力部21で入力されたデータに前処理を施し(ステップS2)、特徴量ベクトル計算部22でデータ入力部21から出力されたデータの特徴量ベクトルを計算し、履歴データベース23と最適機能予測部25とに出力する(ステップS3)。
【0061】
次いで、最適機能予測部25では、特徴量ベクトル計算部22から出力された特徴量ベクトルを入力とし、予測器構築部24で構築されたM個の予測器を用いて、最適な機能(処理内容)を予測する(ステップS4)。
【0062】
続くステップS5では、推奨提示がONであるか否かを判断する。推奨提示がOFFであれば(ステップS5のNo)、ユーザインタフェース部26が表示装置11に提示するM個のプルダウンメニュー100に対するユーザからの選択入力に待機する(ステップS6)。
【0063】
一方、推奨提示がONであれば(ステップS5のYes)、図4に示すように最適機能予測部25からの最適と予測される機能(処理内容)に対応する項目をプルダウンメニュー100中にハイライト表示する等のユーザへ推奨機能を出力するとともに、M個のプルダウンメニュー100に対するユーザからの選択入力に待機する(ステップS7)。
【0064】
ここで、ユーザからの選択入力があった場合に、推奨とユーザ選択が異なるか否かを判断する(ステップS8)。
【0065】
推奨とユーザ選択が異なる場合には(ステップS8のYes)、予測器構築部24で履歴データベース23に蓄えられているユーザの応答結果を用いて予測器の更新(学習)を行なう(ステップS9)。
【0066】
予測器の更新(学習)を行なった場合(ステップS9)、ユーザからの選択入力があった場合(ステップS6)、推奨とユーザ選択が一致する場合(ステップS8のNo)、ステップS10に進み、ユーザインタフェース部26から送られるユーザの応答結果に基づき、予測効果評価部27で予測効果の評価指標値を計算する。
【0067】
評価指標値が閾値以上であれば(ステップS11のYes)、予測器の学習が十分であると判断して、推奨表示をONにする(ステップS12)。
【0068】
評価指標値が閾値以上でなければ(ステップS11のNo)、予測器の学習が十分ではなく予測精度が低いと判断して、推奨表示をOFFにする(ステップS13)。
【0069】
そして、作業が終了してなければ(ステップS14のNo)、ステップS2に進み、次のデータ入力に待機する。
【0070】
上述したように、データ処理装置1は、予測を常に行うが、予測結果をユーザに推奨として提示するのは、予測効果評価部27で計算された評価値がある一定以上、すなわち、推奨によって作業効率が向上すると判定された場合に限る。
【0071】
[予測効果の評価指標の算出例]
次に、上述した構成のデータ処理装置1の予測効果評価部27における予測効果の評価指標値の算出例を示す。ここで、データ処理装置1の性能は、次のようなものとする。
(1)オンライン学習時間L = 0.01(秒):プロトタイプが2000個以下で測定した結果で、プロトタイプ数に依らずほぼ一定である。
(2)予測に要する時間P = 0.00(秒):計算には時間がほとんどかからない。
【0072】
評価指標値は、データ処理装置1の予測精度に依存する。典型的ユーザの場合、メニュー選択と確認に要する時間は、
S = 2〜5(秒)
V = 1(秒)
であるので、評価指標値は、
r = S/1+E(S+0.01)
として計算することができる。
【0073】
ユーザ固有の作業時間Sによって、予測精度(1−E)と評価指標値の関係は、図5に示すグラフのようになる。このグラフからは、次に示すような結論が得られる。80%程度の予測精度があれば、作業効率が2倍以上に向上する。ただし、作業が速いユーザ(S = 2)にとっては、予測がないよりはやや効率が良いという程度である。
【0074】
ところで、ユーザの一連の作業中、予測精度(1−E(t))は、最適機能予測部25におけるオンライン学習により時間変化する。最適機能予測部25におけるオンライン学習アルゴリズムによる予測誤り率Eは、時間tの関数として、下記に示す式のようにモデル化することができる。
dE/dt = −αE(α>0)
これは、予測誤り率Eが、誤りの数が多いほど大きく減るように変化し、誤りの数が少なければ変化しないことを意味する。最適機能予測部25におけるオンライン学習が起動されるのは、予測が誤ったときであり、かつ、学習に用いられるプロトタイプは誤ったものの固定サイズの近傍に限られるため、上記のような単純な微分方程式で記述できる。
【0075】
したがって、予測誤り率Eは、凸関数
E(t) = Eexp(−αt)
= E(0)
となる。いくつかの実例をもとに、予測精度の変化(1−E(t))をプロットすると、図6に示すように時間tについての凹関数1となる。多くの場合、すぐに80%の予測精度が達成できる。
【0076】
したがって、評価指標値は、下記式のように表される。
【数1】

これにより、評価指標値は、図7のグラフに示すように、やはり時間tについての凹関数となる。これは、ユーザの一連の作業中に、効率も素早く向上することを意味している。
【0077】
このような簡単な定量的モデルによる分析により、次のような知見が得られた。
(1)メニュー選択型のタスクでは、効率が2倍以上向上する。ただし、作業が速いユーザにとっては、予測がないよりは効率がやや良いという程度である。
(2)ユーザの一連の作業中にオンライン学習中を稼働することにより、作業効率が即座に改善する。
【0078】
このように本実施の形態によれば、新しく入力されたデータについての特徴量から予測器を用いて最適な処理内容を予測し、予測した最適な処理内容についての作業効率を評価し、作業効率が向上すると予想される場合にのみ、予測した最適な処理内容をユーザに提示するようにしたことにより、予測器の学習が十分ではなく予測精度が低い場合に、予測した処理内容を逐一ユーザが修正しなければならず、かえって作業効率が落ちることを回避することができるようになるので、作業効率を常に向上させることができる。
【0079】
また、作業効率は、予測器の精度だけでなく、各ユーザ固有の作業スピードにも依存するので、単純に、履歴から計算される予測精度を閾値処理するだけでは不十分である。作業効率の評価基準として、予測器の精度だけでなく、各ユーザに固有の作業スピードを考慮した定量的尺度を用いることにより、最悪の場合でも予測による作業効率劣化を防ぐことができる。
【0080】
さらに、メニュー選択型(データに施す操作・機能をユーザがメニューから選択する)のタスクでは、効率が2倍以上向上すると期待することができる。また、ユーザの一連の作業中にオンライン学習を稼働することにより、作業効率が即座(立ち上がりが早い)に改善することができる。
【0081】
[第2の実施の形態]
次に、本発明の第2の実施の形態を図9ないし図15に基づいて説明する。なお、前述した第1の実施の形態と同じ部分は同じ符号で示し説明も省略する。
【0082】
第1の実施の形態では、プルダウンメニュー100から1つの項目を選ぶことによってデータに適用する処理を指定するようなメニュー選択型タスクを使用する場合について説明した。本実施の形態においては、データに任意個のタグ、あるいは、インデックスをつけるようなタグ付け型タスクを使用する場合について説明する。
【0083】
図9はデータ処理装置30のCPU2が実行するデータ処理にかかる機能を示す機能ブロック図である。図9に示すように、データ処理装置30は、データ入力手段として機能するデータ入力部21と、特徴量計算手段として機能する特徴量ベクトル計算部22と、履歴データベース31と、予測器構築手段として機能する予測器構築部32と、最適機能予測手段として機能する最適機能予測部33と、選択受付手段および提示手段として機能するユーザインタフェース部34と、評価手段として機能する予測効果評価部35と、を備えている。以下において、各構成部の動作と作用を詳述する。なお、データ入力部21および特徴量ベクトル計算部22については、前述した第1の実施の形態と同様であるので、その説明は省略する。
【0084】
ユーザインタフェース部34は、データに適用する処理(アルゴリズム,パラメータなど)を選択させるメニューを表示装置11に提示し、ユーザに選択させる。本実施の形態のユーザインタフェース部34が表示装置11に提示するメニューとしては、図10に示すチェックボックス付のメニュー200のように、M個の候補タグ、あるいは、インデックスの個数(語彙のサイズ)が用意されている。なお、Mが100個程度であれば、単語リストから適切なものを選ぶという操作によりタグ付けできる。しかしながら、Mが大きい場合には(辞書と同等のサイズの場合には)、タグは自由入力になる。一般的なチェックボックスでは、画面に矩形が表示される。この矩形をユーザがマウス等のポインティングデバイス13を用いてクリックすることで、0/1判別(0:その単語をタグに用いない/1:用いる)をトグルさせることができる。チェックボックスがON(1:用いる)になると、図10に示すように矩形の中身に×マークが表示される。したがって、タグ付け型タスクには、前述したように、語彙のサイズにより、画面に語彙をすべて表示し、その中からユーザがポインティングデバイス13で選択するという方式、あるいは、ユーザが単語をキーボード12で自由入力する方式の2通りがある。
【0085】
履歴データベース31は、HDD6に形成されていて、特徴量ベクトル計算部22から出力された特徴量ベクトルと、ユーザインタフェース部34から出力されたユーザ選択によるメニューにかかるアルゴリズムや処理パラメータとを入力とする処理履歴情報を格納する。ここに、履歴蓄積手段が実現されている。履歴データベース31に格納される処理履歴情報Hは、下記の式で示される。
H={(x(1),α1(1),α1(2),・・・),(x(2),α2(1),α2(2),・・・),・・・}
ただし、x(k)はk番目のデータから抽出された特徴量ベクトルであり、αk(・)はk番目のデータに付けられたタグである。履歴データベース31には、これらが時系列で記録される。
【0086】
予測器構築部32は、履歴データベース31に蓄えられているデータを用いた学習により予測器を構築する。本実施の形態の予測器構築部32は、本実施の形態の予測器構築部24は、ユーザインタフェース部34が用意する合計M個のタグ、あるいは、インデックス(各単語)の0/1判別を行う2クラス予測器を、最適機能予測部33で用いられている識別アルゴリズムに合わせた学習により構築する。
【0087】
最適機能予測部33は、特徴量ベクトル計算部22から出力された特徴量ベクトルを入力とし、予測器構築部32で構築されたM個の予測器を用いて、最適な機能(アルゴリズムや処理パラメータ)を予測する。最適機能予測部33は、任意の識別アルゴリズムの予測器に対して特徴量ベクトル計算部22から出力された特徴量ベクトルを与えて、最適と予測される機能(処理内容)として推奨するクラス(アルゴリズムや処理パラメータに対応)を出力することができる。たとえば、識別アルゴリズムとしては、最近傍識別、ニューラルネットワーク、サポートベクトルマシンなどがある。
【0088】
ユーザインタフェース部34は、最適機能予測部33から最適と予測される機能(処理内容)が出力される場合には、図11に示すように最適と予測される機能(処理内容)に対応する項目をチェックボックス付のメニュー200中にハイライト表示する等によって、推奨タグをユーザに提示する。ユーザは最適と予測される機能(処理内容)を気に入ったか、気に入らないかを、マウス等のポインティングデバイス13を使って入力する。例えば、ユーザが最適と予測される機能(処理内容)を気に入らない場合には、マウス等のポインティングデバイス13を使って、他の処理やパラメータをメニューから選択し直すようにすれば良い。ユーザの応答結果は、ユーザインタフェース部34から履歴データベース31と予測効果評価部35とに出力される。
【0089】
予測効果評価部35は、上述したようなユーザがチェックボックス付のメニュー200からデータに施す操作・機能を選択するような場合に、ユーザの作業の効率化という観点から、予測効果の評価指標を導入する。
【0090】
ここで、作業効率は、予測器構築部32で構築されたM個の0/1判別を行う2クラス予測器の精度だけでなく、各ユーザ固有の作業スピードにも依存するので、処理履歴情報から計算される予測精度を単純に閾値処理するだけでは不十分である。そこで、本実施の形態においては、予測効果評価部35を備えることにより、作業効率の評価基準として、予測器構築部32で構築されたM個の0/1判別を行う2クラス予測器の精度だけでなく、ユーザインタフェース部34で測定した各ユーザに固有の作業スピードを考慮した定量的尺度を用いて、最悪の場合でも予測による作業効率劣化を防ぐようにしたものである。この点については、後述する。
【0091】
ユーザインタフェース部34は、各ユーザについての作業に要する時間に基づく固有の作業スピードを測定する。
(1)まず、ユーザインタフェース部34で、予測による推奨をユーザに提示しない場合の作業時間を測定し、これをS秒とする。
(2)次に、予測による推奨をユーザに提示する場合の作業時間を測定する。ユーザが推奨結果を確認する時間をV秒、ユーザが修正する時間をC秒/単語とすると、VとCは次のようにして求められる。2つのデータについて、作業時間とユーザに修正が必要なものの個数を測定し、それぞれR(j)秒とK(j)個(j=1,2)とすると、推奨結果の確認にV秒、修正にK(j)・C秒かかるので、
R(1)=V+K(1)・C
R(2)=V+K(2)・C
となる。この2式を、2つの未知数VとCに関する連立方程式をして解けば、VとCが求められる。
【0092】
なお、VとCの値については、3つ以上のデータについて測定されたR(j)秒とK(j)から作られる過剰拘束の連立方程式(変数よりも方程式が多い)から得られる最小2乗解を用いることもできる。
【0093】
上述した各ユーザに固有の作業スピードは、ユーザの応答結果として、ユーザインタフェース部34から履歴データベース31と予測効果評価部35とに出力される。
【0094】
予測効果評価部35は、性能に影響するパラメータおよび作業に要する時間によって予測による推奨提示による作業効率化を計算し、計算した評価指標値を閾値処理して、作業効率が改善されるときにのみ、予測による推奨をユーザに提示する。
(1)性能(作業時間)に影響するパラメータ
性能(作業時間)に影響するパラメータとしては、以下に示すものが挙げられる。
[予測器の性能]
・予測誤り率:E(0≦E≦1)。この量は、履歴データベース31に記憶されている処理履歴情報から計算できる。具体的には、現在の予測器で履歴データの各々を予測し、処理履歴情報として記録されている、実際に付与したタグと異なる割合を計算すればよい。
・学習時間:L秒/単語。この量は、予測器構築部32に要する時間を測ることによって得られる。詳細は後述するが、予測器構築は予測が誤ったときだけ起動する(図5のフローチャート参照)ので、合計時間の期待値はEML秒となる。
・予測時間:P秒/単語。この量は、最適機能予測部33に要する時間を測ることによって得られる。すなわち、合計でMP秒となる。
[ユーザ固有の作業スピード]
・予測による推奨の提示無
タグを選択する時間:S秒
・予測による推奨の提示有
ユーザが確認する時間:V秒
ユーザが訂正する時間:C秒/単語
(2)作業に要する時間
予測による推奨のユーザへの提示の有無により、作業時間は次のようになる。
[予測による推奨の提示]
・予測による推奨の提示なし:T=S
ユーザがタグを入力(単語リストから選択、あるいは、自由入力)
・予測による推奨の提示あり:T=MP+V+EM(C+L)
予測 → ユーザが確認 → 誤ったものについてだけ,ユーザ訂正+予測器構築
(3)予測による効果の評価指標
予測による推奨提示による作業効率化は、以下に示す式で計算できる。
r=T/T=S/(MP+V+EM(C+L))
この式で定義される量rが1を超える場合には、推奨提示により、作業効率が改善されることを、そして、1を下回る場合には、推奨提示により、作業が妨げられることを意味する。評価指標値rを閾値処理することにより、作業効率が改善されるときにのみ、予測による推奨をユーザに提示する。
【0095】
次に、データ処理の流れについて図12のフローチャートを参照して説明する。図12に示すように、作業が開始されると、まず、最適機能予測部33はチェックボックス付のメニュー200中にハイライト表示する等の推奨提示をOFFにする(ステップS31)。
【0096】
その後、データが入力されると、データ入力部21で入力されたデータに前処理を施し(ステップS32)、特徴量ベクトル計算部22でデータ入力部21から出力されたデータの特徴量ベクトルを計算し、履歴データベース31と最適機能予測部33とに出力する(ステップS33)。
【0097】
次いで、最適機能予測部33では、特徴量ベクトル計算部22から出力された特徴量ベクトルを入力とし、予測器構築部32で構築されたM個の予測器を用いて、最適な機能(処理内容)を予測する(ステップS34)。
【0098】
続くステップS35では、推奨提示がONであるか否かを判断する。推奨提示がOFFであれば(ステップS35のNo)、ユーザインタフェース部34が表示装置11に提示するチェックボックス付のメニュー200のM個のタグ、あるいは、インデックスに対するユーザからの選択入力に待機する(ステップS36)。
【0099】
一方、推奨提示がONであれば(ステップS35のYes)、図11に示すように最適機能予測部33からの最適と予測される機能(処理内容)に対応する項目をチェックボックス付のメニュー200中にハイライト表示する等のユーザへ推奨機能を出力するとともに、チェックボックス付のメニュー200のM個のタグ、あるいは、インデックスに対するユーザからの選択入力に待機する(ステップS37)。
【0100】
ここで、ユーザからの選択入力があった場合に、推奨とユーザ選択が異なるか否かを判断する(ステップS38)。
【0101】
推奨とユーザ選択が異なる場合には(ステップS38のYes)、予測器構築部32で履歴データベース31に蓄えられているユーザの応答結果を用いて予測器の更新(学習)を行なう(ステップS39)。
【0102】
予測器の更新(学習)を行なった場合(ステップS39)、ユーザからの選択入力があった場合(ステップS36)、推奨とユーザ選択が一致する場合(ステップS38のNo)、ステップS40に進み、ユーザインタフェース部26から送られるユーザの応答結果に基づき、予測効果評価部27で予測効果の評価指標値を計算する。
【0103】
評価指標値が閾値以上であれば(ステップS41のYes)、予測器の学習が十分であると判断して、推奨表示をONにする(ステップS42)。
【0104】
評価指標値が閾値以上でなければ(ステップS41のNo)、予測器の学習が十分ではなく予測精度が低いと判断して、推奨表示をOFFにする(ステップS43)。
【0105】
そして、作業が終了してなければ(ステップS44のNo)、ステップS32に進み、次のデータ入力に待機する。
【0106】
上述したように、データ処理装置30は、予測を常に行うが、予測結果をユーザに推奨として提示するのは、予測効果評価部35で計算された評価値がある一定以上、すなわち、推奨によって作業効率が向上すると判定された場合に限る。
【0107】
[予測効果の評価指標の算出例]
次に、上述した構成のデータ処理装置30の予測効果評価部35における予測効果の評価指標値の算出例を示す。ここで、データ処理装置30の性能は、次のようなものとする。
(1)オンライン学習時間L = 0.01(秒):プロトタイプが2000個以下で測定した結果で、プロトタイプ数に依らずほぼ一定である。
(2)予測に要する時間P = 0.00(秒):計算には時間がほとんどかからない。
【0108】
評価指標値は、データ処理装置30の予測精度に依存する。予測による推奨をユーザに提示しない場合の作業時間Sやユーザが推奨結果を確認する時間Vの値は、個々のユーザとタグ入力方法(単語リストから選択/自由入力)に依存する。
【0109】
まず、リスト選択方式(M < 100)の場合について説明する。SやVは語彙のサイズMに比例すると仮定し、ユーザ固有の作業の速さを示すパラメータa(タグ選択作業)およびb(確認作業)を用いて、
S = aM
V = bM (a < b)
C = 1.0
と表してみる。すると、評価指標値は、下記式のように表される。
【数2】

ここで、aの値は、通常、0.5〜1.2程度である。すなわち、50個の単語リストから適当なものを複数個選ぶような作業にかかる時間は、25〜60秒程度である。また、bの値であるが、aの値に比例するとして、b=0.5aとしてみる(50個の項目について、ON/OFFを確認する時間が12〜30秒に相当)。すると、ユーザ固有のパラメータaによって、予測精度(1−E)と評価指標値の関係は、図13に示すグラフのようになる。
【0110】
図13に示すグラフから次のような結論が得られる。タグを単語リストから選択するタイプのタスクでは、85%程度の予測精度があれば、作業効率が1.5倍以上向上する。ただし、作業が速いユーザにとっては,予測がないよりはやや効率が良いという程度であり、70%以下になると、逆に作業効率が落ちる。
【0111】
さらに、予測誤り率Eは、凸関数
E(t) = Eexp(−αt)
= E(0)
となるので、評価指標値の時間変化は、下記式のように表される。
【数3】

この関数は大局的には時間tについての凹関数であり、立ち上がりが速く、時間が経過すると飽和するような変化をする。しかし、図14に示すグラフからわかるように,実際に意味のある時間帯ではほぼ直線的な変化である。
【0112】
次に、自由入力方式(Mが辞書規模)の場合について説明する。語彙サイズMが辞書サイズほどに大きく、タグを自由入力するような場合には、SやVはMとの依存性がない。むしろ、対象としているデータの性質に依存することになり、解析は難しい。SやVをユーザ固有の作業時間の平均値として、上述した解析と同様に、
V = 0.5S
C = 1.0
と表してみる。すると、評価指標値は、評価指標値は、下記式のように表される。
【数4】

【0113】
そして、EM/Sと評価指標値の関係は、図15に示すグラフのようになる。図15のグラフに示されるように、EM/S < 0.1 になって、初めて評価指標値が1.7以上になる。ここで、Sが30秒としてみると、EM < 3であり、さらに、Mは大きい(少なくとも100)から、E < 0.03、すなわち、97%以上の予測精度で効果がでることになる。したがって、タグを自由入力するタイプのタスクでは、ほぼ100%の精度が出ない限り、作業効率への効果はない。
【0114】
このような簡単な定量的モデルによる分析により、次のような知見が得られた。
(1)タグを単語リストから選択するタイプのタスクでは、85%程度の予測精度があれば、作業効率が1.5倍以上向上する。ただし、作業が速いユーザにとっては,予測がないよりはやや効率が良いという程度であり、70%以下になると、逆に作業効率が落ちる。
(2)タグを自由入力するタイプのタスクでは、ほぼ100%の精度が出ない限り、作業効率への効果はない。
【0115】
このように本実施の形態によれば、新しく入力されたデータについての特徴量から予測器を用いて最適な処理内容を予測し、予測した最適な処理内容についての作業効率を評価し、作業効率が向上すると予想される場合にのみ、予測した最適な処理内容をユーザに提示するようにしたことにより、予測器の学習が十分ではなく予測精度が低い場合に、予測した処理内容を逐一ユーザが修正しなければならず、かえって作業効率が落ちることを回避することができるようになるので、作業効率を常に向上させることができる。
【0116】
また、作業効率は、予測器の精度だけでなく、各ユーザ固有の作業スピードにも依存するので、単純に、履歴から計算される予測精度を閾値処理するだけでは不十分である。作業効率の評価基準として、予測器の精度だけでなく、各ユーザに固有の作業スピードを考慮した定量的尺度を用いることにより、最悪の場合でも予測による作業効率劣化を防ぐことができる。
【0117】
さらに、タグ付け型(データに複数個のタグを付ける)のタスクでは、タグを単語リストから選択する場合には、85%程度の予測精度があれば、作業効率が1.5倍以上向上する。なお、タグを自由入力するタイプのタスクでは、ほぼ100%の精度が出る場合に、作業効率が向上する。
【0118】
[第3の実施の形態]
次に、本発明の第3の実施の形態を図16に基づいて説明する。なお、前述した第1の実施の形態または第2の実施の形態と同じ部分は同じ符号で示し説明も省略する。
【0119】
第1の実施の形態および第2の実施の形態においては、データ処理装置1,30としてPCなどのコンピュータを適用したが、本実施の形態は、データ処理装置1,30としてデジタル複合機などに備えられる情報処理装置を適用したものである。
【0120】
図16は、本発明の第3の実施の形態にかかるデジタル複合機50を示す外観斜視図である。図16に示すように、画像読取手段であるスキャナ部51及び画像印刷装置であるプリンタ部52を備えた画像形成装置であるデジタル複合機50に備えられる情報処理装置にデータ処理装置1,30を適用し、デジタル複合機50のスキャナ部51で読み取ったスキャン画像に対してデータ処理を施すようにしたものである。
【0121】
[第4の実施の形態]
次に、本発明の第4の実施の形態を図17に基づいて説明する。なお、前述した第1の実施の形態または第2の実施の形態と同じ部分は同じ符号で示し説明も省略する。
【0122】
第1の実施の形態および第2の実施の形態においては、データ処理装置1,30としてローカルなシステム(例えば、パーソナルコンピュータ単体)を適用したが、本実施の形態は、データ処理装置1,30としてサーバクライアントシステムを構成するサーバコンピュータを適用したものである。
【0123】
図17は、本発明の第4の実施の形態にかかるサーバクライアントシステムを示す模式図である。図17に示すように、サーバコンピュータSにネットワークNを介してクライアントコンピュータCが複数台接続されたサーバクライアントシステムを適用しており、各クライアントコンピュータCからサーバコンピュータSに対して画像を送信し、サーバコンピュータS(データ処理装置1,30)において画像に対してデータ処理を施すようにしたものである。また、ネットワークN上には、ネットワークスキャナNSが設けられている。
【図面の簡単な説明】
【0124】
【図1】本発明の第1の実施の形態にかかるデータ処理装置の電気的な接続を示すブロック図である。
【図2】データ処理にかかる機能を示す機能ブロック図である。
【図3】プルダウンメニューを示す正面図である。
【図4】ハイライト表示されたプルダウンメニューを示す正面図である。
【図5】データ処理の流れを概略的に示すフローチャートである。
【図6】予測精度と評価指標値の関係を示すグラフである。
【図7】予測精度と時間の関係を示すグラフである。
【図8】評価指標値の時間変化を示すグラフである。
【図9】本発明の第2の実施の形態のデータ処理にかかる機能を示す機能ブロック図である。
【図10】チェックボックス付のメニューを示す正面図である。
【図11】ハイライト表示されたチェックボックス付のメニューを示す正面図である。
【図12】データ処理の流れを概略的に示すフローチャートである。
【図13】予測精度と評価指標値の関係を示すグラフである。
【図14】評価指標値の時間変化を示すグラフである。
【図15】評価指標値とEM/Sとの関係を示すグラフである。
【図16】本発明の第3の実施の形態にかかるデジタル複合機を示す外観斜視図である。
【図17】本発明の第4の実施の形態にかかるサーバクライアントシステムを示す模式図である。
【符号の説明】
【0125】
1,30 データ処理装置
2 制御部
6 記憶部
21 データ入力手段
22 特徴量計算手段
23,31 履歴データベース
24,32 予測器構築手段
25,33 最適機能予測手段
26,34 選択受付手段、提示手段
27,35 評価手段

【特許請求の範囲】
【請求項1】
データの入力を受け付けるデータ入力手段と、
入力された前記データについての特徴量ベクトルを計算する特徴量計算手段と、
処理内容を提示してユーザによる前記処理内容の選択を受け付ける選択受付手段と、
前記特徴量計算手段で計算された前記特徴量ベクトルと、前記選択受付手段を介してユーザが適用した処理内容を時系列で記録した処理履歴情報とを履歴データベースに蓄積する履歴蓄積手段と、
前記データに対する最適な処理内容を予測する識別アルゴリズムの予測器を、前記履歴データベースに蓄積された前記処理履歴情報を用いて構築する予測器構築手段と、
新しく入力された前記データについての前記特徴量ベクトルから、前記予測器を用いて最適な処理内容を予測する最適機能予測手段と、
前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する評価手段と、
前記評価手段による評価が閾値以上の時に、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段を介してユーザに提示する提示手段と、
を備えることを特徴とするデータ処理装置。
【請求項2】
前記評価手段は、前記予測器の予測精度と、前記選択受付手段を介した各ユーザについての作業に要する時間に基づくユーザ固有の作業スピードとから、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する、
ことを特徴とする請求項1記載のデータ処理装置。
【請求項3】
前記選択受付手段は、メニューから1つの項目を選ぶことによってデータに適用する処理を指定するようなメニュー選択型タスクにより処理内容を提示する、
ことを特徴とする請求項1または2記載のデータ処理装置。
【請求項4】
前記選択受付手段は、データに任意個のタグ、あるいは、インデックスをつけるようなタグ付け型タスクにより処理内容を提示する、
ことを特徴とする請求項1または2記載のデータ処理装置。
【請求項5】
前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に施した処理とは異なるものの割合である、
ことを特徴とする請求項3記載のデータ処理装置。
【請求項6】
前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に付与したタグ、あるいは、インデックスと異なる割合である、
ことを特徴とする請求項4記載のデータ処理装置。
【請求項7】
前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率rを下記の式により評価する、
r=S/(P+V+(S+L)E)
S:ユーザのメニュー選択時間
P:最適機能予測手段における予測時間
V:ユーザが確認する時間
L:予測器構築手段における予測器の構築に要する時間
E:予測誤り率
ことを特徴とする請求項3記載のデータ処理装置。
【請求項8】
前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率rを下記の式により評価する、
r=S/(MP+V+EM(C+L))
S:ユーザのメニュー選択時間
M:タグ、あるいは、インデックスの個数
P:最適機能予測手段における予測時間
V:ユーザが確認する時間
C:ユーザが訂正する時間
L:予測器構築手段における予測器の構築に要する時間
E:予測誤り率
ことを特徴とする請求項4記載のデータ処理装置。
【請求項9】
前記提示手段は、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段でハイライト表示してユーザに提示する、
ことを特徴とする請求項1ないし8のいずれか一記載のデータ処理装置。
【請求項10】
コンピュータを、
データの入力を受け付けるデータ入力手段と、
入力された前記データについての特徴量ベクトルを計算する特徴量計算手段と、
処理内容を提示してユーザによる前記処理内容の選択を受け付ける選択受付手段と、
前記特徴量計算手段で計算された前記特徴量ベクトルと、前記選択受付手段を介してユーザが適用した処理内容を時系列で記録した処理履歴情報とを履歴データベースに蓄積する履歴蓄積手段と、
前記データに対する最適な処理内容を予測する識別アルゴリズムの予測器を、前記履歴データベースに蓄積された前記処理履歴情報を用いて構築する予測器構築手段と、
新しく入力された前記データについての前記特徴量ベクトルから、前記予測器を用いて最適な処理内容を予測する最適機能予測手段と、
前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する評価手段と、
前記評価手段による評価が閾値以上の時に、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段を介してユーザに提示する提示手段と、
として機能させることを特徴とするプログラム。
【請求項11】
前記評価手段は、前記予測器の予測精度と、前記選択受付手段を介した各ユーザについての作業に要する時間に基づくユーザ固有の作業スピードとから、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する、
ことを特徴とする請求項10記載のプログラム。
【請求項12】
前記選択受付手段は、メニューから1つの項目を選ぶことによってデータに適用する処理を指定するようなメニュー選択型タスクにより処理内容を提示する、
ことを特徴とする請求項10または11記載のプログラム。
【請求項13】
前記選択受付手段は、データに任意個のタグ、あるいは、インデックスをつけるようなタグ付け型タスクにより処理内容を提示する、
ことを特徴とする請求項10または11記載のプログラム。
【請求項14】
前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に施した処理とは異なるものの割合である、
ことを特徴とする請求項12記載のプログラム。
【請求項15】
前記予測器の予測精度は、前記履歴データベースに前記処理履歴情報として蓄積されている、実際に付与したタグ、あるいは、インデックスと異なる割合である、
ことを特徴とする請求項13記載のプログラム。
【請求項16】
前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率rを下記の式により評価する、
r=S/(P+V+(S+L)E)
S:ユーザのメニュー選択時間
P:最適機能予測手段における予測時間
V:ユーザが確認する時間
L:予測器構築手段における予測器の構築に要する時間
E:予測誤り率
ことを特徴とする請求項12記載のプログラム。
【請求項17】
前記評価手段は、前記最適機能予測手段が予測した最適な処理内容についての作業効率rを下記の式により評価する、
r=S/(MP+V+EM(C+L))
S:ユーザのメニュー選択時間
M:タグ、あるいは、インデックスの個数
P:最適機能予測手段における予測時間
V:ユーザが確認する時間
C:ユーザが訂正する時間
L:予測器構築手段における予測器の構築に要する時間
E:予測誤り率
ことを特徴とする請求項13記載のプログラム。
【請求項18】
前記提示手段は、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段でハイライト表示してユーザに提示する、
ことを特徴とする請求項10ないし17のいずれか一記載のプログラム。
【請求項19】
データ処理装置で実行されるデータ処理方法であって、前記データ処理装置は、制御部と記憶部を備え、
前記制御部において実行される、
データ入力手段が、データの入力を受け付けるステップと、
特徴量計算手段が、入力された前記データについての特徴量ベクトルを計算するステップと、
選択受付手段が、処理内容を提示してユーザによる前記処理内容の選択を受け付けるステップと、
履歴蓄積手段が、前記特徴量計算手段で計算された前記特徴量ベクトルと、前記選択受付手段を介してユーザが適用した処理内容を時系列で記録した処理履歴情報とを前記記憶部に蓄積するステップと、
予測器構築手段が、前記データに対する最適な処理内容を予測する識別アルゴリズムの予測器を、前記記憶部に蓄積された前記処理履歴情報を用いて構築するステップと、
最適機能予測手段が、新しく入力された前記データについての前記特徴量ベクトルから、前記予測器を用いて最適な処理内容を予測するステップと、
評価手段が、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価するステップと、
提示手段が、前記評価手段による評価が閾値以上の時に、前記最適機能予測手段が予測した最適な処理内容を、前記選択受付手段を介してユーザに提示するステップと、
を含むことを特徴とするデータ処理方法。
【請求項20】
前記評価手段は、前記予測器の予測精度と、前記選択受付手段を介した各ユーザについての作業に要する時間に基づくユーザ固有の作業スピードとから、前記最適機能予測手段が予測した最適な処理内容についての作業効率を評価する、
ことを特徴とする請求項19記載のデータ処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2009−223624(P2009−223624A)
【公開日】平成21年10月1日(2009.10.1)
【国際特許分類】
【出願番号】特願2008−67481(P2008−67481)
【出願日】平成20年3月17日(2008.3.17)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】