説明

メタデータ設定方法及びメタデータ設定システム、並びにプログラム

【課題】日々のファイル検索操作の過程で、自然かつ効率的にメタデータの設定作業を行う手法を提案する。
【解決手段】ファイルに対する検索画面において、メタデータが未設定のファイルに対してはメタデータの候補を算出し、前記メタデータの候補を設定済みとしてメタデータ入力を開始する機能を備えることを特徴とする。メタデータ候補の算出は、検索キーワードが正規表現でマッチした文字列を候補とする方法と、ファイルパスやファイル内の文字列がキーワード辞書にマッチした場合にそのキーワードを候補とする方法と、メタデータが登録済みのファイル群において頻出のメタデータをメタデータの候補とする方法の三つを有することを特徴としている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、メタデータ設定方法及びメタデータ設定システム、並びにプログラムに関し、例えば、電子データに対して検索操作の過程でメタデータを付与する方法に関するものである。
【背景技術】
【0002】
企業など多くの組織では、オフィス用ソフトで作成したファイルや紙文書をスキャニングしたファイルなど大量のデータが日々生成され、ファイルサーバ等で保管される。これらの大量データの中から所望のファイルを探すときは、ファイルサーバ内のフォルダをたどりながら見つけるという手段が一般的である。
【0003】
しかし、フォルダ構造が複雑である時や、ファイルを探したい人の意図しない構造でフォルダとして纏められていると、所望のファイルを探すのは非常に時間がかかってしまう。また、ファイルを探す別の方法として、全文検索を用いる手段があるが、これにも少なくとも2つの問題がある。1つ目の問題は、キーワード検索だけでは見つけられないファイルがあることである(図1参照)。例えば、ある期間内の文書を全て探したい場合、全文検索では文書内の日付の文字列を「日付のデータ」として扱うことができないため、探すことができない。また、他の例として、検索者が探したいキーワードと同じ意味の言葉が使われていた場合にそれが探せないことや、顧客名が複数行で書かれている場合に(複数行を繋げた文字列としての)顧客名で検索してもヒットしないという問題がある。もう1つの問題として、大量の無関係なファイルにヒットしてしまうということがある(図2参照)。例えば、顧客先としての銀行を探すつもりで検索すると、他のファイルの振込先にも書かれている場合や、見積番号などのIDをもとに検索すると、IDと同じ数字が金額などに書かれている場合である。これらの全文検索に起因する問題は、文書中のキーワードを意味のある文字として扱っていないために起こることである。
【0004】
そこで、文書のメタデータ(属性情報)を文書に対応付けて管理する方法が考えられている。例えば特許文献1では、仮想フォルダシステムが提案されている。仮想フォルダシステムとは、ファイルにメタデータを設定しておき、仮想フォルダにはメタデータに対する検索条件を定義することで行う。仮想フォルダ参照時には、検索条件に基づいたファイルの検索結果を提示することにより、検索条件に応じた分類を実現する。例えば営業文書を管理する場面では、全てのファイルについて「文書種別名」(契約書・注文書・見積書など)と「起票日」をメタデータとして設定しておき、仮想フォルダに「文書種別名が“契約書”であるもの」という検索条件を割り当てておけば、その仮想フォルダを参照すると契約書の一覧が取得できる。同様に、別の仮想フォルダで「起票日が2009年1月〜3月のもの」と割り当てておけば、指定期間の文書を収集することができる。このように、仮想フォルダシステムでは、ファイルを意味的に分類するので、文書の効果的な活用が可能となる。
【0005】
また、文書にメタデータを設定するときは、ユーザが元の文書を参照しながら設定を行う。文書管理製品の多くは、メタデータ登録画面を用意しており、ユーザはファイルを見ながらメタデータを手入力する。この入力作業を軽減する方式として、例えば特許文献2で示されるように、既にファイルが格納されているフォルダに新たにファイルを格納するとき、格納されているファイルのメタデータと同じものを、新たに登録されたファイルに対して自動的に設定する方式を提案している。また、特許文献3では、メタデータが設定済みのファイルを示す小画像に登録しようとするファイルをドラッグアンドドロップすると、設定済みのメタデータを登録ファイルに自動的に設定する方法を提案している。さらに、特許文献4は、文書中の文章の内容やレイアウトの関係をみて、文書から自動的にメタデータを抽出する技術を提案している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2003−323326号公報
【特許文献2】特開2009−75667号公報
【特許文献3】特開2006−209516号公報
【特許文献4】特開2005−235099号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献2乃至4では、メタデータの入力作業は軽減されるものの、登録対象の文書を目視で確認した後に登録するという作業自体はなくなっていない。例えば特許文献2や3では、登録対象文書の内容を確認して、適切な既存フォルダや小画像を選択して登録するという作業が発生している。また特許文献4でも、常に正確なメタデータが抽出されているとは限らないので、実運用上ではメタデータが正しいか否かの目視確認をして、間違っているならば修正を行わなければならない。さらに、特許文献4では、文書から自動的にメタデータを抽出するが、常に正確なメタデータが抽出されているとは限らないので、実運用上ではメタデータが正しいか否かの目視確認をして、間違っているならば修正を行わなければならない。つまりメタデータの登録においては、全ての基となるファイルの参照とメタデータについて必ず人による確認作業が必要となってしまう。
【0008】
しかしながら、この確認作業はユーザにとって煩雑で手間のかかるものある。この手間のために、ユーザによっては、メタデータの設定をせずにファイルサーバに登録することが起こりうる。すると、メタデータによるファイルの十分な利用・活用ができなくなってしまう。
【0009】
本発明はこのような状況に鑑みてなされたものであり、日々のファイル検索操作の過程で、自然かつ効率的にメタデータの設定作業が行える技術を提供するものである。
【課題を解決するための手段】
【0010】
上記課題を解決するために、本発明では、検索キーワードに基づいて検索を実行して、ファイルデータベースから検索キーワードに合致するメタデータ設定済ファイルとメタデータ未設定ファイルを取得する。また、メタデータ候補算出処理部が、検索実行によって取得したメタデータ設定済ファイルが有するメタデータを、メタデータ未設定ファイルのメタデータの候補として設定する。そして、メタデータ設定処理部が、ユーザの指示に従って、メタデータ設定画面において、メタデータの候補を該当するメタデータ未設定ファイルに対して設定すべきメタデータとして確定し登録する。より詳しくは、メタデータ候補算出処理部は、検索処実行によって取得したメタデータ設定済ファイルから、入力されたフィルタ条件に合致するメタデータ設定済ファイルを抽出し、当該抽出されたメタデータ設定済ファイルが有するメタデータをメタデータ未設定ファイルのメタデータの候補として設定する。また、メタデータ設定処理部は、メタデータ候補が1つのみである場合、当該メタデータ候補を変更不可なものとして確定し、メタデータ候補が複数ある場合、複数のメタデータ候補から1つを選択可能にする。
【0011】
また、検索キーワードがメタデータ候補算出の際に用いられるものとして設定されている場合には、メタデータ候補算出処理部は、さらに、検索キーワードが予め登録された表現形式で記述されているか否かによって検索キーワードをメタデータの候補として設定する。
【0012】
さらに、メタデータとして出現しうる候補文字列を格納した辞書データベースがメタデータ候補算出の際に用いられるものとして設定されている場合、メタデータ候補算出処理部は、メタデータ未設定ファイルのファイルパス文字列が辞書データベースの候補文字列を含むか否かによって候補文字列をメタデータの候補として設定する。
【0013】
さらなる本発明の特徴は、以下本発明を実施するための形態および添付図面によって明らかになるものである。
【発明の効果】
【0014】
本発明によれば、日々のファイル検索操作の過程で、自然かつ効率的にメタデータの設定作業が行うことができる。
【図面の簡単な説明】
【0015】
【図1】全文検索(キーワード検索)ではファイルを見つけられない例である。
【図2】全文検索(キーワード検索)で無関係なファイルがヒットしてしまう例である。
【図3】本発明の実施形態によるメタデータ設定システムの概略構成を示す図である。
【図4】メタデータの一例を示す図である。
【図5】辞書データの一例を示す図である。
【図6】メタデータ項目設定ファイルの一例を示す図である。
【図7】フィルタ条件設定ファイルの一例を示す図である。
【図8】検索とメタデータ設定処理の概要を説明するためのフローチャートである。
【図9】メタデータの候補を算出する処理(詳細)を説明するためのフローチャートである。
【図10】メタデータの入力処理(詳細)を説明するためのフローチャートである。
【図11】検索画面の例を示す図である。
【図12】検索画面の例(別の形態)を示す図である。
【図13】メタデータ設定画面の例を示す図である。
【図14】メタデータの候補リストの表示画面の例を示す図である。
【発明を実施するための形態】
【0016】
本発明は、メタデータが設定されていないファイルに対して、効率的かつ精度良くメタデータを設定するための技術に関する。効率的かつ精度良くメタデータが設定できれば、メタデータを利用したファイル検索が効率的かつ精度良く実行することができるようになる。
【0017】
以下、添付図面を参照して本発明の実施形態に係わるメタデータ設定方法について説明する。ただし、本実施形態は本発明を実現するための一例にすぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成には同一の参照番号が付されている。
【0018】
<メタデータ設定システムの構成>
図3は、本発明の実施形態によるメタデータ設定システム(文書処理システム)の概略的構成を示す図である。このシステムは、ファイルが蓄積されているファイルDB301と、ファイルDB301内のファイル群に対する検索のためのインデックス302と、登録済みのメタデータが格納されているメタデータDB303と、メタデータの候補を求めるためにメタデータとして出現しうる候補(顧客名リスト・製品名リストなど)を集めた辞書DB304と、本システムで設定されるメタデータの項目について記載されたメタデータ項目設定ファイル305と、メタデータの候補を絞り込むために用いるフィルタ条件設定ファイル306と、検索結果やメタデータ設定画面の表示等を行う表示装置307と、データの入力や編集、メニューの選択などの操作を行うためのキーボード308及びマウスなどのポインティングデバイス309と、必要な演算処理、制御処理等を行う中央処理装置310と、を備えている。ここで、ファイルDB301には、メタデータが設定済みのファイルとメタデータが未設定のファイルの両方が蓄積されている。また、検索インデックス302は、各ファイルのファイルパス・ファイルの中の文字列に関するインデックスを保持している。さらに、ファイルDB301・検索インデックス302・メタデータDB303・辞書DB304は、DBとしての実体が物理的に1つではなく複数である場合も対象としている。
【0019】
中央処理装置310は、ファイルDB301に対して検索インデックス302を用いてキーワード検索を実行する検索実行部(検索実行機能)311と、検索実行部311で得られた出力結果を表示装置307に表示するための処理を実行する検索結果表示処理部(表示機能)312と、メタデータが未設定のファイルに対して、メタデータが登録済みのファイル群を用いてメタデータ候補を算出するメタデータ候補算出処理部(メタデータ算出処理機能)313と、ファイルに対してメタデータの設定処理を実行するメタデータ設定処理部(メタデータ設定処理機能)314と、を有している。以上に述べた処理部・データ・処理部等で用いられるプログラム等は、CD−ROM、DVD−ROM、MO、フロッピーディスク、USBメモリ等の記録媒体に格納して提供することもできる。
【0020】
<メタデータ>
図4は、メタデータDB303内のメタデータの一例を示す図である。メタデータDB303ではメタデータだけが登録されていて、ファイルの実体はファイルDB301に格納されている。従って、ファイルにメタデータが設定されると、そのメタデータをこのメタデータDB303に登録される。あるファイルについてメタデータが設定されると、メタデータDB303に追加されていく。
【0021】
図4で示されるように、メタデータは表形式で管理され、1つのファイルが1行に対応している。当該表は、ファイルを一意に示すID401と、該当ファイルのファイルパス402と、該当ファイルに登録されたメタデータ403とから構成される。メタデータ403は、本システムで管理するメタデータ項目ごとに列を構成している。
【0022】
図4の例ではメタデータ項目として、文書種別名404、顧客名405、起票日406、案件ID407、管理部門408が含まれている。また、図4では、いくつかのセルが空欄になっているが、これは該当するメタデータが存在していないことを示している。さらに、メタデータの構成要素は追加可能となっていて、その場合には403に列が追加されていくことになる。
【0023】
<辞書データ>
図5は、辞書DB304内の辞書データの一例を示す図である。辞書DB304は、メタデータの文字列となりうるリストを、メタデータ項目ごとに集めたもので構成され、それらをテキストファイルとして登録している。
【0024】
図5で示されるように、例えば、メタデータ項目「文書種別名」におけるメタデータのキーワードを集めたものが“種別.txt”に、メタデータ項目「管理部門」におけるキーワードを集めたものが「kanri.txt」に登録されている。また、図5に示すように、各キーワードは改行して辞書DBに入力されている。
【0025】
<メタデータ項目設定ファイル>
図6は、メタデータ項目設定ファイル305の内容の一例を示す図である。メタデータ項目設定ファイル305は、本システムでどのようなメタデータ項目を登録するかを設定するものである。ここで設定したメタデータ項目が図4のメタデータ403の列に対応している。メタデータ項目設定ファイル305は、XML形式で書かれており、各メタデータ項目は、ルートタグ<metaList>の子要素<item>として記述されている。
【0026】
メタデータ項目が辞書ファイルを参照する場合は、<item>の属性としてrefDicが付与され、そこに対応する辞書ファイルのファイル名が記述される。また、メタデータが定型的なフォーマットで書かれている場合(日付やIDなど)は、<item>の属性としてregExpが付与され、そこにメタデータの型が正規表現で記述される。辞書データが追加されると、メタデータ項目設定ファイル305内にrefDicの項目が追加されることになる。
【0027】
<フィルタ条件設定ファイル>
図7は、フィルタ条件設定ファイル306の内容の一例を示す図である。本システムでは、後述するように、メタデータ未設定のファイルに対してメタデータの候補を算出するときに、メタデータが登録済みのファイルを情報の1つとして利用する。そして、候補となるメタデータがより正しくなるようにするため、メタデータ登録済みのファイルから候補算出のためのファイルを絞り込む操作を行う。絞り込まれたファイル群が、メタデータ未設定のファイルと類似した性質を持っているならば、当該未設定のファイルは、そのファイル群と同じメタデータを持っていることが多いからである。例えば、同じフォルダ内にあるファイル群は、何らかの意図でそのフォルダに保存したはずなので、同じメタデータを持っている可能性が高い。また、例えば、類似した作成日時の画像ファイルは、複合機やスキャナーで一緒に処理して作成されたファイルの可能性があるので、これらも同じメタデータを持っている可能性が高い。本システムでは、類似したファイルの特徴を絞り込むために、ファイルシステムが元々保持するファイル属性を使用して行う。そして、どのような条件のときに「類似したファイル」とみなすかを設定するのが、このフィルタ条件設定ファイルである。
【0028】
フィルタ条件設定ファイルはXMLで書かれており、ルートノード<similarFileFilterSetting>の子要素<fileFilter>に、各条件が記述される。子要素<fileFilter>には、条件の名前を示す<name>、この条件で参照するファイルシステム上の属性名を示す<dataOfFileSystem>、属性値のデータの型を示す<dataType>、そしてどのような条件なら類似とみなすかを示す<filterCondition>を子要素として持つ。この<filterCondition>の値は、<dataType>によって、その値の解釈を変更するものとする。例えば、図7では、最初の<fileFilter>として、“同じフォルダ”に関するフィルタ条件が設定されている。ここでは、どのような条件のときに「同じフォルダ内のファイル」とみなすかの定義を記述するものである。ファイルシステムから取得されたデータは“FilePath”というデータ型で取得し、この型名のもとに<filterCondition>が2であるということは、該当ファイルの2階層上までのフォルダにあるファイルを「同じフォルダ内のファイル」とみなすように本システムではしている。
【0029】
同様に、次の<fileFilter>は、ファイル名が類似しているかどうかに関する設定を記述したものである。ここではデータ型がstringとしてファイルシステムからデータを取得し、このデータ型で<filterCondition>が70であるとは、ファイル名の文字のうち70%以上の文字が一致するファイル名を類似ファイル名であるとして解釈するものとする。次の<fileFilter>ではdateというデータ型でファイルシステムからデータを取得し、この<filterCondition>が7であるとは、該当日から7日前後のファイルを、類似したファイルとみなすと解釈する。
【0030】
最後の<fileFilter>は、同じファイル種別かどうかを判断するもので、本システムでは、拡張子の種類によって同じファイル種別か否かの判定を行っている。つまり、ファイルの拡張子を<filterCondition>のどの<group>に属しているかをみて、そこに記述された別の拡張子も同じファイル種別として判断するようにしている。これによって、ファイルの拡張子がdoc,docx,rtf,txt,pdfのものは、同じファイル種別として判定することができる。
【0031】
<検索とメタデータ設定の処理>
図8は、検索を行い、その中でメタデータが未登録のファイルに対してメタデータを設定する処理の概要について説明するためのフローチャートである。
【0032】
まず、メタデータ候補算出処理部313が、メタデータ項目設定ファイル305とフィルタ条件設定ファイル306を読み込む(ステップ801)。ここでは、メタデータ項目設定ファイル305から、本システムで設定されるメタデータ項目、およびメタデータ項目に関連した辞書の有無がわかる。また、フィルタ条件設定ファイル306から、本システムで設定可能なフィルタ条件がわかる。これらの情報を読み込んだ後、検索結果表示処理部312は、メタデータ候補出力設定画面を表示し、ユーザからの入力を受け付ける。メタデータ候補出力設定画面は、検索キーワードを用いるか否か・辞書データを用いるか否か・どのフィルタ条件を採用するかに関して設定を行うことが可能な画面である。
【0033】
次に、検索実行部311が、ユーザからの検索キーワードを受け付けて、そのキーワードを基づいて検索インデックス302を用いて検索を実行する(ステップ802)。
【0034】
続いて、メタデータ候補算出処理部313は、ステップ802で実行した検索結果の中で、メタデータが未登録のファイルについて、メタデータの候補を算出する(ステップ803)。メタデータが未登録かどうかは、メタデータDB303にメタデータが設定されたファイルとして登録されているかどうかで判断される。候補算出の処理(ステップ803)の詳細については、後述する(図9参照)。
【0035】
そして、検索結果表示処理部312は、ステップ802で実行した検索結果を、図11又は12に示されるように、メタデータが登録済みのファイルとメタデータが未登録のファイルと区別して表示装置307に表示する(ステップ804)。ファイルに関する表示内容として、ファイル名・ファイルのサマリ情報(ファイル内での検索キーワードの周辺の文字列情報)・ファイルパスがある。また、メタデータが登録済みのファイルについては、メタデータDB303から該当するメタデータが取得され、表示される。メタデータが未登録のファイルについては、ステップ803で求めたメタデータ候補が表示される。
【0036】
また、検索結果表示処理部312は、メタデータが未登録であるファイルに対してメタデータ入力を行うかどうかの入力を受け付ける(ステップ805)。入力を始める方法として2通りある。1つは、ステップ803で得られたメタデータ候補をメタデータとして採用した上でメタデータ入力を開始する方法、もう1つはメタデータ候補を採用せずに全てのメタデータ項目が未設定の状態でメタデータ入力を開始する方法である。例えば、ユーザは、ステップ804で表示されたファイルのサマリ情報やファイルパスからメタデータの候補が正しいと判断できれば、前者の方法で入力を開始すればよい。また、メタデータの候補が間違っていると判断される場合や、サマリ情報・ファイルパスからは正しいかどうか分からない場合は、後者の方法で入力を開始すればよい。いずれにしても、1回の操作でメタデータ入力を開始することができる。このステップ805においてメタデータの入力を行うならば処理は次のステップ806に移行し、入力を行わないならば処理はステップ808に移行する。
【0037】
メタデータ未設定のファイルに対してメタデータ入力を行う場合(ステップ805でYesの場合)、メタデータ設定処理部314が、ステップ805で選択したファイルに対してメタデータ入力処理を行う(ステップ806)。詳細な処理内容については後述する(図10参照)。
【0038】
そして、検索結果表示処理部312は、ステップ806の中でメタデータが確定したら、メタデータが設定されたファイルをメタデータ登録済みのファイルとみなして、検索結果を表示しなおす(ステップ807)。ステップ807の後、ステップ805に戻って処理が続行する。
【0039】
最後に、検索結果表示処理部312は、ステップ801で表示したメタデータ候補出力設定画面について、その設定内容が変更されたかを確認し(ステップ808)、変更された場合(例えば、図11でフィルタ条件等が変更された場合)は、ステップ803に戻って処理を続ける。変更がない場合は、処理を終了する。
【0040】
<メタデータの候補を算出する処理(ステップ803の詳細)>
図9は、メタデータが未登録のファイルに対してメタデータの候補を求める処理の詳細を説明するためのフローチャートである。メタデータの候補は3種類の方法で求めることができる。1つ目は検索キーワードをメタデータの候補とすること、2つ目は文書内の文字列やファイルパスに辞書内のキーワードが含まれていればそれを候補とすること、3つ目はメタデータが登録済みのファイル全体を調べてその中で頻出のメタデータを候補とすることである。以下、これらの処理の詳細について説明する。なお、各ステップの動作主体は特に断らない限りメタデータ候補算出処理部313である。
【0041】
まず、検索結果の中でメタデータが未登録のファイルの数をNとおく(ステップ901)。以降、Nをメタデータが未登録のファイルのうち、メタデータの候補を未だ決定していないファイルの数として処理を進める。
【0042】
次に、Nが0かどうかを判定する(ステップ902)。もし0であれば、これは元々検索結果の中にメタデータ未登録のファイルが存在していなかったか、または、(以降の処理内容から分かるように)全てのメタデータ未登録のファイルについてメタデータの候補を決定したかを示している。Nが0の場合、処理を終了する。Nが0でない場合、処理は次のステップ903に進む。
【0043】
そして、メタデータ候補を求めていないファイルのうちのひとつを選択する。そのファイルをFとする(ステップ903)。
【0044】
また、今回の検索に使われた検索キーワードをメタデータ候補として使うかどうかを、メタデータ候補出力設定(例えば、図11のメタデータ候補出力設定で「検索キーワード」が「使う」に設定されているか否か確認する)から読み取る(ステップ904)。検索キーワードを使うならば処理は次のステップ905に進み、使わないのならば処理はステップ906に進む。
【0045】
さらに、検索キーワードがメタデータの候補となりうるかを判定する(ステップ905)。具体的には、メタデータ項目設定ファイル305の<item>タグの属性regExpに記述された正規表現の値を読み取り、これが検索キーワードとマッチしていれば、対応する<item>メタデータ項目のメタデータの「候補」とする。例えば、検索キーワードが「設計部」であった場合、regExp=*部に該当するので、当該検索キーワード「設計部」はメタデータの候補とされる。なお、2つ以上のメタデータ項目の正規表現とマッチする場合や、どの正規表現ともマッチしない場合は、候補としない。
【0046】
また、辞書を使ってメタデータ候補を求めるかどうかを、上述同様、メタデータ候補出力設定から読み取る(ステップ906)。辞書を使って判定するならば処理は次のステップ907に進み、使わないのならば処理はステップ908に進む。
【0047】
そして、辞書を使ってメタデータ候補を求める処理を行う(ステップ907)。具体的には、メタデータ項目設定ファイル305の<item>タグの属性refDicで与えられる辞書を参照する。辞書内のキーワードが、ファイルFのファイルパスあるいはファイルFのファイル内部の文字列に現れるならば、それを対応する<item>メタデータ項目のメタデータの候補とする。辞書内の複数のキーワードがFのファイルパスやファイル内部に現れる場合や、辞書内のどのキーワードも現れない場合は候補としない。
【0048】
上記ステップ905と907は、メタデータが登録済みのファイルを利用することでメタデータの候補を決定する処理である。一方、ステップ908では、メタデータ候補出力設定からどのフィルタ条件が指定されているかを読み取る。そして、メタデータが登録済みのファイルに対して、ファイルFの指定されたフィルタ条件に適合するようなファイル群を選択する(フィルタ条件の指定がない場合は、全ての登録済みファイルとなる)。フィルタ条件に適合するかどうかは、フィルタ条件設定ファイル306の内容に基づいて判定する。ここで選択されたファイル群をFGとする。
【0049】
続いて、各メタデータ項目(403に含まれる項目)に対して、ファイル群FGからメタデータを収集する(ステップ909)。最も頻出のメタデータがFGに占める出現割合が閾値T%以上であるならば、それをメタデータの「候補」とする。例えば、ファイル群FGが100ファイルあったとして、メタデータ項目の「文書種別名」を収集したところ、80ファイルにおいてメタデータが「見積書」であった場合、閾値Tが80%以下なら「見積書」が候補となる。これを他のメタデータ項目についても集計し、最も頻出のメタデータの出現割合について閾値と比較し、閾値以上なら候補とする。
【0050】
さらに、メタデータ未登録のファイルの1つについてメタデータの候補を決定したので、N−1を改めてNとおき、ステップ902に戻って処理を進める(ステップ910)。
【0051】
なお、図9では、メタデータの候補を求めるにあたって、検索キーワードを使い(ステップ904及び905)、その後辞書を使い(ステップ906及び907)、最後に登録済みファイルの頻出キーワードを使う(ステップ908及び909)という順番で求めているが、この順は変更することも可能である。
【0052】
また、メタデータ項目について、候補が複数ある場合(例えば検索キーワードを用いて候補を求め、その後辞書を用いたものでも候補がある場合)は、前に求めた候補を後ろで求めた候補で上書きしてもよいし、常に前で求めた候補を用いるようにしてもよい。
【0053】
<メタデータ入力の処理(ステップ806)の詳細>
図10は、メタデータが未入力のファイルに対してメタデータを入力する処理の詳細を説明するためのフローチャートである。
【0054】
まず、検索結果表示処理部312が、図13のように、メタデータが未入力のファイルの内容を表示する(ステップ1001)。
【0055】
次に、メタデータ設定処理部314は、各メタデータ項目に対するメタデータ入力用のテキストボックスを表示し、メタデータの入力を受け付ける(ステップ1002)。このとき、ステップ805でメタデータ候補をメタデータとして採用した上でメタデータ入力を開始しているならば、候補のメタデータの値をテキストボックスに入力し、編集不可の状態で表示する。
【0056】
また、メタデータ設定処理部314は、メタデータ項目に対するメタデータの候補を列挙するかを受け付け(メタデータの候補ボタンが押されたことを検知する)、メタデータ項目に対するメタデータ候補の一覧を表示する処理を行う(ステップ1003)。ここで候補の一覧は、メタデータ登録済みのファイルからフィルタ条件に適合するファイル群に対して、メタデータを集計することで求められ、メタデータの頻度の高いものから順に表示される。
【0057】
さらに、メタデータ設定処理部314は、ステップ1003での一覧表示の中から、ユーザによるメタデータの選択を受け付ける処理を行う(ステップ1004)。
【0058】
最後に、メタデータ設定処理部314は、入力されたメタデータをユーザが確定したか否かを受け付ける(ステップ1005)。確定した場合、それをメタデータとしてメタデータDB303に登録する。以上で処理を終了する。
【0059】
<検索画面例>
図11は、本システムにおける検索画面の一例を示す図である。ユーザが検索キーワードをテキストボックス1101に入力し、検索実行ボタン1102を押下すると、検索が実行される。検索結果はメタデータが登録されたファイルと未登録のファイルを混在させて表示させても良いし、別々にして表示させることもできる。その切り替えは、チェックボックス1103で行う。図11の形態は、混在させて表示させた例である。
【0060】
検索でヒットしたファイルは検索結果表示ペイン1104に表示される。ヒットしたそれぞれのファイルは、ファイル名1105、ファイルのサマリ情報1106、ファイルパス1107、そしてメタデータが登録済みのファイルについては、そのメタデータ1108が表示される。一方、メタデータが未登録のファイルは、それを表すサイン1109と共に表示される。また、該当ファイルに対するメタデータの候補1110を求めてそれを表示している。このメタデータの候補1110を採用してメタデータ入力を開始する場合はボタン1111を、候補を採用せずにメタデータ入力を開始する場合はボタン1112を押下する。たとえばユーザは画面上に表示されたサマリ表示やファイルパスをみて、明らかにメタデータが正しいならばボタン1111を押下してメタデータの入力を開始することができる。
【0061】
このメタデータの候補は、メタデータ候補出力設定ペイン1113で設定し、適切なメタデータの候補になるように調整することができる。例えばメタデータの候補を算出するために、検索キーワードを用いる場合はラジオボタン1114を、辞書データを用いる場合はラジオボタン1115を使って選択する。さらに、メタデータが登録済みのファイルからメタデータの候補を選ぶ場合は、より正確な候補が提示されるように、ファイルシステムの属性を使って登録済みファイルに対する絞込み(フィルタ処理)を行うことができる。例えば、同じフォルダにあるファイルで絞り込みをしたい場合はチェックボックス1116にチェックする。同様に類似したファイル名の場合はチェックボックス1117を、作成日が近いファイルの場合はチェックボックス1118を、最終アクセス日時が近いファイルの場合はチェックボックス1119を、同じファイル種別の場合はチェックボックス1120をチェックして絞込みを行う。このメタデータ候補出力設定ペイン1113の設定内容を変更すると、検索結果表示ペイン1104にある各ファイルのメタデータ候補1110が再計算されて表示しなおされる。
【0062】
図12は、本システムにおける検索画面の別の例を示す図である。図11と異なる点は、チェックボックス1201(図11では1103)にチェックを入れたことである。すると、検索結果は、メタデータが未登録のファイルと、メタデータが登録済みのファイルを区別して、それぞれ未登録のファイル表示ペイン1202と登録済みのファイル表示ペイン1203に表示する。このような表示形態をとることで、ユーザはメタデータの入力作業に集中することができる。また、メタデータが登録されていないファイルを容易に見つけることが可能である。
【0063】
一方、図11の表示形態は、従来どおりの検索結果の表示であり、検索を主として実行したい場合は煩わしさを感じないインタフェースになっている。
【0064】
図12のような表示形態で、テキストボックス1204に「見積」と入力して検索を実行すると、見積書に関するファイルが多数ヒットするので、見積書のファイルに関して集中的にメタデータを設定したいときは便利かつ効率的である。さらに、検索キーワードを入力するテキストボックス1204に何も入力せずに検索を実行すると、ファイルサーバに含まれるファイル全体を表示することができる。このようにすることで、メタデータが未登録であるファイルを全て表示することができ、漏らしのないメタデータ設定を行うことができる。
【0065】
<メタデータ設定画面>
図13は、本システムにおけるメタデータ設定画面の例を示す図である。メタデータ設定画面では、ファイル表示エリア1301に選択中のファイルが表示される。ユーザは表示されたファイルを見ながら、メタデータの設定を行う。メタデータは、メタデータ項目ごとにテキストボックス内に表示されている。
【0066】
図13では、文書種別名はテキストボックス1302に、顧客名はテキストボックス1303に、起票日はテキストボックス1304に、案件IDはテキストボックス1305に、管理部門はテキストボックス1306に表示される。検索画面において、メタデータ候補を採用してメタデータ入力を開始した場合(図11のボタン1111を押下して開始した場合)は、既に設定済みのメタデータ項目は編集できないようになっている(図13の1302と1303のテキストボックス)。このような表示形態を採ることで、ユーザは設定すべきメタデータ項目の範囲を限定できるので、より効率的にメタデータ登録ができる。これは特にメタデータ項目の数が多いとき有効である。またメタデータ項目に対する候補リストボタン1307を押下すると、対応するメタデータ項目に対してメタデータの候補となるべき一覧が、候補として確度が高い順に表示される。この候補リストおよび一覧表示における順番は、メタデータ候補出力設定1308で調整することも可能である。ユーザはこの候補一覧から適切なメタデータを選んでもよいし、直接テキストボックスにメタデータを入力することも可能である。全てのメタデータを入力し、確定ボタン1309を押すと入力したメタデータがシステムに登録される。
【0067】
図14は、候補リストを表示した画面の例であって、図13の候補リストボタン1307を押下して表示されるものを示す図である。候補リストはドロップダウンリスト1401の形で表示され、上から候補として確度が高いものの順に表示している。ユーザはこの中から一つを選び、OKボタン1402を押すと、選択したメタデータが図13のテキストボックスに入力される。キャンセルボタン1403を押すと、メタデータの入力は行わずに、この画面を閉じる。
【0068】
<まとめ>
本発明では、検索キーワードに基づいて検索を実行して、ファイルデータベースから検索キーワードに合致するメタデータ設定済ファイルとメタデータ未設定ファイルを取得する。また、検索実行によって取得したメタデータ設定済ファイルからフィルタ条件(例えば、図7参照)によってさらに絞込み、この絞り込まれたメタデータ設定済ファイルが有するメタデータを、メタデータ未設定ファイルのメタデータの候補として設定する。そして、メタデータ設定処理部が、ユーザの指示に従って、メタデータ設定画面において、メタデータの候補を該当するメタデータ未設定ファイルに対して設定すべきメタデータとして確定(編集不可とする)し登録する。これにより、ファイルに対するメタデータを効率的に設定することができるようになる。つまり、メタデータを登録する操作は必ず目視による確認作業が入るが、全部のメタデータ項目の確認・編集をする必要はないので、登録をより簡単に行うことができる。また、このメタデータの登録は、日常のファイルサーバに対する検索操作の中で自然に行うものなので、ユーザにとってストレスのない形でメタデータ設定が実現できる。
【0069】
また、メタデータ候補が1つのみである場合、当該メタデータ候補を変更不可なものとして確定するが、メタデータ候補が複数ある場合、複数のメタデータ候補から1つを選択可能にする。このように、全てを編集不可に設定するのではなく、メタデータ設定にフレキシブルさを持たせ、メタデータの設定の精度を向上させることが可能となる。
【0070】
また、検索キーワードがメタデータ候補算出の際に用いられるものとして設定されている場合には、メタデータ候補算出処理部は、さらに、検索キーワードが予め登録された表現形式で記述されているか否かによって検索キーワードをメタデータの候補として設定する。さらに、メタデータとして出現しうる候補文字列を格納した辞書データベースがメタデータ候補算出の際に用いられるものとして設定されている場合、メタデータ候補算出処理部は、メタデータ未設定ファイルのファイルパス文字列が辞書データベースの候補文字列を含むか否かによって候補文字列をメタデータの候補として設定する。これにより、検索キーワードやファイルパスに関連性を持たせてメタデータを設定することができるようになる。
【0071】
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
【0072】
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
【0073】
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
【符号の説明】
【0074】
301…ファイルDB
302…検索インデックス
303…メタデータDB
304…辞書DB
305…メタデータ項目設定ファイル
306…フィルタ条件設定ファイル
307…表示装置
308…キーボード
309…マウス
310…中央処理装置
311…検索実行部
312…検索結果表示処理部
313…メタデータ候補算出処理部
314…メタデータ設定処理部
401…ファイルID
402…ファイルパス
403…メタデータ全体
404…文書種別名
405…顧客名
406…起票日
407…案件ID
408…管理部門
1101…検索キーワード入力用テキストボックス
1102…検索実行ボタン
1103…メタデータ登録/未登録を区別して表示するかを決めるチェックボックス
1104…検索結果表示ペイン
1105…検索結果のファイルのファイル名
1106…検索結果のファイルのサマリ情報
1107…検索結果のファイルのファイルパス
1108…検索結果のファイルのメタデータ
1109…まだメタデータが未登録であることを示すサイン
1110…検索結果のファイルのメタデータ候補
1111…メタデータ候補を採用してメタデータ入力を開始するボタン
1112…メタデータ候補を採用せずにメタデータ入力を開始するボタン
1113…メタデータ候補出力設定ペイン
1114…検索キーワードを使うか否かを決めるラジオボタン
1115…辞書を使うか否かを決めるラジオボタン
1116…フィルタ条件で同じフォルダを使うかを決定するチェックボックス
1117…フィルタ条件で類似ファイル名を使うかを決定するチェックボックス
1118…フィルタ条件で作成日時が近いものを使うかを決定するチェックボックス
1119…フィルタ条件で最終アクセス日時が近いものを使うかを決定するチェックボックス
1120…フィルタ条件で同じファイル種別を使うかを決定するチェックボックス
1201…メタデータ登録/未登録を区別して表示するかを決めるチェックボックス
1202…メタデータが未登録のファイル表示ペイン
1203…メタデータが登録済みのファイル表示ペイン
1204…検索キーワード入力用テキストボックス
1301…ファイル表示エリア
1302…文書種別名に対するメタデータを示すテキストボックス
1303…顧客名に対するメタデータを示すテキストボックス
1304…起票日に対するメタデータを示すテキストボックス
1305…案件IDに対するメタデータを示すテキストボックス
1306…管理部門に対するメタデータを示すテキストボックス
1307…メタデータの候補の一覧を表示する候補リストボタン
1308…メタデータ候補出力設定
1309…確定ボタン
1401…メタデータ候補一覧のドロップダウンリスト
1402…OKボタン
1403…キャンセルボタン

【特許請求の範囲】
【請求項1】
電子ファイルに対してメタデータを設定するメタデータ設定方法であって、
検索実行部が、検索キーワードに基づいて検索を実行して、ファイルデータベースから前記検索キーワードに合致するメタデータ設定済ファイルとメタデータ未設定ファイルを取得する検索実行ステップと、
検索結果表示処理部が、前記検索処理ステップで取得した前記メタデータ設定済ファイルと前記メタデータ未設定ファイルを検索結果として表示部に表示する検索結果表示ステップと、
メタデータ候補算出処理部が、前記検索実行ステップで取得した前記メタデータ設定済ファイルが有するメタデータを、前記メタデータ未設定ファイルのメタデータの候補として設定するメタデータ候補算出処理ステップと、
前記検索結果表示処理部が、ユーザによって選択されたメタデータ未設定ファイルに関してメタデータ設定画面を表示部に表示するメタデータ設定画面表示ステップと、
メタデータ設定処理部が、ユーザの指示に従って、前記メタデータ設定画面において、前記メタデータの候補を該当する前記メタデータ未設定ファイルに対して設定すべきメタデータとして確定し登録するメタデータ登録ステップと、
を備えることを特徴とするメタデータ設定方法。
【請求項2】
請求項1において、
前記メタデータ候補算出処理ステップでは、前記メタデータ候補算出処理部は、前記検索処実行ステップで取得した前記メタデータ設定済ファイルから、入力されたフィルタ条件に合致するメタデータ設定済ファイルを抽出し、当該抽出されたメタデータ設定済ファイルが有するメタデータを前記メタデータ未設定ファイルのメタデータの候補として設定することを特徴とするメタデータ設定方法。
【請求項3】
請求項1において、
前記メタデータ候補算出処理ステップでは、前記検索キーワードがメタデータ候補算出の際に用いられるものとして設定されている場合、前記メタデータ候補算出処理部は、さらに、前記検索キーワードが予め登録された表現形式で記述されているか否かによって前記検索キーワードを前記メタデータの候補として設定することを特徴とするメタデータ設定方法。
【請求項4】
請求項1において、
前記メタデータ候補算出処理ステップでは、メタデータとして出現しうる候補文字列を格納した辞書データベースがメタデータ候補算出の際に用いられるものとして設定されている場合、前記メタデータ候補算出処理部は、さらに、前記メタデータ未設定ファイルのファイルパス文字列が前記辞書データベースの前記候補文字列を含むか否かによって前記候補文字列を前記メタデータの候補として設定することを特徴とするメタデータ設定方法。
【請求項5】
請求項1において、
前記メタデータ登録ステップでは、前記メタデータ設定処理部は、前記メタデータ候補が1つのみである場合、当該メタデータ候補を変更不可なものとして確定し、前記メタデータ候補が複数ある場合、前記複数のメタデータ候補から1つを選択可能にすることを特徴とするメタデータ設定方法。
【請求項6】
電子ファイルに対してメタデータを設定するメタデータ設定システムであって、
メタデータ設定済ファイルとメタデータ未設定ファイルを格納するファイルデータベースと、
検索キーワードに基づいて検索を実行して、前記ファイルデータベースから前記検索キーワードに合致するメタデータ設定済ファイルとメタデータ未設定ファイルを取得する検索実行部と、
前記検索実行部が取得した前記メタデータ設定済ファイルと前記メタデータ未設定ファイルを検索結果として表示部に表示する検索結果表示処理部と、
前記検索実行部が取得した前記メタデータ設定済ファイルが有するメタデータを、前記メタデータ未設定ファイルのメタデータの候補として設定するメタデータ候補算出処理部と、
メタデータ設定処理を実行するメタデータ設定処理部と、を備え、
前記検索結果表示処理部が、ユーザによって選択されたメタデータ未設定ファイルに関してメタデータ設定画面を表示部に表示したとき、メタデータ設定処理部が、ユーザの指示に従って、前記メタデータ設定画面において、前記メタデータの候補を該当する前記メタデータ未設定ファイルに対して設定すべきメタデータとして確定し登録することを特徴とするメタデータ設定システム。
【請求項7】
請求項6において、
前記メタデータ候補算出処理部は、前記検索処実行部が取得した前記メタデータ設定済ファイルから、入力されたフィルタ条件に合致するメタデータ設定済ファイルを抽出し、当該抽出されたメタデータ設定済ファイルが有するメタデータを前記メタデータ未設定ファイルのメタデータの候補として設定することを特徴とするメタデータ設定システム。
【請求項8】
請求項6において、
前記検索キーワードがメタデータ候補算出の際に用いられるものとして設定されている場合、前記メタデータ候補算出処理部は、さらに、前記検索キーワードが予め登録された表現形式で記述されているか否かによって前記検索キーワードを前記メタデータの候補として設定することを特徴とするメタデータ設定システム。
【請求項9】
請求項6において、
さらに、メタデータとして出現しうる候補文字列を格納した辞書データベースを備え、
前記辞書データベースがメタデータ候補算出の際に用いられるものとして設定されている場合、前記メタデータ候補算出処理部は、さらに、前記メタデータ未設定ファイルのファイルパス文字列が前記辞書データベースの前記候補文字列を含むか否かによって前記候補文字列を前記メタデータの候補として設定することを特徴とするメタデータ設定システム。
【請求項10】
請求項6において、
前記メタデータ設定処理部は、前記メタデータ候補が1つのみである場合、当該メタデータ候補を変更不可なものとして確定し、前記メタデータ候補が複数ある場合、前記複数のメタデータ候補から1つを選択可能にすることを特徴とするメタデータ設定システム。
【請求項11】
コンピュータに請求項1に記載のメタデータ設定方法を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2011−76396(P2011−76396A)
【公開日】平成23年4月14日(2011.4.14)
【国際特許分類】
【出願番号】特願2009−227664(P2009−227664)
【出願日】平成21年9月30日(2009.9.30)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(000233055)株式会社日立ソリューションズ (1,610)
【Fターム(参考)】