ファイル管理装置
【課題】個々のサブフォルダやファイルの内容を確認することなく、効率的にフォルダの中にあるファイルの概要について理解するためのファイル(文書)管理処理を提供する。
【解決手段】動的に(フォルダにカーソルを合わせる等アクセスする度に)フォルダ内に含まれる複数のファイルの概要を生成し、それを表示する。例えば、フォルダ内に含まれるファイルの属性における特徴または傾向に基づいて、siblingフォルダに含まれる複数のファイルとの比較において差が認められた特徴について概要を記述することおよび、クエリにヒットした文書の階層フォルダ内における位置の分布を表示する。
【解決手段】動的に(フォルダにカーソルを合わせる等アクセスする度に)フォルダ内に含まれる複数のファイルの概要を生成し、それを表示する。例えば、フォルダ内に含まれるファイルの属性における特徴または傾向に基づいて、siblingフォルダに含まれる複数のファイルとの比較において差が認められた特徴について概要を記述することおよび、クエリにヒットした文書の階層フォルダ内における位置の分布を表示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ファイル管理装置に関し、例えば、文書構造を利用した業務ファイル(文書)の概要の表示に関するものである。
【背景技術】
【0002】
近年、組織内で用いられる文書は電子データとして作成・保存される機会が増えてきている。ストレージ価格の低減・内部統制に対する意識・コンピュータ技術の進歩に伴う電子データの利点(保存が安価に行えることや共有が容易であることなど)の拡大がこの傾向に拍車をかけている。
【0003】
また、ファイルシステムが管理する木構造のフォルダ階層の中にあるファイルを表示するための技術として、現在までに下記のものが開発・提供されている。
【0004】
1)既存技術1:WindowsのdirコマンドやUnixのlsコマンド:特定のフォルダにあるファイルを列挙する。
2)既存技術2:Windowsのtreeコマンドやエクスプローラ:フォルダの階層構造を木構造で表示する。エクスプローラでは、指定したフォルダについてはサブフォルダを表示させ、他のフォルダについては下部構造の表示を行わない指定が可能である。
3)既存技術3:ディスクの容量表示ソフト:フォルダの階層とそこにあるファイルの容量の和を表示するソフトが開発されている。例としては、Scanner・WinDu2・WinDirStat・SequoiaView・SpaceMongerなどが挙げられる(非特許文献1乃至5)。これらのソフトは、どのようなファイルがディスクの容量の多くの範囲を占めているか視覚的に判断し、不要でありながら容量の大きいファイルを見つけて削除することによりディスクの空き領域を効率よく得ることを目的としている。
4)既存技術4:文書検索:ユーザがクエリとして指定した文字列を含む文書を列挙する。グーグル株式会社が提供する製品「Google検索アプライアンス」(非特許文献6)では、文書中に含まれるクエリ文字列を強調表示する機能がある。また、Vivisimo社が提供する製品「Velocity」(非特許文献7)では、クエリを含む文書として複数のものが見つかった場合、文書の分野ごとに動的に分類して表示する機能がある。
5)既存技術5:文書管理システムとして、書棚とバインダを模したユーザインタフェースを採用した文書管理システムが提供されている(非特許文献8)。保存した文書に対し、種類に応じてバインダに分類したり、付箋を用いてコメントを書き込めたりするための機能を持っている。
【0005】
【非特許文献1】Scanner:http://www.steffengerlach.de/freeware/
【非特許文献2】WinDu2:http://www.vector.co.jp/soft/win95/util/se059546.html
【非特許文献3】WinDirStat:http://windirstat.sourceforge.net/
【非特許文献4】SequoiaView:http://w3.win.tue.nl/nl/onderzoek/onderzoek _informatica/visualization/se quoiaview
【非特許文献5】SpaceMonger:http://www.sixty-five.cc/sm/
【非特許文献6】Google検索アプライアンス:http://www.google.co.jp /enterprise/gsa/
【非特許文献7】Velocity:http://vivisimo.com/html/products
【非特許文献8】ビジュアルキャビネット(NEC):http://www.nec.co.jp /univerge/solution/pack/visual_ cabinet/index.html
【非特許文献9】楽2ライブラリ(PFU):http://www.pfu.fujitsu.com/raku2library/
【発明の開示】
【発明が解決しようとする課題】
【0006】
組織内で作成される文書は、同一業務に関する複数の文書を複数の担当者で分担して作成・管理する場合が多い。また、ファイルサーバ上に共有フォルダを設定し、その中でファイルの格納場所に一定のルールを設けて複数担当者がそれぞれファイルを格納するような運用は多数の組織で行われている。
【0007】
このような状況下で、下記の理由により、効率的にフォルダの中にあるファイルの概要について理解するための方法の需要が高まっている。
【0008】
第一に、同一業務が複数年にわたるような長期の業務においては、作成した文書も同じだけの期間にわたって管理しなくてはならない。このため、どのファイルをフォルダ階層のどこに格納したかを記憶し続けることは困難である。
【0009】
第二に、複数の担当者が分担している場合、他の担当者がどこにどのようなファイルを格納したかを把握することは困難である。格納場所にルールを設けている場合であっても、ルール上では定義されていない種類のファイルが新しく生じた場合、作成した担当者個人の判断で新しく格納場所が用意されることは頻繁に起こり得る。
【0010】
第三に、同一業務に携わる担当者がずっと固定的であるとは限らず、途中から担当者が新しく加わることも多い。このような途中から加わった担当者にとっては、それまでに蓄積された文書に突然接することになり、どのサブフォルダから閲覧したら良いのかさえ判断できない場合も生じ得る。第四に、紙で文書を保持していた場合に比べて、電子データでは大量の文書を保有することが容易である。このため、文書の数・量ともに増大しがちになり、上記第一〜第三の傾向がますます強まる。
【0011】
ところで、紙の文書については、フォルダに綴じられた書類の概要について、ページを繰りながら流し読みする・ページの間に綴じられた見出しを見る・見出しの間にあるページの厚みを見ることにより、どのような書類がどの程度の分量だけあるか概要を知ることができる。また、書庫に複数のフォルダが格納されている場合には、フォルダの冊数や背表紙を見ることにより、どのような書類がどの程度の分量だけあるのか概要を知ることができる。
【0012】
しかしながら、上記に挙げた既存技術1〜5(非特許文献1乃至9含む)のどれを用いても、どのような書類がどの程度の分量だけあるのか概要を知ることができない。つまり、既存技術1に挙げたようなコマンドでは、各フォルダごとにコマンドを実行しなくてはならず、フォルダの数が増えたり階層が深くなったりした場合には効率的でない。また、既存技術2に挙げた文書検索では、クエリ文字列を含むとして検索された文書はフォルダ階層中の位置とは無関係に一覧表示される。したがって、検索された個々の文書についての情報が得られるのみであり、フォルダ全体についての情報は得られない。また、既存技術3に挙げたソフトでは、フォルダに含まれるファイルの容量の和にのみ注目しており、容量が多くないファイルについてはほとんど情報が得られないなど、フォルダの中にあるファイルの概要を知るには不十分である。また、主に家庭における個人の利用を想定した技術であり、フォルダの階層が深くなったり数が増えたりすると表示の一覧性が低下する。既存技術5は紙での文書管理の方法を模すことに重きを置いているが、このために逆に、ファイルサーバ上の共有フォルダに保存されたファイルを対象にしづらくなっている。ファイルサーバ上に共有フォルダを設ける場合、フォルダの階層は、通常、内容に応じた深さを持つことになる。これに対し、書棚とバインダで管理を行う場合、バインダの中にインデックスを挟んだとしても、最大三階層までしか作ることができない。また、楽2ライブラリでは1000以上のバインダ・100万ページ以上のファイルを扱えることが述べられている。ファイルサーバ上のファイルでは大量の分量のファイル・フォルダを扱う必要が生じることも考えられるが、バインダ数が増えてしまうと、バインダの背表紙を確認することも困難になることが容易に想像できる。
【0013】
本発明はこのような状況に鑑みてなされたものであり、共有ファイルサーバのような文書の数・サイズが多く長期にわたって複数の担当者が管理を行う状況下において、個々のサブフォルダやファイルの内容を開くことなく、効率的にフォルダの中にあるファイルの概要について理解することのできる業務文書管理を提供する。また、本発明は、クエリ検索において、クエリ文字列を含む複数のファイルのフォルダ階層上の位置の分布の概要について理解することのできる業務文書管理を提供する。
【課題を解決するための手段】
【0014】
上記課題を解決するために、本発明では、動的に(フォルダにカーソルを合わせる等アクセスする度に)フォルダ内に含まれる複数のファイルの概要を生成し、それを表示する。これにより、個々のサブフォルダやファイルの内容を確認することなく、効率的にフォルダの中にあるファイルの概要について理解することができる。
【0015】
フォルダ内に含まれる複数のファイルの概要は、属性(ファイルの容量・ファイルの拡張子・ファイルの種類・ファイルの作成日・ファイルの最終更新日・ファイルの最終閲覧日・ファイルの提出日・ファイルの作成者・ファイルの作成者の所属・ファイルの差出元・ファイルの宛先・フォルダ階層の深さ・サブフォルダ数)における特徴または傾向(ファイル名における頻出文字列・サブフォルダ名における頻出文字列・タイトルにおける頻出文字列・ファイル名における連番文字列・サブフォルダ名における連番文字列・タイトルにおける連番文字列・一部のサブフォルダへのファイルの集積・サブフォルダ同士の類似・複数次元の格子点上のファイルの分布)の一つまたは複数に基づいて記述する。
【0016】
例えば、図1のような場合には、「マニュアル」フォルダに含まれるファイルについて、「500Kb〜2Mbのdocファイルが5個と、100Kb〜300Kbのjpgファイルが30個あります」といった概要を表示する。これにより、「マニュアル」フォルダに含まれるのが概ねどのようなファイルなのか、ユーザは実際にフォルダの中身を確認することなく(フォルダを開くことなく)理解することができる。この概要の例は、ファイルの容量と拡張子における特徴に基づくが、その他の属性でも同様である。
【0017】
そして、動的に(フォルダにアクセス(フォルダを選択)する度に)得た概要を、図2A乃至Cの200〜203のように表示することで、ユーザに対して適切にフォルダ内容の確認材料を提供することができる。図2Bの201に示すように、さまざまな属性に基づいて概要を表示したり、図2Cの202に示すように、ユーザが指定した属性(ここでは「拡張子」という属性)に基づく概要を一律に表示したりすることが有効である。200および203については、ハッチングで示した「マニュアル」フォルダが現在選択中であり、このフォルダの概要が表示されている。また、201については、ハッチングで示した「マイドキュメント」フォルダが現在選択中であり、このフォルダに含まれる各サブフォルダの概要が表示されている。また、202および203については、「マニュアル」フォルダは展開表示されていることから、「マニュアル」フォルダの直下にあるファイルについての概要が表示されている(「挿絵」サブフォルダ内にあるファイルを含まない概要の情報である)。
【0018】
また、ファイルの種類については、例えば異なる拡張子を持つ画像ファイル(jpgファイルやtiffなど)をあらかじめ同一の種類であると定義しておき、これらの拡張子を一つにまとめることにより、ユーザの求める詳細度に合った形で概要を表示することができる。
【0019】
さらに、本発明は、連番文字列を含むファイルについては効率よく概要表示を行う。ここで、ファイル名における連番文字列とは、複数のファイルにおいて、連番の文字列が含まれる状況を指す。例えば、修正を繰り返しながら報告書を作成し、「報告書_ver1.doc」というように版番号をファイル名に埋め込んだファイルを保存したとする。このような場合、「報告書_ver」という文字列と番号をファイル名に含む「.doc」ファイルがあることを表示すれば、必要十分な概要の情報を表示させることができる。この例のように版番号が連番になって現れる状況のほか、人員や資産などID番号を振ってあるものについても連番になって現れる状況が考えられる。サブフォルダ名における連番文字列についても同様である。
【0020】
また、本発明は、あるサブフォルダにファイルが集積されている場合にも効率よく概要を表示する。ここで、サブフォルダへのファイルの集積とは、例えば、図3に示すフォルダにおいて、サブフォルダ「07年10月回収」にファイルの9割が含まれているような状況を指す。このような場合には、このサブフォルダに注目して、「サブフォルダ『07年10月回収』にほとんどのファイルがあり、100Kb〜500Kbのdocファイルです」という具合に、属性における特徴または傾向に基づいて概要を記述することにより、より重要なファイルに注目した概要を表示することができる。例えば、「サブフォルダ『A(サブフォルダ名)』にほとんどのファイルがあり、『B(容量)』の『C(ファイルの種類)』ファイルです」というテンプレート文字列をメモリに保持しておき、構成要素A乃至Cに相当する情報を後述のフォルダ内容データ(図9及び10)から抽出することにより、概要を生成する。
【0021】
また、本発明では、サブフォルダの類似も考慮している。ここで、サブフォルダ同士の類似とは、複数のサブフォルダにおいて含まれるファイルが類似している状況を指す。例えば、同一の製品の異なるバージョンについてのマニュアルが各々別のサブフォルダに格納されている場合、両サブフォルダに含まれるファイルは類似していることが考えられる。したがって、片方のサブフォルダの概要を表示し、もう片方は類似したサブフォルダであることのみ表示すれば十分である。これにより、より少ない表現でフォルダの概要を示すことができ、効率的な理解を助けることができる。
【0022】
また、本発明では、複数次元の格子点上にファイルが分布している場合も考慮している。ここで、複数次元の格子点上のファイルの分布とは、例えば、図4に示すような状況をいう。この例では、複数の部署・期間・種類についてファイルを作成した場合を示している。フォルダの階層構造においては、部署・期間・種類の何れかを選んでフォルダ分類単位として木構造を作らなくてはならない。したがって、下位のサブフォルダは類似した形で配置されることになる(この例では、両方の部署について同じ取り合わせで各期間のサブフォルダが配置されている)。このような状況において、木構造に沿って内容の概要を表示するよりも、複数の次元(部署・期間・種類)の空間を考え、格子上にファイルが存在していることを表示する方が効率が良い。これにより、「部署ごと・月ごとにxlsファイルとdocファイルが1個ずつあります」という具合に、よりユーザに理解しやすい形でフォルダの中に含まれるファイルの概要を表示できる。
【0023】
本発明は、フォルダ内に含まれる複数のファイルの概要について、siblingフォルダに含まれる複数のファイルとの比較において差が認められた特徴について記述する。例えば、図5に示すようなフォルダ階層において、「A製品ver.2プレゼン資料」フォルダの内容の概要を表示したい場合を考える。この例では、「A製品ver.1プレゼン資料」フォルダと「A製品ver.2プレゼン資料」フォルダがsibling関係にあることになる。この場合、「A製品ver.1プレゼン資料」フォルダと「A製品ver.2プレゼン資料」フォルダの両方ともpptファイルを多く含んでいる。従って「pptファイルを多く含む」という情報を「A製品ver.2プレゼン資料」フォルダの概要に記述しても、意味はあまりない。それよりも、(例えばver.2の方が後で開発されたため)「A製品ver.2プレゼン資料」フォルダに含まれるファイルの作成日付や最終更新日などについて「A製品ver.1プレゼン資料」フォルダに含まれるファイルとの比較において差が認められることに基づいて概要を記述する方が、よりユーザに理解しやすい情報を与えることができる。なお、複数のサブフォルダについて、親フォルダが同一であれば、それらはsiblingフォルダということになる。ただし、siblingフォルダだからといって必ずしも類似フォルダになるとは限らない。
【0024】
本発明は、階層フォルダ内に保存されている文書に対してクエリ検索を行った結果を表示する際、クエリにヒットした文書の階層フォルダ内における位置の分布を表示する(図6参照)。既存の検索エンジンにおいては、クエリ文字列を含む文書は、独自に算出されたスコアに従って一列に並べられる。そこでは、各々のファイルがフォルダ階層のどこに存在しているかという情報は捨てられている。文書の内容を用いて動的にクラスタリングを行う、Velocity(非特許文献7)のような既存技術においても、フォルダ階層における位置の情報は利用していない。本発明は、図6A及びBの600または601および602に示すような、クエリ検索結果表示を提供する。これにより、個人または複数の担当者間で設けていたファイルの格納位置のルールに基づいた、「どこのサブフォルダにあるファイルがどのくらいクエリ文字列を含んでいるのか」という情報をユーザに与えることができる。この情報から、クエリ文字列を含む複数のファイルのフォルダ階層上の位置の分布の概要をユーザに与えることができる。
【0025】
また、本発明は、フォルダ階層を一部省略しながら展開表示する。例えば、図7Aの700に示すようなフォルダ階層およびクエリ文字列を含むファイルの位置の分布を考える。700に示すように一つもクエリを含むファイルがないフォルダを含めてフォルダ階層全てについて表示することにあまり意味はなく、図7Bの701に示すように、クエリ文字列を含むファイルが存在するフォルダについてのみの概要を表示し、フォルダ4乃至フォルダ8については702に示すように省略する。この方が、よりユーザに理解しやすい情報を与えることができる。
【0026】
即ち、本発明によるファイル管理装置は、階層フォルダ内に保存されているファイルを管理するファイル管理装置であって、階層フォルダのそれぞれのフォルダの内容データを格納するフォルダ内容データ保存部と、フォルダ内容データ保存部を参照し、ユーザによって選択されたフォルダに含まれる複数のファイルの概要を示す文字列を生成するフォルダ概要計算処理部と、生成された文字列を表示装置に表示する表示処理部と、
を備えることを特徴とする。
【0027】
ここで、フォルダ概要計算処理部は、ファイルの属性が指定されている場合には、文字列の代わりに、複数ファイルに関して、指定された属性のヒストグラムを取得し、表示処理部は、取得したヒストグラムを前記表示装置に表示する。
【0028】
また、フォルダ概要計算処理部は、選択されたフォルダ内に複数次元(階層)の格子点上のファイル分布がある場合に、各次元の名称を併記して各次元ごとにファイルがあることを示す概要文字列を生成する。
【0029】
さらに、フォルダ概要計算処理部は、選択されたフォルダ内に複数のサブフォルダが類似のファイルを有する場合、各サブフォルダ名を併記して類似したファイルを含むことを示す概要文字列を生成する。
【0030】
また、フォルダ概要計算処理部は、選択されたフォルダ内に類似ファイルを有するサブフォルダがなく、サブフォルダへのファイルの集積がある場合、ファイル集積のあるサブフォルダ名とファイル集積があることを示す概要文字列を生成する。
【0031】
本発明によるファイル管理装置は、階層フォルダ内に保存されているファイルを管理するファイル管理装置であって、複数のファイルを格納するファイル格納部と、検索用インデックスを格納する検索用インデックス格納部と、検索用インデックス格納部に格納された検索用インデックスを参照して、クエリ検索を実行し、検索結果を得るクエリ検索処理部と、複数のファイルを格納する各フォルダについて、検索結果に対応するファイル数の情報を取得する位置分布処理部と、各フォルダごとに、ファイル数を表示装置に表示する表示処理部と、を備えることを特徴とする。ここで、表示処理部は、ファイル数を文字で表示するか、位置分布処理部が検索結果に対応するファイル数の情報に基づいて、ヒストグラムを生成し、表示処理部が、各ファイルごとに、ヒストグラムを表示する。なお、表示処理部は、検索結果に対応するファイルを含まないフォルダについては、表示を省略するようにしてもよい。
【0032】
本発明によるファイル管理装置は、階層フォルダ内に保存されているファイルを管理するファイル理装置であって、複数のファイルを格納するファイル格納部と、検索用インデックスを格納する検索用インデックス格納部と、階層フォルダのそれぞれのフォルダの内容データを格納するフォルダ内容データ保存部と、表示態様として概要表示が指定されている場合に、フォルダ内容データ保存部を参照し、ユーザによって選択されたフォルダに含まれる複数のファイルの概要を示す文字列を生成するフォルダ概要計算処理部と、表示態様がクエリ検索結果の位置分布表示が指定されている場合に、検索用インデックス格納部に格納された検索用インデックスを参照して、クエリ検索を実行し、検索結果を得るクエリ検索処理部と、複数のファイルを格納する各フォルダについて、検索結果に対応するファイル数の情報を取得する位置分布処理部と、表示態様の指定に応じて、生成された文字列を表示装置に表示するか、或いは、各フォルダごとにファイル数を表示装置に表示する表示処理部と、を備えることを特徴とする。
【0033】
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。
【発明の効果】
【0034】
本発明によれば、ユーザは、個々のサブフォルダやファイルの内容を確認することなく、効率的にフォルダの中にあるファイルの概要について理解することができる。また、クエリ検索において、クエリ文字列を含む複数のファイルのフォルダ階層上の位置の分布の概要について理解することができる。
【発明を実施するための最良の形態】
【0035】
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。
【0036】
<業務文書処理装置の構成>
図8は、本発明の一実施形態として構築される、業務文書処理装置の内部構造を概略的に示す機能ブロック図である。この業務文書処理装置は、フォルダの階層構造およびファイルを保持するファイルシステム(DB)800と、検索エンジンがファイルを全文検索するために使用する検索用インデックス801と、データを表示するための表示装置802と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード803及びマウスなどのポインティングデバイス804と、必要な演算処理、制御処理等を行う中央処理装置805と、中央処理装置805での処理に必要なプログラムを格納するプログラムメモリ806と、中央処理装置805での処理に必要なデータを格納するデータメモリ807と、を備えている。
【0037】
中央処理装置805は、ファイルシステムに格納されているファイルに対して全文検索を行うクエリ検索処理部808と、フォルダの概要を計算するフォルダ概要計算処理部809と、クエリにヒットした文書の階層フォルダ内分布を計算する検索結果フォルダ階層位置分布処理部810と、を含んでいる。フォルダ概要計算処理部809は、属性に基づいてフォルダ内の概要を計算する属性由来概要計算処理部811を有している。また、属性由来概要計算処理部811は、属性のうちsiblingフォルダと差が認められたものについてフォルダの概要を計算する属性差由来概要計算処理部812を有している。また、検索結果フォルダ階層位置分布処理部810は、フォルダ階層を一部省略しながら展開表示を行う検索結果省略表示処理部813を有している。
【0038】
データメモリ807は、フォルダの内容(サブフォルダまたはファイル)についての情報を保持するフォルダの内容データ814と、拡張子とその種類についての情報を保持する拡張子の種類定義データ815と、検索クエリがどのファイルに含まれるかの情報を保持する文書ヒットデータ816と、を含んでいる。
【0039】
<データメモリ807内のデータの内容>
図9、図10および図11は、データメモリ807に含まれる、フォルダの内容データ814、拡張子の種類定義データ815および文書ヒットデータ816のデータ構造を示す図である。
【0040】
図9及び10はいずれも、フォルダの内容データのデータ構造を示しており、それぞれ、ファイルの場合・サブフォルダの場合のデータ例である。図9に示すフォルダの内容データは、構成として、パス名900と、サブフォルダかどうかを示すフラグ901と、サブフォルダの場合には展開されているかどうかを示すフラグ902と、サブフォルダの場合にはそのサブフォルダ以下のファイルが持つ属性のヒストグラム903と、ファイルの場合にはその容量904と、ファイルの場合にはその拡張子905と、ファイルの場合には拡張子の種類定義データ815で定義される種類906と、ファイルの場合にはその作成日907と、ファイルの場合にはその最終更新日908と、ファイルの場合にはその最終閲覧日909と、ファイルの場合にはその提出日910と、ファイルの場合にはその作成者911と、ファイルの場合にはその作成者の所属912と、ファイルの場合にはその差出元913と、ファイルの場合にはその宛先914と、サブフォルダの場合にはそのサブフォルダ以下のフォルダ階層の深さ915と、サブフォルダの場合にはそのサブフォルダ以下のフォルダの数916と、を含んでいる。これらの各データは、各ファイルのプロパティ情報から取得されてリスト化される。図9はファイルの場合であるので901はFALSEであり、902、903、915および916はNULLである。反対に、図10はサブフォルダの場合であるので、1001はTRUEであり、1004〜1014はNULLである。
【0041】
図11Aは、拡張子の種類定義データ815のデータ構造を示している。拡張子の種類定義データは、拡張子1100および種類1101を含む要素の配列である。例えば、jpgファイルとtiffファイルは両方とも画像ファイルであると定義する場合、拡張子1100が”jpg”で種類1101が”画像”である要素と、拡張子1100が”tiff”で種類1101が”画像”である要素の二つを配列の要素に持つ。
【0042】
図11Bは、文書ヒットデータ816のデータ構造を示している。文書ヒットデータは、パス名1102、ヒットしたクエリ1103、サマリ1104を含む要素の配列である。1つの文書が複数のクエリ文字列を含む場合、ヒットしたクエリ1103は複数のクエリ文字列を保持する。例えば、図11に示す例では、パス名”C:\leader01\temp\file001.txt”にある文書は「文書」と「表示」という2つのクエリ文字列を含んでいるため、ヒットしたクエリ1103は2つのクエリ文字列を保持している。
【0043】
<業務文書処理装置の動作>
以下、本発明の実施形態による業務文書処理装置において行われる処理について説明する。
【0044】
1)動作概要
図12は、業務文書処理装置による処理の流れを概略的に示すフローチャートである。図12において、まず、中央処理装置805は、ユーザの指示を受付け、その指示に対応する処理がフォルダの概要の表示か、それとも、クエリ検索結果のフォルダ階層上の位置の分布の概要の表示かを判断する(ステップ1200)。対象処理がフォルダの概要の表示である場合、フォルダ概要計算処理部809はフォルダの概要計算処理を行う(ステップ1201)。ステップ1200において対象処理がクエリ検索結果のフォルダ階層上の位置の分布の概要の表示である場合、クエリ検索処理部808が検索を実行してクエリ検索結果を取得し、検索結果フォルダ階層位置分布処理部810がクエリ検索結果のフォルダ階層における位置の分布情報を計算する処理を行う(ステップ1202)。
【0045】
その後、中央処理装置805は、ユーザの指示を受付け、フォルダの展開・アイコン化表示の指定か処理終了かを判断する(ステップ1203)。ここで、フォルダの展開とはサブフォルダが一行として表示されている場合に展開することをいい、アイコン化の指定とは展開されているものを一行にまとめなおすことをいう。対象処理がフォルダの展開・アイコン化表示の指定である場合、ユーザの入力に従って、フォルダの内容データ814が展開表示されているか否かを示すフラグ902を更新する(ステップ1204)。そして、ステップ1200から処理をもう一度繰り返す。ステップ1203において対象処理が処理終了の場合、そのまま終了する。
【0046】
2)ステップ1201の詳細
図13は、図12のステップ1201における、フォルダの概要を計算する処理の詳細について説明するためのフローチャートである。
【0047】
まず、フォルダ概要計算処理部809は、ユーザの指示を受付け、フォルダの概要が基づくべき属性が指定されているかどうかを判断する(ステップ1300)。指定されていると判断した場合、次に、フォルダ概要計算処理部809は、フォルダの概要が基づくべきとしてどの属性が指定されているかをチェックする(ステップ1301)。また、フォルダ概要計算処理部809は、フォルダの直下にあるサブフォルダ毎に、ステップ1301で指定されていると判断した属性について、ヒストグラムを得る(ステップ1302)。そして、フォルダ概要計算処理部809は、フォルダの直下にあるサブフォルダ毎に、ステップ1302で求めたヒストグラムを図2Cの202のように表示する(ステップ1303)。
【0048】
ステップ1300において、属性がユーザによって指定されていないと判断した場合、フォルダ概要計算処理部809は、フォルダの直下にあるサブフォルダ毎に概要を得る(ステップ1304)。そして、フォルダ概要計算処理部809は、フォルダの直下にあるサブフォルダ毎に、そのサブフォルダに含まれるフォルダやファイルの情報として図2の201のように表示する(ステップ1305)。マウスポインタが近くに存在するサブフォルダについては、図2A及びCの200や203のようにポップアップ表示を行う(ステップ1306)。
【0049】
3)ステップ1302の詳細
図14は、図13のステップ1302における、フォルダの直下にあるサブフォルダ毎に指定属性のヒストグラムを得る処理の詳細について説明するためのフローチャートである。
【0050】
まず、フォルダ概要計算処理部809は、図9及び10に示すフォルダ内容データ814を参照して、注目しているフォルダに関して、リストLを作成する(ステップ1400)。次に、フォルダ概要計算処理部809は、リストのインデックス変数としてSub_folder_indexを1で初期化する(ステップ1401)。そして、フォルダ概要計算処理部809は、リストLの長さがSub_folder_index以上かどうかを調べる(ステップ1402)。Lの長さがSub_folder_index未満だった場合、処理は終了する。
【0051】
一方、Lの長さがSub_folder_index以上だった場合、フォルダ概要計算処理部809は、処理を続ける。まず、フォルダ概要計算処理部809は、リストLのSub_folder_index番目の要素について、展開表示されているかどうかを示すフラグ1002を参照し、展開表示すると指定されているかどうかを調べる(ステップ1403)。展開表示すると指定されている場合、フォルダ概要計算処理部809は、ファイルシステム800を参照して、リストLのSub_folder_index番目の要素の直下にあるファイルについて指定属性を調べてヒストグラムとし、ヒストグラム1003に格納する(ステップ1404)。その後、フォルダ概要計算処理部809は、ファイルシステム800を参照し、リストLのSub_folder_index番目の要素の直下にあるサブフォルダについて、リストLに追加する(ステップ1405)。
【0052】
ステップ1403において、展開表示すると指定されていない場合、フォルダ概要計算処理部809は、ファイルシステム800を再帰的に参照して、リストLのSub_folder_index番目の要素の中にあるファイル全てについて指定属性を調べてヒストグラムとし、ヒストグラム1003に格納する(ステップ1406)。その後、Sub_folder_indexを1増やし(ステップ1407)、ステップ1402から処理をもう一度繰り返す。
【0053】
4)ステップ1304の詳細
図15は、図13のステップ1304における、フォルダの直下にあるサブフォルダ毎に概要文字列(各サブフォルダの内容を表現する文字列)を得る処理の詳細について説明するためのフローチャートである。
【0054】
まず、フォルダ概要計算処理部809は、概要を格納する文字列Sを空文字列で初期化する(ステップ1500)。次に、フォルダ概要計算処理部809は、ファイルシステム800を再帰的に参照し、注目しているフォルダの中にあるファイル全てを図9に示すフォルダの内容データで格納したリストLを作成する(ステップ1501)。次に、フォルダ概要計算処理部809は、リストLの中に要素(処理対象のファイル)が含まれているかどうかを調べる(ステップ1502)。
【0055】
リストLに要素が含まれていない場合、処理は終了する。逆に含まれている場合、フォルダ概要計算処理部809は、まず、図4で説明したような、複数次元の格子点上のファイルの分布があるかを調べる(ステップ1503)。そのようなファイルの分布がある場合、概要Sに、各次元の名称を併記して各次元ごとにファイルがあることを述べる表現を加え、それらのファイルをリストLから除く(ステップ1504)。例えば、図4のような構造の場合、A設計部及びB設計部を代表する概要文字列を作成し、リストLからA設計部とB設計部のフォルダを除く。概要文字列については、例えば、文字列テンプレートをメモリに保持しておき、そのテンプレートに存在する空欄に適合する文字を挿入することにより生成する。図4の場合、「〔 〕に関する〔 〕のファイル」というテンプレートがあった場合に、〔 〕にはそれぞれ“売上”と“xls、doc”が挿入されて文字列が生成される。
【0056】
その後、フォルダ概要計算処理部809は、ステップ1502から処理をもう一度繰り返す。ステップ1503において、複数次元の格子点上のファイルの分布がない場合、フォルダ概要計算処理部809は、含まれるファイルが類似している複数のサブフォルダがあるか調べる(ステップ1505)。そのような複数のサブフォルダがある場合、フォルダ概要計算処理部809は、概要Sに、各サブフォルダ名を併記して類似したファイルを含むことを述べる表現を加え、それらのサブフォルダに含まれるファイルをリストLから除く(ステップ1506)。
【0057】
フォルダ概要計算処理部809は、さらに、ステップ1502から処理をもう一度繰り返す。ステップ1505において、含まれるファイルが類似している複数のサブフォルダがない場合、フォルダ概要計算処理部809は、サブフォルダへのファイルの集積があるか調べる(ステップ1507)。集積がある場合、フォルダ概要計算処理部809は、概要Sに、サブフォルダ名とそのサブフォルダに大多数のファイルが含まれることを述べる記述を加え、そのサブフォルダに含まれるファイル以外のファイルをリストLから除く(ステップ1508)。
【0058】
フォルダ概要計算処理部809は、さらに、ステップ1502から処理をもう一度繰り返す。ステップ1507においてサブフォルダへの集積がない場合、属性差由来概要計算処理部812は、概要Sに、ファイルの各属性(ファイルの容量・ファイルの拡張子・ファイルの種類・ファイルの作成日・ファイルの最終更新日・ファイルの最終閲覧日・ファイルの提出日・ファイルの作成者・ファイルの作成者の所属・ファイルの差出元・ファイルの宛先・フォルダ階層の深さ・フォルダ数)における特徴または傾向(ファイル名における頻出文字列・サブフォルダ名における頻出文字列・タイトルにおける頻出文字列・ファイル名における連番文字列・サブフォルダ名における連番文字列・タイトルにおける連番文字列)のうち、siblingフォルダに含まれる複数のファイルとの差が認められた特徴について記述を加え(ステップ1509)、処理を終了する。ステップ1509における差の判断については、統計的検定の既存技術を用いて行うことができる。
【0059】
5)ステップ1202の詳細
図16は、図12のステップ1202における、クエリ検索結果のフォルダ階層における位置の分布情報を計算する処理の詳細について説明するためのフローチャートである。まず、検索結果フォルダ階層位置分布処理部810は、フォルダの直下にあるサブフォルダ毎に、クエリ検索処理部808によるクエリ検索に合ったファイルについて、ヒット数のヒストグラムを得る(ステップ1600)。その後、フォルダ概要計算処理部809は、ユーザの指示を受付け、ヒット数を文字で表示するよう指定されているかどうかを判断する(ステップ1601)。
【0060】
文字で表示するよう指定されている場合、フォルダ概要計算処理部809は、1つ以上のクエリにヒットした数と全ファイル数についてヒストグラムを参照し、図7の701のようにクエリ文字列を含むファイルが存在するフォルダについてのみ、図6Aの600のように階層構造表示部分に表示する(ステップ1602)。
【0061】
一方、文字ではなくグラフで表示するよう指定されている場合は、フォルダ概要計算処理部809は、各クエリごとのヒットした数と全ファイル数についてヒストグラムを参照し、図6Bの601のように階層構造表示部分に表示する(ステップ1603)。
【0062】
6)ステップ1600の詳細
図17は、図16のステップ1600における、フォルダの直下にあるサブフォルダ毎にヒット数のヒストグラムを得る処理の詳細について説明するためのフローチャートである。まず、クエリ検索処理部808は、検索用インデックス801を参照することにより文書ヒット情報を得て、図11Bに示す文書ヒットデータの形で保持する(ステップ1700)。これは検索エンジン分野における既存技術で可能である。
【0063】
次に、検索結果フォルダ階層位置分布処理部810は、注目しているフォルダについて、図9及び10に示すフォルダ内容データ814を参照してリストLを作成し(ステップ1701)、リストLのインデックス変数としてSub_folder_indexを1で初期化する(ステップ1702)。
【0064】
検索結果フォルダ階層位置分布処理部810は、リストLの長さがSub_folder_index以上かどうかを調べる(ステップ1703)。Lの長さがSub_folder_index未満だった場合、処理は終了する。逆に、Sub_folder_index以上だった場合、検索結果フォルダ階層位置分布処理部810は、リストLのSub_folder_index番目の要素について、展開表示されているかどうかを示すフラグ1002を参照し、展開表示すると指定されているかどうかを調べる(ステップ1704)。展開表示すると指定されている場合、検索結果フォルダ階層位置分布処理部810は、まず、ファイルシステム800とステップ1700で得た文書ヒット情報を参照し、リストLのSub_folder_index番目の要素の直下にあるファイルについて、クエリ毎のヒット数・一つ以上のクエリにヒットしたファイル数・全ファイル数を得て、ヒストグラム1003に登録する(ステップ1705)。その後、検索結果フォルダ階層位置分布処理部810は、ファイルシステム800を参照し、リストLのSub_folder_index番目の要素の直下にあるサブフォルダについて、リストLに追加する(ステップ1706)。
【0065】
一方、ステップ1704において展開すると指定されていない場合、検索結果フォルダ階層位置分布処理部810は、ファイルシステム800を再帰的に参照するとともにステップ1700で得た文書ヒット情報を参照し、リストLのSub_folder_index番目の要素の中にあるファイル全てについて、クエリ毎のヒット数・一つ以上のクエリにヒットしたファイル数・全ファイル数を得て、ヒストグラム1003に登録する(ステップ1707)。検索結果フォルダ階層位置分布処理部810は、その後、Sub_folder_indexを1増やし(ステップ1708)、ステップ1703から処理をもう一度繰り返す。
【0066】
<その他>
本実施形態では、ファイル名における連番文字列の例として版番号・人員や資産のID番号を挙げた。この他に、作成日付をファイル名に含む場合や、番号に抜けがある場合も考えられる。このため、属性における傾向として、ファイル名における、0〜9または英文字の連続した出現を用いることも可能である。サブフォルダ名についても同様である。また、図9のフォルダの内容データが保持する属性のうち、フォルダ階層の深さ915・フォルダ数916について、空フォルダを除いた数を用いることも可能である。
【0067】
また、図7Bの701のようにクエリ文字列を含むファイルが存在するフォルダについてのみ表示することに関して、図16ではヒット数を文字で表示するよう指定されている場合についてのみ行うとして説明した。この他に、クエリ毎のヒット数をグラフで表示するよう指定されている場合についても、クエリ文字列を含むファイルが存在するフォルダについてのみ表示することも可能である。また、ユーザの指示を受付けて702に示す省略部分を展開し、フォルダ4〜フォルダ8を全て表示するように切り替えることも可能である。
【0068】
また、図8のファイルシステム800は文書管理システムなどの文書DBでも良く、検索エンジンがファイルシステムをクロールして得た、検索用インデックスで代用することも可能である。
【0069】
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
【0070】
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
【0071】
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
【図面の簡単な説明】
【0072】
【図1】フォルダに含まれるファイルの例を示す図である。
【図2】フォルダに含まれるファイルの概要を表示する画面の例を示す図である。
【図3】特定のサブフォルダに多数のファイルが含まれている状況の例を示す図である。
【図4】複数の部署・期間・種類についてファイルを作成している状況の例を示す図である。
【図5】siblingフォルダに含まれる複数のファイルを示す例を示す図である。
【図6】クエリ文字列を含む複数のファイルのフォルダ階層上の位置の分布の概要を表示する画面の例を示す図である。
【図7】クエリ文字列を含むファイルが存在するフォルダについてのみの概要を表示する画面の例を示す図である。
【図8】本発明の実施形態による業務文書処理装置の概略構成を示す機能ブロック図である。
【図9】フォルダの内容データのデータ構造例を示す図である。
【図10】フォルダの内容データのデータ構造例を示す図である。
【図11】拡張子の種類定義データおよび文書ヒットデータのデータ構造例を示す図である。
【図12】業務文書処理装置によるファイルの概要およびクエリ文字列を含む複数のファイルの位置の分布の概要を表示する処理全体を説明するためのフローチャートである。
【図13】フォルダの概要を計算する処理の詳細を説明するためのフローチャートである。
【図14】フォルダの直下にあるサブフォルダ毎に指定属性のヒストグラムを得る処理の詳細について説明するためのフローチャートである。
【図15】フォルダの直下にあるサブフォルダ毎に概要を得る処理の詳細について説明するためのフローチャートである。
【図16】クエリ検索結果のフォルダ階層における位置の分布情報を計算する処理の詳細について説明するためのフローチャートである。
【図17】フォルダの直下にあるサブフォルダ毎にヒット数のヒストグラムを得る処理の詳細について説明するためのフローチャートである。
【符号の説明】
【0073】
800・・・ファイルシステム
801・・・検索用インデックス
802・・・表示装置
803・・・キーボード
804・・・ポインティングデバイス
805・・・中央処理装置
806・・・プログラムメモリ
807・・・データメモリ
808・・・クエリ検索処理部
809・・・フォルダ概要計算処理部
810・・・検索結果フォルダ階層位置分布処理部
811・・・属性由来概要計算処理部
812・・・属性差由来概要計算処理部
814・・・フォルダの内容データ
815・・・拡張子の種類定義データ
816・・・文書ピットデータ
【技術分野】
【0001】
本発明は、ファイル管理装置に関し、例えば、文書構造を利用した業務ファイル(文書)の概要の表示に関するものである。
【背景技術】
【0002】
近年、組織内で用いられる文書は電子データとして作成・保存される機会が増えてきている。ストレージ価格の低減・内部統制に対する意識・コンピュータ技術の進歩に伴う電子データの利点(保存が安価に行えることや共有が容易であることなど)の拡大がこの傾向に拍車をかけている。
【0003】
また、ファイルシステムが管理する木構造のフォルダ階層の中にあるファイルを表示するための技術として、現在までに下記のものが開発・提供されている。
【0004】
1)既存技術1:WindowsのdirコマンドやUnixのlsコマンド:特定のフォルダにあるファイルを列挙する。
2)既存技術2:Windowsのtreeコマンドやエクスプローラ:フォルダの階層構造を木構造で表示する。エクスプローラでは、指定したフォルダについてはサブフォルダを表示させ、他のフォルダについては下部構造の表示を行わない指定が可能である。
3)既存技術3:ディスクの容量表示ソフト:フォルダの階層とそこにあるファイルの容量の和を表示するソフトが開発されている。例としては、Scanner・WinDu2・WinDirStat・SequoiaView・SpaceMongerなどが挙げられる(非特許文献1乃至5)。これらのソフトは、どのようなファイルがディスクの容量の多くの範囲を占めているか視覚的に判断し、不要でありながら容量の大きいファイルを見つけて削除することによりディスクの空き領域を効率よく得ることを目的としている。
4)既存技術4:文書検索:ユーザがクエリとして指定した文字列を含む文書を列挙する。グーグル株式会社が提供する製品「Google検索アプライアンス」(非特許文献6)では、文書中に含まれるクエリ文字列を強調表示する機能がある。また、Vivisimo社が提供する製品「Velocity」(非特許文献7)では、クエリを含む文書として複数のものが見つかった場合、文書の分野ごとに動的に分類して表示する機能がある。
5)既存技術5:文書管理システムとして、書棚とバインダを模したユーザインタフェースを採用した文書管理システムが提供されている(非特許文献8)。保存した文書に対し、種類に応じてバインダに分類したり、付箋を用いてコメントを書き込めたりするための機能を持っている。
【0005】
【非特許文献1】Scanner:http://www.steffengerlach.de/freeware/
【非特許文献2】WinDu2:http://www.vector.co.jp/soft/win95/util/se059546.html
【非特許文献3】WinDirStat:http://windirstat.sourceforge.net/
【非特許文献4】SequoiaView:http://w3.win.tue.nl/nl/onderzoek/onderzoek _informatica/visualization/se quoiaview
【非特許文献5】SpaceMonger:http://www.sixty-five.cc/sm/
【非特許文献6】Google検索アプライアンス:http://www.google.co.jp /enterprise/gsa/
【非特許文献7】Velocity:http://vivisimo.com/html/products
【非特許文献8】ビジュアルキャビネット(NEC):http://www.nec.co.jp /univerge/solution/pack/visual_ cabinet/index.html
【非特許文献9】楽2ライブラリ(PFU):http://www.pfu.fujitsu.com/raku2library/
【発明の開示】
【発明が解決しようとする課題】
【0006】
組織内で作成される文書は、同一業務に関する複数の文書を複数の担当者で分担して作成・管理する場合が多い。また、ファイルサーバ上に共有フォルダを設定し、その中でファイルの格納場所に一定のルールを設けて複数担当者がそれぞれファイルを格納するような運用は多数の組織で行われている。
【0007】
このような状況下で、下記の理由により、効率的にフォルダの中にあるファイルの概要について理解するための方法の需要が高まっている。
【0008】
第一に、同一業務が複数年にわたるような長期の業務においては、作成した文書も同じだけの期間にわたって管理しなくてはならない。このため、どのファイルをフォルダ階層のどこに格納したかを記憶し続けることは困難である。
【0009】
第二に、複数の担当者が分担している場合、他の担当者がどこにどのようなファイルを格納したかを把握することは困難である。格納場所にルールを設けている場合であっても、ルール上では定義されていない種類のファイルが新しく生じた場合、作成した担当者個人の判断で新しく格納場所が用意されることは頻繁に起こり得る。
【0010】
第三に、同一業務に携わる担当者がずっと固定的であるとは限らず、途中から担当者が新しく加わることも多い。このような途中から加わった担当者にとっては、それまでに蓄積された文書に突然接することになり、どのサブフォルダから閲覧したら良いのかさえ判断できない場合も生じ得る。第四に、紙で文書を保持していた場合に比べて、電子データでは大量の文書を保有することが容易である。このため、文書の数・量ともに増大しがちになり、上記第一〜第三の傾向がますます強まる。
【0011】
ところで、紙の文書については、フォルダに綴じられた書類の概要について、ページを繰りながら流し読みする・ページの間に綴じられた見出しを見る・見出しの間にあるページの厚みを見ることにより、どのような書類がどの程度の分量だけあるか概要を知ることができる。また、書庫に複数のフォルダが格納されている場合には、フォルダの冊数や背表紙を見ることにより、どのような書類がどの程度の分量だけあるのか概要を知ることができる。
【0012】
しかしながら、上記に挙げた既存技術1〜5(非特許文献1乃至9含む)のどれを用いても、どのような書類がどの程度の分量だけあるのか概要を知ることができない。つまり、既存技術1に挙げたようなコマンドでは、各フォルダごとにコマンドを実行しなくてはならず、フォルダの数が増えたり階層が深くなったりした場合には効率的でない。また、既存技術2に挙げた文書検索では、クエリ文字列を含むとして検索された文書はフォルダ階層中の位置とは無関係に一覧表示される。したがって、検索された個々の文書についての情報が得られるのみであり、フォルダ全体についての情報は得られない。また、既存技術3に挙げたソフトでは、フォルダに含まれるファイルの容量の和にのみ注目しており、容量が多くないファイルについてはほとんど情報が得られないなど、フォルダの中にあるファイルの概要を知るには不十分である。また、主に家庭における個人の利用を想定した技術であり、フォルダの階層が深くなったり数が増えたりすると表示の一覧性が低下する。既存技術5は紙での文書管理の方法を模すことに重きを置いているが、このために逆に、ファイルサーバ上の共有フォルダに保存されたファイルを対象にしづらくなっている。ファイルサーバ上に共有フォルダを設ける場合、フォルダの階層は、通常、内容に応じた深さを持つことになる。これに対し、書棚とバインダで管理を行う場合、バインダの中にインデックスを挟んだとしても、最大三階層までしか作ることができない。また、楽2ライブラリでは1000以上のバインダ・100万ページ以上のファイルを扱えることが述べられている。ファイルサーバ上のファイルでは大量の分量のファイル・フォルダを扱う必要が生じることも考えられるが、バインダ数が増えてしまうと、バインダの背表紙を確認することも困難になることが容易に想像できる。
【0013】
本発明はこのような状況に鑑みてなされたものであり、共有ファイルサーバのような文書の数・サイズが多く長期にわたって複数の担当者が管理を行う状況下において、個々のサブフォルダやファイルの内容を開くことなく、効率的にフォルダの中にあるファイルの概要について理解することのできる業務文書管理を提供する。また、本発明は、クエリ検索において、クエリ文字列を含む複数のファイルのフォルダ階層上の位置の分布の概要について理解することのできる業務文書管理を提供する。
【課題を解決するための手段】
【0014】
上記課題を解決するために、本発明では、動的に(フォルダにカーソルを合わせる等アクセスする度に)フォルダ内に含まれる複数のファイルの概要を生成し、それを表示する。これにより、個々のサブフォルダやファイルの内容を確認することなく、効率的にフォルダの中にあるファイルの概要について理解することができる。
【0015】
フォルダ内に含まれる複数のファイルの概要は、属性(ファイルの容量・ファイルの拡張子・ファイルの種類・ファイルの作成日・ファイルの最終更新日・ファイルの最終閲覧日・ファイルの提出日・ファイルの作成者・ファイルの作成者の所属・ファイルの差出元・ファイルの宛先・フォルダ階層の深さ・サブフォルダ数)における特徴または傾向(ファイル名における頻出文字列・サブフォルダ名における頻出文字列・タイトルにおける頻出文字列・ファイル名における連番文字列・サブフォルダ名における連番文字列・タイトルにおける連番文字列・一部のサブフォルダへのファイルの集積・サブフォルダ同士の類似・複数次元の格子点上のファイルの分布)の一つまたは複数に基づいて記述する。
【0016】
例えば、図1のような場合には、「マニュアル」フォルダに含まれるファイルについて、「500Kb〜2Mbのdocファイルが5個と、100Kb〜300Kbのjpgファイルが30個あります」といった概要を表示する。これにより、「マニュアル」フォルダに含まれるのが概ねどのようなファイルなのか、ユーザは実際にフォルダの中身を確認することなく(フォルダを開くことなく)理解することができる。この概要の例は、ファイルの容量と拡張子における特徴に基づくが、その他の属性でも同様である。
【0017】
そして、動的に(フォルダにアクセス(フォルダを選択)する度に)得た概要を、図2A乃至Cの200〜203のように表示することで、ユーザに対して適切にフォルダ内容の確認材料を提供することができる。図2Bの201に示すように、さまざまな属性に基づいて概要を表示したり、図2Cの202に示すように、ユーザが指定した属性(ここでは「拡張子」という属性)に基づく概要を一律に表示したりすることが有効である。200および203については、ハッチングで示した「マニュアル」フォルダが現在選択中であり、このフォルダの概要が表示されている。また、201については、ハッチングで示した「マイドキュメント」フォルダが現在選択中であり、このフォルダに含まれる各サブフォルダの概要が表示されている。また、202および203については、「マニュアル」フォルダは展開表示されていることから、「マニュアル」フォルダの直下にあるファイルについての概要が表示されている(「挿絵」サブフォルダ内にあるファイルを含まない概要の情報である)。
【0018】
また、ファイルの種類については、例えば異なる拡張子を持つ画像ファイル(jpgファイルやtiffなど)をあらかじめ同一の種類であると定義しておき、これらの拡張子を一つにまとめることにより、ユーザの求める詳細度に合った形で概要を表示することができる。
【0019】
さらに、本発明は、連番文字列を含むファイルについては効率よく概要表示を行う。ここで、ファイル名における連番文字列とは、複数のファイルにおいて、連番の文字列が含まれる状況を指す。例えば、修正を繰り返しながら報告書を作成し、「報告書_ver1.doc」というように版番号をファイル名に埋め込んだファイルを保存したとする。このような場合、「報告書_ver」という文字列と番号をファイル名に含む「.doc」ファイルがあることを表示すれば、必要十分な概要の情報を表示させることができる。この例のように版番号が連番になって現れる状況のほか、人員や資産などID番号を振ってあるものについても連番になって現れる状況が考えられる。サブフォルダ名における連番文字列についても同様である。
【0020】
また、本発明は、あるサブフォルダにファイルが集積されている場合にも効率よく概要を表示する。ここで、サブフォルダへのファイルの集積とは、例えば、図3に示すフォルダにおいて、サブフォルダ「07年10月回収」にファイルの9割が含まれているような状況を指す。このような場合には、このサブフォルダに注目して、「サブフォルダ『07年10月回収』にほとんどのファイルがあり、100Kb〜500Kbのdocファイルです」という具合に、属性における特徴または傾向に基づいて概要を記述することにより、より重要なファイルに注目した概要を表示することができる。例えば、「サブフォルダ『A(サブフォルダ名)』にほとんどのファイルがあり、『B(容量)』の『C(ファイルの種類)』ファイルです」というテンプレート文字列をメモリに保持しておき、構成要素A乃至Cに相当する情報を後述のフォルダ内容データ(図9及び10)から抽出することにより、概要を生成する。
【0021】
また、本発明では、サブフォルダの類似も考慮している。ここで、サブフォルダ同士の類似とは、複数のサブフォルダにおいて含まれるファイルが類似している状況を指す。例えば、同一の製品の異なるバージョンについてのマニュアルが各々別のサブフォルダに格納されている場合、両サブフォルダに含まれるファイルは類似していることが考えられる。したがって、片方のサブフォルダの概要を表示し、もう片方は類似したサブフォルダであることのみ表示すれば十分である。これにより、より少ない表現でフォルダの概要を示すことができ、効率的な理解を助けることができる。
【0022】
また、本発明では、複数次元の格子点上にファイルが分布している場合も考慮している。ここで、複数次元の格子点上のファイルの分布とは、例えば、図4に示すような状況をいう。この例では、複数の部署・期間・種類についてファイルを作成した場合を示している。フォルダの階層構造においては、部署・期間・種類の何れかを選んでフォルダ分類単位として木構造を作らなくてはならない。したがって、下位のサブフォルダは類似した形で配置されることになる(この例では、両方の部署について同じ取り合わせで各期間のサブフォルダが配置されている)。このような状況において、木構造に沿って内容の概要を表示するよりも、複数の次元(部署・期間・種類)の空間を考え、格子上にファイルが存在していることを表示する方が効率が良い。これにより、「部署ごと・月ごとにxlsファイルとdocファイルが1個ずつあります」という具合に、よりユーザに理解しやすい形でフォルダの中に含まれるファイルの概要を表示できる。
【0023】
本発明は、フォルダ内に含まれる複数のファイルの概要について、siblingフォルダに含まれる複数のファイルとの比較において差が認められた特徴について記述する。例えば、図5に示すようなフォルダ階層において、「A製品ver.2プレゼン資料」フォルダの内容の概要を表示したい場合を考える。この例では、「A製品ver.1プレゼン資料」フォルダと「A製品ver.2プレゼン資料」フォルダがsibling関係にあることになる。この場合、「A製品ver.1プレゼン資料」フォルダと「A製品ver.2プレゼン資料」フォルダの両方ともpptファイルを多く含んでいる。従って「pptファイルを多く含む」という情報を「A製品ver.2プレゼン資料」フォルダの概要に記述しても、意味はあまりない。それよりも、(例えばver.2の方が後で開発されたため)「A製品ver.2プレゼン資料」フォルダに含まれるファイルの作成日付や最終更新日などについて「A製品ver.1プレゼン資料」フォルダに含まれるファイルとの比較において差が認められることに基づいて概要を記述する方が、よりユーザに理解しやすい情報を与えることができる。なお、複数のサブフォルダについて、親フォルダが同一であれば、それらはsiblingフォルダということになる。ただし、siblingフォルダだからといって必ずしも類似フォルダになるとは限らない。
【0024】
本発明は、階層フォルダ内に保存されている文書に対してクエリ検索を行った結果を表示する際、クエリにヒットした文書の階層フォルダ内における位置の分布を表示する(図6参照)。既存の検索エンジンにおいては、クエリ文字列を含む文書は、独自に算出されたスコアに従って一列に並べられる。そこでは、各々のファイルがフォルダ階層のどこに存在しているかという情報は捨てられている。文書の内容を用いて動的にクラスタリングを行う、Velocity(非特許文献7)のような既存技術においても、フォルダ階層における位置の情報は利用していない。本発明は、図6A及びBの600または601および602に示すような、クエリ検索結果表示を提供する。これにより、個人または複数の担当者間で設けていたファイルの格納位置のルールに基づいた、「どこのサブフォルダにあるファイルがどのくらいクエリ文字列を含んでいるのか」という情報をユーザに与えることができる。この情報から、クエリ文字列を含む複数のファイルのフォルダ階層上の位置の分布の概要をユーザに与えることができる。
【0025】
また、本発明は、フォルダ階層を一部省略しながら展開表示する。例えば、図7Aの700に示すようなフォルダ階層およびクエリ文字列を含むファイルの位置の分布を考える。700に示すように一つもクエリを含むファイルがないフォルダを含めてフォルダ階層全てについて表示することにあまり意味はなく、図7Bの701に示すように、クエリ文字列を含むファイルが存在するフォルダについてのみの概要を表示し、フォルダ4乃至フォルダ8については702に示すように省略する。この方が、よりユーザに理解しやすい情報を与えることができる。
【0026】
即ち、本発明によるファイル管理装置は、階層フォルダ内に保存されているファイルを管理するファイル管理装置であって、階層フォルダのそれぞれのフォルダの内容データを格納するフォルダ内容データ保存部と、フォルダ内容データ保存部を参照し、ユーザによって選択されたフォルダに含まれる複数のファイルの概要を示す文字列を生成するフォルダ概要計算処理部と、生成された文字列を表示装置に表示する表示処理部と、
を備えることを特徴とする。
【0027】
ここで、フォルダ概要計算処理部は、ファイルの属性が指定されている場合には、文字列の代わりに、複数ファイルに関して、指定された属性のヒストグラムを取得し、表示処理部は、取得したヒストグラムを前記表示装置に表示する。
【0028】
また、フォルダ概要計算処理部は、選択されたフォルダ内に複数次元(階層)の格子点上のファイル分布がある場合に、各次元の名称を併記して各次元ごとにファイルがあることを示す概要文字列を生成する。
【0029】
さらに、フォルダ概要計算処理部は、選択されたフォルダ内に複数のサブフォルダが類似のファイルを有する場合、各サブフォルダ名を併記して類似したファイルを含むことを示す概要文字列を生成する。
【0030】
また、フォルダ概要計算処理部は、選択されたフォルダ内に類似ファイルを有するサブフォルダがなく、サブフォルダへのファイルの集積がある場合、ファイル集積のあるサブフォルダ名とファイル集積があることを示す概要文字列を生成する。
【0031】
本発明によるファイル管理装置は、階層フォルダ内に保存されているファイルを管理するファイル管理装置であって、複数のファイルを格納するファイル格納部と、検索用インデックスを格納する検索用インデックス格納部と、検索用インデックス格納部に格納された検索用インデックスを参照して、クエリ検索を実行し、検索結果を得るクエリ検索処理部と、複数のファイルを格納する各フォルダについて、検索結果に対応するファイル数の情報を取得する位置分布処理部と、各フォルダごとに、ファイル数を表示装置に表示する表示処理部と、を備えることを特徴とする。ここで、表示処理部は、ファイル数を文字で表示するか、位置分布処理部が検索結果に対応するファイル数の情報に基づいて、ヒストグラムを生成し、表示処理部が、各ファイルごとに、ヒストグラムを表示する。なお、表示処理部は、検索結果に対応するファイルを含まないフォルダについては、表示を省略するようにしてもよい。
【0032】
本発明によるファイル管理装置は、階層フォルダ内に保存されているファイルを管理するファイル理装置であって、複数のファイルを格納するファイル格納部と、検索用インデックスを格納する検索用インデックス格納部と、階層フォルダのそれぞれのフォルダの内容データを格納するフォルダ内容データ保存部と、表示態様として概要表示が指定されている場合に、フォルダ内容データ保存部を参照し、ユーザによって選択されたフォルダに含まれる複数のファイルの概要を示す文字列を生成するフォルダ概要計算処理部と、表示態様がクエリ検索結果の位置分布表示が指定されている場合に、検索用インデックス格納部に格納された検索用インデックスを参照して、クエリ検索を実行し、検索結果を得るクエリ検索処理部と、複数のファイルを格納する各フォルダについて、検索結果に対応するファイル数の情報を取得する位置分布処理部と、表示態様の指定に応じて、生成された文字列を表示装置に表示するか、或いは、各フォルダごとにファイル数を表示装置に表示する表示処理部と、を備えることを特徴とする。
【0033】
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。
【発明の効果】
【0034】
本発明によれば、ユーザは、個々のサブフォルダやファイルの内容を確認することなく、効率的にフォルダの中にあるファイルの概要について理解することができる。また、クエリ検索において、クエリ文字列を含む複数のファイルのフォルダ階層上の位置の分布の概要について理解することができる。
【発明を実施するための最良の形態】
【0035】
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。
【0036】
<業務文書処理装置の構成>
図8は、本発明の一実施形態として構築される、業務文書処理装置の内部構造を概略的に示す機能ブロック図である。この業務文書処理装置は、フォルダの階層構造およびファイルを保持するファイルシステム(DB)800と、検索エンジンがファイルを全文検索するために使用する検索用インデックス801と、データを表示するための表示装置802と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード803及びマウスなどのポインティングデバイス804と、必要な演算処理、制御処理等を行う中央処理装置805と、中央処理装置805での処理に必要なプログラムを格納するプログラムメモリ806と、中央処理装置805での処理に必要なデータを格納するデータメモリ807と、を備えている。
【0037】
中央処理装置805は、ファイルシステムに格納されているファイルに対して全文検索を行うクエリ検索処理部808と、フォルダの概要を計算するフォルダ概要計算処理部809と、クエリにヒットした文書の階層フォルダ内分布を計算する検索結果フォルダ階層位置分布処理部810と、を含んでいる。フォルダ概要計算処理部809は、属性に基づいてフォルダ内の概要を計算する属性由来概要計算処理部811を有している。また、属性由来概要計算処理部811は、属性のうちsiblingフォルダと差が認められたものについてフォルダの概要を計算する属性差由来概要計算処理部812を有している。また、検索結果フォルダ階層位置分布処理部810は、フォルダ階層を一部省略しながら展開表示を行う検索結果省略表示処理部813を有している。
【0038】
データメモリ807は、フォルダの内容(サブフォルダまたはファイル)についての情報を保持するフォルダの内容データ814と、拡張子とその種類についての情報を保持する拡張子の種類定義データ815と、検索クエリがどのファイルに含まれるかの情報を保持する文書ヒットデータ816と、を含んでいる。
【0039】
<データメモリ807内のデータの内容>
図9、図10および図11は、データメモリ807に含まれる、フォルダの内容データ814、拡張子の種類定義データ815および文書ヒットデータ816のデータ構造を示す図である。
【0040】
図9及び10はいずれも、フォルダの内容データのデータ構造を示しており、それぞれ、ファイルの場合・サブフォルダの場合のデータ例である。図9に示すフォルダの内容データは、構成として、パス名900と、サブフォルダかどうかを示すフラグ901と、サブフォルダの場合には展開されているかどうかを示すフラグ902と、サブフォルダの場合にはそのサブフォルダ以下のファイルが持つ属性のヒストグラム903と、ファイルの場合にはその容量904と、ファイルの場合にはその拡張子905と、ファイルの場合には拡張子の種類定義データ815で定義される種類906と、ファイルの場合にはその作成日907と、ファイルの場合にはその最終更新日908と、ファイルの場合にはその最終閲覧日909と、ファイルの場合にはその提出日910と、ファイルの場合にはその作成者911と、ファイルの場合にはその作成者の所属912と、ファイルの場合にはその差出元913と、ファイルの場合にはその宛先914と、サブフォルダの場合にはそのサブフォルダ以下のフォルダ階層の深さ915と、サブフォルダの場合にはそのサブフォルダ以下のフォルダの数916と、を含んでいる。これらの各データは、各ファイルのプロパティ情報から取得されてリスト化される。図9はファイルの場合であるので901はFALSEであり、902、903、915および916はNULLである。反対に、図10はサブフォルダの場合であるので、1001はTRUEであり、1004〜1014はNULLである。
【0041】
図11Aは、拡張子の種類定義データ815のデータ構造を示している。拡張子の種類定義データは、拡張子1100および種類1101を含む要素の配列である。例えば、jpgファイルとtiffファイルは両方とも画像ファイルであると定義する場合、拡張子1100が”jpg”で種類1101が”画像”である要素と、拡張子1100が”tiff”で種類1101が”画像”である要素の二つを配列の要素に持つ。
【0042】
図11Bは、文書ヒットデータ816のデータ構造を示している。文書ヒットデータは、パス名1102、ヒットしたクエリ1103、サマリ1104を含む要素の配列である。1つの文書が複数のクエリ文字列を含む場合、ヒットしたクエリ1103は複数のクエリ文字列を保持する。例えば、図11に示す例では、パス名”C:\leader01\temp\file001.txt”にある文書は「文書」と「表示」という2つのクエリ文字列を含んでいるため、ヒットしたクエリ1103は2つのクエリ文字列を保持している。
【0043】
<業務文書処理装置の動作>
以下、本発明の実施形態による業務文書処理装置において行われる処理について説明する。
【0044】
1)動作概要
図12は、業務文書処理装置による処理の流れを概略的に示すフローチャートである。図12において、まず、中央処理装置805は、ユーザの指示を受付け、その指示に対応する処理がフォルダの概要の表示か、それとも、クエリ検索結果のフォルダ階層上の位置の分布の概要の表示かを判断する(ステップ1200)。対象処理がフォルダの概要の表示である場合、フォルダ概要計算処理部809はフォルダの概要計算処理を行う(ステップ1201)。ステップ1200において対象処理がクエリ検索結果のフォルダ階層上の位置の分布の概要の表示である場合、クエリ検索処理部808が検索を実行してクエリ検索結果を取得し、検索結果フォルダ階層位置分布処理部810がクエリ検索結果のフォルダ階層における位置の分布情報を計算する処理を行う(ステップ1202)。
【0045】
その後、中央処理装置805は、ユーザの指示を受付け、フォルダの展開・アイコン化表示の指定か処理終了かを判断する(ステップ1203)。ここで、フォルダの展開とはサブフォルダが一行として表示されている場合に展開することをいい、アイコン化の指定とは展開されているものを一行にまとめなおすことをいう。対象処理がフォルダの展開・アイコン化表示の指定である場合、ユーザの入力に従って、フォルダの内容データ814が展開表示されているか否かを示すフラグ902を更新する(ステップ1204)。そして、ステップ1200から処理をもう一度繰り返す。ステップ1203において対象処理が処理終了の場合、そのまま終了する。
【0046】
2)ステップ1201の詳細
図13は、図12のステップ1201における、フォルダの概要を計算する処理の詳細について説明するためのフローチャートである。
【0047】
まず、フォルダ概要計算処理部809は、ユーザの指示を受付け、フォルダの概要が基づくべき属性が指定されているかどうかを判断する(ステップ1300)。指定されていると判断した場合、次に、フォルダ概要計算処理部809は、フォルダの概要が基づくべきとしてどの属性が指定されているかをチェックする(ステップ1301)。また、フォルダ概要計算処理部809は、フォルダの直下にあるサブフォルダ毎に、ステップ1301で指定されていると判断した属性について、ヒストグラムを得る(ステップ1302)。そして、フォルダ概要計算処理部809は、フォルダの直下にあるサブフォルダ毎に、ステップ1302で求めたヒストグラムを図2Cの202のように表示する(ステップ1303)。
【0048】
ステップ1300において、属性がユーザによって指定されていないと判断した場合、フォルダ概要計算処理部809は、フォルダの直下にあるサブフォルダ毎に概要を得る(ステップ1304)。そして、フォルダ概要計算処理部809は、フォルダの直下にあるサブフォルダ毎に、そのサブフォルダに含まれるフォルダやファイルの情報として図2の201のように表示する(ステップ1305)。マウスポインタが近くに存在するサブフォルダについては、図2A及びCの200や203のようにポップアップ表示を行う(ステップ1306)。
【0049】
3)ステップ1302の詳細
図14は、図13のステップ1302における、フォルダの直下にあるサブフォルダ毎に指定属性のヒストグラムを得る処理の詳細について説明するためのフローチャートである。
【0050】
まず、フォルダ概要計算処理部809は、図9及び10に示すフォルダ内容データ814を参照して、注目しているフォルダに関して、リストLを作成する(ステップ1400)。次に、フォルダ概要計算処理部809は、リストのインデックス変数としてSub_folder_indexを1で初期化する(ステップ1401)。そして、フォルダ概要計算処理部809は、リストLの長さがSub_folder_index以上かどうかを調べる(ステップ1402)。Lの長さがSub_folder_index未満だった場合、処理は終了する。
【0051】
一方、Lの長さがSub_folder_index以上だった場合、フォルダ概要計算処理部809は、処理を続ける。まず、フォルダ概要計算処理部809は、リストLのSub_folder_index番目の要素について、展開表示されているかどうかを示すフラグ1002を参照し、展開表示すると指定されているかどうかを調べる(ステップ1403)。展開表示すると指定されている場合、フォルダ概要計算処理部809は、ファイルシステム800を参照して、リストLのSub_folder_index番目の要素の直下にあるファイルについて指定属性を調べてヒストグラムとし、ヒストグラム1003に格納する(ステップ1404)。その後、フォルダ概要計算処理部809は、ファイルシステム800を参照し、リストLのSub_folder_index番目の要素の直下にあるサブフォルダについて、リストLに追加する(ステップ1405)。
【0052】
ステップ1403において、展開表示すると指定されていない場合、フォルダ概要計算処理部809は、ファイルシステム800を再帰的に参照して、リストLのSub_folder_index番目の要素の中にあるファイル全てについて指定属性を調べてヒストグラムとし、ヒストグラム1003に格納する(ステップ1406)。その後、Sub_folder_indexを1増やし(ステップ1407)、ステップ1402から処理をもう一度繰り返す。
【0053】
4)ステップ1304の詳細
図15は、図13のステップ1304における、フォルダの直下にあるサブフォルダ毎に概要文字列(各サブフォルダの内容を表現する文字列)を得る処理の詳細について説明するためのフローチャートである。
【0054】
まず、フォルダ概要計算処理部809は、概要を格納する文字列Sを空文字列で初期化する(ステップ1500)。次に、フォルダ概要計算処理部809は、ファイルシステム800を再帰的に参照し、注目しているフォルダの中にあるファイル全てを図9に示すフォルダの内容データで格納したリストLを作成する(ステップ1501)。次に、フォルダ概要計算処理部809は、リストLの中に要素(処理対象のファイル)が含まれているかどうかを調べる(ステップ1502)。
【0055】
リストLに要素が含まれていない場合、処理は終了する。逆に含まれている場合、フォルダ概要計算処理部809は、まず、図4で説明したような、複数次元の格子点上のファイルの分布があるかを調べる(ステップ1503)。そのようなファイルの分布がある場合、概要Sに、各次元の名称を併記して各次元ごとにファイルがあることを述べる表現を加え、それらのファイルをリストLから除く(ステップ1504)。例えば、図4のような構造の場合、A設計部及びB設計部を代表する概要文字列を作成し、リストLからA設計部とB設計部のフォルダを除く。概要文字列については、例えば、文字列テンプレートをメモリに保持しておき、そのテンプレートに存在する空欄に適合する文字を挿入することにより生成する。図4の場合、「〔 〕に関する〔 〕のファイル」というテンプレートがあった場合に、〔 〕にはそれぞれ“売上”と“xls、doc”が挿入されて文字列が生成される。
【0056】
その後、フォルダ概要計算処理部809は、ステップ1502から処理をもう一度繰り返す。ステップ1503において、複数次元の格子点上のファイルの分布がない場合、フォルダ概要計算処理部809は、含まれるファイルが類似している複数のサブフォルダがあるか調べる(ステップ1505)。そのような複数のサブフォルダがある場合、フォルダ概要計算処理部809は、概要Sに、各サブフォルダ名を併記して類似したファイルを含むことを述べる表現を加え、それらのサブフォルダに含まれるファイルをリストLから除く(ステップ1506)。
【0057】
フォルダ概要計算処理部809は、さらに、ステップ1502から処理をもう一度繰り返す。ステップ1505において、含まれるファイルが類似している複数のサブフォルダがない場合、フォルダ概要計算処理部809は、サブフォルダへのファイルの集積があるか調べる(ステップ1507)。集積がある場合、フォルダ概要計算処理部809は、概要Sに、サブフォルダ名とそのサブフォルダに大多数のファイルが含まれることを述べる記述を加え、そのサブフォルダに含まれるファイル以外のファイルをリストLから除く(ステップ1508)。
【0058】
フォルダ概要計算処理部809は、さらに、ステップ1502から処理をもう一度繰り返す。ステップ1507においてサブフォルダへの集積がない場合、属性差由来概要計算処理部812は、概要Sに、ファイルの各属性(ファイルの容量・ファイルの拡張子・ファイルの種類・ファイルの作成日・ファイルの最終更新日・ファイルの最終閲覧日・ファイルの提出日・ファイルの作成者・ファイルの作成者の所属・ファイルの差出元・ファイルの宛先・フォルダ階層の深さ・フォルダ数)における特徴または傾向(ファイル名における頻出文字列・サブフォルダ名における頻出文字列・タイトルにおける頻出文字列・ファイル名における連番文字列・サブフォルダ名における連番文字列・タイトルにおける連番文字列)のうち、siblingフォルダに含まれる複数のファイルとの差が認められた特徴について記述を加え(ステップ1509)、処理を終了する。ステップ1509における差の判断については、統計的検定の既存技術を用いて行うことができる。
【0059】
5)ステップ1202の詳細
図16は、図12のステップ1202における、クエリ検索結果のフォルダ階層における位置の分布情報を計算する処理の詳細について説明するためのフローチャートである。まず、検索結果フォルダ階層位置分布処理部810は、フォルダの直下にあるサブフォルダ毎に、クエリ検索処理部808によるクエリ検索に合ったファイルについて、ヒット数のヒストグラムを得る(ステップ1600)。その後、フォルダ概要計算処理部809は、ユーザの指示を受付け、ヒット数を文字で表示するよう指定されているかどうかを判断する(ステップ1601)。
【0060】
文字で表示するよう指定されている場合、フォルダ概要計算処理部809は、1つ以上のクエリにヒットした数と全ファイル数についてヒストグラムを参照し、図7の701のようにクエリ文字列を含むファイルが存在するフォルダについてのみ、図6Aの600のように階層構造表示部分に表示する(ステップ1602)。
【0061】
一方、文字ではなくグラフで表示するよう指定されている場合は、フォルダ概要計算処理部809は、各クエリごとのヒットした数と全ファイル数についてヒストグラムを参照し、図6Bの601のように階層構造表示部分に表示する(ステップ1603)。
【0062】
6)ステップ1600の詳細
図17は、図16のステップ1600における、フォルダの直下にあるサブフォルダ毎にヒット数のヒストグラムを得る処理の詳細について説明するためのフローチャートである。まず、クエリ検索処理部808は、検索用インデックス801を参照することにより文書ヒット情報を得て、図11Bに示す文書ヒットデータの形で保持する(ステップ1700)。これは検索エンジン分野における既存技術で可能である。
【0063】
次に、検索結果フォルダ階層位置分布処理部810は、注目しているフォルダについて、図9及び10に示すフォルダ内容データ814を参照してリストLを作成し(ステップ1701)、リストLのインデックス変数としてSub_folder_indexを1で初期化する(ステップ1702)。
【0064】
検索結果フォルダ階層位置分布処理部810は、リストLの長さがSub_folder_index以上かどうかを調べる(ステップ1703)。Lの長さがSub_folder_index未満だった場合、処理は終了する。逆に、Sub_folder_index以上だった場合、検索結果フォルダ階層位置分布処理部810は、リストLのSub_folder_index番目の要素について、展開表示されているかどうかを示すフラグ1002を参照し、展開表示すると指定されているかどうかを調べる(ステップ1704)。展開表示すると指定されている場合、検索結果フォルダ階層位置分布処理部810は、まず、ファイルシステム800とステップ1700で得た文書ヒット情報を参照し、リストLのSub_folder_index番目の要素の直下にあるファイルについて、クエリ毎のヒット数・一つ以上のクエリにヒットしたファイル数・全ファイル数を得て、ヒストグラム1003に登録する(ステップ1705)。その後、検索結果フォルダ階層位置分布処理部810は、ファイルシステム800を参照し、リストLのSub_folder_index番目の要素の直下にあるサブフォルダについて、リストLに追加する(ステップ1706)。
【0065】
一方、ステップ1704において展開すると指定されていない場合、検索結果フォルダ階層位置分布処理部810は、ファイルシステム800を再帰的に参照するとともにステップ1700で得た文書ヒット情報を参照し、リストLのSub_folder_index番目の要素の中にあるファイル全てについて、クエリ毎のヒット数・一つ以上のクエリにヒットしたファイル数・全ファイル数を得て、ヒストグラム1003に登録する(ステップ1707)。検索結果フォルダ階層位置分布処理部810は、その後、Sub_folder_indexを1増やし(ステップ1708)、ステップ1703から処理をもう一度繰り返す。
【0066】
<その他>
本実施形態では、ファイル名における連番文字列の例として版番号・人員や資産のID番号を挙げた。この他に、作成日付をファイル名に含む場合や、番号に抜けがある場合も考えられる。このため、属性における傾向として、ファイル名における、0〜9または英文字の連続した出現を用いることも可能である。サブフォルダ名についても同様である。また、図9のフォルダの内容データが保持する属性のうち、フォルダ階層の深さ915・フォルダ数916について、空フォルダを除いた数を用いることも可能である。
【0067】
また、図7Bの701のようにクエリ文字列を含むファイルが存在するフォルダについてのみ表示することに関して、図16ではヒット数を文字で表示するよう指定されている場合についてのみ行うとして説明した。この他に、クエリ毎のヒット数をグラフで表示するよう指定されている場合についても、クエリ文字列を含むファイルが存在するフォルダについてのみ表示することも可能である。また、ユーザの指示を受付けて702に示す省略部分を展開し、フォルダ4〜フォルダ8を全て表示するように切り替えることも可能である。
【0068】
また、図8のファイルシステム800は文書管理システムなどの文書DBでも良く、検索エンジンがファイルシステムをクロールして得た、検索用インデックスで代用することも可能である。
【0069】
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
【0070】
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
【0071】
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
【図面の簡単な説明】
【0072】
【図1】フォルダに含まれるファイルの例を示す図である。
【図2】フォルダに含まれるファイルの概要を表示する画面の例を示す図である。
【図3】特定のサブフォルダに多数のファイルが含まれている状況の例を示す図である。
【図4】複数の部署・期間・種類についてファイルを作成している状況の例を示す図である。
【図5】siblingフォルダに含まれる複数のファイルを示す例を示す図である。
【図6】クエリ文字列を含む複数のファイルのフォルダ階層上の位置の分布の概要を表示する画面の例を示す図である。
【図7】クエリ文字列を含むファイルが存在するフォルダについてのみの概要を表示する画面の例を示す図である。
【図8】本発明の実施形態による業務文書処理装置の概略構成を示す機能ブロック図である。
【図9】フォルダの内容データのデータ構造例を示す図である。
【図10】フォルダの内容データのデータ構造例を示す図である。
【図11】拡張子の種類定義データおよび文書ヒットデータのデータ構造例を示す図である。
【図12】業務文書処理装置によるファイルの概要およびクエリ文字列を含む複数のファイルの位置の分布の概要を表示する処理全体を説明するためのフローチャートである。
【図13】フォルダの概要を計算する処理の詳細を説明するためのフローチャートである。
【図14】フォルダの直下にあるサブフォルダ毎に指定属性のヒストグラムを得る処理の詳細について説明するためのフローチャートである。
【図15】フォルダの直下にあるサブフォルダ毎に概要を得る処理の詳細について説明するためのフローチャートである。
【図16】クエリ検索結果のフォルダ階層における位置の分布情報を計算する処理の詳細について説明するためのフローチャートである。
【図17】フォルダの直下にあるサブフォルダ毎にヒット数のヒストグラムを得る処理の詳細について説明するためのフローチャートである。
【符号の説明】
【0073】
800・・・ファイルシステム
801・・・検索用インデックス
802・・・表示装置
803・・・キーボード
804・・・ポインティングデバイス
805・・・中央処理装置
806・・・プログラムメモリ
807・・・データメモリ
808・・・クエリ検索処理部
809・・・フォルダ概要計算処理部
810・・・検索結果フォルダ階層位置分布処理部
811・・・属性由来概要計算処理部
812・・・属性差由来概要計算処理部
814・・・フォルダの内容データ
815・・・拡張子の種類定義データ
816・・・文書ピットデータ
【特許請求の範囲】
【請求項1】
階層フォルダ内に保存されているファイルを管理するファイル管理装置であって、
前記階層フォルダのそれぞれのフォルダの内容データを格納するフォルダ内容データ保存部と、
前記フォルダ内容データ保存部を参照し、ユーザによって選択されたフォルダに含まれる複数のファイルの概要を示す文字列を生成するフォルダ概要計算処理部と、
前記生成された文字列を表示装置に表示する表示処理部と、
を備えることを特徴とするファイル管理装置。
【請求項2】
前記フォルダ概要計算処理部は、ファイルの属性が指定されている場合には、前記文字列の代わりに、前記複数ファイルに関して、前記指定された属性のヒストグラムを取得し、
前記表示処理部は、前記取得したヒストグラムを前記表示装置に表示することを特徴とする請求項1に記載のファイル管理装置。
【請求項3】
前記フォルダ概要計算処理部は、前記選択されたフォルダ内に含まれる前記複数のファイルの概要を、ファイルの容量・ファイルの拡張子・ファイルの種類・ファイルの作成日・ファイルの最終更新日・ファイルの最終閲覧日・ファイルの提出日・ファイルの作成者・ファイルの作成者の所属・ファイルの差出元・ファイルの宛先・フォルダ階層の深さ・サブフォルダ数の少なくとも1つを含む属性における特徴又は傾向に基づいて生成することを特徴とする請求項1に記載のファイル管理装置。
【請求項4】
前記特徴又は傾向は、ファイル名における頻出文字列・サブフォルダ名における頻出文字列・タイトルにおける頻出文字列・ファイル名における連番文字列・サブフォルダ名における連番文字列・タイトルにおける連番文字列・一部のサブフォルダへのファイルの集積・サブフォルダ同士の類似・複数次元の格子点上のファイルの分布の少なくとも1つを含むことを特徴とする請求項3に記載のファイル管理装置。
【請求項5】
前記フォルダ概要計算処理部は、前記選択されたフォルダ内に複数次元(階層)の格子点上のファイル分布がある場合に、各次元の名称を併記して各次元ごとにファイルがあることを示す概要文字列を生成することを特徴とする請求項1に記載のファイル管理装置。
【請求項6】
前記フォルダ概要計算処理部は、前記選択されたフォルダ内に複数のサブフォルダが類似のファイルを有する場合、各サブフォルダ名を併記して類似したファイルを含むことを示す概要文字列を生成することを特徴とする請求項1に記載のファイル管理装置。
【請求項7】
前記フォルダ概要計算処理部は、前記選択されたフォルダ内に類似ファイルを有するサブフォルダがなく、サブフォルダへのファイルの集積がある場合、ファイル集積のあるサブフォルダ名とファイル集積があることを示す概要文字列を生成することを特徴とする請求項1に記載のファイル管理装置。
【請求項8】
階層フォルダ内に保存されているファイルを管理するファイル管理装置であって、
複数のファイルを格納するファイル格納部と、
検索用インデックスを格納する検索用インデックス格納部と、
前記検索用インデックス格納部に格納された前記検索用インデックスを参照して、クエリ検索を実行し、検索結果を得るクエリ検索処理部と、
前記複数のファイルを格納する各フォルダについて、前記検索結果に対応するファイル数の情報を取得する位置分布処理部と、
前記各フォルダごとに、前記ファイル数を表示装置に表示する表示処理部と、
を備えることを特徴とするファイル管理装置。
【請求項9】
前記表示処理部は、前記ファイル数を文字で表示する請求項8に記載のファイル管理装置。
【請求項10】
前記位置分布処理部は、前記検索結果に対応するファイル数の情報に基づいて、ヒストグラムを生成し、
前記表示処理部は、前記各フォルダごとに、前記ヒストグラムを表示することを特徴とする請求項8に記載のファイル管理装置。
【請求項11】
前記表示処理部は、前記検索結果に対応するファイルを含まないフォルダについては、表示を省略することを特徴とする請求項8に記載のファイル管理装置。
【請求項12】
階層フォルダ内に保存されているファイルを管理する文ファイル理装置であって、
複数のファイルを格納するファイル格納部と、
検索用インデックスを格納する検索用インデックス格納部と、
前記階層フォルダのそれぞれのフォルダの内容データを格納するフォルダ内容データ保存部と、
表示態様として概要表示が指定されている場合に、前記フォルダ内容データ保存部を参照し、ユーザによって選択されたフォルダに含まれる複数のファイルの概要を示す文字列を生成するフォルダ概要計算処理部と、
表示態様がクエリ検索結果の位置分布表示が指定されている場合に、前記検索用インデックス格納部に格納された前記検索用インデックスを参照して、クエリ検索を実行し、検索結果を得るクエリ検索処理部と、
前記複数のファイルを格納する各フォルダについて、前記検索結果に対応するファイル数の情報を取得する位置分布処理部と、
前記表示態様の指定に応じて、前記生成された文字列を表示装置に表示するか、或いは、前記各フォルダごとに前記ファイル数を表示装置に表示する表示処理部と、
を備えることを特徴とするファイル管理装置。
【請求項1】
階層フォルダ内に保存されているファイルを管理するファイル管理装置であって、
前記階層フォルダのそれぞれのフォルダの内容データを格納するフォルダ内容データ保存部と、
前記フォルダ内容データ保存部を参照し、ユーザによって選択されたフォルダに含まれる複数のファイルの概要を示す文字列を生成するフォルダ概要計算処理部と、
前記生成された文字列を表示装置に表示する表示処理部と、
を備えることを特徴とするファイル管理装置。
【請求項2】
前記フォルダ概要計算処理部は、ファイルの属性が指定されている場合には、前記文字列の代わりに、前記複数ファイルに関して、前記指定された属性のヒストグラムを取得し、
前記表示処理部は、前記取得したヒストグラムを前記表示装置に表示することを特徴とする請求項1に記載のファイル管理装置。
【請求項3】
前記フォルダ概要計算処理部は、前記選択されたフォルダ内に含まれる前記複数のファイルの概要を、ファイルの容量・ファイルの拡張子・ファイルの種類・ファイルの作成日・ファイルの最終更新日・ファイルの最終閲覧日・ファイルの提出日・ファイルの作成者・ファイルの作成者の所属・ファイルの差出元・ファイルの宛先・フォルダ階層の深さ・サブフォルダ数の少なくとも1つを含む属性における特徴又は傾向に基づいて生成することを特徴とする請求項1に記載のファイル管理装置。
【請求項4】
前記特徴又は傾向は、ファイル名における頻出文字列・サブフォルダ名における頻出文字列・タイトルにおける頻出文字列・ファイル名における連番文字列・サブフォルダ名における連番文字列・タイトルにおける連番文字列・一部のサブフォルダへのファイルの集積・サブフォルダ同士の類似・複数次元の格子点上のファイルの分布の少なくとも1つを含むことを特徴とする請求項3に記載のファイル管理装置。
【請求項5】
前記フォルダ概要計算処理部は、前記選択されたフォルダ内に複数次元(階層)の格子点上のファイル分布がある場合に、各次元の名称を併記して各次元ごとにファイルがあることを示す概要文字列を生成することを特徴とする請求項1に記載のファイル管理装置。
【請求項6】
前記フォルダ概要計算処理部は、前記選択されたフォルダ内に複数のサブフォルダが類似のファイルを有する場合、各サブフォルダ名を併記して類似したファイルを含むことを示す概要文字列を生成することを特徴とする請求項1に記載のファイル管理装置。
【請求項7】
前記フォルダ概要計算処理部は、前記選択されたフォルダ内に類似ファイルを有するサブフォルダがなく、サブフォルダへのファイルの集積がある場合、ファイル集積のあるサブフォルダ名とファイル集積があることを示す概要文字列を生成することを特徴とする請求項1に記載のファイル管理装置。
【請求項8】
階層フォルダ内に保存されているファイルを管理するファイル管理装置であって、
複数のファイルを格納するファイル格納部と、
検索用インデックスを格納する検索用インデックス格納部と、
前記検索用インデックス格納部に格納された前記検索用インデックスを参照して、クエリ検索を実行し、検索結果を得るクエリ検索処理部と、
前記複数のファイルを格納する各フォルダについて、前記検索結果に対応するファイル数の情報を取得する位置分布処理部と、
前記各フォルダごとに、前記ファイル数を表示装置に表示する表示処理部と、
を備えることを特徴とするファイル管理装置。
【請求項9】
前記表示処理部は、前記ファイル数を文字で表示する請求項8に記載のファイル管理装置。
【請求項10】
前記位置分布処理部は、前記検索結果に対応するファイル数の情報に基づいて、ヒストグラムを生成し、
前記表示処理部は、前記各フォルダごとに、前記ヒストグラムを表示することを特徴とする請求項8に記載のファイル管理装置。
【請求項11】
前記表示処理部は、前記検索結果に対応するファイルを含まないフォルダについては、表示を省略することを特徴とする請求項8に記載のファイル管理装置。
【請求項12】
階層フォルダ内に保存されているファイルを管理する文ファイル理装置であって、
複数のファイルを格納するファイル格納部と、
検索用インデックスを格納する検索用インデックス格納部と、
前記階層フォルダのそれぞれのフォルダの内容データを格納するフォルダ内容データ保存部と、
表示態様として概要表示が指定されている場合に、前記フォルダ内容データ保存部を参照し、ユーザによって選択されたフォルダに含まれる複数のファイルの概要を示す文字列を生成するフォルダ概要計算処理部と、
表示態様がクエリ検索結果の位置分布表示が指定されている場合に、前記検索用インデックス格納部に格納された前記検索用インデックスを参照して、クエリ検索を実行し、検索結果を得るクエリ検索処理部と、
前記複数のファイルを格納する各フォルダについて、前記検索結果に対応するファイル数の情報を取得する位置分布処理部と、
前記表示態様の指定に応じて、前記生成された文字列を表示装置に表示するか、或いは、前記各フォルダごとに前記ファイル数を表示装置に表示する表示処理部と、
を備えることを特徴とするファイル管理装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【公開番号】特開2010−9469(P2010−9469A)
【公開日】平成22年1月14日(2010.1.14)
【国際特許分類】
【出願番号】特願2008−170479(P2008−170479)
【出願日】平成20年6月30日(2008.6.30)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WINDOWS
2.UNIX
【出願人】(000233055)日立ソフトウエアエンジニアリング株式会社 (1,610)
【Fターム(参考)】
【公開日】平成22年1月14日(2010.1.14)
【国際特許分類】
【出願日】平成20年6月30日(2008.6.30)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WINDOWS
2.UNIX
【出願人】(000233055)日立ソフトウエアエンジニアリング株式会社 (1,610)
【Fターム(参考)】
[ Back to top ]