説明

メールアーカイブシステム

【課題】メールデータに特化して検索処理の高速化を図るメールアーカイブシステムを得る。
【解決手段】ファイル名にメッセージIDを使用するメールデータを検索するメールアーカイブシステムであって、データ種別が異なるメールヘッダ,メール本文,添付ファイルの各分割メールデータに分割するメール分割部53と、キーワードリスト63に予め保存されたインデックス用キーワードにより前記分割メールデータにインデックスを付与する第1インデックス作成部52と、前記分割メールデータ及び前記第1インデックス作成部で付与されたインデックスを所望時間単位に格納し、前記各分割メールデータの格納はデータ間の紐付けのための前記メッセージIDを含めたデータフォーマットで行う1次データ蓄積部53と、指定された検索用キーワードにより前記分割メールデータの検索を行う検索実行部62とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、受信したメールを蓄積し、蓄積されたメールについての検索・参照・再配送等を行うメールアーカイブシステムに関し、特に、メールデータを格納するに際して、メールの効率的な検索処理が可能となるようにしたシステムに関する。
【背景技術】
【0002】
メールアーカイブシステムとは、送受信されたメールを一定期間保管し、必要に応じて保管したメールの検索、参照及び再配送等を行うシステムである。
従来、この種のメールアーカイブシステムでは、データを格納する場合に、メールデータに対するインデックスの作成が必須となるが、インデックス作成に時間がかかるので、メールアーカイブシステムにメールデータが書き込まれてから検索可能になるまでに時間を要していた。
【0003】
また、データの格納方法に関しては、ファイル名やファイル属性(拡張子)によるインデックス作成によって、検索に際して高速アクセスを可能とする仕組みが提案されている。
例えば、特許文献1には、データ処理装置において、データの検索処理を行うに際してデータの読み込み量を減少させるため、データに対して属性別のデータをファイルに分割して保持することで1つのファイルにつき1つの属性のデータのみを格納し、データ検索する場合に所望の属性データのファイルのみを開き、スキーマ情報を用いたデータ構造の復元により効率的な検索処理を行うことが記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2011−13758号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述したデータ処理装置によれば、ファイル属性によるインデックス作成により、属性別のデータをファイルに分割して保持するが、メールデータの場合、属性が同じデータに偏ってしまうので、識別子が同一でファイル名にメッセージIDを使用するメールデータの分割格納処理には適しておらず、メールデータを検索するに際しての高速アクセスには不向きであるという課題があった。
【0006】
本発明は上記実情に鑑みて提案されたものであり、メールアーカイブシステムにおいて、メールデータの分割格納処理を行う場合に、データの種別について考慮して格納の仕方を工夫することで、メールデータに特化して検索処理の高速化が図れるメールアーカイブシステムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するため本発明は、メールアーカイブシステムにおいて、メールデータを格納する場合のインデックス作成処理、及び、メールデータの検索処理の高速化を図る構成に特徴を有する。
すなわち請求項1のメールアーカイブシステムは、ファイル名にメッセージIDを使用するメールデータについて、データ種別が異なるメールヘッダ,メール本文,添付ファイルの各分割メールデータに分割するメール分割部と、
キーワードリストに予め保存されたインデックス用キーワードにより前記分割メールデータにインデックスを付与する第1インデックス作成部と、
前記分割メールデータ及び前記第1インデックス作成部で付与されたインデックスを所望時間単位に格納し、前記各分割メールデータの格納はデータ間の紐付けのための前記メッセージIDを含めたデータフォーマットで行う1次データ蓄積部と、
指定された検索用キーワードにより前記分割メールデータの検索を行う検索実行部と、
を備えたことを特徴としている。
【0008】
請求項2は、請求項1のメールアーカイブシステムにおいて、前記第1インデックス作成部は、前記メール分割部に定期的にメールデータを書き込むタイミングでインデックス作成を行うことを特徴としている。
【0009】
請求項3は、請求項1のメールアーカイブシステムにおいて、前記キーワードリストは、前記検索用キーワードを順次登録して前記インデックス用キーワードとすることを特徴としている。
【0010】
請求項4は、請求項1のメールアーカイブシステムにおいて、
前記ストレージ兼データ検索処理装置は、
前記1次データ蓄積部の分割メールデータに対して、結合又は圧縮を施すデータ加工を行う2次データ加工部と、
前記インデックス用キーワードにより前記データ加工された分割メールデータにインデックスを付与する第2インデックス作成部と、
前記データ加工された分割メールデータ及び前記第2インデックス作成部で付与されたインデックスを所望時間単位に格納し、前記各分割メールデータの格納は、前記1次データ蓄積部より長い時間を対象とし、データ間の紐付けのための前記メッセージIDを含めたデータフォーマットで行う2次データ蓄積部と、
を備えたことを特徴としている。
【0011】
請求項5は、請求項1のメールアーカイブシステムにおいて、前記第1インデックス作成部、前記1次データ蓄積部及び前記検索実行部が設けられたストレージ兼データ検索処理装置を備えたことを特徴としている。
【0012】
請求項6は、請求項5のメールアーカイブシステムにおいて、
前記ストレージ兼データ検索処理装置を複数備え、
各ストレージ兼データ検索処理装置の検索実行部による分割メールデータの検索について、前記各ストレージ兼データ検索処理装置に対する分散処理により行われる
ことを特徴としている。
【発明の効果】
【0013】
請求項1によれば、メールデータ解析時にキーワードリストに存在する単語のみを抽出しインデックスを作成することにより、メールデータのテキスト解析及びインデックス作成処理の高速化を可能とすることができる。
【0014】
また、メールデータをメールヘッダ、メール本文、添付ファイルに分割し、それぞれの分割毎に複数のメールをまとめて保存し、さらにキーワードリストを用いてインデックス作成することで、検索時に対象となるデータやインデックスのみを読込み検索を行うことで、データ読み込み時間を短縮し検索処理の高速化を実現することができる。
【0015】
また、分割したデータの紐付けにはメールのメッセージIDを用いることで、各分割したデータにメッセージIDを含めたデータフォーマットで格納することにより、分割メールデータを紐付けるためのデータを読み込むことなくデータの結合が可能となる。
【0016】
更に、分割メールデータを一定時間(例えば1日や1週間)の単位でまとめて格納することにより、検索時に「検索対象時間」を指定することで読み込むデータ量を軽減することが可能となる。
【0017】
請求項2によれば、メールアーカイブシステムで定期的にデータを書き込むタイミングでインデックス作成を行うことで、インデックス作成の対象となるデータを減らすことでインデックス作成処理の高速化を実現することができる。
【0018】
請求項3によれば、データ検索を実行する際に指定したキーワード(検索用キーワード)をキーワードリストに新たなキーワード(インデックス用キーワード)として追加登録することができる。
【0019】
請求項4によれば、2次データ蓄積部への各分割メールデータの格納は、データ結合や圧縮が行われるとともに、1次データ蓄積部より長い時間を対象(所望時間単位を長い時間)とすることで、長い時間を対象としたデータ検索を行う場合の検索処理実行時において、ファイルを開く処理回数が減少でき、検索処理の高速化を図ることができる。
【0020】
請求項5によれば、第1インデックス作成部、1次データ蓄積部及び前記検索実行部について、ストレージ兼データ検索処理装置で一体的に構成することができる。
【0021】
請求項6によれば、複数のストレージ兼データ検索処理装置により分散処理を行うことで、検索処理とデータ読み込みの分散処理が可能となり、より高速な検索処理を実現することができる。
【図面の簡単な説明】
【0022】
【図1】本発明のメールアーカイブシステムの構成を示すブロック図である。
【図2】メールアーカイブシステムのインデックス作成部におけるインデックス作成手順を示すフローチャートである。
【図3】メールアーカイブシステムのキーワードリストにおけるキーワード登録手順を示すフローチャートである。
【発明を実施するための形態】
【0023】
本発明のアーカイブシステムの実施の形態の一例について、図面を参照しながら説明する。
メールアーカイブシステムは、ファイル名にメッセージIDを使用するメールを転送するメールサーバ1と、メールデータの格納処理や検索処理を行うアーカイブサーバ3と、実際にメールデータを保存するストレージや分散処理機能を提供するストレージ兼データ検索処理装置5と、アーカイブ検索を要求する検索サーバ7とを備えて構成される。メールアーカイブシステムは、分散処理を行うため、メールアーカイブサーバ3に対して複数のストレージ兼データ検索処理装置5が設けられる構成でも良い。
【0024】
メールサーバ1はメール転送部11を備え、送受信したメールをメールアーカイブサーバ3へ転送する。ここでメール転送を行う際には、外部とのやり取りをしたメールだけを転送する等の設定を行い、アーカイブするメールを選択することができる。
【0025】
検索サーバ7は、メールデータの検索に際してメールアーカイブサーバ3に対してデータの検索要求を行う検索要求送信部71と、メールアーカイブサーバ3からの検索結果データを受信する検索要求受信部72を備えている。検索要求送信部71では、検索するメールの条件を指定しメールアーカイブサーバ3へ送信することが行われる。検索条件としては、検索用キーワード及び検索対象時間(検索するメールが受信された時間の範囲)を指定することで行われる。検索用キーワードは任意の単語等で指定し、検索対象時間は「今日」「一週間以内」「一か月以内」等のように指定する。
【0026】
メールアーカイブサーバ3は、ストレージ兼データ検索処理装置5へメールデータを送信するデータ送信サーバ部30と、検索サーバ7からの検索要求を受けストレージ兼データ検索処理装置5から検索結果を受信するデータ受信サーバ部40を備えている。
データ送信サーバ部30は、転送メール受信部31と、転送メール蓄積部32と、メール分割部33と、1次データ送信部34から構成されている。
【0027】
転送メール受信部31では、メールサーバ1のメール転送部11から転送したメールを受信する。転送メール受信部31は、何らかの障害が発生し正常にメールが受信できなかった場合には、メール転送部11へ再送要求を出す。
転送メール蓄積部32では、転送メール受信部31で受信した転送メールを蓄積する。蓄積したメールは、一定容量または一定時間経過後に、メール分割部33へ渡される。
メール分割部33では、蓄積した受信メールについて、メールヘッダ、メール本文、添付ファイル等の分割メールデータに分割する。必要に応じて、より細かいデータに分割するようにしてもよい。ここで分割した分割メールデータを1次データとする。
1次データ送信部34では、1次データである分割メールデータをストレージ兼データ検索処理装置5へ送信する。
【0028】
データ受信サーバ部40は、検索要求受信部41と、探索条件解析部42と、探索処理送信部43と、検索結果データ受信部44と、検索結果データ加工部45と、検索結果送信部46を備えている。
検索要求受信部41では、検索サーバ7の検索要求送信部71より送信された「検索用キーワード」「検索対象時間」「検索対象データ」等の項目が含まれた検索要求を受信し、検索条件解析部42へ送信する。
検索条件解析部42では、検索対象とする項目や検索方法を解析し、より効率的に検索が行えるよう検索するコマンドを作成し、検索処理送信部43へ渡す。効率的な検索とは、例えばメールの受信時間に対応する検索対象時間が指定されている場合には、後述する1次データ蓄積部又は2次データ蓄積部のどちらかのみのデータから検索が行われるようなコマンドが作成される。また、メールヘッダのみに対して検索用キーワードが指定された場合には、メールヘッダのデータのみを検索するコマンドが作成される。
検索処理送信部43では、ストレージ兼データ検索処理装置5へ検索実行コマンドを送信する。
【0029】
検索結果データ受信部44では、ストレージ兼データ検索処理装置5より送信されたデータを受信し、検索結果データ加工部45へ渡す。
検索結果データ加工部45では、検索結果データ受信部44から渡されたデータを、検索結果として表示するためのフォーマットに加工して検索結果送信部46へ渡す。すなわち、検索結果データ加工部45では、各分割メールデータのメッセージIDを用いることで、分割したデータ同士の紐付け処理が行われ、メールデータを復元する。
検索結果送信部46では、検索結果データ加工部45から渡された検索結果データ(例えば復元されたメールデータ)を、検索サーバ7の検索要求受信部72へ送信する。
【0030】
ストレージ兼データ検索処理装置5は、1次データ受信部51と、1次インデックス作成部52と、1次データ蓄積部53と、2次データ加工部54と、2次インデックス作成部55と、2次データ蓄積部56を備えている。
1次データ受信部54では、メールアーカイブサーバ3の1次データ送信部34から送信された1次データを受信し、受信したデータを1次インデックス作成部52と1次データ蓄積部53へ渡す。
1次インデックス作成部52では、1次データに対してキーワードリスト63を用いてインデックスを作成し、1次データ蓄積部53へデータを格納する。
【0031】
1次データ蓄積部53では、1次データ受信部51と1次インデックス作成部52から渡されたデータを1次データ蓄積部53に蓄積する。分割メールデータを蓄積するに際しては、メールヘッダ、メール本文、添付ファイル等の各分割メールデータ及び第1インデックス作成部52で付与されたインデックスを所望時間単位にデータ種別にファイル形式のデータで格納する。所望時間単位とは、1〜数時間、24時間(1日)単位にデータをまとめたファイルを作成する。これは、検索対象時間を指定して検索する場合に、検索対象として開くファイル数を限定可能にするためである。また、各分割メールデータの格納は、データ間の紐付けのためのメッセージIDを含めたデータフォーマットで行う。
【0032】
2次データ加工部54では、1次データ蓄積部53から分割メールデータを取得し、各分割メールデータについて、種別が同じデータ同士の結合や、データの圧縮等のデータ加工を施すことが行われる。データ加工が行われたデータは、2次インデックス作成部55と2次データ蓄積部56へ格納する。
2次インデックス作成部55では、結合や圧縮等の加工を施したデータに対してキーワードリスト63を用いて2次インデックス作成を行う。作成された2次インデックスは、1次インデックス付与時よりもインデックス対象とするデータが多くなるため、より効率的なインデックス作成が可能となる。
【0033】
2次データ蓄積部56では、2次データ加工部54と2次インデックス作成部55からのデータを受け取り、1次データ蓄積部での所望時間(例えば、1時間)単位より長い所望時間(例えば、1日)単位を対象としてストレージへ格納する。すなわち、データ加工された分割メールデータ及び第2インデックス作成部で付与されたインデックスを所望時間(例えば、1日)単位に格納する。
【0034】
分割メールデータの結合や圧縮等のデータ加工は、検索時の検索効率が上がるようにするために行われる。例えば、1次データ蓄積部53が1時間毎の分割メールデータを取得し、2次データ蓄積部56が1日毎の分割メールデータを取得する場合、ある1週間を検索対象時間として検索すると、1次データでは24時間×7日=168ファイルの読み込みが必要になるが、2次データ蓄積部56では1×7日=7ファイルの読み込みとなる。ファイル読み込みに要する時間は「データを読み込む処理+ファイルを開く処理」であり、全体のデータ量は変わらないと推測すると「ファイルを開く処理」が168回から7回に減ることにより、全体のファイルを読み込む処理時間が減少できるため、検索効率が向上する。
【0035】
検索処理受信部61では、メールアーカイブサーバ3の検索処理送信部37より送信された検索実行コマンド(検索用キーワード、検索対象時間等)を受信し、検索実行部62へ送信する。検索実行コマンドは、前述したように、検索対象時間、検索対象データを考慮して効率的な検索が可能となるように設定されている。
検索実行部62では、検索実行コマンドから1次データ蓄積部53のデータや2次データ蓄積部56のデータのいずれかまたは両方に対して検索を実行し、検索結果を検索結果データ収集部64へ渡す。また、検索時の検索用キーワードは、キーワードリスト63へ渡される。
【0036】
キーワードリスト63は、1次インデックスや2次インデックスを作成する際に、インデックス化するキーワードのリストを予め保持する。リストに関しては、検索処理時に指定した検索用キーワードを受け取り、インデックス用キーワードとして追加(更新)することが行われる。キーワード追加の手順については後述する。
検索結果データ収集部64では、検索結果のデータを収集し、そのまま検索結果データ送信部65へ渡す。
検索結果データ送信部65では、検索結果データ収集部64から渡されたデータをメールアーカイブサーバ3の検索結果データ受信部44へ送信する。
【0037】
上述の構成において、ストレージ兼データ検索処理装置5内のメールやインデックスデータを格納する1次データ蓄積部53や2次データ蓄積部56に関しては、必要に応じて3次データや4次データのように追加することや、1次データのみの構成とすることも可能である。
また、上述の例では、メールアーカイブシステムについて、メールサーバ1、メールアーカイブサーバ3、ストレージ兼データ検索処理装置5、検索サーバ7の各構成要素を有する機器として説明したが、メールアーカイブサーバ3において、転送メール受信部31と、転送メール蓄積部32と、メール分割部33と、1次データ送信部34で構成されるデータ送信サーバ部30と、検索要求受信部41、検索条件解析部42、検索処理送信部43、検索結果データ受信部44、検索データ加工部45、検索結果送信部46で構成されるデータ受信サーバ部40をそれぞれ別のサーバとして構成しても良い。
【0038】
上述の例では、メールアーカイブサーバ3に対してストレージ兼データ検索処理装置5を複数個接続可能にして分散処理が可能な構成にしている。メールアーカイブサーバ3に対して複数のストレージ兼データ検索処理装置5が接続されている場合、1次データ送信部34からの分割メールデータが各インデックスの付与を伴って各ストレージ兼データ検索処理装置5の1次データ蓄積部53及び2次データ蓄積部56に蓄積され、検索サーバ7に入力された検索用キーワード及び検索対象時間等に対して検索処理送信部43を介して、各ストレージ兼データ検索処理装置5の検索処理受信部61がデータを受け取り、各ストレージ兼データ検索処理装置5において分割メールデータ検索の分散処理が行われる。
また、メールアーカイブシステムにおいて、メールアーカイブサーバ3とストレージ兼データ検索処理装置5を一つの機器で構成し、分散処理を使用しない構成としても良い。
【0039】
次に、ストレージ兼データ検索処理装置5の1次インデックス作成部52を例とするインデックス作成の手順について、図2のフローチャートを参照しながら説明する。
先ず、インデックスを作成する元となる分割メールデータを定期的に読み込む(ステップ101)。分割メールデータを読み込むタイミングは、メールアーカイブシステムで定期的にデータを書き込むタイミングに合わせてインデックス作成を行うことで、インデックス作成の対象となるデータを減らすことができ、インデックス作成の高速化が可能となる。
【0040】
次に、テキスト解析の一種である形態素解析を行い、その際に、形態素解析で必要となる辞書ファイルをキーワードリスト63から読み込む(ステップ102)。
各分割メールデータに対して形態素解析を行う(ステップ103)。形態素解析を行うには、主に単語と品詞の組み合わせをまとめた辞書ファイルが必要となるが、今回の辞書ファイルはキーワードリスト63に予め登録されている検索用キーワードのみの辞書ファイルを使用する。これにより、メールデータ解析時にキーワードリストに存在する単語のみを抽出しインデックスを作成することにより、メールデータのテキスト解析およびインデックス作成処理の高速化が図れる。
【0041】
テキスト解析後、辞書にない単語は全て未知語と判断するため、未知語以外の単語を全て収集する(ステップ104)。
収集した単語の数が存在するかどうかの判断を行い(ステップ105)、収集した単語が一語でもある場合は、単語と分割メールデータのメッセージIDを組とし1次データ蓄積部53に蓄積されるインデックスファイルを作成する(ステップ106)。
収集した単語が何もない場合は、インデックスを作成しない。
【0042】
次に、ストレージ兼データ検索処理装置5のキーワードリスト63におけるキーワードの登録手順について、図3のフローチャートを参照しながら説明する。
最初に、検索サーバ7で指定された検索用キーワードが検索要求送信部71からメールアーカイブサーバ3のデータ受信サーバ部40を介してストレージ兼データ検索処理装置5の検索実行部62へ渡されることで、キーワードリストに登録するキーワードを取得する(ステップ201)。このステップによるキーワードの取得は、検索時に自動でキーワードリストへ登録するキーワードを取得するようにしたが、キーワードリストへのキーワードの登録を手動で行うようにしてもよい。この場合、任意のキーワードを入力して指定し、キーワード登録処理を実行することで行う。
【0043】
次に、キーワードが登録済かどうかを確認し(ステップ202)、登録済の場合はキーワード登録日時を更新し(ステップ203)終了する。
未登録のキーワードの場合は、キーワードリストに登録されているキーワード数が登録可能なキーワード数の上限かどうかを確認し(ステップ204)、上限に達していない場合はそのまま登録し(ステップ206)、新しいリストでインデックスを作成する(ステップ207)。
上限に達している場合は、キーワード登録日時が最も古いキーワードを削除し(ステップ205)、キーワードをキーワードリスト63に登録し(ステップ206)、新しいキーワードリスト63でインデックスを作成する(ステップ207)
【0044】
続いて、上述したメールアーカイブシステムを用いてメール検索を行う流れについて説明する。
先ず、検索サーバ7で指定された検索用キーワード、検索対象時間、検索対象のデータ種別に関する情報が検索要求送信部71から検索要求受信部41に渡され、検索条件解析部42で解析された検索条件(検索コマンド)が検索処理送信部43を介してストレージ兼データ検索処理装置5側へ送られる。
ストレージ兼データ検索処理装置5では、検索条件が検索処理受信部61を介して検査実行部62へ渡される
【0045】
検索実行部62では、検索条件(検索コマンド)に応じて1次データ蓄積部53、2次データ蓄積部56のいずれか又は両方に対して、検索条件から分割メールデータの検索が実行される。
分割メールデータの検索実行に際しては、先ず、各分割メールデータのインデックスに対して検索用キーワードを使用した検索が行われる。すなわち、メールヘッダ、メール本文、添付ファイルが検索対象データとして指定された場合には、各検索対象データのインデックスに対してのみ検索用キーワードを使用した検索が行われる。各分割メールデータのインデックスに検索用キーワードが存在する場合には、そのデータが検索結果データとなる。
【0046】
各分割メールデータのインデックスに検索用キーワードが存在しない場合には、メールヘッダ、メール本文、添付ファイルの実データに対して、検索用キーワードを使用した検索が行われ、各分割メールデータに検索用キーワードが存在する場合には、そのデータが検索結果データとなる。
検索処理を行うに際して、1次データ蓄積部53及び2次データ蓄積部56では、分割メールデータとして、メールヘッダ、メール本文、添付ファイルのそれぞれがデータ種別毎にまとめて保存されているので、検索対象となる各データや各インデックスのみを読み込んで検索を行うことで、分割される前のメールデータ全体を順次読み込む場合に比較して、データ読み込み時間を短縮することで検索処理の高速化を実現することができる。
【0047】
検索結果データ収集部64で検索された検索結果データ(分割メールデータ)を収集し、検索結果データ送信部65及びデータ受信サーバ部40の検索結果データ受信部44を介して検索結果データ加工部45に渡される。
検索結果データ加工部45では、各検索結果データ(分割メールデータ)のメッセージIDを用いることで、分割したデータ同士の紐付け処理が行われ、メールデータを復元する。したがって、分割したデータを紐付けるための特別なデータを読み込むことなくデータの結合が可能となる。
また、上述した検索処理においては、検索時に検索対象時間を指定することで、分割メールデータを一定時間毎(例えば1日や1週間)の単位で検索可能となり、読み込むデータ量の軽減による検索処理の高速化を図ることができる。
【0048】
上述したメールアーカイブシステムでは、メールデータについて各分割メールデータに分割するメール分割部33を備えたメールアーカイブサーバ3に対して、1個若しくは複数個(分散処理を行う場合)のストレージ兼データ検索処理装置5が接続された例について説明したが、複数個のメールアーカイブサーバ3に対して1個若しくは複数個(分散処理を行う場合)のストレージ兼データ検索処理装置5が接続されるように構成してもよい。
複数個のメールアーカイブサーバ3に対して1個のストレージ兼データ検索処理装置5が接続される場合は、各メールアーカイブサーバ3に対してメールサーバ1及び検索サーバ7が設けられ、各メールアーカイブサーバ3と1個のストレージ兼データ検索処理装置5との間でデータの送受信が行われ、上述した1次データや2次データの蓄積、キーワードリストの作成、分割メールデータの検索処理が行われる。
また、この場合においても、複数個のメールアーカイブサーバ3に対して複数個のストレージ兼データ検索処理装置5を接続することで複数個のメールアーカイブサーバ3に対して分散処理を行うようにしてもよい。
【0049】
メールアーカイブシステムのストレージ兼データ検索処理装置5の内部に、1次データ蓄積部53及び2次データ蓄積部56を設ける構成としたが、各蓄積部についてストレージ兼データ検索処理装置5とは別の外部記憶媒体として設けるようにしてもよい。
【0050】
上述したメールアーカイブシステムによれば、インデックス作成を簡易化し、メールデータ格納後から検索可能になるまでにタイムラグを減少させ、検索処理の高速化を実現することができる。
メールデータを分割することにより、検索処理時において実データを参照する際に読み込むデータ量が減少することで、全体の処理速度の高速化が実現できる。
分散処理に適用することで、処理とデータ読み込みの分散が可能となり、より高速に処理することができる。
【0051】
既存のメールアーカイブシステムでは、インデックスが存在しない場合では極端に検索時間を必要とするが、上述のシステムではメールデータを分割した分割メールデータを読み込むことで、インデックスが存在しない場合でも検索時間の劣化を低減することができる。また、メールアーカイブサーバ3に対してストレージ兼データ検索処理装置5を複数個接続した分散処理を適用することで、検索時間の高速化を図ることができる。
【符号の説明】
【0052】
1…メールサーバ、 3…メールアーカイブサーバ、 5…ストレージ兼データ検索処理装置、 33…メール分割部、 43…検索処理送信部、 52…1次インデックス作成部、 53…1次データ蓄積部、 54…2次データ加工部、 55…1次インデックス作成部、 56…2次データ蓄積部、 62…検索実行部、 63…キーワードリスト、 64…検索結果データ収集部、 71…検索要求受信部。

【特許請求の範囲】
【請求項1】
ファイル名にメッセージIDを使用するメールデータについて、データ種別が異なるメールヘッダ,メール本文,添付ファイルの各分割メールデータに分割するメール分割部と、
キーワードリストに予め保存されたインデックス用キーワードにより前記分割メールデータにインデックスを付与する第1インデックス作成部と、
前記分割メールデータ及び前記第1インデックス作成部で付与されたインデックスを所望時間単位に格納し、前記各分割メールデータの格納はデータ間の紐付けのための前記メッセージIDを含めたデータフォーマットで行う1次データ蓄積部と、
指定された検索用キーワードにより前記分割メールデータの検索を行う検索実行部と、
を備えたことを特徴とするメールアーカイブシステム。
【請求項2】
前記第1インデックス作成部は、前記メール分割部に定期的にメールデータを書き込むタイミングでインデックス作成を行う請求項1に記載のメールアーカイブシステム。
【請求項3】
前記キーワードリストは、前記検索用キーワードを順次登録して前記インデックス用キーワードとする請求項1に記載のメールアーカイブシステム。
【請求項4】
前記ストレージ兼データ検索処理装置は、
前記1次データ蓄積部の分割メールデータに対して、結合又は圧縮を施すデータ加工を行う2次データ加工部と、
前記インデックス用キーワードにより前記データ加工された分割メールデータにインデックスを付与する第2インデックス作成部と、
前記データ加工された分割メールデータ及び前記第2インデックス作成部で付与されたインデックスを所望時間単位に格納し、前記各分割メールデータの格納は、前記1次データ蓄積部より長い時間を対象とし、データ間の紐付けのための前記メッセージIDを含めたデータフォーマットで行う2次データ蓄積部と、
を備えた請求項1に記載のメールアーカイブシステム。
【請求項5】
前記第1インデックス作成部、前記1次データ蓄積部及び前記検索実行部が設けられたストレージ兼データ検索処理装置を備えた請求項1に記載のメールアーカイブシステム。
【請求項6】
前記ストレージ兼データ検索処理装置を複数備え、
各ストレージ兼データ検索処理装置の検索実行部による分割メールデータの検索について、前記各ストレージ兼データ検索処理装置に対する分散処理により行われる請求項5のメールアーカイブシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2013−65224(P2013−65224A)
【公開日】平成25年4月11日(2013.4.11)
【国際特許分類】
【出願番号】特願2011−204004(P2011−204004)
【出願日】平成23年9月20日(2011.9.20)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】