検索装置、検索プログラム、及び検索方法
【課題】検索者が本当に望む文書データを検索結果の上位にランキングさせる。
【解決手段】メールデータ取得部11は、メールサーバ4から送信済の電子メールを当該電子メールの通信履歴と併せて取得する。専門度算出部12は、各送信者の送信済の電子メールの転送経路をメールデータ取得部11により取得された通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する。スコア値算出部13は、文書データの作成者が送信者に該当する場合、作成者の各文書データに含まれる各単語の頻度を、作成者の対応する単語の専門度に応じて増大させることでスコア値を算出する。
【解決手段】メールデータ取得部11は、メールサーバ4から送信済の電子メールを当該電子メールの通信履歴と併せて取得する。専門度算出部12は、各送信者の送信済の電子メールの転送経路をメールデータ取得部11により取得された通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する。スコア値算出部13は、文書データの作成者が送信者に該当する場合、作成者の各文書データに含まれる各単語の頻度を、作成者の対応する単語の専門度に応じて増大させることでスコア値を算出する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書データを検索する技術に関するものである。
【背景技術】
【0002】
近年、社内LAN等においては、各ユーザが作成した文書データを文書サーバにアップロードさせて文書データを社内LAN上で公開し、各ユーザが自身の端末装置から文書サーバに記憶された文書データを自由に閲覧することができるシステムが導入されている。また、公開されている文書データの数が膨大になると、各ユーザが所望の文書データを見つけ出すことが困難となる。そこで、近年、自身の端末装置に希望する文書データに関連する単語を各ユーザに入力させ、その単語が使用された文書データを文書サーバから検索し、検索結果をユーザの端末装置に送信する検索装置も導入されている。
【0003】
この場合、検索装置は、文書サーバに記憶されている各文書データに含まれる各単語を分析し、各単語に対する各文書データにおけるスコア値を予め算出しておく。そして、検索装置は、検索者から単語が入力されるとその単語が使用されている文書データのファイル名を、その単語についてのスコア値が高い順でリスト表示した画像をユーザの端末装置に表示させる。そして、ユーザは閲覧を希望する文書データの欄をクリックすると、その文書データがユーザの端末装置にダウンロードされ、ユーザはその文書データを閲覧することができる。このような検索装置として、例えば特許文献1にはサーバの検索履歴に基づいて検索候補を生成するものが開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2010−198577号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
以下、従来の検索装置による問題点について説明する。図18〜図20は従来の検索装置の問題点を説明する図である。例えば、あるユーザが「CSRにおける啓発活動」に関連する文書データを閲覧したい場合を考える。
【0006】
この場合、ユーザは、図18の右上の単語入力欄R1に検索する単語である「csr 啓発活動」として入力して、単語入力欄R1の右隣の検索開始ボタンB1をクリックする。すると、図18に示すように、スコア値の高い順で、文書データのファイル名と、文書データのリンク先と、文書データの作成者とがリスト表示された検索結果の画像がユーザの端末装置に表示される。
【0007】
そして、図18において、ユーザが1位の文書データである最上位の文書データの欄をクリックすると、1位の文書データがユーザの端末装置にダウンロードされる。ここで、1位の文書データを閲覧すると、確かに「csr」及び「啓発活動」の単語が含まれていたが、「csr」の「啓発活動」について詳しい内容を示した文書データではなく、検索者が望む文書データではなかった。
【0008】
一方、図18に示す検索結果の画面を下方にスクロールすると、図19に示す42位において、「csr」に関連した文書データがランキングされていることが分かる。そして、この文書データの欄をクリックし、この文書データ閲覧すると、CSRの啓発活動について詳しい内容が記載され、検索者が望む文書データであった。
【0009】
図20は、図19の検索結果を分析した図である。図20に示すように、42位にランキングされた文書データの作成者は(△△△△)であり、この作成者は、「CSRグループ」に所属していることが分かった。したがって、文書データに含まれる単語のみではなく、文書データの作成者やその作成者が所属する部署等を考慮に入れてスコア値を算出することができれば、この42位にランキングされた文書データをより高い順位にランキングさせて、検索者が望む文書データを上位にランキングすることが可能となる。
【0010】
本発明の目的は、文書データに含まれる単語以外の要素を考慮することで、検索者が本当に望む文書データを検索結果の上位にランキングすることができる検索装置等を提供することである。
【課題を解決するための手段】
【0011】
(1)本発明による検索装置は、送信済の電子メールを記憶するメールサーバと、ユーザが使用する端末装置と、所定のネットワーク上で公開される文書データを記憶する文書サーバとのそれぞれに対して前記ネットワークを介して接続された検索装置であって、前記メールサーバは、送信済の電子メールと各電子メールの通信履歴と併せて記憶し、前記検索装置は、前記メールサーバから送信済の電子メールを前記通信履歴と併せて取得するメールデータ取得部と、各送信者の送信済の電子メールの転送経路を前記通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する専門度算出部と、前記文書サーバに記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出するスコア値算出部と、ユーザにより前記端末装置を用いて入力された検索単語を前記端末装置から取得し、取得した検索単語と同一の単語を含む文書データを前記文書サーバに記憶された文書データの中から抽出し、抽出した文書データを、当該同一の単語についての前記スコア値が高い順で前記ユーザに報知するための報知情報を生成し、前記ユーザの端末装置に送信する検索部とを備え、前記スコア値算出部は、前記文書データの作成者が前記送信者に該当する場合、前記作成者の各文書データに含まれる各単語の頻度を、前記作成者の対応する単語の専門度に応じて増大させることで前記スコア値を算出する。
【0012】
また、本発明による検索プログラムは、送信済の電子メールを記憶するメールサーバと、ユーザが使用する端末装置と、所定のネットワーク上で公開される文書データを記憶する文書サーバとのそれぞれに対して前記ネットワークを介して接続された検索装置としてコンピュータを機能させる検索プログラムであって、前記メールサーバは、送信済の電子メールと各電子メールの通信履歴と併せて記憶し、前記検索プログラムは、前記メールサーバから送信済の電子メールを前記通信履歴と併せて取得するメールデータ取得部と、各送信者の送信済の電子メールの転送経路を前記通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する専門度算出部と、前記文書サーバに記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出するスコア値算出部と、ユーザにより前記端末装置を用いて入力された検索単語を前記端末装置から取得し、取得した検索単語と同一の単語を含む文書データを前記文書サーバの中から検索し、検索した文書データを、前記スコア値が高い順で前記ユーザに報知するための報知情報を生成し、前記ユーザの端末装置に送信する検索部としてコンピュータを機能させ、前記スコア値算出部は、各文書データの作成者が前記送信者に該当する場合、前記作成者の各文書データに含まれる各単語の頻度を、前記作成者の対応する単語の専門度で重み付けすることで前記スコア値を算出する。
【0013】
本発明による検索方法は、送信済の電子メールを記憶するメールサーバと、ユーザが使用する端末装置と、所定のネットワーク上で公開される文書データを記憶する文書サーバとのそれぞれに対して前記ネットワークを介して接続された検索装置を用いた検索方法であって、前記メールサーバは、送信済の電子メールと各電子メールの通信履歴と併せて記憶し、前記検索装置が、前記メールサーバから送信済の電子メールを前記通信履歴と併せて取得するメールデータ取得ステップと、前記検索装置が、各送信者の送信済の電子メールの転送経路を前記通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する専門度算出ステップと、前記検索装置が、前記文書サーバに記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出するスコア値算出ステップと、前記検索装置が、ユーザにより前記端末装置を用いて入力された検索単語を前記端末装置から取得し、取得した検索単語と同一の単語を含む文書データを前記文書サーバの中から検索し、検索した文書データを、前記スコア値が高い順で前記ユーザに報知するための報知情報を生成し、前記ユーザの端末装置に送信する検索ステップとを備え、前記スコア値算出ステップは、各文書データの作成者が前記送信者に該当する場合、前記作成者の各文書データに含まれる各単語の頻度を、前記作成者の対応する単語の専門度で重み付けすることで前記スコア値を算出する。
【0014】
この構成によれば、送信者の送信済の電子メールの転送経路に基づいて、送信者が電子メールで使用した各単語の専門度が算出される。一般的に、ある事柄について専門性の高いユーザであるキーパーソンが送信者となって送信した電子メールには、その事柄についてのキーワードが多く含まれている。また、キーパーソンが作成した電子メールは重要度が高いため、多くのユーザによって転送される傾向にある。よって、転送経路の規模からその電子メールの送信者がキーパーソンであるか否かを推定することができる。そこで、本発明では、電子メールの送信者が自身の電子メールで使用した各単語についての専門度をその電子メールの転送経路にしたがって算出している。
【0015】
一方、文書サーバには種々の作成者によって作成された文書データが記憶されており、各文書データに含まれる各単語は基本的には頻度に基づいてスコア値が規定されている。そこで、本発明では、文書データの作成者が電子メールの送信者に該当する場合は、文書データに含まれる各単語の頻度を、その送信者の対応する単語の専門度に応じて増大させている。
【0016】
よって、ユーザにより検索単語が入力された場合、単にその検索単語の頻度が高い文書データではなく、その検索単語について専門性の高いユーザが作成した文書データのスコア値が高くなる可能性が高くなる。
【0017】
これにより、検索単語について専門性が高いユーザによって作成された文書データが報知情報の上位にランキングさせることが可能となる。したがって、検索単語を入力したユーザは、検索単語について詳しい内容が記載された自身が本当に閲覧したい文書データを容易にアクセスすることができる。
【0018】
(2)前記専門度算出部は、ある電子メールの送信者から当該電子メールを直接受信したユーザからなる階層を第1階層、前記第1階層のユーザから転送された前記電子メールを受信したユーザからなる階層を第2階層というようにして、各電子メールの転送経路を階層的に表し、階層が深くなるにつれて前記専門度を高く算出することが好ましい。
【0019】
一般的に、キーパーソンにより作成された重要度の高い電子メールは、会社のようなピラミット状の組織構造を有する組織においては、まず、キーパーソンから組織を構成する複数の部の代表者に送信され、各部の代表者から各部に属する複数の課の代表者に送信され、各課の代表者から各課の関連する構成員に送信されるというように、多重階層的に送信される傾向にある。よって、階層数が増大するほど、その電子メールは、キーパーソンにより作成された電子メールである可能性が高くなる。そこで、本発明では、階層が深くなるほど専門度を高く算出している。これにより、電子メールの作成者がその電子メールで使用した単語についてどの程度の専門性を有しているのかを正確に推定し、専門度に反映させることができる。
【0020】
(3)前記専門度算出部は、前記電子メールの転送回数が増大するにつれて前記専門度を高く算出することが好ましい。
【0021】
一般的に、キーパーソンにより作成された重要度の高い電子メールは、各転送者によって多数のユーザに転送される傾向にある。そこで、本発明では、転送回数が増大するほど専門度を高く算出することで、電子メールの作成者がその電子メールで使用した単語についての専門性を正確に推定し、専門度に反映させることができる。
【0022】
(4)前記専門度算出部は、ある電子メールについて、前記階層の深さを示す転送深度と、各階層での1つ上位の階層からの前記電子メールの転送回数との積を、前記電子メールの階層毎の専門度として算出し、算出した階層毎の専門度の和又は積を、前記電子メールに含まれる各単語の専門度として算出することが好ましい。
【0023】
この構成によれば、転送深度と転送回数との積が増大するほど専門度が高く算出されるため、転送経路の規模が大きいほど専門度が高くなるように専門度を算出することができる。
【0024】
(5)前記専門度算出部は、ある送信者が複数の電子メールを送信し、かつ前記複数の電子メールにおいて同一の単語が使用されている場合、当該同一の単語について各電子メールで算出した専門度の合計値を、当該同一の単語についての前記送信者の専門度として算出することが好ましい。
【0025】
この構成によれば、送信者がある単語を複数の電子メールで使用している場合において、この単語の専門度を正確に算出することができる。
【0026】
(6)前記検索部は、検索した文書データのファイル名を前記スコア値の高い順でリスト表示するデータを前記報知情報として生成することが好ましい。
【0027】
この構成によれば、文書データのファイル名がスコア値の高い順でリスト表示された画像が端末装置に表示されるため、ユーザは一目でスコア値の高い文書データを認識することができる。
【発明の効果】
【0028】
本発明によれば、電子メールの転送経路から送信者の各単語についての専門度が算出され、その専門度が高いほど文書データの各単語のスコア値が増大されているため、検索者が望む文書データを検索結果の上位にランキングさせることができる。
【図面の簡単な説明】
【0029】
【図1】本発明の実施の形態による検索装置が適用された検索システムの全体構成図である。
【図2】図1に示す検索装置のブロック図である。
【図3】メールインデックスのデータ構造の一例を示した図である。
【図4】専門度の算出過程の説明図である。
【図5】図4(A)に示す転送経路において第1階層についての専門度の算出過程の説明図である。
【図6】図4(A)に示す転送経路において第2階層についての専門度の算出過程の説明図である。
【図7】図4(A)に示す転送経路において第3階層についての専門度の算出過程の説明図である。
【図8】専門度算出部が生成する専門度インデックスのデータ構造の一例を示す図である。
【図9】スコア値算出部が算出するスコアインデックスのデータ構造の一例を示す図である。
【図10】文書サーバで生成される頻度インデックスのデータ構造の一例を示した図である。
【図11】図1に示す端末装置のブロック図である。
【図12】図1に示す文書サーバのブロック図である。
【図13】図1に示すメールサーバのブロック図である。
【図14】検索装置がスコア値を算出する際の検索システムの処理を示したフローチャートである。
【図15】検索装置がスコア値を算出する際の検索システムの処理を示したフローチャートである。
【図16】文書データの検索時における検索システムの処理を示したフローチャートである。
【図17】図1に示す検索システムの処理のまとめた図である。
【図18】従来の検索装置の問題点を説明する図である。
【図19】従来の検索装置の問題点を説明する図である。
【図20】従来の検索装置の問題点を説明する図である。
【発明を実施するための形態】
【0030】
図1は、本発明の実施の形態による検索装置が適用された検索システムの全体構成図である。図1に示す検索システムは、検索装置1、1又は複数の端末装置2、文書サーバ3、及びメールサーバ4を備えている。検索装置1〜メールサーバ4は所定のネットワークNTを介して相互に通信可能に接続されている。
【0031】
本実施の形態では、ネットワークNTとしては、ある会社の社内通信網を採用することができ、例えば、TCP/IPの通信プロトコルを用いて種々のデータが伝送される。社内通信網としては、例えば、本社のLAN、各支店のLAN、各営業所のLAN、及び各研究所のLAN等をX.25やVPN等の専用線を介して相互に接続した通信網が採用される。したがって、ネットワークNTとしては、インターネットのようなグローバルネットワークではなく、プライベートネットワークを想定している。
【0032】
端末装置2は、通信機能を備える一般的なコンピュータから構成され、本検索システムが適用された会社の構成員であるユーザによって所持され、各ユーザからの操作にしたがって種々の文書データを作成する。作成された文書データは、ユーザの指示の下、必要に応じて文書サーバ3にアップロードされる。また、端末装置2は、ユーザによりある検索単語に関連する文書データの検索指令が入力されると、当該単語に関連する文書データを検索装置1に検索させるための検索依頼を検索装置1に送信する。また、端末装置2は、ユーザの操作に従って別のユーザ宛の電子メールを作成し、作成した電子メールを、メールサーバ4を介して当該別のユーザの端末装置2に送信する。
【0033】
検索装置1は、通信機能を備える一般的なコンピュータから構成され、端末装置2から検索依頼を受信すると、文書サーバ3に記憶された文書データのうち、検索依頼に含まれる検索単語を含む文書データを探索し、検索結果をユーザの端末装置に表示させる。
【0034】
文書サーバ3は、通信機能を備える一般的なコンピュータから構成され、各端末装置2からアップロードされた文書データを記憶し、ある端末装置2から文書データの閲覧要求を受け付けると、当該文書データをその端末装置2にダウンロードする。
【0035】
メールサーバ4は、通信機能を備える一般的なコンピュータから構成され、ある端末装置2から電子メールが送信されると、当該電子メールを記憶し、当該電子メールの送信先のユーザの端末装置2に当該電子メールを送信する。
【0036】
図2は、図1に示す検索装置1のブロック図である。検索装置1は、メールデータ取得部11、専門度算出部12、スコア値算出部13、検索部14、専門度記憶部15、スコア値記憶部16、及び通信部17を備えている。これらの各ブロックは、コンピュータを検索装置として機能させるための検索プログラムをCPUが実行することで実現される。
【0037】
なお、検索プログラムは、DVD−ROM等のコンピュータ読み取り可能な記録媒体に記録されて市場に流通され、検索装置1の管理者にこの記録媒体を購入させることで、管理者に提供される。或いは、インターネットのWebサーバ上にこの検索プログラムを格納しておき、この検索プログラムをダウンロードさせることで、この検索プログラムを検索装置1の管理者に提供してもよい。
【0038】
図2において、メールデータ取得部11〜検索部14は、主にCPUにより構成され、専門度記憶部15、16は、主にHDD(Hard Disk Drive)等の大容量の記憶装置により構成され、通信部17は、モデムやLANアダプタ等の通信モジュールにより構成される。
【0039】
メールデータ取得部11は、メールサーバ4から送信済の電子メールを当該電子メールの通信履歴と併せて取得する。ここで、通信履歴とは、電子メールの送信者がどのユーザに電子メールを送信し、その電子メールを受信したユーザがどのユーザに電子メールを転送したかを示すデータである。
【0040】
本実施の形態では、メールデータ取得部11は、図3に示すメールインデックスをメールサーバ4から通信部17を介して取得する。図3は、メールインデックスのデータ構造の一例を示した図である。図3に示すメールインデックスは、一通の電子メール毎に作成され、メール名、送信者、電子メール、及び通信履歴の欄を備えている。
【0041】
メール名の欄には、メールを識別するための識別情報が格納され、本実施の形態では、例えば、メールのタイトルと送信時刻との組からなるデータが格納されている。例えば、メールのタイトルが「csrについて」であり、送信時刻が2010年9月1日13時140分30秒であれば、「csrについて:2010:09:01:13:40:30」が識別情報として採用される。
【0042】
送信者の欄には、メールの送信者の識別情報が記載され、本実施の形態では、メールの送信者の名前や社員番号が格納されている。電子メールの欄には、電子メールのタイトル及び本文データが格納されている。なお、電子メールに添付ファイルが存在する場合は、その添付ファイルも格納されている。
【0043】
通信履歴の欄には、電子メールの通信履歴が格納され、送信時刻、送信者、受信者、及び受信時刻の欄が含まれている。送信時刻の欄には、送信者が電子メールを送信した時刻、送信者から電子メールを受信したユーザが送信者(転送者)となってその電子メールを転送した時刻及び、転送された電子メールを受信したユーザが更に送信者(転送者)となってその電子メールを転送した時刻が時系列で格納されている。
【0044】
送信者の欄には、電子メールの送信者、送信者からの電子メールを転送した転送者、及び転送された電子メールを更に転送した転送者の識別情報が格納されている。
【0045】
受信者の欄には、送信元である送信者から電子メールを直接受信した受信者、及び転送者から電子メールを受信した受信者の識別情報が格納されている。
【0046】
受信時刻の欄には、受信者の欄に格納された各受信者が電子メールを受信した時刻が格納されている。
【0047】
図3の例では、送信者の欄の1行目にN1が格納され、受信者の欄の1行目にN_a,N_b,N_cが格納されているため、ユーザN1が送信者となってユーザN_a,N_b,N_cに電子メールを送信したことが分かる。
【0048】
また、送信者の欄の2行目にN_aが格納され、受信者の欄の2行目にN_d,N_eが格納されているため、ユーザN1から電子メールを受信したユーザN_aがユーザN_d,N_eにその電子メールを転送していることが分かる。
【0049】
図2に戻り、専門度算出部12は、各送信者の送信済の電子メールの転送経路をメールデータ取得部11により取得されたメールインデックスの通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する。
【0050】
ここで、専門度算出部12は、ある電子メールの送信者から当該電子メールを直接受信したユーザからなる階層を第1階層、第1階層のユーザから転送された電子メールを受信したユーザからなる階層を第2階層というようにして、各電子メールの転送経路を階層的に表し、階層が深くなるにつれて専門度を高く算出する。また、専門度算出部12は、電子メールの転送回数が増大するにつれて専門度を高く算出する。
【0051】
図4は、専門度の算出過程の説明図であり、(A)はある電子メールe1の転送経路を示し、(B)は専門度の大きさを示したグラフである。図4(A)の例では、電子メールe1の送信者N1は、本店の企画室に属しているユーザである。送信者N1はA支店の支店長室の代表ユーザであるユーザN_aと、B支店の支店長室の代表ユーザであるユーザN_bと、C支店の支店長室の代表ユーザであるユーザN_cとの3名のユーザに電子メールe1を直接送信している。電子メールe1が送信されたユーザN_aは、電子メールe1を転送する必要があると判断し、電子メールe1をA営業所の庶務課の代表ユーザであるユーザN_dと、B営業所の庶務課の代表ユーザであるユーザN_eとに転送している。
【0052】
ユーザN_dから電子メールe1が転送されたユーザN_dは、電子メールe1を転送する必要があると判断し、電子メールe1をA営業者の所員であるユーザN_A,N_B,N_Cに転送している。このように、電子メールe1の転送経路をたどっていくと、電子メールe1の転送経路は階層的に表される。そして、専門度算出部12は、図4(A)に示す転送経路において、送信者N1が属する階層を基準階層、送信者から直接電子メールe1を受信したユーザN_a、N_b、N_cが属する階層を第1階層、第1階層のユーザから転送された電子メールe1を受信したユーザが属する階層を第2階層、第2階層のユーザから転送された電子メールe1を受信したユーザが属する階層を第3階層、第(i−1)階層のユーザから転送された電子メールe1を受信したユーザが属する階層を第i階層というようにして階層を規定する。
【0053】
つまり、専門度算出部12は、図4(A)に示す転送経路において、送信者N1から離れるにつれて階層を増大させる。そして、専門度算出部12は、第1階層の転送深度を1、第2階層の階層深度を2というようにして転送深度を規定し、図4(B)に示すように、各階層の転送深度と、各階層での電子メールe1の転送回数との積を、電子メールe1の階層毎の専門度として算出する。
【0054】
図5は、図4(A)に示す転送経路において第1階層についての専門度の算出過程の説明図であり、(A)は図4(A)と同一の転送経路を示し、(B)は図4(A)の第1階層の専門度の算出過程を示したグラフである。
【0055】
図5(A)に示すように、送信者N1は、電子メールe1を3名のユーザN_a〜N_cに送信しているため、基準階層から第1階層への転送回数は3となる。また、ユーザN_a〜N_cは第1階層に属しており、第1階層の転送深度は1である。したがって、専門度算出部12は、図5(B)に示すように第1階層における専門度DV_1を、DV_1=1×3=3と算出する。
【0056】
図6は、図4(A)に示す転送経路において第2階層についての専門度の算出過程の説明図であり、(A)は図4(A)と同一の転送経路を示し、(B)は図4(A)の第2階層の専門度DV_2の算出過程を示したグラフである。
【0057】
図6(A)の例では、ユーザN_a,N_b,N_cは、それぞれ電子メールe1をユーザN_d,N_e等の2名のユーザに転送しているものとする。したがって、第1階層から第2階層への転送回数は2×3=6である。また、ユーザN_a,N_b,N_cから電子メールe1が転送された6名のユーザは第2階層に属しており、第2階層の転送深度は2である。したがって、専門度算出部12は、図6(B)に示すように、専門度DV_2を、DV_2=2×6=12と算出する。
【0058】
図7は、図4(A)に示す転送経路において第1階層〜第3階層のトータルの専門度の算出過程の説明図であり、(A)は図4(A)と同一の転送経路を示し、(B)は図4(A)の第1階層〜第3階層のトータルの専門度DVの算出過程を示したグラフである。
【0059】
図7(A)の例では、ユーザN_d,N_eは、それぞれ、電子メールe1を3名のユーザに転送しているものとする。したがって、第2階層から第3階層への転送回数は3×2=6である。また、ユーザN_d,N_eから電子メールe1が転送されたユーザは第3階層に属しており、第3階層の転送深度は3である。したがって、専門度算出部12は、第3階層の専門度DV_3を、DV_3=6×3=18と算出する。
【0060】
そして、専門度算出部12は、図7(B)に示すように、専門度DV_1,DV_2,DV_3の合計値である33(=3+12+18)を送信者Nの専門度DVとして算出する。
【0061】
このように、専門度算出部12は、第i−1階層から第i階層への転送回数と第i階層の転送深度であるiとの積を第i階層の専門度DV_iとして算出し、各階層の専門度DV_iの合計値を送信者Nの専門度として算出する。
【0062】
つまり、専門度算出部12は、式(1)を用いて専門度DVを算出する。
【0063】
DV=Σi=1lastDV_i (1)
DV_i=i・F(i)
但し、F(i)は第i−1階層から第i階層への転送回数を示し、lastは転送深度の最大値を示している。
【0064】
なお、専門度算出部12は、各階層の専門度の和からトータルの専門度を算出したが、これに限定されず、各階層の専門度の積からトータルの専門度を算出してもよい。こうすることで、送信者間での専門度の差をより顕在化させることができる。
【0065】
そして、専門度算出部12は、メールデータ取得部11により取得された電子メールe1のメールインデックスの電子メールの欄に格納されたデータから電子メールe1に含まれる単語を抽出し、抽出した各単語の専門度を、電子メールe1に対して算出した専門度DVを付与する。例えば、電子メールe1に単語W1〜W3が含まれており、電子メールe1の専門度がDV_e1と算出されたとすると、単語W1〜W3の専門度はそれぞれDV_e1と算出される。
【0066】
ここで、専門度算出部12は、ある送信者が複数の電子メールを送信し、かつ複数の電子メールにおいて同一の単語が使用されている場合、当該同一の単語について各電子メールで算出した専門度の合計値を、当該同一の単語についての送信者の専門度として算出すればよい。
【0067】
例えば、送信者Nが電子メールe1,e2を送信したとする。そして、電子メールe1,e2には共に単語W1が含まれていたとする。電子メールe1の専門度DV_e1がα_e1と算出され、電子メールe2の専門度DV_e2がα_e2と算出されたとする。この場合、専門度算出部12は、送信者Nの単語W1についての専門度α1を、α1=α_e1+α_e2と算出する。
【0068】
図8は、専門度算出部12が生成する専門度インデックスのデータ構造の一例を示す図である。図8に示すように専門度インデックスは、各ユーザに対して個別に生成される。図8の例では、ユーザN1、N2の専門度インデックスが示されている。
【0069】
専門度インデックスは、単語及び専門度の欄を備えている。単語の欄にはユーザが過去に送信した電子メールで使用した単語が記載されている。専門度の欄には単語の欄に記載された各単語の専門度が記載されている。
【0070】
例えば、ユーザN1は、電子メールにおいて単語W1〜W3を使用したため、単語の欄にはW1〜W3と記載されている。また、ユーザN1の単語W1〜W3の専門度はそれぞれα1,α2,α3と算出されたため、専門度の欄には、単語W1〜W3に対してα1,α2,α3の専門度が記載されている。
【0071】
また、ユーザN2は、電子メールにおいて単語W3〜W5を使用したため、ユーザN2の専門度インデックスの単語の欄にはW3〜W5と記載されている。また、ユーザN2の単語W3〜W5の専門度はそれぞれβ1,β2,β3と算出されたため、専門度の欄には、単語W3〜W5に対してβ1,β2,β3の専門度が記載されている。
【0072】
このように、専門度算出部12は、各ユーザが過去に送信した各電子メールについての専門度を算出し、算出した専門度を単語毎に分類し、単語毎に専門度の合計値を算出することで、図8に示す各ユーザの専門度インデックスを算出する。
【0073】
なお、上記説明では、電子メールe1に含まれる各単語に対して、各単語の頻度に関わらず一律に専門度DV_e1を付与するものとしたが、これに限定されず、各単語の頻度に応じて単語毎に専門度を個別に算出してもよい。
【0074】
この場合、専門度算出部12は、例えば電子メールe1に含まれる各単語の頻度ver_e1を求め、頻度ver_e1で専門度DV_e1を重み付けした値を各単語の専門度として設定すればよい。
【0075】
図2に戻り、スコア値算出部13は、文書サーバ3に記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出する。ここで、スコア値算出部13は、文書データの作成者が送信者に該当する場合、作成者の各文書データに含まれる各単語の頻度を、その作成者の対応する単語の専門度に応じて増大させることでスコア値を算出する。
【0076】
例えば、文書サーバ3にユーザN1の文書データD1が記憶されており、文書データD1には単語W1,W4が含まれており、単語W1の頻度がver_W1,単語W4の頻度がver_W4であったとする。
【0077】
一方、図8に示すユーザN1の専門度インデックスでは、単語W1の専門度がα1と算出され、単語W4の専門度は算出されていない。この場合、スコア値算出部13は、文書データD1における単語W1のスコア値SR_D1_W1を、SR_D1_W1=ver_W1×α1と算出し、文書データD1における単語W4のスコア値SR_D1_W4を、SR_D1_W4=ver_W4×1と算出する。ここで、専門度α1は、転送深度と転送回数との積によって得られるため、1以上の値を有する。したがって、スコア値SR_D1_W1は、頻度ver_W1が専門度α1に応じて増大される結果、専門度α1が増大するにつれて大きな値を有することになる。
【0078】
そして、スコア値算出部13は、文書サーバ3に記憶された各文書データについて、各単語のスコア値を算出し、図9に示すスコアインデックスを生成する。
【0079】
図9は、スコア値算出部13が算出するスコアインデックスのデータ構造の一例を示す図である。スコアインデックスは、文書データ毎に作成され、図9の例では、文書データD1,D2のスコアインデックスが示されている。図9に示すように、スコアインデックスは、文書名、作成者、単語、及びスコア値の欄を備えている。
【0080】
文書名の欄には、文書データの識別情報が格納され、本実施の形態では、文書データのファイル名が格納されている。作成者の欄には、文書データを作成したユーザの識別情報が格納され、本実施の形態では、ユーザ名が格納されている。単語の欄には、文書データに含まれる単語が格納されている。スコア値の欄には、単語の欄に格納された各単語に対してスコア値算出部13が算出したスコア値が格納されている。
【0081】
本実施の形態では、文書サーバ3が図10に示すように、各文書データの頻度インデックスを作成しており、スコア値算出部13は、文書サーバ3からこの頻度インデックスを、通信部17を介して取得することで、図9に示すスコアインデックスを作成している。こうすることで、検索装置1が文書サーバ3から文書データ自体を受信してスコアインデックスを作成する場合に比べて、文書サーバ3と検索装置1との間で送受されるデータ量を抑制することができる。
【0082】
図10は、文書サーバ3で生成される頻度インデックスのデータ構造の一例を示した図である。図10に示す頻度インデックスは、頻度の欄以外は図9に示すスコアインデックスと同一である。頻度インデックスの頻度の欄には、文書データに含まれる各単語の頻度が格納されている。ここで、頻度としては、例えば、文書データで単語が使用された回数を採用してもよいし、文書データで使用された回数が最大の単語に対する、各単語の使用回数の比を採用してもよい。
【0083】
図2に戻り、検索部14は、ユーザXにより端末装置2を用いて入力された検索単語を端末装置2から通信部17を介して取得し、取得した検索単語と同一の単語を含む文書データを文書サーバ3に記憶された文書データの中から抽出し、抽出した文書データを、当該同一の単語についてのスコア値が高い順でユーザXに報知するための報知情報を生成し、ユーザXの端末装置2に送信する。
【0084】
ここで、報知情報としては、検索した文書データのファイル名をスコア値の高い順でリスト表示するデータを報知情報として生成する。
【0085】
例えば検索単語として、単語W1がユーザXにより入力されたとする。この場合、検索部14は、通信部17を介して単語W1を取得し、図9に示すスコアインデックスを参照して、単語W1と同一の単語を含む文書データを抽出し、抽出した文書データのうち、単語W1に対するスコア値が高い所定数の文書データのファイル名をスコア値が高い順にリスト表示するHTMLデータを生成して、通信部17に渡す。そして、通信部17は、渡されたHTMLデータをユーザXの端末装置2に送信する。
【0086】
こうすることで、図18では、検索単語として、「csr 啓発活動」と入力した場合の文書データの検索リストにおいて、42位で表示されていた「月間CSR通信」の文書データを1位にリスト表示させる可能性を高めることができる。
【0087】
また、検索部14は、スコア値記憶部16に記憶されたスコアインデックスを参照することで、検索単語と同一の単語を含む文書データを抽出しているため、文書サーバ3に直接アクセスして検索単語と同一の単語を含む文書データを抽出するよりも、検索装置1及び文書サーバ3間で送受されるデータ量を低減することができる。
【0088】
図2に戻り、専門度記憶部15は、専門度算出部12により生成された専門度インデックス(図8参照)を記憶している。スコア値記憶部16は、スコア値算出部13により生成されたスコアインデックスを記憶(図9参照)している。
【0089】
通信部17は、ネットワークNTを流れるパケットが検索装置1宛のパケットであるかを判定し、検索装置1宛のパケットである場合はそのパケットから必要なデータを取り出し、そのデータを必要とするブロックに渡す。また、通信部17は、検索部14等からデータの送信依頼があるとそのデータを受け取って、TCP/IPの通信プロトコルに準拠したパケットを生成し、ネットワークNTに送信する。
【0090】
本実施の形態では、通信部17は、メールサーバ4から送信されたメールインデックス(図3参照)を受信すると、そのメールインデックスをメールデータ取得部11に渡す。また、通信部17は、文書サーバ3から送信された頻度インデックス(図10参照)を受信すると、その頻度インデックスをスコア値算出部13に渡す。また、通信部17は、端末装置2から検索単語を含む検索依頼を受信すると、その検索依頼を検索部14に渡す。また、通信部17は、検索部14から報知情報が渡されると、その報知情報を該当する端末装置2に送信する。
【0091】
図11は、図1に示す端末装置2のブロック図である。端末装置2は、操作部21、制御部22、表示部23、及び通信部24を備えている。操作部21は、キーボード及びマウス等の入力デバイスにより構成され、ユーザからの種々の操作指令を受け付ける。
【0092】
制御部22は、CPU、ROM、RAM、及びハードディスク等から構成され、操作部21を用いて入力されるユーザからの操作指令に従って、種々の処理を実行する。本実施の形態では、制御部22は、ユーザからの操作指令にしたがって、文書データを生成し、その文書データを文書サーバ3にアップロードする指令が入力されると、その文書データを通信部24に渡す。
【0093】
また、制御部22は、ユーザからの操作指令にしたがって、電子メールを生成し、その電子メールの送信指令が入力されると、その電子メールを通信部24に渡す。
【0094】
また、制御部22は、ユーザから検索単語が入力されて文書データの検索指令が入力されるとその検索単語を含む文書データの検索依頼を通信部24に渡す。
【0095】
表示部23は、液晶ディスプレイ、CRT、及びプラズマディスプレイ等の表示装置により構成されている。
【0096】
通信部24は、モデムやLANアダプタ等の通信モジュールにより構成されている。本実施の形態では、通信部24は、制御部22から文書データが渡されると、その文書データを文書サーバ3に送信する。また、通信部24は、制御部22から電子メールが渡されると、その電子メールをメールサーバ4に送信する。また、通信部24は、制御部22から検索依頼が渡されると、その検索依頼を検索装置1に送信する。
【0097】
図12は、図1に示す文書サーバ3のブロック図である。文書サーバ3は、通信部31、制御部32、及び文書データ記憶部33を備えている。通信部31は、モデムやLANアダプタ等の通信モジュールにより構成され、端末装置2からアップロードされた文書データを受信すると、その文書データを制御部32に渡す。また、通信部31は、制御部32から頻度インデックスが渡されると、その頻度インデックスを検索装置1に送信する。また、通信部31は、ある端末装置2から文書データの閲覧依頼を受信すると、その閲覧依頼を制御部32に渡す。
【0098】
制御部32は、CPU、ROM、及びRAM等から構成され、通信部31により受信されたアップロードされた文書データを文書データ記憶部33に記憶させる。また、制御部32は、通信部31によりある端末装置2からある文書データの閲覧依頼が渡されると、その文書データを文書データ記憶部33から読み出し、通信部31に渡し、その文書データを該当する端末装置2に送信する。
【0099】
また、制御部32は、文書データ記憶部33に記憶された各文書データについての頻度インデックス(図10参照)を生成し、その頻度インデックスを通信部31に渡し、その頻度インデックスを検索装置1に送信する。ここで、制御部32は、各文書データについて単語を抽出し、抽出した単語の使用回数をカウントすることで頻度インデックスを生成する。なお、制御部32は、文書データが日本語の文書データである場合、助詞や接続詞等を除く、主に名詞、動詞、形容詞、及び形容動詞等を単語として抽出すればよい。また、制御部32は、文書データが英語、フランス語、ドイツ語等の文書データである場合、定冠詞、冠詞、及び前置詞等を除く、主に、名詞、動詞、形容詞及び副詞等を単語として抽出すればよい。
【0100】
文書データ記憶部33は、ハードディスク等の記憶装置から構成され、ユーザによりアップロードされた文書データを記憶する。
【0101】
図13は、図1に示すメールサーバ4のブロック図である。メールサーバ4は、通信部41、制御部42、及びメールデータ記憶部43を備えている。通信部41は、モデムやLANアダプタ等の通信モジュールにより構成されている。
【0102】
制御部42は、CPU、ROM、及びRAM等から構成され、通信部41によりある端末装置2から送信された電子メールが受信されると、その電子メールをメールデータ記憶部43に記憶させると共に、その電子メールの宛先のユーザの端末装置2に電子メールの受信通知を通信部41に渡し、その受信通知を宛先のユーザの端末装置2に送信する。
【0103】
また、制御部42は、電子メールの宛先のユーザの端末装置2から電子メールの受信依頼が通信部41で受信されると、その電子メールを通信部41に渡し、その電子メールをその宛先のユーザの端末装置2に送信する。
【0104】
また、制御部42は、電子メールのヘッダー部に含まれるデータから、電子メールの識別情報、送信者、受信者、及び送信時刻を特定すると共に、宛先のユーザの端末装置2からの電子メールの受信依頼の受信時刻から電子メールの受信時刻を特定し、特定したこれらのデータから図3に示すメールインデックスを生成し、メールデータ記憶部43に記憶する。また、制御部42は、生成したメールインデックスを必要に応じて通信部41に渡し、検索装置1に送信する。
【0105】
メールデータ記憶部43は、ハードディスク等の記憶装置により構成され、電子メール及びメールインデックスを記憶する。
【0106】
図14及び図15は、検索装置1がスコア値を算出する際の検索システムの処理を示したフローチャートである。まず、検索装置1は、所定時刻に到達すると(ステップS11でYES)、メールインデックスの送信依頼をメールサーバ4に送信する(ステップS12)。ここで、所定時刻としては、スコア値が1日毎に算出される場合は0時等のある時刻が採用され、スコア値が1週毎に算出される場合は毎週日曜日の0時等のある曜日のある時刻が採用され、スコア値が1月毎に算出される場合は毎月25日の9時等のある日のある時刻が採用される。なお、スコア値の算出間隔は、1日、1週、1月に限定されず、2月、6月等、適宜好適な間隔を採用すればよい。
【0107】
なお、ステップS11で所定時刻に到達していない場合(ステップS11でNO)、処理がステップS11に戻される。
【0108】
メールサーバ4は、メールインデックスの送信依頼を受信すると(ステップS1)、メールデータ記憶部43に記憶され、予め生成しておいたメールインデックスを検索装置1に送信する(ステップS2)。ここで、メールサーバ4は、未送信のメールインデックスのみを検索装置1に送信する、つまり、メールインデックスの差分データを検索装置1に送信すればよい。
【0109】
検索装置1は、メールインデックスを受信すると(ステップS13)、各電子メールのメールインデックスに格納された通信履歴から、各電子メールの転送経路を特定する(ステップS14)。
【0110】
図3の通信履歴の例では、送信元の送信者がユーザN1であり、ユーザN1はユーザN_a,N_b,N_cに電子メールを転送しており、ユーザN_aは、ユーザN_d,N_eに電子メールを転送している。したがって、検索装置1は、ユーザN1を基準階層、ユーザN_a,N_b,N_cを第1階層、ユーザN_d,N_eを第2階層とする転送経路を生成する。
【0111】
次に、検索装置1は、各電子メールについて特定した転送経路から各電子メールの専門度を算出する(ステップS15)。次に、検索装置1は、各電子メールについて、単語を抽出し、ステップS15で算出した専門度を抽出した各単語の専門度として算出する(ステップS16)。
【0112】
次に、検索装置1は、ステップS16で算出した各電子メールについて算出した各単語の専門度を、送信者別に分類することで専門度インデックス(図8参照)を生成する(ステップS17)。この場合、検索装置1は、同一の送信者が複数の電子メールを送信している場合において、複数の電子メールに同一の単語が含まれている場合は、これら同一の単語の専門度を合算することで、各送信者の各単語に対する専門度を算出する。
【0113】
次に、検索装置1は、文書サーバ3に頻度インデックスの送信依頼を送信する(ステップS18)。文書サーバ3は、頻度インデックスの送信依頼を受信すると(ステップS31)、文書データ記憶部33に記憶された各文書データから作成者及び単語を抽出し、抽出した単語の各文書データにおける頻度を求め、各文書データに対する頻度インデックス(図10参照)を生成する(ステップS32)。この場合、文書サーバ3は、頻度インデックスを既に生成した文書データがある場合、その文書データについては頻度インデックスを生成せず、頻度インデックスが未生成の文書データについてのみ頻度インデックスを生成すればよい。
【0114】
次に、文書サーバ3は、ステップS32で生成した頻度インデックスを検索装置1に送信する(ステップS33)。
【0115】
検索装置1は、頻度インデックスを受信すると(ステップS19)、受信した頻度インデックスと、ステップS17で生成した専門度インデックスとを用いて、各文書データについて、各単語のスコア値を算出し、スコアインデックス(図9参照)を生成する(ステップS20)。この場合、検索装置1は、スコアインデックスが未生成の文書データについてのみスコアインデックスを生成すればよい。また、スコア値が算出された文書データであっても、その文書データの作成者の専門度が変更された場合は、その文書データの各単語の専門度を再度算出してもよい。これにより、最新の専門度が反映されたスコア値を持つスコアインデックスを算出することができる。
【0116】
次に、検索装置1は、ステップS20で生成したスコアインデックスをスコア値記憶部16に記憶させる(ステップS21)。
【0117】
図16は、文書データの検索時における検索システムの処理を示したフローチャートである。まず、あるユーザXの端末装置2_Xは、ユーザXにより検索単語が入力され、ユーザXから検索単語を含む文書データの検索指令が入力されると(ステップS51でYES)、検索依頼を検索装置1に送信する(ステップS52)。
【0118】
一方、ステップS51において、検索指令が入力されない場合(ステップS51でNO)、処理がステップS51に戻される。
【0119】
検索装置1は、検索依頼を受信すると(ステップS61)、スコア値記憶部16に記憶されたスコアインデックスを参照することで、検索依頼に含まれる検索単語を含む文書データを抽出する(ステップS62)。
【0120】
次に、検索装置1は、抽出した文書データのうち、検索単語に対するスコア値が高い順で所定数の文書データを更に抽出し、抽出した所定数の文書データのファイル名、作成者及びリンク先等を、検索単語に対するスコア値が高い順でリスト表示するための報知情報を生成する(ステップS63)。
【0121】
次に、検索装置1は、ステップS63で生成した報知情報を端末装置2_Xに送信する(ステップS64)。端末装置2_Xは報知情報を受信すると(ステップS53)、報知情報にしたがって、文書データのファイル名等がリスト表示された画像を表示部23に表示する(ステップS54)。
【0122】
これにより、ユーザXが入力した検索単語について専門性の高いユーザが作成した文書データが上位にランキングされた検索結果をユーザXに提供することができる。
【0123】
次に、端末装置2_XはユーザXからリスト表示された画像において、いずれかの文書データの欄がクリックされ、その文書データの閲覧指示を受け付けると(ステップS55でYES)、閲覧指示を文書サーバ3に送信する(ステップS56)。一方、閲覧指示が入力されない場合(ステップS55でNO)、処理がステップS55に戻される。
【0124】
文書サーバ3は、閲覧指示を受信すると(ステップS41)、ユーザXが閲覧を希望する文書データを端末装置2_Xに送信する(ステップS42)。
【0125】
端末装置2_Xは文書データを受信すると(ステップS57)、その文書データを表示部23に表示する(ステップS58)。これにより、ユーザXは、検索単語について所望する内容が記載された文書データを容易に閲覧することができる。
【0126】
図17は、図1に示す検索システムの処理のまとめた図である。まず、ステップST1において、CSRの担当者である送信者N1がCSRの単語を含む電子メールe1を送信している。以下、CSRの単語に対する送信者N1の専門度が33と算出されたとする。また、送信者N1はCSRの単語を含む文書データD1を作成し、文書サーバ3にアップロードしている(ステップST2)。したがって、送信者N1の文書データD1に含まれるCSRの単語のスコア値は頻度が33倍された値となる(ステップST3)。
【0127】
一方、ユーザN_AはCSRの単語を含む文書データD2を作成し、文書サーバ3にアップロードし(ステップST4)、電子メールe1を転送している(ステップST5)。
【0128】
しかしながら、ユーザN_Aは電子メールe1の送信者ではないため、文書データD2に含まれるCSRの単語のスコア値は頻度×1と算出され、スコアインデックスに格納される(ステップST6)。
【0129】
したがって、CSRが検索単語として入力された場合、CSRの担当者により作成された文書データD1がCSRの担当者でないユーザにより作成された文書データD2よりも上位にランキングされた検索結果が得られる(ステップST7)。
【0130】
このように、送信者の送信済の電子メールの転送経路に基づいて、送信者が電子メールで使用した各単語の専門度が算出され、その専門度を用いてスコア値が算出されているため、検索単語について専門性が高いユーザによって作成された文書データが検索結果の上位にランキングさせることが可能となる。
【符号の説明】
【0131】
1 検索装置
2 端末装置
3 文書サーバ
4 メールサーバ
11 メールデータ取得部
12 専門度算出部
13 スコア値算出部
14 検索部
15 専門度記憶部
16 スコア値記憶部
17 通信部
DV 専門度
NT ネットワーク
【技術分野】
【0001】
本発明は、文書データを検索する技術に関するものである。
【背景技術】
【0002】
近年、社内LAN等においては、各ユーザが作成した文書データを文書サーバにアップロードさせて文書データを社内LAN上で公開し、各ユーザが自身の端末装置から文書サーバに記憶された文書データを自由に閲覧することができるシステムが導入されている。また、公開されている文書データの数が膨大になると、各ユーザが所望の文書データを見つけ出すことが困難となる。そこで、近年、自身の端末装置に希望する文書データに関連する単語を各ユーザに入力させ、その単語が使用された文書データを文書サーバから検索し、検索結果をユーザの端末装置に送信する検索装置も導入されている。
【0003】
この場合、検索装置は、文書サーバに記憶されている各文書データに含まれる各単語を分析し、各単語に対する各文書データにおけるスコア値を予め算出しておく。そして、検索装置は、検索者から単語が入力されるとその単語が使用されている文書データのファイル名を、その単語についてのスコア値が高い順でリスト表示した画像をユーザの端末装置に表示させる。そして、ユーザは閲覧を希望する文書データの欄をクリックすると、その文書データがユーザの端末装置にダウンロードされ、ユーザはその文書データを閲覧することができる。このような検索装置として、例えば特許文献1にはサーバの検索履歴に基づいて検索候補を生成するものが開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2010−198577号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
以下、従来の検索装置による問題点について説明する。図18〜図20は従来の検索装置の問題点を説明する図である。例えば、あるユーザが「CSRにおける啓発活動」に関連する文書データを閲覧したい場合を考える。
【0006】
この場合、ユーザは、図18の右上の単語入力欄R1に検索する単語である「csr 啓発活動」として入力して、単語入力欄R1の右隣の検索開始ボタンB1をクリックする。すると、図18に示すように、スコア値の高い順で、文書データのファイル名と、文書データのリンク先と、文書データの作成者とがリスト表示された検索結果の画像がユーザの端末装置に表示される。
【0007】
そして、図18において、ユーザが1位の文書データである最上位の文書データの欄をクリックすると、1位の文書データがユーザの端末装置にダウンロードされる。ここで、1位の文書データを閲覧すると、確かに「csr」及び「啓発活動」の単語が含まれていたが、「csr」の「啓発活動」について詳しい内容を示した文書データではなく、検索者が望む文書データではなかった。
【0008】
一方、図18に示す検索結果の画面を下方にスクロールすると、図19に示す42位において、「csr」に関連した文書データがランキングされていることが分かる。そして、この文書データの欄をクリックし、この文書データ閲覧すると、CSRの啓発活動について詳しい内容が記載され、検索者が望む文書データであった。
【0009】
図20は、図19の検索結果を分析した図である。図20に示すように、42位にランキングされた文書データの作成者は(△△△△)であり、この作成者は、「CSRグループ」に所属していることが分かった。したがって、文書データに含まれる単語のみではなく、文書データの作成者やその作成者が所属する部署等を考慮に入れてスコア値を算出することができれば、この42位にランキングされた文書データをより高い順位にランキングさせて、検索者が望む文書データを上位にランキングすることが可能となる。
【0010】
本発明の目的は、文書データに含まれる単語以外の要素を考慮することで、検索者が本当に望む文書データを検索結果の上位にランキングすることができる検索装置等を提供することである。
【課題を解決するための手段】
【0011】
(1)本発明による検索装置は、送信済の電子メールを記憶するメールサーバと、ユーザが使用する端末装置と、所定のネットワーク上で公開される文書データを記憶する文書サーバとのそれぞれに対して前記ネットワークを介して接続された検索装置であって、前記メールサーバは、送信済の電子メールと各電子メールの通信履歴と併せて記憶し、前記検索装置は、前記メールサーバから送信済の電子メールを前記通信履歴と併せて取得するメールデータ取得部と、各送信者の送信済の電子メールの転送経路を前記通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する専門度算出部と、前記文書サーバに記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出するスコア値算出部と、ユーザにより前記端末装置を用いて入力された検索単語を前記端末装置から取得し、取得した検索単語と同一の単語を含む文書データを前記文書サーバに記憶された文書データの中から抽出し、抽出した文書データを、当該同一の単語についての前記スコア値が高い順で前記ユーザに報知するための報知情報を生成し、前記ユーザの端末装置に送信する検索部とを備え、前記スコア値算出部は、前記文書データの作成者が前記送信者に該当する場合、前記作成者の各文書データに含まれる各単語の頻度を、前記作成者の対応する単語の専門度に応じて増大させることで前記スコア値を算出する。
【0012】
また、本発明による検索プログラムは、送信済の電子メールを記憶するメールサーバと、ユーザが使用する端末装置と、所定のネットワーク上で公開される文書データを記憶する文書サーバとのそれぞれに対して前記ネットワークを介して接続された検索装置としてコンピュータを機能させる検索プログラムであって、前記メールサーバは、送信済の電子メールと各電子メールの通信履歴と併せて記憶し、前記検索プログラムは、前記メールサーバから送信済の電子メールを前記通信履歴と併せて取得するメールデータ取得部と、各送信者の送信済の電子メールの転送経路を前記通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する専門度算出部と、前記文書サーバに記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出するスコア値算出部と、ユーザにより前記端末装置を用いて入力された検索単語を前記端末装置から取得し、取得した検索単語と同一の単語を含む文書データを前記文書サーバの中から検索し、検索した文書データを、前記スコア値が高い順で前記ユーザに報知するための報知情報を生成し、前記ユーザの端末装置に送信する検索部としてコンピュータを機能させ、前記スコア値算出部は、各文書データの作成者が前記送信者に該当する場合、前記作成者の各文書データに含まれる各単語の頻度を、前記作成者の対応する単語の専門度で重み付けすることで前記スコア値を算出する。
【0013】
本発明による検索方法は、送信済の電子メールを記憶するメールサーバと、ユーザが使用する端末装置と、所定のネットワーク上で公開される文書データを記憶する文書サーバとのそれぞれに対して前記ネットワークを介して接続された検索装置を用いた検索方法であって、前記メールサーバは、送信済の電子メールと各電子メールの通信履歴と併せて記憶し、前記検索装置が、前記メールサーバから送信済の電子メールを前記通信履歴と併せて取得するメールデータ取得ステップと、前記検索装置が、各送信者の送信済の電子メールの転送経路を前記通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する専門度算出ステップと、前記検索装置が、前記文書サーバに記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出するスコア値算出ステップと、前記検索装置が、ユーザにより前記端末装置を用いて入力された検索単語を前記端末装置から取得し、取得した検索単語と同一の単語を含む文書データを前記文書サーバの中から検索し、検索した文書データを、前記スコア値が高い順で前記ユーザに報知するための報知情報を生成し、前記ユーザの端末装置に送信する検索ステップとを備え、前記スコア値算出ステップは、各文書データの作成者が前記送信者に該当する場合、前記作成者の各文書データに含まれる各単語の頻度を、前記作成者の対応する単語の専門度で重み付けすることで前記スコア値を算出する。
【0014】
この構成によれば、送信者の送信済の電子メールの転送経路に基づいて、送信者が電子メールで使用した各単語の専門度が算出される。一般的に、ある事柄について専門性の高いユーザであるキーパーソンが送信者となって送信した電子メールには、その事柄についてのキーワードが多く含まれている。また、キーパーソンが作成した電子メールは重要度が高いため、多くのユーザによって転送される傾向にある。よって、転送経路の規模からその電子メールの送信者がキーパーソンであるか否かを推定することができる。そこで、本発明では、電子メールの送信者が自身の電子メールで使用した各単語についての専門度をその電子メールの転送経路にしたがって算出している。
【0015】
一方、文書サーバには種々の作成者によって作成された文書データが記憶されており、各文書データに含まれる各単語は基本的には頻度に基づいてスコア値が規定されている。そこで、本発明では、文書データの作成者が電子メールの送信者に該当する場合は、文書データに含まれる各単語の頻度を、その送信者の対応する単語の専門度に応じて増大させている。
【0016】
よって、ユーザにより検索単語が入力された場合、単にその検索単語の頻度が高い文書データではなく、その検索単語について専門性の高いユーザが作成した文書データのスコア値が高くなる可能性が高くなる。
【0017】
これにより、検索単語について専門性が高いユーザによって作成された文書データが報知情報の上位にランキングさせることが可能となる。したがって、検索単語を入力したユーザは、検索単語について詳しい内容が記載された自身が本当に閲覧したい文書データを容易にアクセスすることができる。
【0018】
(2)前記専門度算出部は、ある電子メールの送信者から当該電子メールを直接受信したユーザからなる階層を第1階層、前記第1階層のユーザから転送された前記電子メールを受信したユーザからなる階層を第2階層というようにして、各電子メールの転送経路を階層的に表し、階層が深くなるにつれて前記専門度を高く算出することが好ましい。
【0019】
一般的に、キーパーソンにより作成された重要度の高い電子メールは、会社のようなピラミット状の組織構造を有する組織においては、まず、キーパーソンから組織を構成する複数の部の代表者に送信され、各部の代表者から各部に属する複数の課の代表者に送信され、各課の代表者から各課の関連する構成員に送信されるというように、多重階層的に送信される傾向にある。よって、階層数が増大するほど、その電子メールは、キーパーソンにより作成された電子メールである可能性が高くなる。そこで、本発明では、階層が深くなるほど専門度を高く算出している。これにより、電子メールの作成者がその電子メールで使用した単語についてどの程度の専門性を有しているのかを正確に推定し、専門度に反映させることができる。
【0020】
(3)前記専門度算出部は、前記電子メールの転送回数が増大するにつれて前記専門度を高く算出することが好ましい。
【0021】
一般的に、キーパーソンにより作成された重要度の高い電子メールは、各転送者によって多数のユーザに転送される傾向にある。そこで、本発明では、転送回数が増大するほど専門度を高く算出することで、電子メールの作成者がその電子メールで使用した単語についての専門性を正確に推定し、専門度に反映させることができる。
【0022】
(4)前記専門度算出部は、ある電子メールについて、前記階層の深さを示す転送深度と、各階層での1つ上位の階層からの前記電子メールの転送回数との積を、前記電子メールの階層毎の専門度として算出し、算出した階層毎の専門度の和又は積を、前記電子メールに含まれる各単語の専門度として算出することが好ましい。
【0023】
この構成によれば、転送深度と転送回数との積が増大するほど専門度が高く算出されるため、転送経路の規模が大きいほど専門度が高くなるように専門度を算出することができる。
【0024】
(5)前記専門度算出部は、ある送信者が複数の電子メールを送信し、かつ前記複数の電子メールにおいて同一の単語が使用されている場合、当該同一の単語について各電子メールで算出した専門度の合計値を、当該同一の単語についての前記送信者の専門度として算出することが好ましい。
【0025】
この構成によれば、送信者がある単語を複数の電子メールで使用している場合において、この単語の専門度を正確に算出することができる。
【0026】
(6)前記検索部は、検索した文書データのファイル名を前記スコア値の高い順でリスト表示するデータを前記報知情報として生成することが好ましい。
【0027】
この構成によれば、文書データのファイル名がスコア値の高い順でリスト表示された画像が端末装置に表示されるため、ユーザは一目でスコア値の高い文書データを認識することができる。
【発明の効果】
【0028】
本発明によれば、電子メールの転送経路から送信者の各単語についての専門度が算出され、その専門度が高いほど文書データの各単語のスコア値が増大されているため、検索者が望む文書データを検索結果の上位にランキングさせることができる。
【図面の簡単な説明】
【0029】
【図1】本発明の実施の形態による検索装置が適用された検索システムの全体構成図である。
【図2】図1に示す検索装置のブロック図である。
【図3】メールインデックスのデータ構造の一例を示した図である。
【図4】専門度の算出過程の説明図である。
【図5】図4(A)に示す転送経路において第1階層についての専門度の算出過程の説明図である。
【図6】図4(A)に示す転送経路において第2階層についての専門度の算出過程の説明図である。
【図7】図4(A)に示す転送経路において第3階層についての専門度の算出過程の説明図である。
【図8】専門度算出部が生成する専門度インデックスのデータ構造の一例を示す図である。
【図9】スコア値算出部が算出するスコアインデックスのデータ構造の一例を示す図である。
【図10】文書サーバで生成される頻度インデックスのデータ構造の一例を示した図である。
【図11】図1に示す端末装置のブロック図である。
【図12】図1に示す文書サーバのブロック図である。
【図13】図1に示すメールサーバのブロック図である。
【図14】検索装置がスコア値を算出する際の検索システムの処理を示したフローチャートである。
【図15】検索装置がスコア値を算出する際の検索システムの処理を示したフローチャートである。
【図16】文書データの検索時における検索システムの処理を示したフローチャートである。
【図17】図1に示す検索システムの処理のまとめた図である。
【図18】従来の検索装置の問題点を説明する図である。
【図19】従来の検索装置の問題点を説明する図である。
【図20】従来の検索装置の問題点を説明する図である。
【発明を実施するための形態】
【0030】
図1は、本発明の実施の形態による検索装置が適用された検索システムの全体構成図である。図1に示す検索システムは、検索装置1、1又は複数の端末装置2、文書サーバ3、及びメールサーバ4を備えている。検索装置1〜メールサーバ4は所定のネットワークNTを介して相互に通信可能に接続されている。
【0031】
本実施の形態では、ネットワークNTとしては、ある会社の社内通信網を採用することができ、例えば、TCP/IPの通信プロトコルを用いて種々のデータが伝送される。社内通信網としては、例えば、本社のLAN、各支店のLAN、各営業所のLAN、及び各研究所のLAN等をX.25やVPN等の専用線を介して相互に接続した通信網が採用される。したがって、ネットワークNTとしては、インターネットのようなグローバルネットワークではなく、プライベートネットワークを想定している。
【0032】
端末装置2は、通信機能を備える一般的なコンピュータから構成され、本検索システムが適用された会社の構成員であるユーザによって所持され、各ユーザからの操作にしたがって種々の文書データを作成する。作成された文書データは、ユーザの指示の下、必要に応じて文書サーバ3にアップロードされる。また、端末装置2は、ユーザによりある検索単語に関連する文書データの検索指令が入力されると、当該単語に関連する文書データを検索装置1に検索させるための検索依頼を検索装置1に送信する。また、端末装置2は、ユーザの操作に従って別のユーザ宛の電子メールを作成し、作成した電子メールを、メールサーバ4を介して当該別のユーザの端末装置2に送信する。
【0033】
検索装置1は、通信機能を備える一般的なコンピュータから構成され、端末装置2から検索依頼を受信すると、文書サーバ3に記憶された文書データのうち、検索依頼に含まれる検索単語を含む文書データを探索し、検索結果をユーザの端末装置に表示させる。
【0034】
文書サーバ3は、通信機能を備える一般的なコンピュータから構成され、各端末装置2からアップロードされた文書データを記憶し、ある端末装置2から文書データの閲覧要求を受け付けると、当該文書データをその端末装置2にダウンロードする。
【0035】
メールサーバ4は、通信機能を備える一般的なコンピュータから構成され、ある端末装置2から電子メールが送信されると、当該電子メールを記憶し、当該電子メールの送信先のユーザの端末装置2に当該電子メールを送信する。
【0036】
図2は、図1に示す検索装置1のブロック図である。検索装置1は、メールデータ取得部11、専門度算出部12、スコア値算出部13、検索部14、専門度記憶部15、スコア値記憶部16、及び通信部17を備えている。これらの各ブロックは、コンピュータを検索装置として機能させるための検索プログラムをCPUが実行することで実現される。
【0037】
なお、検索プログラムは、DVD−ROM等のコンピュータ読み取り可能な記録媒体に記録されて市場に流通され、検索装置1の管理者にこの記録媒体を購入させることで、管理者に提供される。或いは、インターネットのWebサーバ上にこの検索プログラムを格納しておき、この検索プログラムをダウンロードさせることで、この検索プログラムを検索装置1の管理者に提供してもよい。
【0038】
図2において、メールデータ取得部11〜検索部14は、主にCPUにより構成され、専門度記憶部15、16は、主にHDD(Hard Disk Drive)等の大容量の記憶装置により構成され、通信部17は、モデムやLANアダプタ等の通信モジュールにより構成される。
【0039】
メールデータ取得部11は、メールサーバ4から送信済の電子メールを当該電子メールの通信履歴と併せて取得する。ここで、通信履歴とは、電子メールの送信者がどのユーザに電子メールを送信し、その電子メールを受信したユーザがどのユーザに電子メールを転送したかを示すデータである。
【0040】
本実施の形態では、メールデータ取得部11は、図3に示すメールインデックスをメールサーバ4から通信部17を介して取得する。図3は、メールインデックスのデータ構造の一例を示した図である。図3に示すメールインデックスは、一通の電子メール毎に作成され、メール名、送信者、電子メール、及び通信履歴の欄を備えている。
【0041】
メール名の欄には、メールを識別するための識別情報が格納され、本実施の形態では、例えば、メールのタイトルと送信時刻との組からなるデータが格納されている。例えば、メールのタイトルが「csrについて」であり、送信時刻が2010年9月1日13時140分30秒であれば、「csrについて:2010:09:01:13:40:30」が識別情報として採用される。
【0042】
送信者の欄には、メールの送信者の識別情報が記載され、本実施の形態では、メールの送信者の名前や社員番号が格納されている。電子メールの欄には、電子メールのタイトル及び本文データが格納されている。なお、電子メールに添付ファイルが存在する場合は、その添付ファイルも格納されている。
【0043】
通信履歴の欄には、電子メールの通信履歴が格納され、送信時刻、送信者、受信者、及び受信時刻の欄が含まれている。送信時刻の欄には、送信者が電子メールを送信した時刻、送信者から電子メールを受信したユーザが送信者(転送者)となってその電子メールを転送した時刻及び、転送された電子メールを受信したユーザが更に送信者(転送者)となってその電子メールを転送した時刻が時系列で格納されている。
【0044】
送信者の欄には、電子メールの送信者、送信者からの電子メールを転送した転送者、及び転送された電子メールを更に転送した転送者の識別情報が格納されている。
【0045】
受信者の欄には、送信元である送信者から電子メールを直接受信した受信者、及び転送者から電子メールを受信した受信者の識別情報が格納されている。
【0046】
受信時刻の欄には、受信者の欄に格納された各受信者が電子メールを受信した時刻が格納されている。
【0047】
図3の例では、送信者の欄の1行目にN1が格納され、受信者の欄の1行目にN_a,N_b,N_cが格納されているため、ユーザN1が送信者となってユーザN_a,N_b,N_cに電子メールを送信したことが分かる。
【0048】
また、送信者の欄の2行目にN_aが格納され、受信者の欄の2行目にN_d,N_eが格納されているため、ユーザN1から電子メールを受信したユーザN_aがユーザN_d,N_eにその電子メールを転送していることが分かる。
【0049】
図2に戻り、専門度算出部12は、各送信者の送信済の電子メールの転送経路をメールデータ取得部11により取得されたメールインデックスの通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する。
【0050】
ここで、専門度算出部12は、ある電子メールの送信者から当該電子メールを直接受信したユーザからなる階層を第1階層、第1階層のユーザから転送された電子メールを受信したユーザからなる階層を第2階層というようにして、各電子メールの転送経路を階層的に表し、階層が深くなるにつれて専門度を高く算出する。また、専門度算出部12は、電子メールの転送回数が増大するにつれて専門度を高く算出する。
【0051】
図4は、専門度の算出過程の説明図であり、(A)はある電子メールe1の転送経路を示し、(B)は専門度の大きさを示したグラフである。図4(A)の例では、電子メールe1の送信者N1は、本店の企画室に属しているユーザである。送信者N1はA支店の支店長室の代表ユーザであるユーザN_aと、B支店の支店長室の代表ユーザであるユーザN_bと、C支店の支店長室の代表ユーザであるユーザN_cとの3名のユーザに電子メールe1を直接送信している。電子メールe1が送信されたユーザN_aは、電子メールe1を転送する必要があると判断し、電子メールe1をA営業所の庶務課の代表ユーザであるユーザN_dと、B営業所の庶務課の代表ユーザであるユーザN_eとに転送している。
【0052】
ユーザN_dから電子メールe1が転送されたユーザN_dは、電子メールe1を転送する必要があると判断し、電子メールe1をA営業者の所員であるユーザN_A,N_B,N_Cに転送している。このように、電子メールe1の転送経路をたどっていくと、電子メールe1の転送経路は階層的に表される。そして、専門度算出部12は、図4(A)に示す転送経路において、送信者N1が属する階層を基準階層、送信者から直接電子メールe1を受信したユーザN_a、N_b、N_cが属する階層を第1階層、第1階層のユーザから転送された電子メールe1を受信したユーザが属する階層を第2階層、第2階層のユーザから転送された電子メールe1を受信したユーザが属する階層を第3階層、第(i−1)階層のユーザから転送された電子メールe1を受信したユーザが属する階層を第i階層というようにして階層を規定する。
【0053】
つまり、専門度算出部12は、図4(A)に示す転送経路において、送信者N1から離れるにつれて階層を増大させる。そして、専門度算出部12は、第1階層の転送深度を1、第2階層の階層深度を2というようにして転送深度を規定し、図4(B)に示すように、各階層の転送深度と、各階層での電子メールe1の転送回数との積を、電子メールe1の階層毎の専門度として算出する。
【0054】
図5は、図4(A)に示す転送経路において第1階層についての専門度の算出過程の説明図であり、(A)は図4(A)と同一の転送経路を示し、(B)は図4(A)の第1階層の専門度の算出過程を示したグラフである。
【0055】
図5(A)に示すように、送信者N1は、電子メールe1を3名のユーザN_a〜N_cに送信しているため、基準階層から第1階層への転送回数は3となる。また、ユーザN_a〜N_cは第1階層に属しており、第1階層の転送深度は1である。したがって、専門度算出部12は、図5(B)に示すように第1階層における専門度DV_1を、DV_1=1×3=3と算出する。
【0056】
図6は、図4(A)に示す転送経路において第2階層についての専門度の算出過程の説明図であり、(A)は図4(A)と同一の転送経路を示し、(B)は図4(A)の第2階層の専門度DV_2の算出過程を示したグラフである。
【0057】
図6(A)の例では、ユーザN_a,N_b,N_cは、それぞれ電子メールe1をユーザN_d,N_e等の2名のユーザに転送しているものとする。したがって、第1階層から第2階層への転送回数は2×3=6である。また、ユーザN_a,N_b,N_cから電子メールe1が転送された6名のユーザは第2階層に属しており、第2階層の転送深度は2である。したがって、専門度算出部12は、図6(B)に示すように、専門度DV_2を、DV_2=2×6=12と算出する。
【0058】
図7は、図4(A)に示す転送経路において第1階層〜第3階層のトータルの専門度の算出過程の説明図であり、(A)は図4(A)と同一の転送経路を示し、(B)は図4(A)の第1階層〜第3階層のトータルの専門度DVの算出過程を示したグラフである。
【0059】
図7(A)の例では、ユーザN_d,N_eは、それぞれ、電子メールe1を3名のユーザに転送しているものとする。したがって、第2階層から第3階層への転送回数は3×2=6である。また、ユーザN_d,N_eから電子メールe1が転送されたユーザは第3階層に属しており、第3階層の転送深度は3である。したがって、専門度算出部12は、第3階層の専門度DV_3を、DV_3=6×3=18と算出する。
【0060】
そして、専門度算出部12は、図7(B)に示すように、専門度DV_1,DV_2,DV_3の合計値である33(=3+12+18)を送信者Nの専門度DVとして算出する。
【0061】
このように、専門度算出部12は、第i−1階層から第i階層への転送回数と第i階層の転送深度であるiとの積を第i階層の専門度DV_iとして算出し、各階層の専門度DV_iの合計値を送信者Nの専門度として算出する。
【0062】
つまり、専門度算出部12は、式(1)を用いて専門度DVを算出する。
【0063】
DV=Σi=1lastDV_i (1)
DV_i=i・F(i)
但し、F(i)は第i−1階層から第i階層への転送回数を示し、lastは転送深度の最大値を示している。
【0064】
なお、専門度算出部12は、各階層の専門度の和からトータルの専門度を算出したが、これに限定されず、各階層の専門度の積からトータルの専門度を算出してもよい。こうすることで、送信者間での専門度の差をより顕在化させることができる。
【0065】
そして、専門度算出部12は、メールデータ取得部11により取得された電子メールe1のメールインデックスの電子メールの欄に格納されたデータから電子メールe1に含まれる単語を抽出し、抽出した各単語の専門度を、電子メールe1に対して算出した専門度DVを付与する。例えば、電子メールe1に単語W1〜W3が含まれており、電子メールe1の専門度がDV_e1と算出されたとすると、単語W1〜W3の専門度はそれぞれDV_e1と算出される。
【0066】
ここで、専門度算出部12は、ある送信者が複数の電子メールを送信し、かつ複数の電子メールにおいて同一の単語が使用されている場合、当該同一の単語について各電子メールで算出した専門度の合計値を、当該同一の単語についての送信者の専門度として算出すればよい。
【0067】
例えば、送信者Nが電子メールe1,e2を送信したとする。そして、電子メールe1,e2には共に単語W1が含まれていたとする。電子メールe1の専門度DV_e1がα_e1と算出され、電子メールe2の専門度DV_e2がα_e2と算出されたとする。この場合、専門度算出部12は、送信者Nの単語W1についての専門度α1を、α1=α_e1+α_e2と算出する。
【0068】
図8は、専門度算出部12が生成する専門度インデックスのデータ構造の一例を示す図である。図8に示すように専門度インデックスは、各ユーザに対して個別に生成される。図8の例では、ユーザN1、N2の専門度インデックスが示されている。
【0069】
専門度インデックスは、単語及び専門度の欄を備えている。単語の欄にはユーザが過去に送信した電子メールで使用した単語が記載されている。専門度の欄には単語の欄に記載された各単語の専門度が記載されている。
【0070】
例えば、ユーザN1は、電子メールにおいて単語W1〜W3を使用したため、単語の欄にはW1〜W3と記載されている。また、ユーザN1の単語W1〜W3の専門度はそれぞれα1,α2,α3と算出されたため、専門度の欄には、単語W1〜W3に対してα1,α2,α3の専門度が記載されている。
【0071】
また、ユーザN2は、電子メールにおいて単語W3〜W5を使用したため、ユーザN2の専門度インデックスの単語の欄にはW3〜W5と記載されている。また、ユーザN2の単語W3〜W5の専門度はそれぞれβ1,β2,β3と算出されたため、専門度の欄には、単語W3〜W5に対してβ1,β2,β3の専門度が記載されている。
【0072】
このように、専門度算出部12は、各ユーザが過去に送信した各電子メールについての専門度を算出し、算出した専門度を単語毎に分類し、単語毎に専門度の合計値を算出することで、図8に示す各ユーザの専門度インデックスを算出する。
【0073】
なお、上記説明では、電子メールe1に含まれる各単語に対して、各単語の頻度に関わらず一律に専門度DV_e1を付与するものとしたが、これに限定されず、各単語の頻度に応じて単語毎に専門度を個別に算出してもよい。
【0074】
この場合、専門度算出部12は、例えば電子メールe1に含まれる各単語の頻度ver_e1を求め、頻度ver_e1で専門度DV_e1を重み付けした値を各単語の専門度として設定すればよい。
【0075】
図2に戻り、スコア値算出部13は、文書サーバ3に記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出する。ここで、スコア値算出部13は、文書データの作成者が送信者に該当する場合、作成者の各文書データに含まれる各単語の頻度を、その作成者の対応する単語の専門度に応じて増大させることでスコア値を算出する。
【0076】
例えば、文書サーバ3にユーザN1の文書データD1が記憶されており、文書データD1には単語W1,W4が含まれており、単語W1の頻度がver_W1,単語W4の頻度がver_W4であったとする。
【0077】
一方、図8に示すユーザN1の専門度インデックスでは、単語W1の専門度がα1と算出され、単語W4の専門度は算出されていない。この場合、スコア値算出部13は、文書データD1における単語W1のスコア値SR_D1_W1を、SR_D1_W1=ver_W1×α1と算出し、文書データD1における単語W4のスコア値SR_D1_W4を、SR_D1_W4=ver_W4×1と算出する。ここで、専門度α1は、転送深度と転送回数との積によって得られるため、1以上の値を有する。したがって、スコア値SR_D1_W1は、頻度ver_W1が専門度α1に応じて増大される結果、専門度α1が増大するにつれて大きな値を有することになる。
【0078】
そして、スコア値算出部13は、文書サーバ3に記憶された各文書データについて、各単語のスコア値を算出し、図9に示すスコアインデックスを生成する。
【0079】
図9は、スコア値算出部13が算出するスコアインデックスのデータ構造の一例を示す図である。スコアインデックスは、文書データ毎に作成され、図9の例では、文書データD1,D2のスコアインデックスが示されている。図9に示すように、スコアインデックスは、文書名、作成者、単語、及びスコア値の欄を備えている。
【0080】
文書名の欄には、文書データの識別情報が格納され、本実施の形態では、文書データのファイル名が格納されている。作成者の欄には、文書データを作成したユーザの識別情報が格納され、本実施の形態では、ユーザ名が格納されている。単語の欄には、文書データに含まれる単語が格納されている。スコア値の欄には、単語の欄に格納された各単語に対してスコア値算出部13が算出したスコア値が格納されている。
【0081】
本実施の形態では、文書サーバ3が図10に示すように、各文書データの頻度インデックスを作成しており、スコア値算出部13は、文書サーバ3からこの頻度インデックスを、通信部17を介して取得することで、図9に示すスコアインデックスを作成している。こうすることで、検索装置1が文書サーバ3から文書データ自体を受信してスコアインデックスを作成する場合に比べて、文書サーバ3と検索装置1との間で送受されるデータ量を抑制することができる。
【0082】
図10は、文書サーバ3で生成される頻度インデックスのデータ構造の一例を示した図である。図10に示す頻度インデックスは、頻度の欄以外は図9に示すスコアインデックスと同一である。頻度インデックスの頻度の欄には、文書データに含まれる各単語の頻度が格納されている。ここで、頻度としては、例えば、文書データで単語が使用された回数を採用してもよいし、文書データで使用された回数が最大の単語に対する、各単語の使用回数の比を採用してもよい。
【0083】
図2に戻り、検索部14は、ユーザXにより端末装置2を用いて入力された検索単語を端末装置2から通信部17を介して取得し、取得した検索単語と同一の単語を含む文書データを文書サーバ3に記憶された文書データの中から抽出し、抽出した文書データを、当該同一の単語についてのスコア値が高い順でユーザXに報知するための報知情報を生成し、ユーザXの端末装置2に送信する。
【0084】
ここで、報知情報としては、検索した文書データのファイル名をスコア値の高い順でリスト表示するデータを報知情報として生成する。
【0085】
例えば検索単語として、単語W1がユーザXにより入力されたとする。この場合、検索部14は、通信部17を介して単語W1を取得し、図9に示すスコアインデックスを参照して、単語W1と同一の単語を含む文書データを抽出し、抽出した文書データのうち、単語W1に対するスコア値が高い所定数の文書データのファイル名をスコア値が高い順にリスト表示するHTMLデータを生成して、通信部17に渡す。そして、通信部17は、渡されたHTMLデータをユーザXの端末装置2に送信する。
【0086】
こうすることで、図18では、検索単語として、「csr 啓発活動」と入力した場合の文書データの検索リストにおいて、42位で表示されていた「月間CSR通信」の文書データを1位にリスト表示させる可能性を高めることができる。
【0087】
また、検索部14は、スコア値記憶部16に記憶されたスコアインデックスを参照することで、検索単語と同一の単語を含む文書データを抽出しているため、文書サーバ3に直接アクセスして検索単語と同一の単語を含む文書データを抽出するよりも、検索装置1及び文書サーバ3間で送受されるデータ量を低減することができる。
【0088】
図2に戻り、専門度記憶部15は、専門度算出部12により生成された専門度インデックス(図8参照)を記憶している。スコア値記憶部16は、スコア値算出部13により生成されたスコアインデックスを記憶(図9参照)している。
【0089】
通信部17は、ネットワークNTを流れるパケットが検索装置1宛のパケットであるかを判定し、検索装置1宛のパケットである場合はそのパケットから必要なデータを取り出し、そのデータを必要とするブロックに渡す。また、通信部17は、検索部14等からデータの送信依頼があるとそのデータを受け取って、TCP/IPの通信プロトコルに準拠したパケットを生成し、ネットワークNTに送信する。
【0090】
本実施の形態では、通信部17は、メールサーバ4から送信されたメールインデックス(図3参照)を受信すると、そのメールインデックスをメールデータ取得部11に渡す。また、通信部17は、文書サーバ3から送信された頻度インデックス(図10参照)を受信すると、その頻度インデックスをスコア値算出部13に渡す。また、通信部17は、端末装置2から検索単語を含む検索依頼を受信すると、その検索依頼を検索部14に渡す。また、通信部17は、検索部14から報知情報が渡されると、その報知情報を該当する端末装置2に送信する。
【0091】
図11は、図1に示す端末装置2のブロック図である。端末装置2は、操作部21、制御部22、表示部23、及び通信部24を備えている。操作部21は、キーボード及びマウス等の入力デバイスにより構成され、ユーザからの種々の操作指令を受け付ける。
【0092】
制御部22は、CPU、ROM、RAM、及びハードディスク等から構成され、操作部21を用いて入力されるユーザからの操作指令に従って、種々の処理を実行する。本実施の形態では、制御部22は、ユーザからの操作指令にしたがって、文書データを生成し、その文書データを文書サーバ3にアップロードする指令が入力されると、その文書データを通信部24に渡す。
【0093】
また、制御部22は、ユーザからの操作指令にしたがって、電子メールを生成し、その電子メールの送信指令が入力されると、その電子メールを通信部24に渡す。
【0094】
また、制御部22は、ユーザから検索単語が入力されて文書データの検索指令が入力されるとその検索単語を含む文書データの検索依頼を通信部24に渡す。
【0095】
表示部23は、液晶ディスプレイ、CRT、及びプラズマディスプレイ等の表示装置により構成されている。
【0096】
通信部24は、モデムやLANアダプタ等の通信モジュールにより構成されている。本実施の形態では、通信部24は、制御部22から文書データが渡されると、その文書データを文書サーバ3に送信する。また、通信部24は、制御部22から電子メールが渡されると、その電子メールをメールサーバ4に送信する。また、通信部24は、制御部22から検索依頼が渡されると、その検索依頼を検索装置1に送信する。
【0097】
図12は、図1に示す文書サーバ3のブロック図である。文書サーバ3は、通信部31、制御部32、及び文書データ記憶部33を備えている。通信部31は、モデムやLANアダプタ等の通信モジュールにより構成され、端末装置2からアップロードされた文書データを受信すると、その文書データを制御部32に渡す。また、通信部31は、制御部32から頻度インデックスが渡されると、その頻度インデックスを検索装置1に送信する。また、通信部31は、ある端末装置2から文書データの閲覧依頼を受信すると、その閲覧依頼を制御部32に渡す。
【0098】
制御部32は、CPU、ROM、及びRAM等から構成され、通信部31により受信されたアップロードされた文書データを文書データ記憶部33に記憶させる。また、制御部32は、通信部31によりある端末装置2からある文書データの閲覧依頼が渡されると、その文書データを文書データ記憶部33から読み出し、通信部31に渡し、その文書データを該当する端末装置2に送信する。
【0099】
また、制御部32は、文書データ記憶部33に記憶された各文書データについての頻度インデックス(図10参照)を生成し、その頻度インデックスを通信部31に渡し、その頻度インデックスを検索装置1に送信する。ここで、制御部32は、各文書データについて単語を抽出し、抽出した単語の使用回数をカウントすることで頻度インデックスを生成する。なお、制御部32は、文書データが日本語の文書データである場合、助詞や接続詞等を除く、主に名詞、動詞、形容詞、及び形容動詞等を単語として抽出すればよい。また、制御部32は、文書データが英語、フランス語、ドイツ語等の文書データである場合、定冠詞、冠詞、及び前置詞等を除く、主に、名詞、動詞、形容詞及び副詞等を単語として抽出すればよい。
【0100】
文書データ記憶部33は、ハードディスク等の記憶装置から構成され、ユーザによりアップロードされた文書データを記憶する。
【0101】
図13は、図1に示すメールサーバ4のブロック図である。メールサーバ4は、通信部41、制御部42、及びメールデータ記憶部43を備えている。通信部41は、モデムやLANアダプタ等の通信モジュールにより構成されている。
【0102】
制御部42は、CPU、ROM、及びRAM等から構成され、通信部41によりある端末装置2から送信された電子メールが受信されると、その電子メールをメールデータ記憶部43に記憶させると共に、その電子メールの宛先のユーザの端末装置2に電子メールの受信通知を通信部41に渡し、その受信通知を宛先のユーザの端末装置2に送信する。
【0103】
また、制御部42は、電子メールの宛先のユーザの端末装置2から電子メールの受信依頼が通信部41で受信されると、その電子メールを通信部41に渡し、その電子メールをその宛先のユーザの端末装置2に送信する。
【0104】
また、制御部42は、電子メールのヘッダー部に含まれるデータから、電子メールの識別情報、送信者、受信者、及び送信時刻を特定すると共に、宛先のユーザの端末装置2からの電子メールの受信依頼の受信時刻から電子メールの受信時刻を特定し、特定したこれらのデータから図3に示すメールインデックスを生成し、メールデータ記憶部43に記憶する。また、制御部42は、生成したメールインデックスを必要に応じて通信部41に渡し、検索装置1に送信する。
【0105】
メールデータ記憶部43は、ハードディスク等の記憶装置により構成され、電子メール及びメールインデックスを記憶する。
【0106】
図14及び図15は、検索装置1がスコア値を算出する際の検索システムの処理を示したフローチャートである。まず、検索装置1は、所定時刻に到達すると(ステップS11でYES)、メールインデックスの送信依頼をメールサーバ4に送信する(ステップS12)。ここで、所定時刻としては、スコア値が1日毎に算出される場合は0時等のある時刻が採用され、スコア値が1週毎に算出される場合は毎週日曜日の0時等のある曜日のある時刻が採用され、スコア値が1月毎に算出される場合は毎月25日の9時等のある日のある時刻が採用される。なお、スコア値の算出間隔は、1日、1週、1月に限定されず、2月、6月等、適宜好適な間隔を採用すればよい。
【0107】
なお、ステップS11で所定時刻に到達していない場合(ステップS11でNO)、処理がステップS11に戻される。
【0108】
メールサーバ4は、メールインデックスの送信依頼を受信すると(ステップS1)、メールデータ記憶部43に記憶され、予め生成しておいたメールインデックスを検索装置1に送信する(ステップS2)。ここで、メールサーバ4は、未送信のメールインデックスのみを検索装置1に送信する、つまり、メールインデックスの差分データを検索装置1に送信すればよい。
【0109】
検索装置1は、メールインデックスを受信すると(ステップS13)、各電子メールのメールインデックスに格納された通信履歴から、各電子メールの転送経路を特定する(ステップS14)。
【0110】
図3の通信履歴の例では、送信元の送信者がユーザN1であり、ユーザN1はユーザN_a,N_b,N_cに電子メールを転送しており、ユーザN_aは、ユーザN_d,N_eに電子メールを転送している。したがって、検索装置1は、ユーザN1を基準階層、ユーザN_a,N_b,N_cを第1階層、ユーザN_d,N_eを第2階層とする転送経路を生成する。
【0111】
次に、検索装置1は、各電子メールについて特定した転送経路から各電子メールの専門度を算出する(ステップS15)。次に、検索装置1は、各電子メールについて、単語を抽出し、ステップS15で算出した専門度を抽出した各単語の専門度として算出する(ステップS16)。
【0112】
次に、検索装置1は、ステップS16で算出した各電子メールについて算出した各単語の専門度を、送信者別に分類することで専門度インデックス(図8参照)を生成する(ステップS17)。この場合、検索装置1は、同一の送信者が複数の電子メールを送信している場合において、複数の電子メールに同一の単語が含まれている場合は、これら同一の単語の専門度を合算することで、各送信者の各単語に対する専門度を算出する。
【0113】
次に、検索装置1は、文書サーバ3に頻度インデックスの送信依頼を送信する(ステップS18)。文書サーバ3は、頻度インデックスの送信依頼を受信すると(ステップS31)、文書データ記憶部33に記憶された各文書データから作成者及び単語を抽出し、抽出した単語の各文書データにおける頻度を求め、各文書データに対する頻度インデックス(図10参照)を生成する(ステップS32)。この場合、文書サーバ3は、頻度インデックスを既に生成した文書データがある場合、その文書データについては頻度インデックスを生成せず、頻度インデックスが未生成の文書データについてのみ頻度インデックスを生成すればよい。
【0114】
次に、文書サーバ3は、ステップS32で生成した頻度インデックスを検索装置1に送信する(ステップS33)。
【0115】
検索装置1は、頻度インデックスを受信すると(ステップS19)、受信した頻度インデックスと、ステップS17で生成した専門度インデックスとを用いて、各文書データについて、各単語のスコア値を算出し、スコアインデックス(図9参照)を生成する(ステップS20)。この場合、検索装置1は、スコアインデックスが未生成の文書データについてのみスコアインデックスを生成すればよい。また、スコア値が算出された文書データであっても、その文書データの作成者の専門度が変更された場合は、その文書データの各単語の専門度を再度算出してもよい。これにより、最新の専門度が反映されたスコア値を持つスコアインデックスを算出することができる。
【0116】
次に、検索装置1は、ステップS20で生成したスコアインデックスをスコア値記憶部16に記憶させる(ステップS21)。
【0117】
図16は、文書データの検索時における検索システムの処理を示したフローチャートである。まず、あるユーザXの端末装置2_Xは、ユーザXにより検索単語が入力され、ユーザXから検索単語を含む文書データの検索指令が入力されると(ステップS51でYES)、検索依頼を検索装置1に送信する(ステップS52)。
【0118】
一方、ステップS51において、検索指令が入力されない場合(ステップS51でNO)、処理がステップS51に戻される。
【0119】
検索装置1は、検索依頼を受信すると(ステップS61)、スコア値記憶部16に記憶されたスコアインデックスを参照することで、検索依頼に含まれる検索単語を含む文書データを抽出する(ステップS62)。
【0120】
次に、検索装置1は、抽出した文書データのうち、検索単語に対するスコア値が高い順で所定数の文書データを更に抽出し、抽出した所定数の文書データのファイル名、作成者及びリンク先等を、検索単語に対するスコア値が高い順でリスト表示するための報知情報を生成する(ステップS63)。
【0121】
次に、検索装置1は、ステップS63で生成した報知情報を端末装置2_Xに送信する(ステップS64)。端末装置2_Xは報知情報を受信すると(ステップS53)、報知情報にしたがって、文書データのファイル名等がリスト表示された画像を表示部23に表示する(ステップS54)。
【0122】
これにより、ユーザXが入力した検索単語について専門性の高いユーザが作成した文書データが上位にランキングされた検索結果をユーザXに提供することができる。
【0123】
次に、端末装置2_XはユーザXからリスト表示された画像において、いずれかの文書データの欄がクリックされ、その文書データの閲覧指示を受け付けると(ステップS55でYES)、閲覧指示を文書サーバ3に送信する(ステップS56)。一方、閲覧指示が入力されない場合(ステップS55でNO)、処理がステップS55に戻される。
【0124】
文書サーバ3は、閲覧指示を受信すると(ステップS41)、ユーザXが閲覧を希望する文書データを端末装置2_Xに送信する(ステップS42)。
【0125】
端末装置2_Xは文書データを受信すると(ステップS57)、その文書データを表示部23に表示する(ステップS58)。これにより、ユーザXは、検索単語について所望する内容が記載された文書データを容易に閲覧することができる。
【0126】
図17は、図1に示す検索システムの処理のまとめた図である。まず、ステップST1において、CSRの担当者である送信者N1がCSRの単語を含む電子メールe1を送信している。以下、CSRの単語に対する送信者N1の専門度が33と算出されたとする。また、送信者N1はCSRの単語を含む文書データD1を作成し、文書サーバ3にアップロードしている(ステップST2)。したがって、送信者N1の文書データD1に含まれるCSRの単語のスコア値は頻度が33倍された値となる(ステップST3)。
【0127】
一方、ユーザN_AはCSRの単語を含む文書データD2を作成し、文書サーバ3にアップロードし(ステップST4)、電子メールe1を転送している(ステップST5)。
【0128】
しかしながら、ユーザN_Aは電子メールe1の送信者ではないため、文書データD2に含まれるCSRの単語のスコア値は頻度×1と算出され、スコアインデックスに格納される(ステップST6)。
【0129】
したがって、CSRが検索単語として入力された場合、CSRの担当者により作成された文書データD1がCSRの担当者でないユーザにより作成された文書データD2よりも上位にランキングされた検索結果が得られる(ステップST7)。
【0130】
このように、送信者の送信済の電子メールの転送経路に基づいて、送信者が電子メールで使用した各単語の専門度が算出され、その専門度を用いてスコア値が算出されているため、検索単語について専門性が高いユーザによって作成された文書データが検索結果の上位にランキングさせることが可能となる。
【符号の説明】
【0131】
1 検索装置
2 端末装置
3 文書サーバ
4 メールサーバ
11 メールデータ取得部
12 専門度算出部
13 スコア値算出部
14 検索部
15 専門度記憶部
16 スコア値記憶部
17 通信部
DV 専門度
NT ネットワーク
【特許請求の範囲】
【請求項1】
送信済の電子メールを記憶するメールサーバと、ユーザが使用する端末装置と、所定のネットワーク上で公開される文書データを記憶する文書サーバとのそれぞれに対して前記ネットワークを介して接続された検索装置であって、
前記メールサーバは、送信済の電子メールと各電子メールの通信履歴と併せて記憶し、
前記検索装置は、
前記メールサーバから送信済の電子メールを前記通信履歴と併せて取得するメールデータ取得部と、
各送信者の送信済の電子メールの転送経路を前記通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する専門度算出部と、
前記文書サーバに記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出するスコア値算出部と、
ユーザにより前記端末装置を用いて入力された検索単語を前記端末装置から取得し、取得した検索単語と同一の単語を含む文書データを前記文書サーバに記憶された文書データの中から抽出し、抽出した文書データを、当該同一の単語についての前記スコア値が高い順で前記ユーザに報知するための報知情報を生成し、前記ユーザの端末装置に送信する検索部とを備え、
前記スコア値算出部は、前記文書データの作成者が前記送信者に該当する場合、前記作成者の各文書データに含まれる各単語の頻度を、前記作成者の対応する単語の専門度に応じて増大させることで前記スコア値を算出する検索装置。
【請求項2】
前記専門度算出部は、ある電子メールの送信者から当該電子メールを直接受信したユーザからなる階層を第1階層、前記第1階層のユーザから転送された前記電子メールを受信したユーザからなる階層を第2階層というようにして、各電子メールの転送経路を階層的に表し、階層が深くなるにつれて前記専門度を高く算出する請求項1記載の検索装置。
【請求項3】
前記専門度算出部は、前記電子メールの転送回数が増大するにつれて前記専門度を高く算出する請求項1又は2記載の検索装置。
【請求項4】
前記専門度算出部は、ある電子メールについて、前記階層の深さを示す転送深度と、各階層での1つ上位の階層からの前記電子メールの転送回数との積を、前記電子メールの階層毎の専門度として算出し、算出した階層毎の専門度の和又は積を、前記電子メールに含まれる各単語の専門度として算出する請求項2記載の検索装置。
【請求項5】
前記専門度算出部は、ある送信者が複数の電子メールを送信し、かつ前記複数の電子メールにおいて同一の単語が使用されている場合、当該同一の単語について各電子メールで算出した専門度の合計値を、当該同一の単語についての前記送信者の専門度として算出する請求項1〜4のいずれかに記載の検索装置。
【請求項6】
前記検索部は、検索した文書データのファイル名を前記スコア値の高い順でリスト表示するデータを前記報知情報として生成する請求項1〜5のいずれかに記載の検索装置。
【請求項7】
送信済の電子メールを記憶するメールサーバと、ユーザが使用する端末装置と、所定のネットワーク上で公開される文書データを記憶する文書サーバとのそれぞれに対して前記ネットワークを介して接続された検索装置としてコンピュータを機能させる検索プログラムであって、
前記メールサーバは、送信済の電子メールと各電子メールの通信履歴と併せて記憶し、
前記検索プログラムは、
前記メールサーバから送信済の電子メールを前記通信履歴と併せて取得するメールデータ取得部と、
各送信者の送信済の電子メールの転送経路を前記通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する専門度算出部と、
前記文書サーバに記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出するスコア値算出部と、
ユーザにより前記端末装置を用いて入力された検索単語を前記端末装置から取得し、取得した検索単語と同一の単語を含む文書データを前記文書サーバの中から検索し、検索した文書データを、前記スコア値が高い順で前記ユーザに報知するための報知情報を生成し、前記ユーザの端末装置に送信する検索部としてコンピュータを機能させ、
前記スコア値算出部は、各文書データの作成者が前記送信者に該当する場合、前記作成者の各文書データに含まれる各単語の頻度を、前記作成者の対応する単語の専門度で重み付けすることで前記スコア値を算出する検索プログラム。
【請求項8】
送信済の電子メールを記憶するメールサーバと、ユーザが使用する端末装置と、所定のネットワーク上で公開される文書データを記憶する文書サーバとのそれぞれに対して前記ネットワークを介して接続された検索装置を用いた検索方法であって、
前記メールサーバは、送信済の電子メールと各電子メールの通信履歴と併せて記憶し、
前記検索装置が、前記メールサーバから送信済の電子メールを前記通信履歴と併せて取得するメールデータ取得ステップと、
前記検索装置が、各送信者の送信済の電子メールの転送経路を前記通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する専門度算出ステップと、
前記検索装置が、前記文書サーバに記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出するスコア値算出ステップと、
前記検索装置が、ユーザにより前記端末装置を用いて入力された検索単語を前記端末装置から取得し、取得した検索単語と同一の単語を含む文書データを前記文書サーバの中から検索し、検索した文書データを、前記スコア値が高い順で前記ユーザに報知するための報知情報を生成し、前記ユーザの端末装置に送信する検索ステップとを備え、
前記スコア値算出ステップは、各文書データの作成者が前記送信者に該当する場合、前記作成者の各文書データに含まれる各単語の頻度を、前記作成者の対応する単語の専門度で重み付けすることで前記スコア値を算出する検索方法。
【請求項1】
送信済の電子メールを記憶するメールサーバと、ユーザが使用する端末装置と、所定のネットワーク上で公開される文書データを記憶する文書サーバとのそれぞれに対して前記ネットワークを介して接続された検索装置であって、
前記メールサーバは、送信済の電子メールと各電子メールの通信履歴と併せて記憶し、
前記検索装置は、
前記メールサーバから送信済の電子メールを前記通信履歴と併せて取得するメールデータ取得部と、
各送信者の送信済の電子メールの転送経路を前記通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する専門度算出部と、
前記文書サーバに記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出するスコア値算出部と、
ユーザにより前記端末装置を用いて入力された検索単語を前記端末装置から取得し、取得した検索単語と同一の単語を含む文書データを前記文書サーバに記憶された文書データの中から抽出し、抽出した文書データを、当該同一の単語についての前記スコア値が高い順で前記ユーザに報知するための報知情報を生成し、前記ユーザの端末装置に送信する検索部とを備え、
前記スコア値算出部は、前記文書データの作成者が前記送信者に該当する場合、前記作成者の各文書データに含まれる各単語の頻度を、前記作成者の対応する単語の専門度に応じて増大させることで前記スコア値を算出する検索装置。
【請求項2】
前記専門度算出部は、ある電子メールの送信者から当該電子メールを直接受信したユーザからなる階層を第1階層、前記第1階層のユーザから転送された前記電子メールを受信したユーザからなる階層を第2階層というようにして、各電子メールの転送経路を階層的に表し、階層が深くなるにつれて前記専門度を高く算出する請求項1記載の検索装置。
【請求項3】
前記専門度算出部は、前記電子メールの転送回数が増大するにつれて前記専門度を高く算出する請求項1又は2記載の検索装置。
【請求項4】
前記専門度算出部は、ある電子メールについて、前記階層の深さを示す転送深度と、各階層での1つ上位の階層からの前記電子メールの転送回数との積を、前記電子メールの階層毎の専門度として算出し、算出した階層毎の専門度の和又は積を、前記電子メールに含まれる各単語の専門度として算出する請求項2記載の検索装置。
【請求項5】
前記専門度算出部は、ある送信者が複数の電子メールを送信し、かつ前記複数の電子メールにおいて同一の単語が使用されている場合、当該同一の単語について各電子メールで算出した専門度の合計値を、当該同一の単語についての前記送信者の専門度として算出する請求項1〜4のいずれかに記載の検索装置。
【請求項6】
前記検索部は、検索した文書データのファイル名を前記スコア値の高い順でリスト表示するデータを前記報知情報として生成する請求項1〜5のいずれかに記載の検索装置。
【請求項7】
送信済の電子メールを記憶するメールサーバと、ユーザが使用する端末装置と、所定のネットワーク上で公開される文書データを記憶する文書サーバとのそれぞれに対して前記ネットワークを介して接続された検索装置としてコンピュータを機能させる検索プログラムであって、
前記メールサーバは、送信済の電子メールと各電子メールの通信履歴と併せて記憶し、
前記検索プログラムは、
前記メールサーバから送信済の電子メールを前記通信履歴と併せて取得するメールデータ取得部と、
各送信者の送信済の電子メールの転送経路を前記通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する専門度算出部と、
前記文書サーバに記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出するスコア値算出部と、
ユーザにより前記端末装置を用いて入力された検索単語を前記端末装置から取得し、取得した検索単語と同一の単語を含む文書データを前記文書サーバの中から検索し、検索した文書データを、前記スコア値が高い順で前記ユーザに報知するための報知情報を生成し、前記ユーザの端末装置に送信する検索部としてコンピュータを機能させ、
前記スコア値算出部は、各文書データの作成者が前記送信者に該当する場合、前記作成者の各文書データに含まれる各単語の頻度を、前記作成者の対応する単語の専門度で重み付けすることで前記スコア値を算出する検索プログラム。
【請求項8】
送信済の電子メールを記憶するメールサーバと、ユーザが使用する端末装置と、所定のネットワーク上で公開される文書データを記憶する文書サーバとのそれぞれに対して前記ネットワークを介して接続された検索装置を用いた検索方法であって、
前記メールサーバは、送信済の電子メールと各電子メールの通信履歴と併せて記憶し、
前記検索装置が、前記メールサーバから送信済の電子メールを前記通信履歴と併せて取得するメールデータ取得ステップと、
前記検索装置が、各送信者の送信済の電子メールの転送経路を前記通信履歴から特定し、特定した転送経路に基づいて、各送信者が電子メールで使用した各単語について、各送信者の専門性を示す専門度を算出する専門度算出ステップと、
前記検索装置が、前記文書サーバに記憶された各文書データに含まれる各単語の頻度に基づいて、各単語の文書データ毎のスコア値を算出するスコア値算出ステップと、
前記検索装置が、ユーザにより前記端末装置を用いて入力された検索単語を前記端末装置から取得し、取得した検索単語と同一の単語を含む文書データを前記文書サーバの中から検索し、検索した文書データを、前記スコア値が高い順で前記ユーザに報知するための報知情報を生成し、前記ユーザの端末装置に送信する検索ステップとを備え、
前記スコア値算出ステップは、各文書データの作成者が前記送信者に該当する場合、前記作成者の各文書データに含まれる各単語の頻度を、前記作成者の対応する単語の専門度で重み付けすることで前記スコア値を算出する検索方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図19】
【図18】
【図20】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図19】
【図18】
【図20】
【公開番号】特開2012−79158(P2012−79158A)
【公開日】平成24年4月19日(2012.4.19)
【国際特許分類】
【出願番号】特願2010−224868(P2010−224868)
【出願日】平成22年10月4日(2010.10.4)
【出願人】(000156938)関西電力株式会社 (1,442)
【Fターム(参考)】
【公開日】平成24年4月19日(2012.4.19)
【国際特許分類】
【出願日】平成22年10月4日(2010.10.4)
【出願人】(000156938)関西電力株式会社 (1,442)
【Fターム(参考)】
[ Back to top ]