文書検索装置及び方法及びプログラム
【課題】 キーワードと日時表現が同一の文に出現しない場合でもキーワードに関する指定した日時の範囲内の内容を表す文書を提示する。
【解決手段】 本発明は、入力されたキーワードを含み、入力された日時の範囲内の日時表現を含む文書及び文書の適合性スコアを取得し、取得した文書に含まれるキーワード及び日時表現をもとに、日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを算出し、文書の適合性スコア及び日時スコア記憶手段の日時スコアをもとに、文書スコアを算出し、文書スコアをもとに、文書を並び替える。
【解決手段】 本発明は、入力されたキーワードを含み、入力された日時の範囲内の日時表現を含む文書及び文書の適合性スコアを取得し、取得した文書に含まれるキーワード及び日時表現をもとに、日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを算出し、文書の適合性スコア及び日時スコア記憶手段の日時スコアをもとに、文書スコアを算出し、文書スコアをもとに、文書を並び替える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書検索装置及び方法及びプログラムに係り、特に、文書の集合から指定したキーワード及び日時に関する文書を検索する文書検索装置及び方法及びプログラムに関する。
【背景技術】
【0002】
現在、キーワードが入力されるとそのキーワードに関する文書を検索するシステムが数多く存在する。このような文書検索システムにおいて、特定の日時に関する文書を検索することができれば、利便性の高い文書検索システムが実現できると考えられる。そのためには、キーワードと日時の範囲を指定して、そのキーワードに関する指定した日時の範囲内の内容を表す文書を取得できる必要がある。
【0003】
キーワードに関する指定した日時の範囲内の内容を表す文書を取得する方法として、文書のキーワードとの関連性及び日時の重要度をもとに文書スコアを算出する方法がある(例えば、特許文献1参照)。また、文書を取得した後、文書から日時を含む文を抽出し、その文がその日時に関する内容かどうかを判定する方法がある(例えば、非特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−085109
【非特許文献】
【0005】
【非特許文献1】河合英紀,Adam Jatowt,田中克己,國枝和雄,山田敬嗣,ChronoSeeker:Webからの過去・未来情報のオンデマンド検索エンジン,WebDB Forum 2009,2009.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1で扱っている日時は文書の作成などを行った日時であり、実際に文書内に書かれている内容は文書作成日時とは異なる日時について書かれていることも多いため、この方法では指定した日時の範囲に該当する文書を検索することができないという問題があった。また、非特許文献1では、キーワードと日時がともに出現する文が存在すればその文書はキーワードに関する指定した日時の範囲内の内容を表す文書であるとみなすことができるが、キーワードと日時がそれぞれ異なる文に出現するような場合にその文書がキーワードに関する指定した日時の範囲内の内容を表す文書であるかどうかを判定できないという問題があった。
【0007】
本発明は上記の問題点に鑑みてなされたものであって、取得した文書に含まれるキーワード及び日時表現をもとに日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを算出し、文書の適合性スコアと日時スコアをもとに文書スコアを算出して文書スコアの順に出力を行うことによって、キーワードと日時表現が同一の文に出現しない場合でもキーワードに関する指定した日時の範囲内の内容を表す文書を提示することが可能な文書検索装置及び方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、本発明(請求項1)は、文書の集合から指定したキーワード及び日時に関する文書を検索する文書検索装置において、
入力されたキーワードを含み、入力された日時の範囲内の日時表現を含む文書及び文書の適合性スコアを取得し、適合性スコア記憶手段に格納する文書取得手段と、
取得した文書に含まれるキーワード及び日時表現をもとに、日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを取得し、日時スコア記憶手段に格納する日時スコア取得手段と、
前記適合性スコア記憶手段に格納されている前記文書の適合性スコア及び前記日時スコア記憶手段に格納されている前記日時スコアに基づいて、文書スコアを算出し、文書スコア記憶手段に格納する文書スコア算出手段と、
前記文書スコア記憶手段に格納されている文書スコアをもとに、前記文書を並び替える文書ソート手段と、を有する。
【0009】
また、本発明(請求項2)は、前記日時スコア取得手段において、
取得した文書に含まれるキーワードの位置を取得するキーワード位置取得手段と、
前記取得した文書に含まれる日時表現の位置を取得する日時表現位置取得手段と、
前記取得した文書に含まれる日時表現の有効範囲を決定する日時表現有効範囲決定手段と、
前記キーワードの位置及び前記日時表現の位置及び前記日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する近接性スコア算出手段と、
前記日時表現の有効範囲をもとに前記文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する内容スコア算出手段と、
前記文書の近接性スコアと前記内容スコアをもとに文書の日時スコアを算出し、前記日時スコア記憶手段に格納する日時スコア算出手段と、を含む。
【0010】
また、本発明(請求項3)は、文書の集合から指定したキーワード及び日時に関する文書を検索する装置における文書検索方法であって、
前記装置の文書取得手段が、入力されたキーワードを含み、入力された日時の範囲内の日時表現を含む文書及び文書の適合性スコアを取得し、適合性スコア記憶手段に格納する文書取得工程と、
日時スコア取得手段が、取得した文書に含まれるキーワード及び日時表現をもとに、日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを算出し、日時スコア記憶手段に格納する日時スコア取得工程と、
文書スコア算出手段が、前記適合性スコア記憶手段の前記文書の適合性スコア及び前記日時スコア記憶手段の前記日時スコアをもとに、文書スコアを算出し、文書スコア記憶手段に格納する文書スコア算出工程と、
文書ソート手段が、前記文書スコア記憶手段の前記文書スコアをもとに、文書を並び替える文書ソート工程と、を有する。
【0011】
また、本発明(請求項4)は、前記キーワード日時関連性スコア算出工程において、
キーワード位置取得手段が、取得した文書に含まれるキーワードの位置を取得するキーワード位置取得工程と、
日時表現位置取得手段が、取得した文書に含まれる日時表現の位置を取得する日時表現位置取得工程と、
日時表現有効範囲決定手段が、取得した文書に含まれる日時表現の有効範囲を決定する日時表現有効範囲決定工程と、
近接性スコア算出手段が、キーワードの位置及び日時表現の位置及び日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する近接性スコア算出工程と、
内容スコア算出手段が、日時表現の有効範囲をもとに文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する内容スコア算出工程と、
関連性スコア算出手段が、文書の近接性スコアと内容スコアをもとに文書の日時スコアを算出し、前記日時スコア記憶手段に格納する日時スコア算出工程と、を含む。
【0012】
また、本発明(請求項5)は、請求項1または2に記載の文書検索装置を構成する各手段としてコンピュータを機能させるための文書検索プログラムである。
【発明の効果】
【0013】
本発明によれば、取得した文書に含まれるキーワード及び日時表現をもとに日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを算出し、文書の適合性スコアと日時スコアをもとに文書スコアを算出して文書スコアの順に並び替えを行うため、キーワードと日時表現が同一の文に出現しない場合でもキーワードに関する指定した日時の範囲内の内容を表す文書を提示することができる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施の形態における文書検索装置の構成図である。
【図2】本発明の一実施の形態における文書検索装置の日時スコア取得部の構成図である。
【図3】本発明の一実施の形態における文書検索装置の動作を示すフローチャートである。
【図4】本発明の一実施の形態におけるステップ102の詳細な動作を示すフローチャートである。
【図5】本発明の一実施の形態における取得された文書及び文書の適合性スコアの例である。
【図6】本発明の一実施の形態における取得されたキーワードの位置の例である。
【図7】本発明の一実施の形態における取得された日時表現の位置の例である。
【図8】本発明の一実施の形態における日時表現の有効範囲の例である。
【図9】本発明の一実施の形態における文書の近接性スコアの例である。
【図10】本発明の一実施の形態における文書の内容スコアの例である。
【図11】本発明の一実施の形態における文書の日時スコアの例である。
【図12】本発明の一実施の形態における文書スコアの例である。
【図13】本発明の一実施の形態における並び替えが行われた文書の例である。
【発明を実施するための形態】
【0015】
以下図面と共に、本発明の実施の形態を説明する。
【0016】
以下、図面を参照して本発明の実施例について説明する。
【0017】
図1は、本発明の一実施の形態における文書検索装置の構成図である。図1に示す文書検索装置100は、文書取得部1、日時スコア取得部2、文書スコア算出部3、文書ソート部4、適合性スコア記憶部5、日時スコア記憶部6、文書スコア記憶部7を有する。適合性スコア記憶部5、日時スコア記憶部6及び文書スコア記憶部7は、メモリやハードディスク等の記憶媒体である。
【0018】
文書取得部1は、文書の集合からキーワード及び日時の範囲を含む文書及び文書の適合性スコアを取得し、適合性スコア記憶部5に格納する。
【0019】
日時スコア取得部2は、文書中に含まれるキーワード及び日時表現をもとに、文書の日時スコアを取得し、日時スコア記憶部6に格納する。
【0020】
文書スコア算出部3は、適合性スコア記憶部5の文書の適合性スコア及び日時スコア記憶部6の日時スコアをもとに文書スコアを算出し、文書スコア記憶部7に格納する。
【0021】
文書ソート部4は、文書スコア記憶部7に格納されている文書の文書スコアをもとに文書を並び替える。
【0022】
図2は、本発明の一実施の形態における文書検索装置の日時スコア取得部の構成図である。同図に示す文書検索装置100の日時スコア取得部2は、キーワード位置取得部21と、日時表現位置取得部22と、日時表現有効範囲決定部23と、近接性スコア算出部24と、内容スコア算出部25と、日時スコア算出部26を有する。
【0023】
キーワード位置取得部21は、取得した文書に含まれるキーワードの位置を取得する。
【0024】
日時表現位置取得部22は、取得した文書に含まれる日時表現の位置を取得する。
【0025】
日時表現有効範囲決定部23は、取得した文書に含まれる日時表現の有効範囲を決定する。
【0026】
近接性スコア算出部24は、キーワードの位置及び日時表現の位置及び日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する。
【0027】
内容スコア算出部25は、日時表現の有効範囲をもとに文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する。
【0028】
日時スコア算出部26は、文書の近接性スコアと内容スコアをもとに文書の日時スコアを算出し、日時スコア記憶部6に格納する。
【0029】
次に、文書検索装置100の動作について説明する。
【0030】
図3は、本発明の位置実施の形態における文書検索装置の動作を示すフローチャートである。
【0031】
まず、文書取得部1が、文書の集合からキーワード及び日時の範囲を含む文書及び文書の適合性スコアを取得し、適合性スコア記憶部5に格納する(S101)。
【0032】
日時スコア取得部2が、文書中に含まれるキーワード及び日時表現をもとに、日時スコアを取得し、日時スコア記憶部6に格納する(S102)。
【0033】
文書スコア算出部3が、適合性スコア記憶部5に格納されている文書の適合性スコア及び日時スコア記憶部6に格納されている日時スコアをもとに文書スコアを算出する(S103)。
【0034】
文書ソート部4が、文書の文書スコアに基づいて文書を並び替える(S104)。
【0035】
以下に、上記の各ステップの動作を詳細に説明する。
【0036】
図4は、本発明の位置実施の形態におけるステップ102の詳細な動作を示すフローチャートであり、日時スコア取得部3のキーワード日時表現関連性スコア取得の動作を示す
まず、キーワード位置取得部21が、キーワードが文書本文の何番目の文に出現したかを求めることにより、文書中に含まれるキーワードの位置を取得する(S121)。
【0037】
日時表現位置取得部22が、文書中に含まれる日時表現が文書本文の何番目に出現したかにより、日時表現の位置を取得する(S122)。
【0038】
日時表現位置取得部23が、文書中に含まれる日時表現の有効範囲(日時表現が出現した位置から次の日時表現が出現した位置の一つ前の範囲を決定する(S123)。
【0039】
近接性スコア算出部24が、キーワードの位置及び日時表現の位置及び日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する(S124)。
【0040】
内容スコア算出部25が、日時表現の有効範囲をもとに文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する(S125)。
【0041】
日時スコア算出部25が、文書の近接性スコアと内容スコアをもとに文書の日時スコアを算出する(S126)。
【0042】
次に、文書検索装置100の動作をより具体的に説明する。
【0043】
以下の説明では、キーワードとして「花火大会」、日時として「20XX年8月1日」を指定した場合の例について示す。図3、図4に示したフローチャートに従って動作を具体的に説明する。
【0044】
ステップ101) 文書取得部1により、文書の集合からキーワード及び日時の範囲を含む文書及び文書の適合性スコアを取得する。ここでは、一般的な文書検索エンジンを用いて文書及び文書の適合性スコアSrを取得することとし、適合性スコアとしては、情報検索アルゴリズムのBM25を用いることとする。なお、文書及び文書の適合性スコアの取得方法はこれに限るものではなく、検索エンジン以外を用いて取得してもかまわないし、適合性スコアとしてTFIDFを用いたりしてもかまわない。
【0045】
また、日時については、各文書に含まれる「今日」などの日時表現に対して文書の更新日時をもとに日時を特定し、指定された日時の範囲に含まれる日時を表す日時表現が存在する文書を取得することとする。指定された日時に関する文書の取得方法はこれに限るものではなく、「20XX年8月1日」というキーワードを含む文書を取得したりしてもかまわない。
【0046】
キーワードに「花火大会」、日時に「20XX年8月1日」を指定して文書及び文書の適合性スコアを取得した結果の例を図5に示す。取得された文書はどれもキーワード「花火大会」及び日時「20XX年8月1日」を表す日時表現を含むものである。しかし、文書の内容を確認すると、文書番号2及び4の文書は『20XX年8月1日』に行われた花火大会について書かれているが、文書番号1の文書(Sr=47.5)は『20XX年7月31日』に行われた花火大会について書かれていることがわかる。また、文書番号3(Sr=42.5)の文書は『20XX年8月1日』に行われる花火大会について書いているが、一言しか言及していないことがわかる。
【0047】
ここでは、図5に示す適合性スコアが適合性スコア記憶部5に格納されるものとする。
【0048】
ステップ102) 日時スコア取得部2は、文書中に含まれるキーワード及び日時表現をもとに、日時スコアを取得する。
【0049】
ステップ121) 日時スコア取得部2のキーワード位置取得部21は、文書中に含まれるキーワードの位置を取得する。ここでは、位置として、キーワードが文書本文の何番目の文に出現したかを用いる。また、キーワードが文書タイトルに出現した場合は、キーワードが文書本文の0番目の文に出現したものとみなす。また、句点までの文字列を1つの文とみなす。キーワードの位置の取得方法はこれに限るものではなく、位置として文書本文の先頭からキーワードまでの文字数や形態素数を用いたり、タイトルに出現したキーワードを無視したり、句点だけでなく「?」や「!」や改行コードを文の終端として利用したりしてもかまわない。各文書においてキーワードの位置を取得した結果を図6に示す。同図において、文書番号1の文書では、キーワード「花火大会」が文書タイトル及び1番目の文である「今日は□□で花火大会がありました。」に出現するため、キーワードの位置は0及び1となる。
【0050】
ステップ122) 日時表現位置取得部22は、文書中に含まれる日時表現の位置を取得する。ここでは、位置として、ステップ121と同様に、日時表現が文書本文の何番目の文に出現したかを用いる。また、日時表現が文書タイトルに出現した場合は、日時表現が文書本文の0番目の文に出現したものとみなす。また、句点までの文字列を1つの文とみなす。日時表現の位置の取得方法はこれに限るものではなく、位置として文書本文の先頭から日時表現までの文字数や形態素数を用いたり、タイトルに出現した日時表現を無視したり、句点だけでなく「?」や「!」を文の終端として利用したりしてもかまわない。また、日時表現の位置を予めすべての文書に対して求めて位置情報を文書情報とともにインデクスに格納し、検索を行った際に文書とともに位置を取得するようにしてもかまわない。
【0051】
各文書において日時表現の位置を取得した結果を図7に示す。文書番号1の文書では、1番目の文である「今日は□□で花火大会がありました。」に日時表現「今日」が出現し、3番目の文である「明日は映画を観に行きます。」に日時表現「明日」が出現するため、日時表現「今日」の位置は"1"、日時表現「明日」の位置は"3"となる。
【0052】
ステップ123) 日時表現位置取得部23は、文書中に含まれる日時表現の有効範囲を決定する。日時表現の有効範囲は、その日時表現が出現した位置から次の日時表現が出現した位置の1つ前の位置までとする。また、タイトルに出現する日時表現は位置"0"として同様に扱うこととする。タイトルに出現する日時表現の扱い方はこれに限るものではなく、タイトルに出現する日時表現は文書全体を有効範囲としたりしてもかまわない。日時表現の有効範囲を決定した結果の例を図8に示す。なお、図8に示す有効範囲は日時表現位置取得部23メモリ(図示せず)に格納されるものとする。文書番号1の文書では、日時表現「今日」の位置が"1"、日時表現「明日」の位置が"3"であるため、日時表現「今日」の有効範囲は日時表現「今日」の位置である"1"から日時表現「明日」の位置の1つ前の位置である"2"までとなる。
【0053】
ステップ124) 近接性スコア算出部24は、キーワードの位置及び日時表現の位置及び日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する。入力された日時の範囲に該当する日時を表す日時表現の有効範囲内にキーワードが出現する場合には、該当するキーワードと日時表現の組に対してキーワードの位置から日時表現の位置を減じた値を距離dとして、それぞれ
Sp=log(α+exp(−d/β))
の値を算出し、その中での最大値を近接性スコアとしてメモリ(図示せず)に格納する。日時表現の有効範囲内にキーワードが出現しない場合には、近接性スコアを一定の小さな値sとする。近接性スコアの算出方法は、キーワードと日時表現の位置及び日時表現の有効範囲を利用するものであればこれに限るものではなく、該当するキーワードと日時表現の組に対してそれぞれSpの値を算出し、その和や平均を近接性スコアとしたり、日時表現の有効範囲内にキーワードが出現しない場合には近接性スコアを0としたり、Spの値の算出の際に距離dだけでなくその日時表現の表す日時が指定された日時のうちのどの程度の割合を占めるかを考慮したりしてもかまわない。
【0054】
近接性スコアを算出した結果を図9に示す。この例では、α=0.5、β=9.0、s=0.1としている。図8の文書番号1の文書では、入力の日時の範囲に含まれる日時を持つ日時表現は「明日」であり、その有効範囲は位置"3"のみであるが、この有効範囲内に出現するキーワードは存在しないため、図9に示すように、近接性スコアは"0.100"となる。また、文書番号2の文書では、入力の日時の範囲に含まれる日時を持つ日時表現は「8月1日」であり、その有効範囲は位置"1〜3であるが、この有効範囲内である位置"1"にキーワードが出現するため、距離はd=1−1=0となり、近接性スコアはSp=0.405となる。なお、近接性スコアは、近接スコア算出部24内のメモリ(図示せず)に格納されるものとする。
【0055】
ステップ125) 内容スコア算出部25は、日時表現範囲決定部23のメモリ(図示せず)に格納されている日時表現の有効範囲をもとに文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する。ここでは、入力された日時の範囲に含まれる日時の有効範囲内である文の数を文書中に存在する文の数で割った値を内容スコアScとする。また、タイトルは1つの文として数える。
【0056】
内容スコアの算出方法は日時表現の有効範囲を用いていればこれに限るものではなく、文書中に含まれる文の数が少ない場合は内容が薄いと考えて内容スコアが小さくなるようにしたり、タイトルを1つの文として数えないようにしたりしてもかまわない。文書の内容スコアを算出した結果を図10に示す。文書番号1の文書では、タイトルを含めた文書中の文の数は4であり、そのうち入力された日時の範囲に含まれる日時を持つ日時表現「明日」の有効範囲内に含まれる文の数は1であるため、Sc=1/4=0.250となる。
【0057】
なお、内容性スコアは内容スコア算出部25内のメモリ(図示せず)に格納されるものとする。
【0058】
ステップ126) 日時スコア算出部25は、ステップ124で近接性スコア算出部24により求められ、メモリ(図示せず)に格納されている文書の近接性スコアとステップ125で内容スコア算出部25で求められ、メモリ(図示せず)に格納されている内容スコアをもとに文書の日時スコアを算出する。ここでは、近接性スコアSpと内容スコアScの積を日時スコアStとする。日時スコアの算出方法はこれに限るものではなく、近接性スコアと内容スコアのうち近接性スコアをどの程度重視するかを考慮するための重みを利用したりしてもかまわない。文書の日時スコアを算出した結果を図11に示す。文書番号1の文書では、日時スコアは
St=0.100×0.250=0.025
となる。図11に示す日時スコアが日時スコア記憶部6に格納されるものとする。
【0059】
ステップ103) 文書スコア算出部3は、ステップ101で適合性スコア格納部5に格納されている文書の適合性スコア及び、ステップ102で日時スコア記憶部6に格納されている日時スコアをもとに文書スコアを算出する。ここでは、適合性スコアと日時スコアのうち適合性スコアをどの程度重視するかを考慮するための重みwを利用して以下のように文書スコアを算出する。
【0060】
S=wSr+(1−w)St
文書スコアの算出方法はこれに限るものではなく、重みを利用せずに文書スコアを算出したり、適合性スコアと日時スコアの積を算出したりしてもかまわない。文書スコアを算出した結果を図12に示す。この例では、w=0.01としている。文書番号1の文書では、文書スコアは
S=0.01×47.5+(1−0.01)×0.025=0.500
となる。図12に示す文書スコアが文書スコア記憶部7に格納されるものとする。
【0061】
ステップ104) 文書ソート部4は、文書スコア記憶部7に格納されている文書の文書スコアをもとに文書を並び替え、出力する。並び替えられた文書の例を図13に示す。「20XX年8月1日」に行われた花火大会について詳しく書かれている文書番号2及び4の文書が結果の上位となり、「20XX年8月1日」に行われる花火大会について書かれていない文書番号1の文書が結果の下位になっていることがわかる。並び替えられた文書は表示装置やディスク装置等の記憶手段に出力するものとする。
【0062】
このように、本実施の形態で説明した処理により、取得した文書に含まれるキーワード及び日時表現をもとに日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを算出し、文書の適合性スコアと日時スコアをもとに文書スコアを算出して文書スコアの順に並び替えを行うため、キーワードと日時表現が同一の文に出現しない場合でもキーワードに関する指定した日時の範囲内の内容を表す文書を提示することができる。
【0063】
なお、本発明は、図1に示す文書検索装置100の各構成要素の動作をプログラムとして構築し、文書検索装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【0064】
また、当該プログラムを文書検索装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROMなどの可搬記憶媒体に格納しておき、コンピュータにインストールして実行させることも可能である。また、当該プログラムをネットワークのサーバに格納しておき、そこからダウンロードしてインストールする形態をとることも可能である。
【0065】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【符号の説明】
【0066】
1 文書取得部
2 日時スコア取得部
3 文書スコア算出部
4 文書ソート部
5 適合性スコア記憶部
6 日時スコア記憶部
7 文書スコア記憶部
21 キーワード位置取得部
22 日時表現位置取得部
23 日時表現範囲決定部
24 近接性スコア算出部
25 内容スコア算出部
26 日時スコア算出部
【技術分野】
【0001】
本発明は、文書検索装置及び方法及びプログラムに係り、特に、文書の集合から指定したキーワード及び日時に関する文書を検索する文書検索装置及び方法及びプログラムに関する。
【背景技術】
【0002】
現在、キーワードが入力されるとそのキーワードに関する文書を検索するシステムが数多く存在する。このような文書検索システムにおいて、特定の日時に関する文書を検索することができれば、利便性の高い文書検索システムが実現できると考えられる。そのためには、キーワードと日時の範囲を指定して、そのキーワードに関する指定した日時の範囲内の内容を表す文書を取得できる必要がある。
【0003】
キーワードに関する指定した日時の範囲内の内容を表す文書を取得する方法として、文書のキーワードとの関連性及び日時の重要度をもとに文書スコアを算出する方法がある(例えば、特許文献1参照)。また、文書を取得した後、文書から日時を含む文を抽出し、その文がその日時に関する内容かどうかを判定する方法がある(例えば、非特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−085109
【非特許文献】
【0005】
【非特許文献1】河合英紀,Adam Jatowt,田中克己,國枝和雄,山田敬嗣,ChronoSeeker:Webからの過去・未来情報のオンデマンド検索エンジン,WebDB Forum 2009,2009.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1で扱っている日時は文書の作成などを行った日時であり、実際に文書内に書かれている内容は文書作成日時とは異なる日時について書かれていることも多いため、この方法では指定した日時の範囲に該当する文書を検索することができないという問題があった。また、非特許文献1では、キーワードと日時がともに出現する文が存在すればその文書はキーワードに関する指定した日時の範囲内の内容を表す文書であるとみなすことができるが、キーワードと日時がそれぞれ異なる文に出現するような場合にその文書がキーワードに関する指定した日時の範囲内の内容を表す文書であるかどうかを判定できないという問題があった。
【0007】
本発明は上記の問題点に鑑みてなされたものであって、取得した文書に含まれるキーワード及び日時表現をもとに日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを算出し、文書の適合性スコアと日時スコアをもとに文書スコアを算出して文書スコアの順に出力を行うことによって、キーワードと日時表現が同一の文に出現しない場合でもキーワードに関する指定した日時の範囲内の内容を表す文書を提示することが可能な文書検索装置及び方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、本発明(請求項1)は、文書の集合から指定したキーワード及び日時に関する文書を検索する文書検索装置において、
入力されたキーワードを含み、入力された日時の範囲内の日時表現を含む文書及び文書の適合性スコアを取得し、適合性スコア記憶手段に格納する文書取得手段と、
取得した文書に含まれるキーワード及び日時表現をもとに、日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを取得し、日時スコア記憶手段に格納する日時スコア取得手段と、
前記適合性スコア記憶手段に格納されている前記文書の適合性スコア及び前記日時スコア記憶手段に格納されている前記日時スコアに基づいて、文書スコアを算出し、文書スコア記憶手段に格納する文書スコア算出手段と、
前記文書スコア記憶手段に格納されている文書スコアをもとに、前記文書を並び替える文書ソート手段と、を有する。
【0009】
また、本発明(請求項2)は、前記日時スコア取得手段において、
取得した文書に含まれるキーワードの位置を取得するキーワード位置取得手段と、
前記取得した文書に含まれる日時表現の位置を取得する日時表現位置取得手段と、
前記取得した文書に含まれる日時表現の有効範囲を決定する日時表現有効範囲決定手段と、
前記キーワードの位置及び前記日時表現の位置及び前記日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する近接性スコア算出手段と、
前記日時表現の有効範囲をもとに前記文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する内容スコア算出手段と、
前記文書の近接性スコアと前記内容スコアをもとに文書の日時スコアを算出し、前記日時スコア記憶手段に格納する日時スコア算出手段と、を含む。
【0010】
また、本発明(請求項3)は、文書の集合から指定したキーワード及び日時に関する文書を検索する装置における文書検索方法であって、
前記装置の文書取得手段が、入力されたキーワードを含み、入力された日時の範囲内の日時表現を含む文書及び文書の適合性スコアを取得し、適合性スコア記憶手段に格納する文書取得工程と、
日時スコア取得手段が、取得した文書に含まれるキーワード及び日時表現をもとに、日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを算出し、日時スコア記憶手段に格納する日時スコア取得工程と、
文書スコア算出手段が、前記適合性スコア記憶手段の前記文書の適合性スコア及び前記日時スコア記憶手段の前記日時スコアをもとに、文書スコアを算出し、文書スコア記憶手段に格納する文書スコア算出工程と、
文書ソート手段が、前記文書スコア記憶手段の前記文書スコアをもとに、文書を並び替える文書ソート工程と、を有する。
【0011】
また、本発明(請求項4)は、前記キーワード日時関連性スコア算出工程において、
キーワード位置取得手段が、取得した文書に含まれるキーワードの位置を取得するキーワード位置取得工程と、
日時表現位置取得手段が、取得した文書に含まれる日時表現の位置を取得する日時表現位置取得工程と、
日時表現有効範囲決定手段が、取得した文書に含まれる日時表現の有効範囲を決定する日時表現有効範囲決定工程と、
近接性スコア算出手段が、キーワードの位置及び日時表現の位置及び日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する近接性スコア算出工程と、
内容スコア算出手段が、日時表現の有効範囲をもとに文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する内容スコア算出工程と、
関連性スコア算出手段が、文書の近接性スコアと内容スコアをもとに文書の日時スコアを算出し、前記日時スコア記憶手段に格納する日時スコア算出工程と、を含む。
【0012】
また、本発明(請求項5)は、請求項1または2に記載の文書検索装置を構成する各手段としてコンピュータを機能させるための文書検索プログラムである。
【発明の効果】
【0013】
本発明によれば、取得した文書に含まれるキーワード及び日時表現をもとに日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを算出し、文書の適合性スコアと日時スコアをもとに文書スコアを算出して文書スコアの順に並び替えを行うため、キーワードと日時表現が同一の文に出現しない場合でもキーワードに関する指定した日時の範囲内の内容を表す文書を提示することができる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施の形態における文書検索装置の構成図である。
【図2】本発明の一実施の形態における文書検索装置の日時スコア取得部の構成図である。
【図3】本発明の一実施の形態における文書検索装置の動作を示すフローチャートである。
【図4】本発明の一実施の形態におけるステップ102の詳細な動作を示すフローチャートである。
【図5】本発明の一実施の形態における取得された文書及び文書の適合性スコアの例である。
【図6】本発明の一実施の形態における取得されたキーワードの位置の例である。
【図7】本発明の一実施の形態における取得された日時表現の位置の例である。
【図8】本発明の一実施の形態における日時表現の有効範囲の例である。
【図9】本発明の一実施の形態における文書の近接性スコアの例である。
【図10】本発明の一実施の形態における文書の内容スコアの例である。
【図11】本発明の一実施の形態における文書の日時スコアの例である。
【図12】本発明の一実施の形態における文書スコアの例である。
【図13】本発明の一実施の形態における並び替えが行われた文書の例である。
【発明を実施するための形態】
【0015】
以下図面と共に、本発明の実施の形態を説明する。
【0016】
以下、図面を参照して本発明の実施例について説明する。
【0017】
図1は、本発明の一実施の形態における文書検索装置の構成図である。図1に示す文書検索装置100は、文書取得部1、日時スコア取得部2、文書スコア算出部3、文書ソート部4、適合性スコア記憶部5、日時スコア記憶部6、文書スコア記憶部7を有する。適合性スコア記憶部5、日時スコア記憶部6及び文書スコア記憶部7は、メモリやハードディスク等の記憶媒体である。
【0018】
文書取得部1は、文書の集合からキーワード及び日時の範囲を含む文書及び文書の適合性スコアを取得し、適合性スコア記憶部5に格納する。
【0019】
日時スコア取得部2は、文書中に含まれるキーワード及び日時表現をもとに、文書の日時スコアを取得し、日時スコア記憶部6に格納する。
【0020】
文書スコア算出部3は、適合性スコア記憶部5の文書の適合性スコア及び日時スコア記憶部6の日時スコアをもとに文書スコアを算出し、文書スコア記憶部7に格納する。
【0021】
文書ソート部4は、文書スコア記憶部7に格納されている文書の文書スコアをもとに文書を並び替える。
【0022】
図2は、本発明の一実施の形態における文書検索装置の日時スコア取得部の構成図である。同図に示す文書検索装置100の日時スコア取得部2は、キーワード位置取得部21と、日時表現位置取得部22と、日時表現有効範囲決定部23と、近接性スコア算出部24と、内容スコア算出部25と、日時スコア算出部26を有する。
【0023】
キーワード位置取得部21は、取得した文書に含まれるキーワードの位置を取得する。
【0024】
日時表現位置取得部22は、取得した文書に含まれる日時表現の位置を取得する。
【0025】
日時表現有効範囲決定部23は、取得した文書に含まれる日時表現の有効範囲を決定する。
【0026】
近接性スコア算出部24は、キーワードの位置及び日時表現の位置及び日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する。
【0027】
内容スコア算出部25は、日時表現の有効範囲をもとに文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する。
【0028】
日時スコア算出部26は、文書の近接性スコアと内容スコアをもとに文書の日時スコアを算出し、日時スコア記憶部6に格納する。
【0029】
次に、文書検索装置100の動作について説明する。
【0030】
図3は、本発明の位置実施の形態における文書検索装置の動作を示すフローチャートである。
【0031】
まず、文書取得部1が、文書の集合からキーワード及び日時の範囲を含む文書及び文書の適合性スコアを取得し、適合性スコア記憶部5に格納する(S101)。
【0032】
日時スコア取得部2が、文書中に含まれるキーワード及び日時表現をもとに、日時スコアを取得し、日時スコア記憶部6に格納する(S102)。
【0033】
文書スコア算出部3が、適合性スコア記憶部5に格納されている文書の適合性スコア及び日時スコア記憶部6に格納されている日時スコアをもとに文書スコアを算出する(S103)。
【0034】
文書ソート部4が、文書の文書スコアに基づいて文書を並び替える(S104)。
【0035】
以下に、上記の各ステップの動作を詳細に説明する。
【0036】
図4は、本発明の位置実施の形態におけるステップ102の詳細な動作を示すフローチャートであり、日時スコア取得部3のキーワード日時表現関連性スコア取得の動作を示す
まず、キーワード位置取得部21が、キーワードが文書本文の何番目の文に出現したかを求めることにより、文書中に含まれるキーワードの位置を取得する(S121)。
【0037】
日時表現位置取得部22が、文書中に含まれる日時表現が文書本文の何番目に出現したかにより、日時表現の位置を取得する(S122)。
【0038】
日時表現位置取得部23が、文書中に含まれる日時表現の有効範囲(日時表現が出現した位置から次の日時表現が出現した位置の一つ前の範囲を決定する(S123)。
【0039】
近接性スコア算出部24が、キーワードの位置及び日時表現の位置及び日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する(S124)。
【0040】
内容スコア算出部25が、日時表現の有効範囲をもとに文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する(S125)。
【0041】
日時スコア算出部25が、文書の近接性スコアと内容スコアをもとに文書の日時スコアを算出する(S126)。
【0042】
次に、文書検索装置100の動作をより具体的に説明する。
【0043】
以下の説明では、キーワードとして「花火大会」、日時として「20XX年8月1日」を指定した場合の例について示す。図3、図4に示したフローチャートに従って動作を具体的に説明する。
【0044】
ステップ101) 文書取得部1により、文書の集合からキーワード及び日時の範囲を含む文書及び文書の適合性スコアを取得する。ここでは、一般的な文書検索エンジンを用いて文書及び文書の適合性スコアSrを取得することとし、適合性スコアとしては、情報検索アルゴリズムのBM25を用いることとする。なお、文書及び文書の適合性スコアの取得方法はこれに限るものではなく、検索エンジン以外を用いて取得してもかまわないし、適合性スコアとしてTFIDFを用いたりしてもかまわない。
【0045】
また、日時については、各文書に含まれる「今日」などの日時表現に対して文書の更新日時をもとに日時を特定し、指定された日時の範囲に含まれる日時を表す日時表現が存在する文書を取得することとする。指定された日時に関する文書の取得方法はこれに限るものではなく、「20XX年8月1日」というキーワードを含む文書を取得したりしてもかまわない。
【0046】
キーワードに「花火大会」、日時に「20XX年8月1日」を指定して文書及び文書の適合性スコアを取得した結果の例を図5に示す。取得された文書はどれもキーワード「花火大会」及び日時「20XX年8月1日」を表す日時表現を含むものである。しかし、文書の内容を確認すると、文書番号2及び4の文書は『20XX年8月1日』に行われた花火大会について書かれているが、文書番号1の文書(Sr=47.5)は『20XX年7月31日』に行われた花火大会について書かれていることがわかる。また、文書番号3(Sr=42.5)の文書は『20XX年8月1日』に行われる花火大会について書いているが、一言しか言及していないことがわかる。
【0047】
ここでは、図5に示す適合性スコアが適合性スコア記憶部5に格納されるものとする。
【0048】
ステップ102) 日時スコア取得部2は、文書中に含まれるキーワード及び日時表現をもとに、日時スコアを取得する。
【0049】
ステップ121) 日時スコア取得部2のキーワード位置取得部21は、文書中に含まれるキーワードの位置を取得する。ここでは、位置として、キーワードが文書本文の何番目の文に出現したかを用いる。また、キーワードが文書タイトルに出現した場合は、キーワードが文書本文の0番目の文に出現したものとみなす。また、句点までの文字列を1つの文とみなす。キーワードの位置の取得方法はこれに限るものではなく、位置として文書本文の先頭からキーワードまでの文字数や形態素数を用いたり、タイトルに出現したキーワードを無視したり、句点だけでなく「?」や「!」や改行コードを文の終端として利用したりしてもかまわない。各文書においてキーワードの位置を取得した結果を図6に示す。同図において、文書番号1の文書では、キーワード「花火大会」が文書タイトル及び1番目の文である「今日は□□で花火大会がありました。」に出現するため、キーワードの位置は0及び1となる。
【0050】
ステップ122) 日時表現位置取得部22は、文書中に含まれる日時表現の位置を取得する。ここでは、位置として、ステップ121と同様に、日時表現が文書本文の何番目の文に出現したかを用いる。また、日時表現が文書タイトルに出現した場合は、日時表現が文書本文の0番目の文に出現したものとみなす。また、句点までの文字列を1つの文とみなす。日時表現の位置の取得方法はこれに限るものではなく、位置として文書本文の先頭から日時表現までの文字数や形態素数を用いたり、タイトルに出現した日時表現を無視したり、句点だけでなく「?」や「!」を文の終端として利用したりしてもかまわない。また、日時表現の位置を予めすべての文書に対して求めて位置情報を文書情報とともにインデクスに格納し、検索を行った際に文書とともに位置を取得するようにしてもかまわない。
【0051】
各文書において日時表現の位置を取得した結果を図7に示す。文書番号1の文書では、1番目の文である「今日は□□で花火大会がありました。」に日時表現「今日」が出現し、3番目の文である「明日は映画を観に行きます。」に日時表現「明日」が出現するため、日時表現「今日」の位置は"1"、日時表現「明日」の位置は"3"となる。
【0052】
ステップ123) 日時表現位置取得部23は、文書中に含まれる日時表現の有効範囲を決定する。日時表現の有効範囲は、その日時表現が出現した位置から次の日時表現が出現した位置の1つ前の位置までとする。また、タイトルに出現する日時表現は位置"0"として同様に扱うこととする。タイトルに出現する日時表現の扱い方はこれに限るものではなく、タイトルに出現する日時表現は文書全体を有効範囲としたりしてもかまわない。日時表現の有効範囲を決定した結果の例を図8に示す。なお、図8に示す有効範囲は日時表現位置取得部23メモリ(図示せず)に格納されるものとする。文書番号1の文書では、日時表現「今日」の位置が"1"、日時表現「明日」の位置が"3"であるため、日時表現「今日」の有効範囲は日時表現「今日」の位置である"1"から日時表現「明日」の位置の1つ前の位置である"2"までとなる。
【0053】
ステップ124) 近接性スコア算出部24は、キーワードの位置及び日時表現の位置及び日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する。入力された日時の範囲に該当する日時を表す日時表現の有効範囲内にキーワードが出現する場合には、該当するキーワードと日時表現の組に対してキーワードの位置から日時表現の位置を減じた値を距離dとして、それぞれ
Sp=log(α+exp(−d/β))
の値を算出し、その中での最大値を近接性スコアとしてメモリ(図示せず)に格納する。日時表現の有効範囲内にキーワードが出現しない場合には、近接性スコアを一定の小さな値sとする。近接性スコアの算出方法は、キーワードと日時表現の位置及び日時表現の有効範囲を利用するものであればこれに限るものではなく、該当するキーワードと日時表現の組に対してそれぞれSpの値を算出し、その和や平均を近接性スコアとしたり、日時表現の有効範囲内にキーワードが出現しない場合には近接性スコアを0としたり、Spの値の算出の際に距離dだけでなくその日時表現の表す日時が指定された日時のうちのどの程度の割合を占めるかを考慮したりしてもかまわない。
【0054】
近接性スコアを算出した結果を図9に示す。この例では、α=0.5、β=9.0、s=0.1としている。図8の文書番号1の文書では、入力の日時の範囲に含まれる日時を持つ日時表現は「明日」であり、その有効範囲は位置"3"のみであるが、この有効範囲内に出現するキーワードは存在しないため、図9に示すように、近接性スコアは"0.100"となる。また、文書番号2の文書では、入力の日時の範囲に含まれる日時を持つ日時表現は「8月1日」であり、その有効範囲は位置"1〜3であるが、この有効範囲内である位置"1"にキーワードが出現するため、距離はd=1−1=0となり、近接性スコアはSp=0.405となる。なお、近接性スコアは、近接スコア算出部24内のメモリ(図示せず)に格納されるものとする。
【0055】
ステップ125) 内容スコア算出部25は、日時表現範囲決定部23のメモリ(図示せず)に格納されている日時表現の有効範囲をもとに文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する。ここでは、入力された日時の範囲に含まれる日時の有効範囲内である文の数を文書中に存在する文の数で割った値を内容スコアScとする。また、タイトルは1つの文として数える。
【0056】
内容スコアの算出方法は日時表現の有効範囲を用いていればこれに限るものではなく、文書中に含まれる文の数が少ない場合は内容が薄いと考えて内容スコアが小さくなるようにしたり、タイトルを1つの文として数えないようにしたりしてもかまわない。文書の内容スコアを算出した結果を図10に示す。文書番号1の文書では、タイトルを含めた文書中の文の数は4であり、そのうち入力された日時の範囲に含まれる日時を持つ日時表現「明日」の有効範囲内に含まれる文の数は1であるため、Sc=1/4=0.250となる。
【0057】
なお、内容性スコアは内容スコア算出部25内のメモリ(図示せず)に格納されるものとする。
【0058】
ステップ126) 日時スコア算出部25は、ステップ124で近接性スコア算出部24により求められ、メモリ(図示せず)に格納されている文書の近接性スコアとステップ125で内容スコア算出部25で求められ、メモリ(図示せず)に格納されている内容スコアをもとに文書の日時スコアを算出する。ここでは、近接性スコアSpと内容スコアScの積を日時スコアStとする。日時スコアの算出方法はこれに限るものではなく、近接性スコアと内容スコアのうち近接性スコアをどの程度重視するかを考慮するための重みを利用したりしてもかまわない。文書の日時スコアを算出した結果を図11に示す。文書番号1の文書では、日時スコアは
St=0.100×0.250=0.025
となる。図11に示す日時スコアが日時スコア記憶部6に格納されるものとする。
【0059】
ステップ103) 文書スコア算出部3は、ステップ101で適合性スコア格納部5に格納されている文書の適合性スコア及び、ステップ102で日時スコア記憶部6に格納されている日時スコアをもとに文書スコアを算出する。ここでは、適合性スコアと日時スコアのうち適合性スコアをどの程度重視するかを考慮するための重みwを利用して以下のように文書スコアを算出する。
【0060】
S=wSr+(1−w)St
文書スコアの算出方法はこれに限るものではなく、重みを利用せずに文書スコアを算出したり、適合性スコアと日時スコアの積を算出したりしてもかまわない。文書スコアを算出した結果を図12に示す。この例では、w=0.01としている。文書番号1の文書では、文書スコアは
S=0.01×47.5+(1−0.01)×0.025=0.500
となる。図12に示す文書スコアが文書スコア記憶部7に格納されるものとする。
【0061】
ステップ104) 文書ソート部4は、文書スコア記憶部7に格納されている文書の文書スコアをもとに文書を並び替え、出力する。並び替えられた文書の例を図13に示す。「20XX年8月1日」に行われた花火大会について詳しく書かれている文書番号2及び4の文書が結果の上位となり、「20XX年8月1日」に行われる花火大会について書かれていない文書番号1の文書が結果の下位になっていることがわかる。並び替えられた文書は表示装置やディスク装置等の記憶手段に出力するものとする。
【0062】
このように、本実施の形態で説明した処理により、取得した文書に含まれるキーワード及び日時表現をもとに日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを算出し、文書の適合性スコアと日時スコアをもとに文書スコアを算出して文書スコアの順に並び替えを行うため、キーワードと日時表現が同一の文に出現しない場合でもキーワードに関する指定した日時の範囲内の内容を表す文書を提示することができる。
【0063】
なお、本発明は、図1に示す文書検索装置100の各構成要素の動作をプログラムとして構築し、文書検索装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【0064】
また、当該プログラムを文書検索装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROMなどの可搬記憶媒体に格納しておき、コンピュータにインストールして実行させることも可能である。また、当該プログラムをネットワークのサーバに格納しておき、そこからダウンロードしてインストールする形態をとることも可能である。
【0065】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【符号の説明】
【0066】
1 文書取得部
2 日時スコア取得部
3 文書スコア算出部
4 文書ソート部
5 適合性スコア記憶部
6 日時スコア記憶部
7 文書スコア記憶部
21 キーワード位置取得部
22 日時表現位置取得部
23 日時表現範囲決定部
24 近接性スコア算出部
25 内容スコア算出部
26 日時スコア算出部
【特許請求の範囲】
【請求項1】
文書の集合から指定したキーワード及び日時に関する文書を検索する文書検索装置において、
入力されたキーワードを含み、入力された日時の範囲内の日時表現を含む文書及び文書の適合性スコアを取得し、適合性スコア記憶手段に格納する文書取得手段と、
取得した文書に含まれるキーワード及び日時表現をもとに、日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを取得し、日時スコア記憶手段に格納する日時スコア取得手段と、
前記適合性スコア記憶手段に格納されている前記文書の適合性スコア及び前記日時スコア記憶手段に格納されている前記日時スコアに基づいて、文書スコアを算出し、文書スコア記憶手段に格納する文書スコア算出手段と、
前記文書スコア記憶手段に格納されている文書スコアをもとに、前記文書を並び替える文書ソート手段と、
を有することを特徴とする文書検索装置。
【請求項2】
前記日時スコア取得手段は、
取得した文書に含まれるキーワードの位置を取得するキーワード位置取得手段と、
前記取得した文書に含まれる日時表現の位置を取得する日時表現位置取得手段と、
前記取得した文書に含まれる日時表現の有効範囲を決定する日時表現有効範囲決定手段と、
前記キーワードの位置及び前記日時表現の位置及び前記日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する近接性スコア算出手段と、
前記日時表現の有効範囲をもとに前記文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する内容スコア算出手段と、
前記文書の近接性スコアと前記内容スコアをもとに文書の日時スコアを算出し、前記日時スコア記憶手段に格納する日時スコア算出手段と、
を含む請求項1記載の文書検索装置。
【請求項3】
文書の集合から指定したキーワード及び日時に関する文書を検索する装置における文書検索方法であって、
前記装置の文書取得手段が、入力されたキーワードを含み、入力された日時の範囲内の日時表現を含む文書及び文書の適合性スコアを取得し、適合性スコア記憶手段に格納する文書取得工程と、
日時スコア取得手段が、取得した文書に含まれるキーワード及び日時表現をもとに、日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを算出し、日時スコア記憶手段に格納する日時スコア取得工程と、
文書スコア算出手段が、前記適合性スコア記憶手段の前記文書の適合性スコア及び前記日時スコア記憶手段の前記日時スコアをもとに、文書スコアを算出し、文書スコア記憶手段に格納する文書スコア算出工程と、
文書ソート手段が、前記文書スコア記憶手段の前記文書スコアをもとに、文書を並び替える文書ソート工程と、
を有することを特徴とする文書検索方法。
【請求項4】
前記キーワード日時関連性スコア算出工程は、
キーワード位置取得手段が、取得した文書に含まれるキーワードの位置を取得するキーワード位置取得工程と、
日時表現位置取得手段が、取得した文書に含まれる日時表現の位置を取得する日時表現位置取得工程と、
日時表現有効範囲決定手段が、取得した文書に含まれる日時表現の有効範囲を決定する日時表現有効範囲決定工程と、
近接性スコア算出手段が、キーワードの位置及び日時表現の位置及び日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する近接性スコア算出工程と、
内容スコア算出手段が、日時表現の有効範囲をもとに文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する内容スコア算出工程と、
関連性スコア算出手段が、文書の近接性スコアと内容スコアをもとに文書の日時スコアを算出し、前記日時スコア記憶手段に格納する日時スコア算出工程と、
を含む請求項3記載の文書検索方法。
【請求項5】
請求項1または2に記載の文書検索装置を構成する各手段としてコンピュータを機能させるための文書検索プログラム。
【請求項1】
文書の集合から指定したキーワード及び日時に関する文書を検索する文書検索装置において、
入力されたキーワードを含み、入力された日時の範囲内の日時表現を含む文書及び文書の適合性スコアを取得し、適合性スコア記憶手段に格納する文書取得手段と、
取得した文書に含まれるキーワード及び日時表現をもとに、日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを取得し、日時スコア記憶手段に格納する日時スコア取得手段と、
前記適合性スコア記憶手段に格納されている前記文書の適合性スコア及び前記日時スコア記憶手段に格納されている前記日時スコアに基づいて、文書スコアを算出し、文書スコア記憶手段に格納する文書スコア算出手段と、
前記文書スコア記憶手段に格納されている文書スコアをもとに、前記文書を並び替える文書ソート手段と、
を有することを特徴とする文書検索装置。
【請求項2】
前記日時スコア取得手段は、
取得した文書に含まれるキーワードの位置を取得するキーワード位置取得手段と、
前記取得した文書に含まれる日時表現の位置を取得する日時表現位置取得手段と、
前記取得した文書に含まれる日時表現の有効範囲を決定する日時表現有効範囲決定手段と、
前記キーワードの位置及び前記日時表現の位置及び前記日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する近接性スコア算出手段と、
前記日時表現の有効範囲をもとに前記文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する内容スコア算出手段と、
前記文書の近接性スコアと前記内容スコアをもとに文書の日時スコアを算出し、前記日時スコア記憶手段に格納する日時スコア算出手段と、
を含む請求項1記載の文書検索装置。
【請求項3】
文書の集合から指定したキーワード及び日時に関する文書を検索する装置における文書検索方法であって、
前記装置の文書取得手段が、入力されたキーワードを含み、入力された日時の範囲内の日時表現を含む文書及び文書の適合性スコアを取得し、適合性スコア記憶手段に格納する文書取得工程と、
日時スコア取得手段が、取得した文書に含まれるキーワード及び日時表現をもとに、日時表現の有効範囲を考慮して文書内でキーワードと日時とがどの程度関連しているかを表す日時スコアを算出し、日時スコア記憶手段に格納する日時スコア取得工程と、
文書スコア算出手段が、前記適合性スコア記憶手段の前記文書の適合性スコア及び前記日時スコア記憶手段の前記日時スコアをもとに、文書スコアを算出し、文書スコア記憶手段に格納する文書スコア算出工程と、
文書ソート手段が、前記文書スコア記憶手段の前記文書スコアをもとに、文書を並び替える文書ソート工程と、
を有することを特徴とする文書検索方法。
【請求項4】
前記キーワード日時関連性スコア算出工程は、
キーワード位置取得手段が、取得した文書に含まれるキーワードの位置を取得するキーワード位置取得工程と、
日時表現位置取得手段が、取得した文書に含まれる日時表現の位置を取得する日時表現位置取得工程と、
日時表現有効範囲決定手段が、取得した文書に含まれる日時表現の有効範囲を決定する日時表現有効範囲決定工程と、
近接性スコア算出手段が、キーワードの位置及び日時表現の位置及び日時表現の有効範囲をもとに文書内でのキーワードと日時との近さを表す近接性スコアを算出する近接性スコア算出工程と、
内容スコア算出手段が、日時表現の有効範囲をもとに文書が入力された日時に関してどの程度記述されているかを表す内容スコアを算出する内容スコア算出工程と、
関連性スコア算出手段が、文書の近接性スコアと内容スコアをもとに文書の日時スコアを算出し、前記日時スコア記憶手段に格納する日時スコア算出工程と、
を含む請求項3記載の文書検索方法。
【請求項5】
請求項1または2に記載の文書検索装置を構成する各手段としてコンピュータを機能させるための文書検索プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2012−84010(P2012−84010A)
【公開日】平成24年4月26日(2012.4.26)
【国際特許分類】
【出願番号】特願2010−230674(P2010−230674)
【出願日】平成22年10月13日(2010.10.13)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成24年4月26日(2012.4.26)
【国際特許分類】
【出願日】平成22年10月13日(2010.10.13)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]