説明

文書日時推定装置、文書日時推定方法、文書日時推定プログラム

【課題】日時メタ情報が取得できなかった場合でも文書日時を推定できるようにする。
【解決手段】本発明の文書日時推定装置は、第1日時推定部、第2日時推定部、第3日時推定部、日時表現記録部、日時修正部を備える。日時表現記録部は、あらかじめ絶対的な日時が特定できる日時表現を記録しておく。第1日時推定部は、日時メタ情報が含まれている場合には当該日時メタ情報の日時を文書日時とする。第2日時推定部は、文書または文書を特定する情報に含まれるファイル名などから日時表現記録部に記録された日時候補を求め、日時候補が年月日を完全に含んでいるときは当該日時候補を文書日時とする。第3日時推定部は、日時候補を当該文書を取得した日時を用いて補完して日時候補とする。日時修正部は、第3日時推定部が日時候補を求めた場合に、日時表現記録部が記録している日時表現に合致する日時表現を文書から探索し、特定できる日時を文書日時とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Webテキスト、テキストファイル等の様々な文書の基準となる日時(文書日時)を推定する文書日時推定装置、文書日時推定方法、文書日時推定プログラムに関する。
【背景技術】
【0002】
Webテキスト、テキストファイル等の様々な文書の基準となる日時を取得する方法としては、電子メールの送信日時を文書日時とする方法(特許文献1)が知られている。また、Webページのメタデータとして付与されている日時情報を取得する方法もある。Webページのメタデータとして付与されている日時情報としては、たとえばRFC2616で定められているLast-Modifiedヘッダ(RFC2616,[平成22年6月19日検索]、インターネット<URL: http://www.ietf.org/rfc/rfc2616.txt>)や、RSS2.0で定められているRSSフィード(RSS 2.0 Specification,[平成22年6月19日検索]、インターネット<URL: http://www.rssboard.org/rss-specification>)でファイルの更新情報を取得する方法などがある。このように、従来技術は日時に関するメタ情報(日時メタ情報)のいずれかにより文書日時が特定できることを前提としている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平11−143864号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術はいずれかの日時メタ情報が取得できることを前提としているため、これらの情報が取得できなかった場合に文書日時を決定することができないという課題がある。
【0005】
本発明は、日時メタ情報が取得できなかった場合でも文書日時を推定できるようにすることを目的とする。
【課題を解決するための手段】
【0006】
本発明の文書日時推定装置は、文書入力部、第1日時推定部、第2日時推定部、第3日時推定部、日時表現記録部、日時修正部、文書日時出力部を備える。日時表現記録部は、あらかじめ絶対的な日時が特定できる日時表現と当該日時表現の場合の日時の設定方法を記録しておく。文書入力部は、文書日時を推定する対象となる文書とその文書を特定する情報を取得する。第1日時推定部は、文書または文書を特定する情報に日時メタ情報が含まれているかを確認し、日時メタ情報が含まれている場合には当該日時メタ情報の日時を文書日時とする。第2日時推定部は、第1日時推定部が文書日時を求められなかった場合に、文書または前記文書を特定する情報に含まれるファイル名、文書のタイトル、または前記文書のソースの情報に日時を特定する情報が含まれているかを、日時表現記録部を参照して確認し、含まれている場合には当該日時表現の日時の設定方法に従って日時候補を求め、日時候補が年月日を含んでいるときは当該日時候補を文書日時とする。第3日時推定部は、第2日時推定部が文書日時を求められなかった場合に、日時候補があるときには当該日時候補を当該文書を取得した日時を用いて補完して新しい日時候補とし、日時候補がないときには当該文書を取得した日時を日時候補とする。日時修正部は、第3日時推定部が日時候補を求めた場合に、日時表現記録部に記録された日時表現に合致する日時表現であって所定の範囲の日時を文書から探索し、見つかったときには当該日時表現の日時の設定方法で定まる日時を文書日時とし、見つからなかったときには日時候補を文書日時とする。文書日時出力部は、文書日時と文書を特定する情報とを出力する。
【発明の効果】
【0007】
本発明の文書日時推定装置によれば、日時メタ情報がない文書でも、ファイル名、タイトル、URL、クロール日時、文書の内容などから総合的に文書日時を推定できる。
【図面の簡単な説明】
【0008】
【図1】本発明の文書日時推定装置の機能構成例を示す図。
【図2】本発明の文書日時推定装置の処理フロー例を示す図。
【図3】日時表現とその日時表現の場合の日時の設定方法の例を示す図。
【発明を実施するための形態】
【0009】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例1】
【0010】
図1に本発明の文書日時推定装置の機能構成例を示す。また、図2に本発明の文書日時推定装置の処理フロー例を示す。文書日時推定装置100は、文書入力部110、第1日時推定部120、第2日時推定部130、第3日時推定部140、日時表現記録部190、日時修正部150、文書日時出力部160を備える。日時表現記録部190は、あらかじめ絶対的な日時が特定できる日時表現と当該日時表現の場合の日時の設定方法を記録しておく。図3は、日時表現とその日時表現の場合の日時の設定方法の例である。このような日時表現とその日時表現の場合の日時の設定方法の例は、人手で作成すればよい。文書入力部110は、文書日時を推定する対象となる文書とその文書を特定する情報(「文書ID」と呼ばれる)を取得する(S110)。第1日時推定部120は、文書または文書を特定する情報に日時メタ情報が含まれているかを確認し(S121)、日時メタ情報が含まれている場合(ステップS121がYesの場合)には当該日時メタ情報の日時を文書日時とする(S122)。
【0011】
第2日時推定部130は、第1日時推定部120が文書日時を求められなかった場合(ステップS121がNoの場合)に、文書または文書を特定する情報に含まれるファイル名、文書のタイトル、または文書のソースの情報(例えば、Webテキストの場合であればURL)に日時を示す情報が含まれているかを、日時表現記録部190を参照して確認し、含まれている場合には当該日時表現の日時の設定方法に従って日時候補を求める(S131)。ファイル名やタイトルには、文書の作成者の日時表現が含まれていることがよくある。例えば、タイトルが「明細書案20100620」であれば、2010年6月20日版の明細書案であることが予測される。また、URLに日時表現(2010/05など)が含まれていることもある。このような日時表現を探し、日時候補を求める。日時表現が複数見つかった場合には、それらの日時表現で補完しあい、年月日を推定すればよい。例えば、1つの日時表現には年が記載されており、別の日時表現には月日が記載されていれば、それらを組み合わせればよい。そして、日時候補が年月日を完全に含んでいるかを確認する(S132)。日時候補が年月日を完全に含んでいるとき(ステップS132がYesのとき)は、当該日時候補を文書日時とする(S133)。なお、ファイル名、文書のタイトル、または文書のソースの情報から日時を示す情報が見つからなかった場合には日時候補は作成されない。日時候補が年月日を完全には含んでいないときや日時候補が作成されなかったとき(ステップS132がNoのとき)は、第3日時推定部140の処理に進む。
【0012】
第3日時推定部140は、第2日時推定部130が文書日時を求められなかった場合に、日時候補があるときには当該日時候補を、当該文書を取得した日時(クロール日時)を用いて補完して新しい日時候補とする。また、日時候補がないときには当該文書を取得した日時(クロール日時)を日時候補とする(S140)。日時修正部150は、日時表現記録部190に記録された日時表現に合致する日時表現であって所定の範囲の日時を文書から探索する。そして、見つかったときには当該日時表現の日時の設定方法で定まる日時を文書日時とし、見つからなかったときには日時候補を文書日時とする(S150)。なお、「所定の範囲の日時」とは、クロール日時以前であって、文書を作成した可能性のある日時の範囲に設定すればよい。文書日時出力部160は、文書日時と文書を特定する情報とを出力する(S160)。
【0013】
本発明の文書日時推定装置では、日時メタ情報がない場合でも、ファイル名、文書タイトル、URLを文書日時推定に用いることにより、従来よりも高度な文書日時推定が可能になった。また、ファイル名、文書タイトル、URLで年月日まで文書日時を推定できなかった場合でも、クロール日時や本文中の特定日時表現から文書日時を推定することで、年月日までの完全な文書日時を推定できるようになった。
【0014】
[プログラム、記録媒体]
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0015】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【0016】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0017】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0018】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0019】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【符号の説明】
【0020】
100 文書日時推定装置 110 文書入力部
120 第1日時推定部 130 第2日時推定部
140 第3日時推定部 150 日時修正部
160 文書日時出力部 190 日時表現記録部

【特許請求の範囲】
【請求項1】
絶対的な日時が特定できる日時表現と当該日時表現の場合の日時の設定方法を記録した日時表現記録部と、
文書日時を推定する対象となる文書とその文書を特定する情報を取得する文書入力部と、
前記文書または前記文書を特定する情報に日時メタ情報が含まれているかを確認し、日時メタ情報が含まれている場合には当該日時メタ情報の日時を文書日時とする第1日時推定部と、
前記第1日時推定部が文書日時を求められなかった場合に、前記文書または前記文書を特定する情報に含まれるファイル名、文書のタイトル、または前記文書のソースの情報に日時を特定できる日時表現が含まれているかを、前記日時表現記録部を参照して確認し、含まれている場合には当該日時表現の日時の設定方法に従って日時候補を求め、前記日時候補が年月日を含んでいるときは当該日時候補を文書日時とする第2日時推定部と、
前記第2日時推定部が文書日時を求められなかった場合に、前記日時候補があるときには当該日時候補を当該文書を取得した日時を用いて補完して新しい日時候補とし、前記日時候補がないときには当該文書を取得した日時を日時候補とする第3日時推定部と、
前記第3日時推定部が日時候補を求めた場合に、前記日時表現記録部に記録された日時表現に合致する日時表現であって所定の範囲の日時を前記文書から探索し、見つかったときには当該日時表現の日時の設定方法で定まる日時を文書日時とし、見つからなかったときは前記日時候補を文書日時とする日時修正部と、
前記文書日時と文書を特定する情報とを出力する文書日時出力部と
を備える文書日時推定装置。
【請求項2】
あらかじめ絶対的な日時が特定できる日時表現と当該日時表現の場合の日時の設定方法を日時表現記録部に記録しておき、
文書入力部が、文書日時を推定する対象となる文書とその文書を特定する情報を取得する文書入力ステップと、
第1日時推定部が、前記文書または前記文書を特定する情報に日時メタ情報が含まれているかを確認し、日時メタ情報が含まれている場合には当該日時メタ情報の日時を文書日時とする第1日時推定ステップと、
前記第1日時推定ステップで文書日時を求められなかった場合に、第2日時推定部が、前記文書または前記文書を特定する情報に含まれるファイル名、文書のタイトル、または前記文書のソースの情報に日時を特定できる日時表現が含まれているかを、前記日時表現記録部を参照して確認し、含まれている場合には当該日時表現の日時の設定方法に従って日時候補を求め、前記日時候補が年月日を含んでいるときは当該日時候補を文書日時とする第2日時推定ステップと、
前記第2日時推定ステップで文書日時を求められなかった場合に、第3日時推定部が、前記日時候補があるときには当該日時候補を当該文書を取得した日時を用いて補完して新しい日時候補とし、前記日時候補がないときには当該文書を取得した日時を日時候補とする第3日時推定ステップと、
前記第3日時推定ステップで日時候補を求めた場合に、日時修正部が、前記日時表現記録部に記録された日時表現に合致する日時表現であって所定の範囲の日時を前記文書から探索し、見つかったときには当該日時表現の日時の設定方法で定まる日時を文書日時とし、見つからなかったときは前記日時候補を文書日時とする日時修正ステップと、
文書日時出力部が、前記文書日時と文書を特定する情報とを出力する文書日時出力ステップと
を有する文書日時推定方法。
【請求項3】
請求項1記載の文書日時推定装置としてコンピュータを機能させる文書日時推定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2012−14315(P2012−14315A)
【公開日】平成24年1月19日(2012.1.19)
【国際特許分類】
【出願番号】特願2010−148593(P2010−148593)
【出願日】平成22年6月30日(2010.6.30)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】