文書監視プログラム、文書監視装置、文書監視方法
【課題】個人に関わる情報の公開を防止する文書監視プログラム、文書監視装置、文書監視方法を提供する。
【解決手段】ユーザにより作成された文書の監視をコンピュータに実行させる文書監視プログラムであって、ユーザの住所を表す文字列である第1文字列を取得し、ユーザにより作成された文書から名詞を抽出し、データベースにおいて名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、第1文字列と第2文字列との類似度から危険度を算出し、危険度に基づいて第2文字列に関する表示を行う。
【解決手段】ユーザにより作成された文書の監視をコンピュータに実行させる文書監視プログラムであって、ユーザの住所を表す文字列である第1文字列を取得し、ユーザにより作成された文書から名詞を抽出し、データベースにおいて名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、第1文字列と第2文字列との類似度から危険度を算出し、危険度に基づいて第2文字列に関する表示を行う。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、送信する文書を監視する文書監視プログラム、文書監視装置、文書監視方法に関するものである。
【背景技術】
【0002】
近年、インターネットにおいて、ブログ(Blog)、SNS(Social Networking Service)、掲示板などのユーザ参加型メディアが台頭している。これらは、CGM(Consumer Generated Media)と呼ばれ、一般のユーザが自由に意見や感想を述べられる場として注目を集めている。
【0003】
なお、本発明の関連ある従来技術として、公開された情報を監視し、登録されたキーワードにヒットした記事が存在する場合にその記事の削除依頼を行う掲載情報削除依頼代行システムがある(例えば、特許文献1参照)。また、知りたい情報に対して豊富な知識を備える人物を選別して紹介する情報共有システムがある(例えば、特許文献2参照)。
【特許文献1】特開2002−109085号公報
【特許文献2】特開2004−220177号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、誰でも簡単に情報発信ができる気軽さから、個人情報を載せて投稿してしまい問題となるケースが子供を中心に起きている。これに対して、ブログ、SNS、掲示板等を巡回・監視し、不適切な情報を発見して通知したり、削除したりするサービスが立ち上がっている。ただし、このようなサービスのほとんどが人手によって巡回・監視を行っているため、対象となる件数や監視間隔には限界がある。
【0005】
また、特許文献1の技術は、監視から削除依頼までを自動で行うため、人手よりは広範囲、短周期の監視が可能である。しかしながら、すでにインターネット上に公開されたものしか監視の対象にならない点、登録されたキーワードと完全に一致した記事しか発見できない点が課題である。
【0006】
本発明は上述した問題点を解決するためになされたものであり、個人に関わる情報の公開を防止する文書監視プログラム、文書監視装置、文書監視方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決するため、本発明の一態様は、ユーザにより作成された文書の監視をコンピュータに実行させる文書監視プログラムであって、前記ユーザの住所を表す文字列である第1文字列を取得し、前記ユーザにより作成された文書から名詞を抽出し、データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、前記第1文字列と前記第2文字列との類似度から危険度を算出し、前記危険度に基づいて前記第2文字列に関する表示を行うことをコンピュータに実行させる。
【0008】
また、本発明の一態様は、ユーザにより作成された文書の監視を行う文書監視装置であって、前記ユーザの住所を表す文字列である第1文字列を取得する第1取得部、前記ユーザにより作成された文書から名詞を抽出する抽出部と、データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得する第2取得部と、前記第1文字列と前記第2文字列との類似度から危険度を算出する算出部と、前記危険度に基づいて前記第2文字列に関する表示を行う表示部とを備える。
【0009】
また、本発明の一態様は、ユーザにより作成された文書の監視を行う文書監視方法であって、前記ユーザの住所を表す文字列である第1文字列を取得し、前記ユーザにより作成された文書から名詞を抽出し、データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、前記第1文字列と前記第2文字列との類似度から危険度を算出し、前記危険度に基づいて前記第2文字列に関する表示を行う。
【発明の効果】
【0010】
本発明によれば、個人に関わる情報の公開を防止することができる。
【発明を実施するための最良の形態】
【0011】
以下、本発明の実施の形態について図面を参照しつつ説明する。
【0012】
実施の形態1.
以下の実施の形態においては、ブログ、SNS、掲示板等のCGMの投稿を行う投稿システムに、本発明の文書監視装置を適用した例について説明する。
【0013】
まず、本実施の形態に係る文書監視装置の構成について説明する。
【0014】
図1は、本実施の形態に係る文書監視装置の構成の一例を示すブロック図である。この文書監視装置は、ユーザ情報登録部11、ユーザ情報DB(Database)12、ユーザ認証部13、ユーザ情報取得部14、文書受信部21、文書DB22、キーワード抽出部24、抽出キーワードDB26、緯度経度取得部31、緯度経度DB32、距離算出部33、危険キーワードDB34、判定部35、警告部42、修正部43、文書送信部44を備える。また、この文書監視装置は、ユーザが文書を作成及び投稿するためのユーザ端末1と投稿された記事を公開するサーバ2とに、ネットワークを介して接続されている。この文書監視装置は、ユーザ端末1からサーバ2へ投稿される文書を、投稿前に監視するものである。
【0015】
投稿を行うユーザの情報は、ユーザ情報として予め登録される。ユーザ情報登録部11は、ユーザにより入力されたユーザの住所や氏名等のユーザ情報を受信し、ユーザ情報DB12に登録する。緯度経度DB32は、公園、学校、店などの場所を示す名詞である場所名(地名)とその場所の緯度及び経度とを対応付けて格納している。
【0016】
次に、本実施の形態に係る文書監視装置の動作について説明する。
【0017】
図2は、本実施の形態に係る文書監視装置の動作の一例を示すフローチャートである。まず、ユーザ認証部13は、ユーザ端末1からの認証要求を受信すると、投稿を行うユーザの認証を行い、ユーザIDを取得する(S11)。以後、このユーザを対象ユーザと呼ぶ。次に、ユーザ情報取得部14は、ユーザIDに基づいて、ユーザ情報DB12から対象ユーザのユーザ情報を取得し、ユーザ情報から対象ユーザの住所であるユーザ住所を取得する(S12)。
【0018】
次に、ユーザ情報取得部14は、ユーザ住所を緯度経度DB32において検索し、ユーザ住所の緯度及び経度を取得する(S13)。次に、文書受信部21は、投稿のためにユーザ端末1から送信された文書を受信し、文書DB22へ登録する(S16)。以後、この文書を対象文書とする。次に、キーワード抽出部24は、受信した文書の形態素解析を行うことにより対象文書から名詞を抽出してキーワードとし、抽出キーワードDB26へ登録する(S17)。
【0019】
図3は、本実施の形態に係る緯度経度DBの内容の一例を示す表である。緯度経度DB32は、予め地図情報に基づいて作成され、場所毎に、場所名、緯度、経度の情報を格納する。また、場所名は、都道府県名、市町村名、番地等の住所文字列も含む。緯度経度DB32には、例えば日本全域の場所が登録されている。
【0020】
次に、キーワード判定処理(処理S22〜S33)を行う。
【0021】
まず、緯度経度取得部31は、抽出キーワードDB26に格納されたキーワードの中から1つを選択して選択キーワードとする(S22)。次に、緯度経度取得部31は、緯度経度DB32において選択キーワードを検索し、ヒットしたか否かの判定を行う(S23)。なお、緯度経度取得部31は、ユーザ住所付近に限定して、緯度経度DB32における選択キーワードの検索を行っても良い。
【0022】
ヒットしなかった場合(S23,N)、選択キーワードが場所名でないと判断し、処理S22へ戻り、次の選択キーワードの処理を行う。
【0023】
一方、ヒットした場合(S23,Y)、緯度経度取得部31は、選択キーワードが場所名であると判断し、場所名に対応する緯度及び経度を取得する(S25)。
【0024】
次に、距離算出部33は、ユーザ住所の緯度経度と選択キーワードの緯度経度とから、ユーザ住所と選択キーワードとの距離を算出する(S31)。次に、距離算出部33は、ユーザ住所と選択キーワードとの距離が距離しきい値以下であるか否かの判定を行う(S32)。ここで距離しきい値は、例えば5kmである。
【0025】
ユーザ住所と選択キーワードとの距離が所定距離以下でない場合(S32,N)、処理S41へ移行する。一方、ユーザ住所と選択キーワードとの距離が所定距離以下である場合(S32,Y)、距離算出部33は、選択キーワードを危険キーワードとし、危険キーワードや対象ユーザのユーザID等を危険キーワードDB34に登録し(S33)、処理S41へ移行する。この処理により、ユーザ住所に近い場所を表すキーワードを検出することができる。
【0026】
図4は、本実施の形態に係る危険キーワードDBの内容の一例を示す表である。危険キーワードDB34は、ユーザID毎及び危険キーワード毎のエントリを格納する。各エントリは、危険キーワードである場所名、ユーザID、その場所名に対応する緯度、経度、投稿したユーザのユーザ住所から危険キーワードの場所までの距離を格納する。
【0027】
次に、緯度経度取得部31は、対象文書中の全てのキーワードに対してキーワード判定処理を終了したか否かの判断を行う(S41)。キーワード判定処理が終了していない場合(S41,N)、このフローは処理S22へ戻る。一方、対象文書中の全てのキーワードについてキーワード判定処理が終了した場合(S41,Y)、判定部35は、危険キーワードDB34における当該ユーザの危険キーワード数をカウントし(S42)、危険キーワード数が危険キーワード数しきい値以上であるか否かの判定を行う(S43)。ここで、危険キーワード数しきい値は、例えば5個である。
【0028】
対象ユーザが過去にも文書を投稿している場合、危険キーワードDB34には、過去の危険キーワードも蓄積されているため、現在までの全ての危険キーワードに対して処理S43の判定が行われる。
【0029】
危険キーワード数が危険キーワード数しきい値以上でない場合(S43,N)、文書送信部44は、対象文書をサーバ2へ送信し(S59)、このフローは終了する。一方、危険キーワード数が危険キーワード数しきい値以上である場合(S43,Y)、警告部42は、危険キーワード表示処理を行う(S56)。修正部43は、対象文書において危険キーワードを修正する修正処理を行い、修正した対象文書を文書DB22へ保存する(S57)。修正処理において、修正部43は、対象文書における危険キーワードを別な文字(伏字)に置換する。次に、修正部43は、修正処理により対象文書から削除された危険キーワードのエントリを危険キーワードDB34から削除する(S58)。
【0030】
次に、文書送信部44は、文書DB22に保存された対象文書をユーザ端末1及びサーバ2へ送信し(S59)、このフローは終了する。サーバ2は、文書監視装置から受信した対象文書を公開する。
【0031】
次に、危険キーワード表示処理について説明する。
【0032】
警告部42は、ユーザ端末1に危険キーワードに関する情報を表示する。図5は、本実施の形態に係る危険キーワード表示処理による表示の一例を示す画面である。危険キーワード表示処理において、警告部42は、ユーザ住所を中心として、距離しきい値を半径とする円を表示する。更に、警告部42は、ユーザ住所の緯度経度と危険キーワードの緯度経度を用いて、ユーザ住所に対する危険キーワードの相対位置を表示し、その相対位置に危険キーワードを表示する。なお、危険キーワード表示処理は、危険キーワードだけを表示しても良いし、警告文を表示しても良い。また、修正処理は、警告部42による表示にしたがってユーザから再度送信された対象文書を修正結果としても良い。
【0033】
なお、文書監視装置は、警告部42と修正部43のいずれか一方を備える構成としても良い。
【0034】
本実施の形態によれば、緯度及び経度に基づいて、投稿しようとする文書から、ユーザ住所が特定される可能性の高いキーワードを検出し、警告または修正を行うことにより、ユーザ住所に関わる情報の公開を防止することができる。また、ユーザ毎に危険キーワードを蓄積することにより、複数の文書からユーザ住所が特定される可能性を判定することができる。
【0035】
実施の形態2.
まず、本実施の形態に係る文書監視装置の構成について説明する。
【0036】
図6は、本実施の形態に係る文書監視装置の構成の一例を示すブロック図である。この図において、図1と同一符号は図1に示された対象と同一又は相当物を示しており、ここでの説明を省略する。この図は、図1と比較すると、緯度経度取得部31、緯度経度DB32、距離算出部33、危険キーワードDB34、判定部35の代わりに、住所文字列取得部51、住所文字列DB52(住所データベース)、危険度算出部53、危険度DB54、判定部55を備える。
【0037】
次に、本実施の形態に係る文書監視装置の動作について説明する。
【0038】
図7は、本実施の形態に係る文書監視装置の動作の一例を示すフローチャートである。この図において、図2と同一符号は図2に示された対象と同一又は相当物を示しており、ここでの説明を省略する。まず、実施の形態1と同様、処理S11,S12が実行される。
【0039】
次に、ユーザ情報取得部14は、ユーザ情報から対象ユーザの住所の文字列であるユーザ住所文字列(第1文字列)を取得し(S14)、ユーザ住所文字列の形態素解析を行い、ユーザ住所文字列をブロックに分割する(S15)。
【0040】
図8は、本実施の形態に係るユーザ住所文字列の分割の一例を示す図である。各ブロックは、都道府県名、市町村名、区名等の単位である。
【0041】
次に、文書受信部21は、投稿のためにユーザ端末1から送信された対象文書を受信する(S16)。次に、キーワード抽出部24は、対象文書の形態素解析を行うことにより対象文書から名詞を抽出してキーワードとし、抽出キーワードDB26へ登録する(S17)。次に、住所文字列取得部51は、危険度DB54の中から危険度が最大のキーワードを読み出して最大危険度キーワードとし、その危険度を最大危険度とし、最大危険キーワードに対応する住所文字列を最大危険度住所文字列とする(S18)。ここで、あるキーワードの危険度は、そのキーワードに対応する住所文字列とユーザ住所文字列との類似度であり、具体的な算出方法は後述する。
【0042】
図9は、本実施の形態に係る危険度DBの内容の一例を示す表である。危険度DB54は、キーワード毎、ユーザ毎に、場所名、住所文字列、危険度を格納する。
【0043】
次に、キーワード判定処理(処理S62〜S68)を行う。
【0044】
まず、住所文字列取得部51は、抽出キーワードDB26に格納されたキーワードの中から1つを選択して選択キーワードとする(S62)。次に、住所文字列取得部51は、住所文字列DB52において選択キーワードを検索し、選択キーワードがヒットしたか否かの判定を行う(S63)。
【0045】
図10は、本実施の形態に係る住所文字列DBの内容の一例を示す表である。住所文字列DB52は、予め地図情報に基づいて作成され、場所毎に、場所名、住所文字列を格納する。住所文字列DB52には、例えば日本全域の場所が登録されている。
【0046】
選択キーワードがヒットした場合(S63,Y)、危険度算出部53は、第1危険度算出処理により選択キーワードの危険度を算出し(S64)、選択キーワードがヒットしなかった場合(S63,N)、危険度算出部53は、第2危険度算出処理により選択キーワードの危険度を算出する(S65)。次に、危険度算出部53は、選択キーワードとその危険度とを危険度DB54へ登録する(S66)。次に、危険度算出部53は、選択キーワードの危険度が最大危険度より大きいか否かの判定を行う(S67)。
【0047】
選択キーワードの危険度が最大危険度以下である場合(S67,N)、危険度算出部53は、処理S71へ移行する。一方、選択キーワードの危険度が最大危険度より大きい場合(S67,Y)、危険度算出部53は、最大危険度キーワードを選択キーワードに更新し(S68)、処理S71へ移行する。
【0048】
次に、住所文字列取得部51は、対象文書中の全てのキーワードに対してキーワード判定処理を終了したか否かの判断を行う(S71)。キーワード判定処理が終了していない場合(S71,N)、このフローは処理S62へ戻る。一方、対象文書中の全てのキーワードについてキーワード判定処理が終了した場合(S71,Y)、判定部55は、危険度DB54において危険度が危険度しきい値以上であるキーワードを危険キーワードとし、対象文書中に危険キーワードが存在するか否かの判定を行う(S73)。ここで、危険度しきい値は、例えば80%である。
【0049】
危険キーワードが存在しない場合(S73,N)、文書送信部44は、文書DB22に保存された対象文書をサーバ2へ送信し(S79)、このフローは終了する。一方、危険キーワードが存在する場合(S73,Y)、警告部42は、実施の形態1と同様の危険キーワード表示処理を行う(S76)。修正部43は、実施の形態1と同様の修正処理を行い、対象文書を文書DB22へ保存する(S77)。次に、修正部43は、修正処理により対象文書から削除された危険キーワードのエントリを危険度DB54から削除する(S78)。
【0050】
次に、文書送信部44は、文書DB22に保存された対象文書をユーザ端末1及びサーバ2へ送信し(S79)、このフローは終了する。サーバ2は、文書監視装置から受信した対象文書を公開する。
【0051】
次に、第1危険度算出処理について説明する。
【0052】
図11は、本実施の形態に係る第1危険度算出処理の動作の一例を示すフローチャートである。まず、住所文字列取得部51は、住所文字列DB52から選択キーワードと一致した場所名に対応する住所文字列を取得して選択住所文字列(第2文字列)とする(S81)。なお、住所文字列取得部51は、ユーザ住所付近に限定して選択キーワードの検索を行っても良い。次に、危険度算出部53は、選択住所文字列の長さと最大危険度住所文字列の長さのうち、大きい方をNとする(S96)。次に、選択住所文字列と最大危険度住所文字列を比較し、連続して一致した文字列の長さをMとする(S97)。次に、危険度算出部53は、(M/N×100)を選択キーワードの危険度[%]とし(S98)、このフローは終了する。選択キーワードの危険度が高いほど、ユーザ住所に近い、またはユーザ住所を特定しやすいことを示す。
【0053】
この第1危険度算出処理によれば、ユーザ住所文字列と選択キーワードの場所名に対応する住所文字列とが類似しているほど危険度を高くすることができる。
【0054】
次に、第2危険度算出処理について説明する。
【0055】
図12は、本実施の形態に係る第2危険度算出処理の動作の一例を示すフローチャートである。まず、危険度算出部53は、ユーザ住所の住所文字列のブロックのうち最大危険度住所文字列の次の1ブロックを、最大危険度住所文字列に加えて検索住所文字列(第3文字列)とする(S82)。次に、危険度算出部53は、インターネット上のコンテンツのデータベース(インデックス)において選択キーワードと検索住所文字列の両方を含むコンテンツを検索し、選択キーワードと検索住所文字列の両方を含むコンテンツが存在するか否かの判定を行う(S83)。
【0056】
選択キーワードと検索住所文字列の両方を含むコンテンツが存在しない場合(S83,N)、処理S95へ移行する。一方、選択キーワードと検索住所文字列の両方を含むコンテンツが存在する場合(S83,Y)、ユーザ住所の住所文字列のブロックのうち検索住所文字列の次の1ブロックを、検索住所文字列に加えて新たな検索住所文字列とし(S84)、処理S83へ戻る。
【0057】
次に、検索住所文字列から最後の1ブロックを削除した住所文字列を選択住所文字列(第2文字列)とする(S95)。次に、第1危険度算出処理と同様の処理S96〜S98が実行され、このフローは終了する。
【0058】
図13は、本実施の形態に係る第2危険度算出処理に関する情報の一例を示す図である。ここでは、最大危険度住所文字列、選択キーワード、選択キーワードの住所の例を示す。図14は、本実施の形態に係る第2危険度算出処理の一例を示す図である。
【0059】
1回目の検索では、選択キーワードと最大危険度住所文字列に1ブロックを加えた検索住所文字列とによる検索が行われ、検索住所文字列は選択キーワードの住所に含まれるため、選択キーワードに関するサイトにヒットする。同様に、2回目の検索では、選択キーワードと最大危険度住所文字列に2ブロックを加えた検索住所文字列とによる検索が行われ、検索住所文字列は選択キーワードの住所に含まれるため、検索は選択キーワードに関するサイトにヒットする。3回目の検索では、選択キーワードと最大危険度住所文字列に3ブロックを加えた検索住所文字列とによる検索が行われ、検索住所文字列は選択キーワードの住所に含まれないため、検索はミスする。ここで、検索住所文字列から最後の1ブロックを削除したものを選択住所文字列とする。
【0060】
この第2危険度算出処理によれば、選択キーワードの場所名に対応する住所文字列が住所文字列DB52から得られない場合でもインターネット上のコンテンツに基づいて選択キーワードに対応する住所文字列を生成することができ、危険度を算出することができる。
【0061】
なお、住所文字列DB52を用いずに、全ての危険度を第2危険度算出処理により算出しても良い。
【0062】
本実施の形態によれば、住所文字列に基づいて、ユーザが投稿しようとする文書から、ユーザ住所が特定される可能性の高いキーワードを検出し、警告または修正を行うことにより、ユーザ住所に関わる情報の公開を防ぐことができる。
【0063】
なお、第1取得部は、実施の形態におけるユーザ情報取得部に対応する。また、抽出部は、実施の形態におけるキーワード抽出部に対応する。また、第2取得部及び算出部は、実施の形態における危険度算出部に対応する。また、表示部は、実施の形態における警告部、修正部、文書送信部に対応する。
【0064】
更に、文書監視装置を構成するコンピュータにおいて上述した各ステップを実行させるプログラムを、文書監視プログラムとして提供することができる。上述したプログラムは、コンピュータにより読取り可能な記録媒体に記憶させることによって、文書監視装置を構成するコンピュータに実行させることが可能となる。ここで、上記コンピュータにより読取り可能な記録媒体としては、ROMやRAM等のコンピュータに内部実装される内部記憶装置、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
【0065】
(付記1) ユーザにより作成された文書の監視をコンピュータに実行させる文書監視プログラムであって、
前記ユーザの住所を表す文字列である第1文字列を取得し、
前記ユーザにより作成された文書から名詞を抽出し、
データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、
前記第1文字列と前記第2文字列との類似度から危険度を算出し、
前記危険度に基づいて前記第2文字列に関する表示を行う
ことをコンピュータに実行させる文書監視プログラム。
(付記2) 付記1に記載の文書監視プログラムにおいて、
前記第1文字列に含まれる文字列を第3文字列とし、インターネット上のコンテンツのデータベースにおいて前記第3文字列と前記名詞の両方を含むコンテンツを検索し、該コンテンツが存在する場合に前記第3文字列を前記第2文字列とする文書監視プログラム。
(付記3) 付記2に記載の文書監視プログラムにおいて、
前記第1文字列との類似度が最も高い第2文字列を用いて前記第3文字列を生成する文書監視プログラム。
(付記4) 付記3に記載の文書監視プログラムにおいて、
前記第1文字列を複数のブロックに分割し、前記第3文字列に前記ブロックを追加して新たな第3文字列を生成する文書監視プログラム。
(付記5) 付記3に記載の文書監視プログラムにおいて、
前記所定の関係は、全ての第2文字列のうち前記第1文字列との類似度が最も高い第2文字列を用いて前記第3文字列を生成する文書監視プログラム。
(付記6) 付記1に記載の文書監視プログラムにおいて、
地名と該地名の住所を示す文字列とが対応付けられた住所データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在した場合、該地名の住所を示す文字列を前記データベースから取得して前記第2文字列とする文書監視プログラム。
(付記7) 付記1に記載の文書監視プログラムにおいて、
地名と該地名の住所を示す文字列とを対応付けて格納する住所データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在しない場合、前記第1文字列に含まれる文字列を第3文字列とし、インターネットにおいて前記第3文字列と前記名詞の両方を含むコンテンツを検索し、該コンテンツが存在する場合に前記第3文字列を前記第2文字列とする文書監視プログラム。
(付記8) 付記1に記載の文書監視プログラムにおいて、
前記ユーザにより作成された文書の形態素解析を行い、該文書から名詞を抽出する文書監視プログラム。
(付記9) 付記1に記載の文書監視プログラムにおいて、
前記第1文字列と前記第2文字列とにおいて、連続して一致する文字列の長さに基づいて前記類似度を算出する文書監視プログラム。
(付記10) 付記1に記載の文書監視プログラムにおいて、
前記第1文字列と前記第2文字列との類似度が所定の条件を満たす場合、警告を表示する文書監視プログラム。
(付記11) 付記1に記載の文書監視プログラムにおいて、
前記第1文字列と前記第2文字列との類似度が所定の条件を満たす場合、前記文書において該第2文字列を修正する文書監視プログラム。
(付記12) ユーザにより作成された文書の監視をコンピュータに実行させる文書監視プログラムであって、
前記ユーザの住所を取得し、
前記ユーザにより作成された文書から名詞を抽出し、
データベースにおいて前記名詞を検索することにより、前記名詞により示される位置を取得し、
前記ユーザの住所と前記位置との関連性を算出し、
前記関連性に基づいて前記名詞に関する表示を行う
ことをコンピュータに実行させる文書監視プログラム。
(付記13) 付記12に記載の文書監視プログラムにおいて、
前記地名と該地名の緯度及び経度とを対応付けて格納する緯度経度データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在した場合、該地名の緯度経度に基づいて該地名から前記ユーザの住所までの距離を算出し、前記距離が所定の条件を満たす場合、前記名詞に関する表示を行う文書監視プログラム。
(付記14) ユーザにより作成された文書の監視を行う文書監視装置であって、
前記ユーザの住所を表す文字列である第1文字列を取得する第1取得部、
前記ユーザにより作成された文書から名詞を抽出する抽出部と、
データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得する第2取得部と、
前記第1文字列と前記第2文字列との類似度から危険度を算出する算出部と、
前記危険度に基づいて前記第2文字列に関する表示を行う表示部と、
を備える文書監視装置。
(付記15) 付記14に記載の文書監視装置において、
前記第2取得部は、前記第1文字列に含まれる文字列を第3文字列とし、インターネット上のコンテンツのデータベースにおいて前記第3文字列と前記名詞の両方を含むコンテンツを検索し、該コンテンツが存在する場合に前記第3文字列を前記第2文字列とする文書監視プログラム。
(付記16) 付記15に記載の文書監視プログラムにおいて、
前記第2取得部は、前記第1文字列との類似度が所定の関係にある第2文字列を用いて前記第3文字列を生成する文書監視プログラム。
(付記17) 付記16に記載の文書監視プログラムにおいて、
前記第2取得部は、前記第1文字列を複数のブロックに分割し、前記第3文字列に前記ブロックを追加して新たな第3文字列を生成する文書監視プログラム。
(付記18) 付記14に記載の文書監視プログラムにおいて、
地名と該地名の住所を示す文字列とが対応付けられた住所データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在した場合、該地名の住所を示す文字列を前記データベースから取得して前記第2文字列とする文書監視プログラム。
(付記19) 付記14に記載の文書監視プログラムにおいて、
地名と該地名の住所を示す文字列とを対応付けて格納する住所データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在しない場合、前記第1文字列に含まれる文字列を第3文字列とし、インターネットにおいて前記第3文字列と前記名詞の両方を含むコンテンツを検索し、該コンテンツが存在する場合に前記第3文字列を前記第2文字列とする文書監視プログラム。
(付記20) ユーザにより作成された文書の監視を行う文書監視方法であって、
前記ユーザの住所を表す文字列である第1文字列を取得し、
前記ユーザにより作成された文書から名詞を抽出し、
データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、
前記第1文字列と前記第2文字列との類似度から危険度を算出し、
前記危険度に基づいて前記第2文字列に関する表示を行う
文書監視方法。
【図面の簡単な説明】
【0066】
【図1】実施の形態1に係る文書監視装置の構成の一例を示すブロック図である。
【図2】実施の形態1に係る文書監視装置の動作の一例を示すフローチャートである。
【図3】実施の形態1に係る緯度経度DBの内容の一例を示す表である。
【図4】実施の形態1に係る危険キーワードDBの内容の一例を示す表である。
【図5】実施の形態1に係る危険キーワード表示処理による表示の一例を示す画面である。
【図6】実施の形態2に係る文書監視装置の構成の一例を示すブロック図である。
【図7】実施の形態2に係る文書監視装置の動作の一例を示すフローチャートである。
【図8】実施の形態2に係るユーザ住所文字列の分割の一例を示す図である。
【図9】実施の形態2に係る危険度DBの内容の一例を示す表である。
【図10】実施の形態2に係る住所文字列DBの内容の一例を示す表である。
【図11】実施の形態2に係る第1危険度算出処理の動作の一例を示すフローチャートである。
【図12】実施の形態2に係る第2危険度算出処理の動作の一例を示すフローチャートである。
【図13】実施の形態2に係る第2危険度算出処理に関する情報の一例を示す図である。
【図14】実施の形態2に係る第2危険度算出処理の一例を示す図である。
【符号の説明】
【0067】
1 ユーザ端末、2 サーバ、11 ユーザ情報登録部、12 ユーザ情報DB、13 ユーザ認証部、14 ユーザ情報取得部、21 文書受信部、22 文書DB、24 キーワード抽出部、26 抽出キーワードDB、31 緯度経度取得部、32 緯度経度DB、33 距離算出部、34 危険キーワードDB、35 判定部、42 警告部、43 修正部、44 文書送信部、51 住所文字列取得部、52 住所文字列DB、53 危険度算出部、54 危険度DB、55 判定部。
【技術分野】
【0001】
本発明は、送信する文書を監視する文書監視プログラム、文書監視装置、文書監視方法に関するものである。
【背景技術】
【0002】
近年、インターネットにおいて、ブログ(Blog)、SNS(Social Networking Service)、掲示板などのユーザ参加型メディアが台頭している。これらは、CGM(Consumer Generated Media)と呼ばれ、一般のユーザが自由に意見や感想を述べられる場として注目を集めている。
【0003】
なお、本発明の関連ある従来技術として、公開された情報を監視し、登録されたキーワードにヒットした記事が存在する場合にその記事の削除依頼を行う掲載情報削除依頼代行システムがある(例えば、特許文献1参照)。また、知りたい情報に対して豊富な知識を備える人物を選別して紹介する情報共有システムがある(例えば、特許文献2参照)。
【特許文献1】特開2002−109085号公報
【特許文献2】特開2004−220177号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、誰でも簡単に情報発信ができる気軽さから、個人情報を載せて投稿してしまい問題となるケースが子供を中心に起きている。これに対して、ブログ、SNS、掲示板等を巡回・監視し、不適切な情報を発見して通知したり、削除したりするサービスが立ち上がっている。ただし、このようなサービスのほとんどが人手によって巡回・監視を行っているため、対象となる件数や監視間隔には限界がある。
【0005】
また、特許文献1の技術は、監視から削除依頼までを自動で行うため、人手よりは広範囲、短周期の監視が可能である。しかしながら、すでにインターネット上に公開されたものしか監視の対象にならない点、登録されたキーワードと完全に一致した記事しか発見できない点が課題である。
【0006】
本発明は上述した問題点を解決するためになされたものであり、個人に関わる情報の公開を防止する文書監視プログラム、文書監視装置、文書監視方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決するため、本発明の一態様は、ユーザにより作成された文書の監視をコンピュータに実行させる文書監視プログラムであって、前記ユーザの住所を表す文字列である第1文字列を取得し、前記ユーザにより作成された文書から名詞を抽出し、データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、前記第1文字列と前記第2文字列との類似度から危険度を算出し、前記危険度に基づいて前記第2文字列に関する表示を行うことをコンピュータに実行させる。
【0008】
また、本発明の一態様は、ユーザにより作成された文書の監視を行う文書監視装置であって、前記ユーザの住所を表す文字列である第1文字列を取得する第1取得部、前記ユーザにより作成された文書から名詞を抽出する抽出部と、データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得する第2取得部と、前記第1文字列と前記第2文字列との類似度から危険度を算出する算出部と、前記危険度に基づいて前記第2文字列に関する表示を行う表示部とを備える。
【0009】
また、本発明の一態様は、ユーザにより作成された文書の監視を行う文書監視方法であって、前記ユーザの住所を表す文字列である第1文字列を取得し、前記ユーザにより作成された文書から名詞を抽出し、データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、前記第1文字列と前記第2文字列との類似度から危険度を算出し、前記危険度に基づいて前記第2文字列に関する表示を行う。
【発明の効果】
【0010】
本発明によれば、個人に関わる情報の公開を防止することができる。
【発明を実施するための最良の形態】
【0011】
以下、本発明の実施の形態について図面を参照しつつ説明する。
【0012】
実施の形態1.
以下の実施の形態においては、ブログ、SNS、掲示板等のCGMの投稿を行う投稿システムに、本発明の文書監視装置を適用した例について説明する。
【0013】
まず、本実施の形態に係る文書監視装置の構成について説明する。
【0014】
図1は、本実施の形態に係る文書監視装置の構成の一例を示すブロック図である。この文書監視装置は、ユーザ情報登録部11、ユーザ情報DB(Database)12、ユーザ認証部13、ユーザ情報取得部14、文書受信部21、文書DB22、キーワード抽出部24、抽出キーワードDB26、緯度経度取得部31、緯度経度DB32、距離算出部33、危険キーワードDB34、判定部35、警告部42、修正部43、文書送信部44を備える。また、この文書監視装置は、ユーザが文書を作成及び投稿するためのユーザ端末1と投稿された記事を公開するサーバ2とに、ネットワークを介して接続されている。この文書監視装置は、ユーザ端末1からサーバ2へ投稿される文書を、投稿前に監視するものである。
【0015】
投稿を行うユーザの情報は、ユーザ情報として予め登録される。ユーザ情報登録部11は、ユーザにより入力されたユーザの住所や氏名等のユーザ情報を受信し、ユーザ情報DB12に登録する。緯度経度DB32は、公園、学校、店などの場所を示す名詞である場所名(地名)とその場所の緯度及び経度とを対応付けて格納している。
【0016】
次に、本実施の形態に係る文書監視装置の動作について説明する。
【0017】
図2は、本実施の形態に係る文書監視装置の動作の一例を示すフローチャートである。まず、ユーザ認証部13は、ユーザ端末1からの認証要求を受信すると、投稿を行うユーザの認証を行い、ユーザIDを取得する(S11)。以後、このユーザを対象ユーザと呼ぶ。次に、ユーザ情報取得部14は、ユーザIDに基づいて、ユーザ情報DB12から対象ユーザのユーザ情報を取得し、ユーザ情報から対象ユーザの住所であるユーザ住所を取得する(S12)。
【0018】
次に、ユーザ情報取得部14は、ユーザ住所を緯度経度DB32において検索し、ユーザ住所の緯度及び経度を取得する(S13)。次に、文書受信部21は、投稿のためにユーザ端末1から送信された文書を受信し、文書DB22へ登録する(S16)。以後、この文書を対象文書とする。次に、キーワード抽出部24は、受信した文書の形態素解析を行うことにより対象文書から名詞を抽出してキーワードとし、抽出キーワードDB26へ登録する(S17)。
【0019】
図3は、本実施の形態に係る緯度経度DBの内容の一例を示す表である。緯度経度DB32は、予め地図情報に基づいて作成され、場所毎に、場所名、緯度、経度の情報を格納する。また、場所名は、都道府県名、市町村名、番地等の住所文字列も含む。緯度経度DB32には、例えば日本全域の場所が登録されている。
【0020】
次に、キーワード判定処理(処理S22〜S33)を行う。
【0021】
まず、緯度経度取得部31は、抽出キーワードDB26に格納されたキーワードの中から1つを選択して選択キーワードとする(S22)。次に、緯度経度取得部31は、緯度経度DB32において選択キーワードを検索し、ヒットしたか否かの判定を行う(S23)。なお、緯度経度取得部31は、ユーザ住所付近に限定して、緯度経度DB32における選択キーワードの検索を行っても良い。
【0022】
ヒットしなかった場合(S23,N)、選択キーワードが場所名でないと判断し、処理S22へ戻り、次の選択キーワードの処理を行う。
【0023】
一方、ヒットした場合(S23,Y)、緯度経度取得部31は、選択キーワードが場所名であると判断し、場所名に対応する緯度及び経度を取得する(S25)。
【0024】
次に、距離算出部33は、ユーザ住所の緯度経度と選択キーワードの緯度経度とから、ユーザ住所と選択キーワードとの距離を算出する(S31)。次に、距離算出部33は、ユーザ住所と選択キーワードとの距離が距離しきい値以下であるか否かの判定を行う(S32)。ここで距離しきい値は、例えば5kmである。
【0025】
ユーザ住所と選択キーワードとの距離が所定距離以下でない場合(S32,N)、処理S41へ移行する。一方、ユーザ住所と選択キーワードとの距離が所定距離以下である場合(S32,Y)、距離算出部33は、選択キーワードを危険キーワードとし、危険キーワードや対象ユーザのユーザID等を危険キーワードDB34に登録し(S33)、処理S41へ移行する。この処理により、ユーザ住所に近い場所を表すキーワードを検出することができる。
【0026】
図4は、本実施の形態に係る危険キーワードDBの内容の一例を示す表である。危険キーワードDB34は、ユーザID毎及び危険キーワード毎のエントリを格納する。各エントリは、危険キーワードである場所名、ユーザID、その場所名に対応する緯度、経度、投稿したユーザのユーザ住所から危険キーワードの場所までの距離を格納する。
【0027】
次に、緯度経度取得部31は、対象文書中の全てのキーワードに対してキーワード判定処理を終了したか否かの判断を行う(S41)。キーワード判定処理が終了していない場合(S41,N)、このフローは処理S22へ戻る。一方、対象文書中の全てのキーワードについてキーワード判定処理が終了した場合(S41,Y)、判定部35は、危険キーワードDB34における当該ユーザの危険キーワード数をカウントし(S42)、危険キーワード数が危険キーワード数しきい値以上であるか否かの判定を行う(S43)。ここで、危険キーワード数しきい値は、例えば5個である。
【0028】
対象ユーザが過去にも文書を投稿している場合、危険キーワードDB34には、過去の危険キーワードも蓄積されているため、現在までの全ての危険キーワードに対して処理S43の判定が行われる。
【0029】
危険キーワード数が危険キーワード数しきい値以上でない場合(S43,N)、文書送信部44は、対象文書をサーバ2へ送信し(S59)、このフローは終了する。一方、危険キーワード数が危険キーワード数しきい値以上である場合(S43,Y)、警告部42は、危険キーワード表示処理を行う(S56)。修正部43は、対象文書において危険キーワードを修正する修正処理を行い、修正した対象文書を文書DB22へ保存する(S57)。修正処理において、修正部43は、対象文書における危険キーワードを別な文字(伏字)に置換する。次に、修正部43は、修正処理により対象文書から削除された危険キーワードのエントリを危険キーワードDB34から削除する(S58)。
【0030】
次に、文書送信部44は、文書DB22に保存された対象文書をユーザ端末1及びサーバ2へ送信し(S59)、このフローは終了する。サーバ2は、文書監視装置から受信した対象文書を公開する。
【0031】
次に、危険キーワード表示処理について説明する。
【0032】
警告部42は、ユーザ端末1に危険キーワードに関する情報を表示する。図5は、本実施の形態に係る危険キーワード表示処理による表示の一例を示す画面である。危険キーワード表示処理において、警告部42は、ユーザ住所を中心として、距離しきい値を半径とする円を表示する。更に、警告部42は、ユーザ住所の緯度経度と危険キーワードの緯度経度を用いて、ユーザ住所に対する危険キーワードの相対位置を表示し、その相対位置に危険キーワードを表示する。なお、危険キーワード表示処理は、危険キーワードだけを表示しても良いし、警告文を表示しても良い。また、修正処理は、警告部42による表示にしたがってユーザから再度送信された対象文書を修正結果としても良い。
【0033】
なお、文書監視装置は、警告部42と修正部43のいずれか一方を備える構成としても良い。
【0034】
本実施の形態によれば、緯度及び経度に基づいて、投稿しようとする文書から、ユーザ住所が特定される可能性の高いキーワードを検出し、警告または修正を行うことにより、ユーザ住所に関わる情報の公開を防止することができる。また、ユーザ毎に危険キーワードを蓄積することにより、複数の文書からユーザ住所が特定される可能性を判定することができる。
【0035】
実施の形態2.
まず、本実施の形態に係る文書監視装置の構成について説明する。
【0036】
図6は、本実施の形態に係る文書監視装置の構成の一例を示すブロック図である。この図において、図1と同一符号は図1に示された対象と同一又は相当物を示しており、ここでの説明を省略する。この図は、図1と比較すると、緯度経度取得部31、緯度経度DB32、距離算出部33、危険キーワードDB34、判定部35の代わりに、住所文字列取得部51、住所文字列DB52(住所データベース)、危険度算出部53、危険度DB54、判定部55を備える。
【0037】
次に、本実施の形態に係る文書監視装置の動作について説明する。
【0038】
図7は、本実施の形態に係る文書監視装置の動作の一例を示すフローチャートである。この図において、図2と同一符号は図2に示された対象と同一又は相当物を示しており、ここでの説明を省略する。まず、実施の形態1と同様、処理S11,S12が実行される。
【0039】
次に、ユーザ情報取得部14は、ユーザ情報から対象ユーザの住所の文字列であるユーザ住所文字列(第1文字列)を取得し(S14)、ユーザ住所文字列の形態素解析を行い、ユーザ住所文字列をブロックに分割する(S15)。
【0040】
図8は、本実施の形態に係るユーザ住所文字列の分割の一例を示す図である。各ブロックは、都道府県名、市町村名、区名等の単位である。
【0041】
次に、文書受信部21は、投稿のためにユーザ端末1から送信された対象文書を受信する(S16)。次に、キーワード抽出部24は、対象文書の形態素解析を行うことにより対象文書から名詞を抽出してキーワードとし、抽出キーワードDB26へ登録する(S17)。次に、住所文字列取得部51は、危険度DB54の中から危険度が最大のキーワードを読み出して最大危険度キーワードとし、その危険度を最大危険度とし、最大危険キーワードに対応する住所文字列を最大危険度住所文字列とする(S18)。ここで、あるキーワードの危険度は、そのキーワードに対応する住所文字列とユーザ住所文字列との類似度であり、具体的な算出方法は後述する。
【0042】
図9は、本実施の形態に係る危険度DBの内容の一例を示す表である。危険度DB54は、キーワード毎、ユーザ毎に、場所名、住所文字列、危険度を格納する。
【0043】
次に、キーワード判定処理(処理S62〜S68)を行う。
【0044】
まず、住所文字列取得部51は、抽出キーワードDB26に格納されたキーワードの中から1つを選択して選択キーワードとする(S62)。次に、住所文字列取得部51は、住所文字列DB52において選択キーワードを検索し、選択キーワードがヒットしたか否かの判定を行う(S63)。
【0045】
図10は、本実施の形態に係る住所文字列DBの内容の一例を示す表である。住所文字列DB52は、予め地図情報に基づいて作成され、場所毎に、場所名、住所文字列を格納する。住所文字列DB52には、例えば日本全域の場所が登録されている。
【0046】
選択キーワードがヒットした場合(S63,Y)、危険度算出部53は、第1危険度算出処理により選択キーワードの危険度を算出し(S64)、選択キーワードがヒットしなかった場合(S63,N)、危険度算出部53は、第2危険度算出処理により選択キーワードの危険度を算出する(S65)。次に、危険度算出部53は、選択キーワードとその危険度とを危険度DB54へ登録する(S66)。次に、危険度算出部53は、選択キーワードの危険度が最大危険度より大きいか否かの判定を行う(S67)。
【0047】
選択キーワードの危険度が最大危険度以下である場合(S67,N)、危険度算出部53は、処理S71へ移行する。一方、選択キーワードの危険度が最大危険度より大きい場合(S67,Y)、危険度算出部53は、最大危険度キーワードを選択キーワードに更新し(S68)、処理S71へ移行する。
【0048】
次に、住所文字列取得部51は、対象文書中の全てのキーワードに対してキーワード判定処理を終了したか否かの判断を行う(S71)。キーワード判定処理が終了していない場合(S71,N)、このフローは処理S62へ戻る。一方、対象文書中の全てのキーワードについてキーワード判定処理が終了した場合(S71,Y)、判定部55は、危険度DB54において危険度が危険度しきい値以上であるキーワードを危険キーワードとし、対象文書中に危険キーワードが存在するか否かの判定を行う(S73)。ここで、危険度しきい値は、例えば80%である。
【0049】
危険キーワードが存在しない場合(S73,N)、文書送信部44は、文書DB22に保存された対象文書をサーバ2へ送信し(S79)、このフローは終了する。一方、危険キーワードが存在する場合(S73,Y)、警告部42は、実施の形態1と同様の危険キーワード表示処理を行う(S76)。修正部43は、実施の形態1と同様の修正処理を行い、対象文書を文書DB22へ保存する(S77)。次に、修正部43は、修正処理により対象文書から削除された危険キーワードのエントリを危険度DB54から削除する(S78)。
【0050】
次に、文書送信部44は、文書DB22に保存された対象文書をユーザ端末1及びサーバ2へ送信し(S79)、このフローは終了する。サーバ2は、文書監視装置から受信した対象文書を公開する。
【0051】
次に、第1危険度算出処理について説明する。
【0052】
図11は、本実施の形態に係る第1危険度算出処理の動作の一例を示すフローチャートである。まず、住所文字列取得部51は、住所文字列DB52から選択キーワードと一致した場所名に対応する住所文字列を取得して選択住所文字列(第2文字列)とする(S81)。なお、住所文字列取得部51は、ユーザ住所付近に限定して選択キーワードの検索を行っても良い。次に、危険度算出部53は、選択住所文字列の長さと最大危険度住所文字列の長さのうち、大きい方をNとする(S96)。次に、選択住所文字列と最大危険度住所文字列を比較し、連続して一致した文字列の長さをMとする(S97)。次に、危険度算出部53は、(M/N×100)を選択キーワードの危険度[%]とし(S98)、このフローは終了する。選択キーワードの危険度が高いほど、ユーザ住所に近い、またはユーザ住所を特定しやすいことを示す。
【0053】
この第1危険度算出処理によれば、ユーザ住所文字列と選択キーワードの場所名に対応する住所文字列とが類似しているほど危険度を高くすることができる。
【0054】
次に、第2危険度算出処理について説明する。
【0055】
図12は、本実施の形態に係る第2危険度算出処理の動作の一例を示すフローチャートである。まず、危険度算出部53は、ユーザ住所の住所文字列のブロックのうち最大危険度住所文字列の次の1ブロックを、最大危険度住所文字列に加えて検索住所文字列(第3文字列)とする(S82)。次に、危険度算出部53は、インターネット上のコンテンツのデータベース(インデックス)において選択キーワードと検索住所文字列の両方を含むコンテンツを検索し、選択キーワードと検索住所文字列の両方を含むコンテンツが存在するか否かの判定を行う(S83)。
【0056】
選択キーワードと検索住所文字列の両方を含むコンテンツが存在しない場合(S83,N)、処理S95へ移行する。一方、選択キーワードと検索住所文字列の両方を含むコンテンツが存在する場合(S83,Y)、ユーザ住所の住所文字列のブロックのうち検索住所文字列の次の1ブロックを、検索住所文字列に加えて新たな検索住所文字列とし(S84)、処理S83へ戻る。
【0057】
次に、検索住所文字列から最後の1ブロックを削除した住所文字列を選択住所文字列(第2文字列)とする(S95)。次に、第1危険度算出処理と同様の処理S96〜S98が実行され、このフローは終了する。
【0058】
図13は、本実施の形態に係る第2危険度算出処理に関する情報の一例を示す図である。ここでは、最大危険度住所文字列、選択キーワード、選択キーワードの住所の例を示す。図14は、本実施の形態に係る第2危険度算出処理の一例を示す図である。
【0059】
1回目の検索では、選択キーワードと最大危険度住所文字列に1ブロックを加えた検索住所文字列とによる検索が行われ、検索住所文字列は選択キーワードの住所に含まれるため、選択キーワードに関するサイトにヒットする。同様に、2回目の検索では、選択キーワードと最大危険度住所文字列に2ブロックを加えた検索住所文字列とによる検索が行われ、検索住所文字列は選択キーワードの住所に含まれるため、検索は選択キーワードに関するサイトにヒットする。3回目の検索では、選択キーワードと最大危険度住所文字列に3ブロックを加えた検索住所文字列とによる検索が行われ、検索住所文字列は選択キーワードの住所に含まれないため、検索はミスする。ここで、検索住所文字列から最後の1ブロックを削除したものを選択住所文字列とする。
【0060】
この第2危険度算出処理によれば、選択キーワードの場所名に対応する住所文字列が住所文字列DB52から得られない場合でもインターネット上のコンテンツに基づいて選択キーワードに対応する住所文字列を生成することができ、危険度を算出することができる。
【0061】
なお、住所文字列DB52を用いずに、全ての危険度を第2危険度算出処理により算出しても良い。
【0062】
本実施の形態によれば、住所文字列に基づいて、ユーザが投稿しようとする文書から、ユーザ住所が特定される可能性の高いキーワードを検出し、警告または修正を行うことにより、ユーザ住所に関わる情報の公開を防ぐことができる。
【0063】
なお、第1取得部は、実施の形態におけるユーザ情報取得部に対応する。また、抽出部は、実施の形態におけるキーワード抽出部に対応する。また、第2取得部及び算出部は、実施の形態における危険度算出部に対応する。また、表示部は、実施の形態における警告部、修正部、文書送信部に対応する。
【0064】
更に、文書監視装置を構成するコンピュータにおいて上述した各ステップを実行させるプログラムを、文書監視プログラムとして提供することができる。上述したプログラムは、コンピュータにより読取り可能な記録媒体に記憶させることによって、文書監視装置を構成するコンピュータに実行させることが可能となる。ここで、上記コンピュータにより読取り可能な記録媒体としては、ROMやRAM等のコンピュータに内部実装される内部記憶装置、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
【0065】
(付記1) ユーザにより作成された文書の監視をコンピュータに実行させる文書監視プログラムであって、
前記ユーザの住所を表す文字列である第1文字列を取得し、
前記ユーザにより作成された文書から名詞を抽出し、
データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、
前記第1文字列と前記第2文字列との類似度から危険度を算出し、
前記危険度に基づいて前記第2文字列に関する表示を行う
ことをコンピュータに実行させる文書監視プログラム。
(付記2) 付記1に記載の文書監視プログラムにおいて、
前記第1文字列に含まれる文字列を第3文字列とし、インターネット上のコンテンツのデータベースにおいて前記第3文字列と前記名詞の両方を含むコンテンツを検索し、該コンテンツが存在する場合に前記第3文字列を前記第2文字列とする文書監視プログラム。
(付記3) 付記2に記載の文書監視プログラムにおいて、
前記第1文字列との類似度が最も高い第2文字列を用いて前記第3文字列を生成する文書監視プログラム。
(付記4) 付記3に記載の文書監視プログラムにおいて、
前記第1文字列を複数のブロックに分割し、前記第3文字列に前記ブロックを追加して新たな第3文字列を生成する文書監視プログラム。
(付記5) 付記3に記載の文書監視プログラムにおいて、
前記所定の関係は、全ての第2文字列のうち前記第1文字列との類似度が最も高い第2文字列を用いて前記第3文字列を生成する文書監視プログラム。
(付記6) 付記1に記載の文書監視プログラムにおいて、
地名と該地名の住所を示す文字列とが対応付けられた住所データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在した場合、該地名の住所を示す文字列を前記データベースから取得して前記第2文字列とする文書監視プログラム。
(付記7) 付記1に記載の文書監視プログラムにおいて、
地名と該地名の住所を示す文字列とを対応付けて格納する住所データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在しない場合、前記第1文字列に含まれる文字列を第3文字列とし、インターネットにおいて前記第3文字列と前記名詞の両方を含むコンテンツを検索し、該コンテンツが存在する場合に前記第3文字列を前記第2文字列とする文書監視プログラム。
(付記8) 付記1に記載の文書監視プログラムにおいて、
前記ユーザにより作成された文書の形態素解析を行い、該文書から名詞を抽出する文書監視プログラム。
(付記9) 付記1に記載の文書監視プログラムにおいて、
前記第1文字列と前記第2文字列とにおいて、連続して一致する文字列の長さに基づいて前記類似度を算出する文書監視プログラム。
(付記10) 付記1に記載の文書監視プログラムにおいて、
前記第1文字列と前記第2文字列との類似度が所定の条件を満たす場合、警告を表示する文書監視プログラム。
(付記11) 付記1に記載の文書監視プログラムにおいて、
前記第1文字列と前記第2文字列との類似度が所定の条件を満たす場合、前記文書において該第2文字列を修正する文書監視プログラム。
(付記12) ユーザにより作成された文書の監視をコンピュータに実行させる文書監視プログラムであって、
前記ユーザの住所を取得し、
前記ユーザにより作成された文書から名詞を抽出し、
データベースにおいて前記名詞を検索することにより、前記名詞により示される位置を取得し、
前記ユーザの住所と前記位置との関連性を算出し、
前記関連性に基づいて前記名詞に関する表示を行う
ことをコンピュータに実行させる文書監視プログラム。
(付記13) 付記12に記載の文書監視プログラムにおいて、
前記地名と該地名の緯度及び経度とを対応付けて格納する緯度経度データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在した場合、該地名の緯度経度に基づいて該地名から前記ユーザの住所までの距離を算出し、前記距離が所定の条件を満たす場合、前記名詞に関する表示を行う文書監視プログラム。
(付記14) ユーザにより作成された文書の監視を行う文書監視装置であって、
前記ユーザの住所を表す文字列である第1文字列を取得する第1取得部、
前記ユーザにより作成された文書から名詞を抽出する抽出部と、
データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得する第2取得部と、
前記第1文字列と前記第2文字列との類似度から危険度を算出する算出部と、
前記危険度に基づいて前記第2文字列に関する表示を行う表示部と、
を備える文書監視装置。
(付記15) 付記14に記載の文書監視装置において、
前記第2取得部は、前記第1文字列に含まれる文字列を第3文字列とし、インターネット上のコンテンツのデータベースにおいて前記第3文字列と前記名詞の両方を含むコンテンツを検索し、該コンテンツが存在する場合に前記第3文字列を前記第2文字列とする文書監視プログラム。
(付記16) 付記15に記載の文書監視プログラムにおいて、
前記第2取得部は、前記第1文字列との類似度が所定の関係にある第2文字列を用いて前記第3文字列を生成する文書監視プログラム。
(付記17) 付記16に記載の文書監視プログラムにおいて、
前記第2取得部は、前記第1文字列を複数のブロックに分割し、前記第3文字列に前記ブロックを追加して新たな第3文字列を生成する文書監視プログラム。
(付記18) 付記14に記載の文書監視プログラムにおいて、
地名と該地名の住所を示す文字列とが対応付けられた住所データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在した場合、該地名の住所を示す文字列を前記データベースから取得して前記第2文字列とする文書監視プログラム。
(付記19) 付記14に記載の文書監視プログラムにおいて、
地名と該地名の住所を示す文字列とを対応付けて格納する住所データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在しない場合、前記第1文字列に含まれる文字列を第3文字列とし、インターネットにおいて前記第3文字列と前記名詞の両方を含むコンテンツを検索し、該コンテンツが存在する場合に前記第3文字列を前記第2文字列とする文書監視プログラム。
(付記20) ユーザにより作成された文書の監視を行う文書監視方法であって、
前記ユーザの住所を表す文字列である第1文字列を取得し、
前記ユーザにより作成された文書から名詞を抽出し、
データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、
前記第1文字列と前記第2文字列との類似度から危険度を算出し、
前記危険度に基づいて前記第2文字列に関する表示を行う
文書監視方法。
【図面の簡単な説明】
【0066】
【図1】実施の形態1に係る文書監視装置の構成の一例を示すブロック図である。
【図2】実施の形態1に係る文書監視装置の動作の一例を示すフローチャートである。
【図3】実施の形態1に係る緯度経度DBの内容の一例を示す表である。
【図4】実施の形態1に係る危険キーワードDBの内容の一例を示す表である。
【図5】実施の形態1に係る危険キーワード表示処理による表示の一例を示す画面である。
【図6】実施の形態2に係る文書監視装置の構成の一例を示すブロック図である。
【図7】実施の形態2に係る文書監視装置の動作の一例を示すフローチャートである。
【図8】実施の形態2に係るユーザ住所文字列の分割の一例を示す図である。
【図9】実施の形態2に係る危険度DBの内容の一例を示す表である。
【図10】実施の形態2に係る住所文字列DBの内容の一例を示す表である。
【図11】実施の形態2に係る第1危険度算出処理の動作の一例を示すフローチャートである。
【図12】実施の形態2に係る第2危険度算出処理の動作の一例を示すフローチャートである。
【図13】実施の形態2に係る第2危険度算出処理に関する情報の一例を示す図である。
【図14】実施の形態2に係る第2危険度算出処理の一例を示す図である。
【符号の説明】
【0067】
1 ユーザ端末、2 サーバ、11 ユーザ情報登録部、12 ユーザ情報DB、13 ユーザ認証部、14 ユーザ情報取得部、21 文書受信部、22 文書DB、24 キーワード抽出部、26 抽出キーワードDB、31 緯度経度取得部、32 緯度経度DB、33 距離算出部、34 危険キーワードDB、35 判定部、42 警告部、43 修正部、44 文書送信部、51 住所文字列取得部、52 住所文字列DB、53 危険度算出部、54 危険度DB、55 判定部。
【特許請求の範囲】
【請求項1】
ユーザにより作成された文書の監視をコンピュータに実行させる文書監視プログラムであって、
前記ユーザの住所を表す文字列である第1文字列を取得し、
前記ユーザにより作成された文書から名詞を抽出し、
データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、
前記第1文字列と前記第2文字列との類似度から危険度を算出し、
前記危険度に基づいて前記第2文字列に関する表示を行う
ことをコンピュータに実行させる文書監視プログラム。
【請求項2】
請求項1に記載の文書監視プログラムにおいて、
前記第1文字列に含まれる文字列を第3文字列とし、インターネット上のコンテンツのデータベースにおいて前記第3文字列と前記名詞の両方を含むコンテンツを検索し、該コンテンツが存在する場合に前記第3文字列を前記第2文字列とする文書監視プログラム。
【請求項3】
請求項2に記載の文書監視プログラムにおいて、
前記第1文字列との類似度が最も高い第2文字列を用いて前記第3文字列を生成する文書監視プログラム。
【請求項4】
請求項2に記載の文書監視プログラムにおいて、
地名と該地名の住所を示す文字列とを対応付けて格納する住所データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在しない場合、前記第1文字列に含まれる文字列を第3文字列とし、インターネットにおいて前記第3文字列と前記名詞の両方を含むコンテンツを検索し、該コンテンツが存在する場合に前記第3文字列を前記第2文字列とする文書監視プログラム。
【請求項5】
請求項1乃至請求項4のいずれかに記載の文書監視プログラムにおいて、
地名と該地名の住所を示す文字列とが対応付けられた住所データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在した場合、該地名の住所を示す文字列を前記データベースから取得して前記第2文字列とする文書監視プログラム。
【請求項6】
ユーザにより作成された文書の監視を行う文書監視装置であって、
前記ユーザの住所を表す文字列である第1文字列を取得する第1取得部、
前記ユーザにより作成された文書から名詞を抽出する抽出部と、
データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得する第2取得部と、
前記第1文字列と前記第2文字列との類似度から危険度を算出する算出部と、
前危険度に基づいて前記第2文字列に関する表示を行う表示部と、
を備える文書監視装置。
【請求項7】
ユーザにより作成された文書の監視を行う文書監視方法であって、
前記ユーザの住所を表す文字列である第1文字列を取得し、
前記ユーザにより作成された文書から名詞を抽出し、
データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、
前記第1文字列と前記第2文字列との類似度から危険度を算出し、
前記危険度に基づいて前記第2文字列に関する表示を行う
文書監視方法。
【請求項1】
ユーザにより作成された文書の監視をコンピュータに実行させる文書監視プログラムであって、
前記ユーザの住所を表す文字列である第1文字列を取得し、
前記ユーザにより作成された文書から名詞を抽出し、
データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、
前記第1文字列と前記第2文字列との類似度から危険度を算出し、
前記危険度に基づいて前記第2文字列に関する表示を行う
ことをコンピュータに実行させる文書監視プログラム。
【請求項2】
請求項1に記載の文書監視プログラムにおいて、
前記第1文字列に含まれる文字列を第3文字列とし、インターネット上のコンテンツのデータベースにおいて前記第3文字列と前記名詞の両方を含むコンテンツを検索し、該コンテンツが存在する場合に前記第3文字列を前記第2文字列とする文書監視プログラム。
【請求項3】
請求項2に記載の文書監視プログラムにおいて、
前記第1文字列との類似度が最も高い第2文字列を用いて前記第3文字列を生成する文書監視プログラム。
【請求項4】
請求項2に記載の文書監視プログラムにおいて、
地名と該地名の住所を示す文字列とを対応付けて格納する住所データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在しない場合、前記第1文字列に含まれる文字列を第3文字列とし、インターネットにおいて前記第3文字列と前記名詞の両方を含むコンテンツを検索し、該コンテンツが存在する場合に前記第3文字列を前記第2文字列とする文書監視プログラム。
【請求項5】
請求項1乃至請求項4のいずれかに記載の文書監視プログラムにおいて、
地名と該地名の住所を示す文字列とが対応付けられた住所データベースにおいて、前記名詞と一致する地名を検索し、前記名詞と一致する地名が存在した場合、該地名の住所を示す文字列を前記データベースから取得して前記第2文字列とする文書監視プログラム。
【請求項6】
ユーザにより作成された文書の監視を行う文書監視装置であって、
前記ユーザの住所を表す文字列である第1文字列を取得する第1取得部、
前記ユーザにより作成された文書から名詞を抽出する抽出部と、
データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得する第2取得部と、
前記第1文字列と前記第2文字列との類似度から危険度を算出する算出部と、
前危険度に基づいて前記第2文字列に関する表示を行う表示部と、
を備える文書監視装置。
【請求項7】
ユーザにより作成された文書の監視を行う文書監視方法であって、
前記ユーザの住所を表す文字列である第1文字列を取得し、
前記ユーザにより作成された文書から名詞を抽出し、
データベースにおいて前記名詞を検索することにより、前記名詞が示す住所を表す文字列である第2文字列を取得し、
前記第1文字列と前記第2文字列との類似度から危険度を算出し、
前記危険度に基づいて前記第2文字列に関する表示を行う
文書監視方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2009−48340(P2009−48340A)
【公開日】平成21年3月5日(2009.3.5)
【国際特許分類】
【出願番号】特願2007−212542(P2007−212542)
【出願日】平成19年8月17日(2007.8.17)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】
【公開日】平成21年3月5日(2009.3.5)
【国際特許分類】
【出願日】平成19年8月17日(2007.8.17)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】
[ Back to top ]