説明

データ変換方法、装置及びプログラム

【課題】人間にはコンテンツの内容を正しく伝える一方で情報提供者が希望しない部分についての機械による情報収集などを阻止する。
【解決手段】本データ変換方法は、処理すべきコンテンツデータからテキストデータとしての出力を回避すべき文字列を特定する工程と、特定された文字列を、当該文字列の内容を維持し、テキストデータ以外の置換データに変換する工程と、コンテンツデータにおける文字列以外のデータと置換データとを用いて、コンテンツデータの公開内容を維持するための公開コンテンツデータを生成する工程とを含む。このように、テキストデータとしての出力を回避すべきメールアドレス、電話番号、住所、氏名などをテキストデータ以外の画像データなどに変換することによって、人間に対する公開内容を変更することなく、上記文字列を機械に対して秘匿することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、公開されるコンテンツ・データの一部を機械に対して秘匿するための技術に関する。
【背景技術】
【0002】
インターネットの普及によりウェブ(Web)ページを通して様々な情報へ簡単にアクセスできるようになった。この情報へのアクセスには、検索エンジンの役割は非常に大きい。検索エンジンでは、インターネット中に分散して保持されている情報を自動収集(クローリング)して、インデックスを作成し、情報検索者の利用に供している。情報提供者側も、Webページ上で情報を公開するのは、情報伝達及び配信が目的であるから、検索エンジンにクローリングされてインデックスが作成されることは、基本的には好ましいことである。商業的には、特定のキーワードにつき、検索エンジンにおいてより上位にランクされることを競う場合もある。
【0003】
しかし、Webページには、本来公開目的で提供しているコンテンツと当該コンテンツの出所又は連絡先の情報など付随的に公開する情報とが含まれている。本来公開目的で提供している情報については、検索エンジンにおいてクローリングされることは特に問題はないが、情報の出所又は連絡先の情報がクローリングされると、問題が生ずる場合がある。例えば、連絡先の情報としてメールアドレスが公開されている場合があるが、当該メールアドレスがクローリングされてスパムメールの対象となったりする場合がある。また、コンテンツの出所の情報についても、名前や住所などがクローリングされると、様々な犯罪に用いられかねない。その他の情報についても、検索エンジン等の機械にクローリングされて2次利用されることが好ましくないものもある。
【0004】
このため、メールアドレスに対する対策として、hoge@hoge.com というメールアドレスであれば、hoge at hoge dot com という文字列に変換したり、空白を挿入するといった方法が採用されている場合がある。しかし、メールアドレスや電話番号についてはこのような方法を採用することができるが、名前や住所といった情報では、変換のしようがなく、間違った情報を伝えることになりかねない。
【0005】
また、例えば特開平6−348808号公報には、インデックスシート上に秘密文書や重要文書等のインデックス情報も含めて、全てのインデックス情報をわかり易く出力でき、且つ機密性を保てるようにするための技術が開示されている。具体的には、記憶媒体からインデックス情報と文書の画像データを読み込み、その画像情報中に特定の文字列があるか特殊なファイル属性を持つかを調べ、そのいずれかに該当すれば、インデックス画像に特殊パターン(「秘」又は「重要」の文字パターン等)を合成するか、その特殊パターンのみをインデックス画像に替えて出力用バッファに展開して配置し、そのデータをプリンタ部へ送って用紙に画像形成させて、インデックスシートを出力する。この技術は、機密を保持すべきデータについて特殊パターンを出力するものであるが、機密を保持すべきデータを人間には分かるが、機械には分からないデータにするものではない。
【特許文献1】特開平6−348808号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
上で述べたように、従来技術では、人間にはコンテンツの内容を正しく伝える一方で、情報提供者が希望しない部分についてのクローリング及び二次利用を阻止することは不可能である。
【0007】
よって、本発明の目的は、人間にはコンテンツの内容を正しく伝える一方で情報提供者が希望しない部分についての機械による情報収集などを阻止するための技術を提供することである。
【課題を解決するための手段】
【0008】
本発明に係るデータ変換方法は、テキストデータを含む公開すべきコンテンツデータを格納するコンテンツデータ格納部から処理すべきコンテンツデータを読み出し、当該コンテンツデータからテキストデータとしての出力を回避すべき文字列を特定する特定ステップと、特定された文字列を、当該文字列の内容を維持し、テキストデータ以外の置換データに変換する変換ステップと、コンテンツデータにおける上記文字列以外のデータと置換データとを用いて、コンテンツデータの公開内容を維持するための公開コンテンツデータを生成し、記憶装置に格納する生成ステップとを含む。
【0009】
このように、テキストデータとしての出力を回避すべき文字列(上で述べた例ではメールアドレス、電話番号、住所、氏名など)をテキストデータ以外の置換データ(例えば上記文字列を表す画像データ又は音声データなど)に変換することによって、人間に対する公開内容を変更することなく、上記文字列を機械に対して秘匿することができるようになる。
【0010】
なお、上で述べた特定ステップは、所定の種類の個人情報を抽出するステップを含むようにしてもよい。上で述べたように個人情報の無用な拡布を防止することができるようになる。なお、個人情報だけではなく、価格その他の情報を抽出するようにする場合もある。
【0011】
同様に、上で述べた特定ステップは、所定の種類の文字列の少なくとも一部を抽出するステップを含むようにしても良い。例えば、名前の全文字を置換データに変換せずとも、その一部のみを置換データとすることによっても同様の効果を得られる場合もある。
【0012】
また、置換データが、特定された文字列を表す画像データである場合、当該画像データが、上記文字列に含まれる文字に対応するフォントを崩した画像を含むようにしてもよい。例えば検索エンジン等がOCR(Optical Character Recognition)技術を使用した場合においても、このようなフォントを崩した画像にすれば読み取りが困難となる。
【0013】
さらに、上で述べた公開コンテンツデータは、上記置換データへの参照データを含むようにしてもよい。例えば、HTML(Hyper Text Markup Language)ファイルの場合には、画像ファイル又は音声ファイルへのリンクが含まれるようにするものである。なお、画像ファイルは、同じWebページ上で表示させる場合もあれば、別ウインドウで表示させるような場合もある。
【0014】
さらに、上で述べた公開コンテンツデータが、コンテンツデータにおける文字列以外のデータと置換データとを組み合わせて表示させるためのデータである場合もある。HTMLファイルにおいて例えばIMGタグにて同じWebページ上で表示させるようにしても良いし、PDF(Portable Document Format)の部分的なデータを画像で置き換えるようにしてもよい。このような場合にも画像データ部分については機械が簡単に文字列を把握することはできない。
【0015】
また、コンテンツデータ要求を受信した場合、当該コンテンツデータ要求の送信元が、公開拒否リストに登録されているか、又は公開許可リストに登録されていないか判断するステップと、コンテンツデータ要求の送信元が公開拒否リストに登録されている又は公開許可リストに登録されていないと判断された場合には、記憶装置に格納されている公開コンテンツデータを、コンテンツデータ要求の送信元に送信するステップと、コンテンツデータ要求の送信元が公開拒否リストに登録されていない又は公開許可リストに登録されていると判断された場合には、コンテンツデータ格納部に格納されているコンテンツデータを、コンテンツデータ要求の送信元に送信するステップとをさらに含むようにしてもよい。このようにすれば、情報提供者が特定の文字列の公開を希望しないアクセス元については、公開コンテンツデータを出力することができるようになる。
【0016】
本発明にかかる方法をコンピュータに実行させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークを介してディジタル信号にて頒布される場合もある。なお、処理途中のデータについては、コンピュータのメモリ等の記憶装置に一時保管される。
【発明の効果】
【0017】
本発明によれば、人間にはコンテンツの内容を正しく伝える一方で情報提供者が希望しない部分テキストについての機械による情報収集などを阻止することができるようになる。
【発明を実施するための最良の形態】
【0018】
[実施の形態1]
図1に本発明の第1の実施の形態に係るシステムの概要図を示す。ネットワーク1には、サーバ5と、検索エンジン7と、例えばパーソナルコンピュータであってWebブラウザ91を実行する1又は複数の情報利用者端末9と、情報提供者端末3とが接続されている。
【0019】
情報提供者端末3は、情報提供者がHTML(Hyper Text Markup Language)ファイル作成プログラムなどのコンテンツ作成プログラムによって作成したコンテンツを格納する入力コンテンツ格納部31と、コンテンツにおいてテキストデータとしての出力を回避すべき文字列を別データに置換して提示するためのデータである置換コンテンツを格納する置換コンテンツ格納部32と、本実施の形態における主要な処理を実施するコンテンツ変換プログラム33とを有する。コンテンツ変換プログラム33は、入力コンテンツ格納部31に格納されているコンテンツに対して置換対象文字列を抽出する処理を実施する置換対象文字列抽出部333と、置換対象文字列抽出部333により特定された置換対象文字列を格納する置換対象文字列格納部336と、置換文字列格納部336に格納された置換文字列から置換データを生成する置換データ生成部337と、置換データ生成部337によって生成された置換データを格納する置換データ格納部335と、入力コンテンツ格納部31に格納されているコンテンツ及び置換データ格納部335に格納された置換データとを用いて検索エンジン7などの機械によるアクセスに対して置換対象文字列を秘匿するために提供される置換コンテンツを生成する置換コンテンツ生成部332と、例えば情報提供者からの指示に応じて置換コンテンツ格納部32に格納された置換コンテンツと入力コンテンツ格納部31に格納されたコンテンツとの試験表示処理を実施する試験表示部331と、例えば情報提供者からの指示に応じて置換コンテンツ格納部32に格納された置換コンテンツと入力コンテンツ格納部31に格納されたコンテンツとをサーバ5にアップロードするアップロード部334とを有する。
【0020】
また、サーバ5は、認証処理などを実施し、当該認証処理などが成功した場合に情報提供者端末3からアップロードされたコンテンツを受信する登録インターフェース部51と、登録インターフェース部51によって情報提供者端末3から受信したコンテンツのデータを格納する入力コンテンツ格納部52と、登録インターフェース部51によって情報提供者端末3から受信した置換コンテンツのデータを格納する置換コンテンツ格納部53と、ネットワーク1を介したアクセスに応じて通常のコンテンツ・データを配信すべきか又はその対応する置換コンテンツを送信すべきかを判断するためのルールとなるデータを格納する配信ルール格納部55と、ネットワーク1を介したアクセスに応じて配信ルール格納部55に格納された配信ルールに従って通常のコンテンツ・データ又は置換コンテンツ・データを要求元に配信する配信処理部54とを有する。
【0021】
配信ルール格納部55は、要求された場合に置換コンテンツを配信すべき機器のIPアドレスのリストが格納されている。逆に、コンテンツを配信すべき機器のIPアドレスのリスト、又はコンテンツを配信すべき機器の要求元の属性(例えばブラウザの種別など)が規定されている場合もある。
【0022】
次に、図2乃至図6を用いて図1に示したシステムの処理内容を説明する。まず、情報提供者端末3のコンテンツ変換プログラム33における置換対象文字列抽出部333は、入力コンテンツ格納部31からコンテンツのデータを読み込む(ステップS1)。そして、例えば固有名詞その他の置換対象文字列の候補をコンテンツから抽出する(ステップS3)。抽出すべき置換対象文字列は、基本的には機械に対して秘匿すべき情報であって、名前、住所、電話番号、メールアドレスなどの個人情報である。その他の種別のデータを抽出するようにしてもよい。図示していないが、例えば固有名詞など抽出すべき文字列についての辞書を参照することもある。また、固有名詞抽出技術(例えばMasayuki Asahara and Yuji Matsumoto , "Japanese named entity extraction with redundant morphological analysis", In Proc. Human Language Technology and North American Chapter of Association for Computational Linguistics (HLT-NAACL), pp.8-15, May 2003など)を用いるようにしてもよい。また、電話番号については、PerlやRubyなどの言語における正規表現による文字列処理機能を使って規則を実装して抽出するようにしてもよい。例えば「0\d{2}-\d{3}-\d{4}」といルールを作成しておく。この場合、\dは数字にマッチするという意味を表し、{}の中の数字は繰り返す数を示す。よって、このような規則によれば、012-345-6789のような番号を抽出することができるようになる。
【0023】
そして、置換対象文字列抽出部333は、置換対象文字列の候補を表示装置に表示し、情報提供者による候補の選択又は具体的な文字列の指定を受け付け、置換対象文字列格納部336に格納する(ステップS5)。情報提供者は、表示された候補の中から適切な置換対象文字列を選択するか、表示された候補に代わって又は追加して置換対象文字列を具体的に指定するようにしてもよい。例えば、図3(a)に示したようなコンテンツの場合、「山田太郎」と「hoge@hoge.com」とが置換対象文字列として特定され、置換対象文字列格納部336に格納されたものとする。
【0024】
次に、置換データ生成部337は、例えば(a)置換対象文字列の全体を画像化する、(b)置換文字列の一部(1文字おき、2文字おき、指定部分のみなど)を画像化する、(c)音声化するといった置換データ生成の方式などを情報提供者に提示して、情報提供者から当該置換データ生成の方式などの指定を受け付ける(ステップS7)。例えば図3(a)の例において、「山田太郎」及び「hoge@hoge.com」の全体を画像化する場合には、例えば図3(b)に示すような表示が行われるようになる。なお、図3(b)は単純な画像化であって、このような場合にはOCR機能を有する検索エンジン7の場合には、OCR機能を用いて画像中の文字列を特定する場合もある。そのような場合に対抗するため、図3(c)に示すように、画像化する際に、フォントをイタリックにしたり、フォントのサイズを文字列中で異なるようにしたり、フォントをボールドにしたり、フォントの色を文字列中で異なるようにしたり、フォントの種類を変更したり、さらに崩し文字を使用するようにしても良い。このような単純な画像化でなければ、OCR機能を有するような検索エンジン7であっても、文字を正確に読み取ることができなくなり、上で述べたような機械に対して秘匿するという目的をより確実にすることができるようになる。
【0025】
さらに、置換文字列の一部を画像化する場合には、例えば図3(d)に示すような画像が表示される。すなわち、「山」の文字と、「郎」の文字と、「hoge」の文字とが画像化されている。このようにすれば、これらの文字を簡単には特定することができず、「山田太郎」及び「hoge@hoge.com」という文字列を機械によっては特定できない。このような一部の文字のみを画像化する場合には、画像化するための文字を情報提供者が指定するようにしてもよいし、1文字おき、2文字おきなどの方式を情報提供者が指定するようにしても良い。さらに、1文字おきという設定にしておき、自動的にこのようなルールに従って処理するようにしても良い。
【0026】
音声化する場合には、音声合成機能を用いて音声データを生成する。なお、音声データの場合には、表示させることはできないので、例えば図4に示すような表示を行って、「山田太郎」の音声を再生させるためのリンク1と、「hoge@hoge.com」の音声を再生させるためのリンク2とのうち、再生したい部分を情報利用者にクリックさせる。通常のWebブラウザの機能によれば、必要なプログラムを起動して音声データを再生させることができる。
【0027】
次に、置換データ生成部337は、情報提供者から指定された置換データ生成方式に従って、指定の置換対象文字列について置換データを生成し、置換データ格納部335に格納する(ステップS9)。上で述べたように画像データ又は音声データを生成する。なお、画像データ又は音声データについては、元の文字列を特定できるように置換データ格納部335に格納する。例えば、フォルダ名を元の文字列とし、ファイル名は日時などとする。
【0028】
そして、置換コンテンツ生成部332は、入力コンテンツ格納部31に格納されたコンテンツと、置換データ格納部335に格納された置換データとを用いて、置換データを参照するように入力コンテンツを変換して置換コンテンツを生成し、置換コンテンツ格納部32に格納する(ステップS11)。例えば、入力コンテンツ格納部31に格納されたコンテンツが図5(a)のようなHTMLファイルである場合に、図3(b)及び(c)のような表示を行わせるためには、図5(b)に示すようなHTMLファイルに変換する。すなわち、画像データを表示させる場合には、「山田太郎」という文字列を「山田太郎」用の画像ファイルを読み込むためのIMGタグに変換し、「hoge@hoge.com」という文字列を「hoge@hoge.com」用の画像ファイルを読み込むためのIMGタグに変換する。このように置換対象文字列以外の部分については同じであり、置換対象文字列の部分はIMGタグで置換データを参照している。なお、画像データについてはHTMLファイルと同じフォルダに配置する例である。このようにすれば、ファイル名から文字列を特定されない。
【0029】
また、図3(d)のような表示を行わせるためには、図5(c)のようなHTMLファイルに変換する。すなわち、一部の文字列について画像データを表示させる場合には、「山」という文字を「山」用の画像ファイルを読み込むためのIMGタグに変換し、「郎」という文字を「郎」用の画像ファイルを読み込むためのIMGタグに変換し、さらに「hoge」という文字列を「hoge」文字列用のIMGタグに変換する。
【0030】
さらに、図4のような表示を行わせるためには、図5(d)のようなHTMLファイルに変換する。すなわち、「山田太郎」という文字列を「山田太郎」用の音声ファイルを参照するためのAタグ及び「リンク1」という文字列に置換し、さらに「hoge」という文字列を「hoge」用の音声ファイルを参照するためのAタグ及び「リンク2」という文字列に置換する。この場合、音声ファイルはHTMLファイル内に提示することはできないので、ハイパーリンクが含められる形になっている。
【0031】
置換コンテンツ生成部332は、生成したHTMLファイルと画像ファイル又は音声ファイルを置換コンテンツ格納部32に格納する。
【0032】
次に、試験表示部331は、入力コンテンツ格納部31に格納されたコンテンツと置換コンテンツ格納部32に格納された置換コンテンツとを例えば並べて表示するといった表示試験を実施する(ステップS13)。例えば、図3(a)のような表示と、図3(b)のような表示とを並べて表示し、情報提供者に対比させて、意図した表示がなされたか確認させる。
【0033】
ここでコンテンツ変換プログラム33は、情報提供者からアップロード指示がなされたか判断し(ステップS15)、アップロード指示がなされた場合、すなわち意図した表示が置換コンテンツによって実現されると判断された場合には、アップロード部334は、入力コンテンツ格納部31に格納されたコンテンツ及び置換コンテンツ格納部32に格納された置換コンテンツをサーバ5にアップロードする(ステップS21)。そして、情報提供者端末3側の処理を終了する。なお、サーバ5の登録インターフェース部51は、情報提供者端末3に対して認証処理などを実施し、認証に成功した場合には情報提供者端末3から受信したコンテンツを入力コンテンツ格納部52に格納し、情報提供者端末3から受信した置換コンテンツを置換コンテンツ格納部53に格納する。
【0034】
一方、意図した表示が置換コンテンツによって実現されていない場合には、(a)置換データ生成方式などの設定をし直す、(b)置換対象文字列を設定し直す、(c)処理を中止するかを情報提供者に指定させる。そして、置換データ生成方式を設定し直す場合(ステップS17:Yesルート)、ステップS7に戻る。一方、置換データ生成方式を設定し直すわけではなく(ステップS17:Noルート)、置換対象文字列を設定し直す場合には(ステップS19:Yesルート)、ステップS5に戻る。一方、処理を中止するという指示の場合には(ステップS19:Noルート)、情報提供者端末3における処理を終了させる。
【0035】
以上のような処理を実施すれば、情報提供者の意図した形で個人情報など機械に対して秘匿すべき文字列を画像化又は音声化することができるようになる。
【0036】
次に、サーバ5がコンテンツを要求するアクセスを受けた場合の処理について図6を用いて説明する。例えば、情報利用者端末9のWebブラウザ91は、情報利用者の指示に従って特定のコンテンツ・データ(特定のURL(Uniform Resource Locator)のコンテンツ・データ)の要求をサーバ5に送信する(ステップS31)。サーバ5の配信処理部54は、特定のコンテンツ・データの要求を受信すると(ステップS33)、配信ルール格納部55を参照して要求元が公開拒否先に設定されているか確認する(ステップS35)。例えば、配信ルール格納部55には、URL毎、又は情報提供者毎に、公開拒否先IPアドレス等を定義しておく。IPアドレスではなく、例えば端末属性(ブラウザの種別など)を規定する場合もある。例えば、検索エンジン7のIPアドレスを公開拒否先のIPアドレスとして登録しておく。なお、配信ルール格納部55には、公開許可先のIPアドレスなどが格納されている場合もある。
【0037】
もし、要求元が公開拒否先であれば、要求された特定のコンテンツ・データに対応し且つ置換コンテンツ格納部53に格納された置換コンテンツのデータを読み出し、公開拒否先である要求元の情報利用者端末9に送信する(ステップS37)。
【0038】
公開拒否先である情報利用者端末9のWebブラウザ91は、サーバ5から置換コンテンツを受信し、表示装置に表示する(ステップS39)。このような場合には、図3(b)乃至(d)若しくは図4のような表示がなされる。これでも、人間が見れば、コンテンツの内容については理解することができる。但し、機械では置換対象文字列を認識することはできない。
【0039】
一方、要求元が公開拒否先でなければ、要求された特定のコンテンツ・データ、すなわち通常のコンテンツ・データを入力コンテンツ格納部52から読み出し、要求元の情報利用者端末9に送信する(ステップS41)。情報利用者端末9のWebブラウザ91は、通常のコンテンツ・データを受信し、表示装置に表示する(ステップS43)。例えば図3(a)のような表示がなされる。この場合には、置換対象文字列の二次利用も可能となる。
【0040】
なお、図4のような場合には、情報利用者は、Webブラウザ91のウインドウに表示されたリンク1という文字列又はリンク2という文字列若しくはその両方をクリックし、音声再生プログラムを起動すると共に音声ファイルをサーバ5からダウンロードし、再生出力する必要がある。
【0041】
このような実施の形態によれば、情報提供者端末の意図に従って、適切な置換コンテンツが生成され、さらにサーバ5側で公開拒否先か否かを判断するため、適切ではない情報利用者には置換コンテンツを、適切な情報利用者には通常のコンテンツを配信することも可能となる。
【0042】
なお、複数の置換データ生成方式に従って置換コンテンツを生成しておき、サーバ5においても複数の種類の置換コンテンツを蓄積し、要求元の属性に応じて異なる種類の置換コンテンツを配信するようにしても良い。
【0043】
[実施の形態2]
上で述べた例では、情報提供者側が事前に置換コンテンツの生成を行ってサーバ5側にアップロードしておくものであるが、情報提供者側では通常のコンテンツの生成のみを行って、サーバ側で置換コンテンツの生成を事前に又は動的に実施するようにしても良い。
【0044】
以下、サーバ側で置換コンテンツを生成する場合の実施の形態を図7及び図8を用いて説明する。インターネットなどのネットワーク1には、Webブラウザ91を実行する1又は複数の情報利用者端末9と、検索エンジン7と、本実施の形態における主要な処理を実施するサーバ501と、HTMLファイル作成プログラムなどを実行する情報提供者端末301とが接続されている。
【0045】
本実施の形態におけるサーバ501は、情報提供者端末301に対する認証処理を実施し、認証処理が成功した場合には当該情報提供者端末301からアップロードされた通常のコンテンツ・データを受信する登録インターフェース部551と、登録インターフェース部551が情報提供者端末301から受信した通常のコンテンツ・データを格納する入力コンテンツ格納部552と、置換対象文字列を抽出するための抽出ルールを格納する抽出ルール格納部554と、入力コンテンツ格納部552に格納されたコンテンツから抽出ルール格納部554に格納されたデータに従って置換対象文字列を抽出する置換対象文字列抽出部553と、置換対象文字列抽出部553によって抽出された置換対象文字列を格納する置換対象文字列格納部555と、置換対象文字列格納部555に格納された置換対象文字列から所定の方式の置換データを生成する置換データ生成部556と、置換データ生成部556によって生成された置換データを格納する置換データ格納部557と、置換データ格納部557に格納された置換データと入力コンテンツ格納部552に格納された通常のコンテンツのデータを用いて検索エンジン7等の機械によるアクセスに対して置換対象文字列を秘匿するために提供される置換コンテンツを生成する置換コンテンツ生成部558と、置換コンテンツ生成部558によって生成された置換コンテンツを格納する置換コンテンツ格納部559と、公開拒否先又は公開許可先のIPアドレスなどを格納する配信ルール格納部561と、入力コンテンツ格納部552に格納された通常のコンテンツと置換コンテンツ格納部559に格納された置換コンテンツのうち配信ルール格納部561に格納されている公開拒否先又は公開許可先のデータに基づきいずれかを要求元に配信する配信処理部560とを含む。
【0046】
情報提供者は、情報提供者端末301を操作して、作成したコンテンツのデータをサーバ501にアップロードする。サーバ501の登録インターフェース部551は、情報提供者端末301に対する認証処理を実施し、認証に成功すれば、アップロードされたコンテンツ・データを入力コンテンツ格納部552に格納する。以下の処理については図8に従って説明する。なお、図8の処理は、事前に実施される場合もあり、その場合には第1の実施の形態における図6の処理フローは、そのままである。一方、図8の処理は、特定のコンテンツ・データの要求を受信した場合にも実施される場合があり、その場合には例えば図6のステップS35とステップS37の間に動的に実施される場合もある。この場合、置換データの生成方式については、要求元の属性によって変更される場合もある。
【0047】
まず、置換対象文字列抽出部553は、入力コンテンツ格納部552からコンテンツのデータを読み込む(ステップS51)。そして、抽出ルール格納部554に予め格納されている情報提供者毎又はコンテンツ毎の抽出ルールに従って、例えば固有名詞その他の置換対象文字列をコンテンツから抽出し、置換対象文字列格納部555に格納する(ステップS53)。基本的にはステップS3と同様であるが、ここでは情報提供者に対して候補として提示するわけではない。
【0048】
次に、置換データ生成部556は、例えば(a)置換対象文字列の全体を画像化する、(b)置換文字列の一部(1文字おき、2文字おき、指定部分のみなど)を画像化する、(c)音声化するといった置換データ生成の方式のうち所定の方式に従って、置換対象文字列格納部555に格納された置換対象文字列について置換データを生成し、置換データ格納部557に格納する(ステップS55)。置換対象文字列について画像データ又は音声データを生成する。基本的にはステップS9と同じであるが、置換データ生成方式については予め設定されているものを使用する。置換データ生成方式については、情報提供者によって予め設定されている場合もあれば、サーバ501の管理者によって設定される場合もある。
【0049】
そして、置換コンテンツ生成部559は、入力コンテンツ格納部552に格納されたコンテンツと、置換データ格納部557に格納された置換データとを用いて、置換データを参照するように入力コンテンツを変換して、置換コンテンツを生成し、置換コンテンツ格納部559に格納する(ステップS57)。基本的にはステップS11と同じ処理である。
【0050】
以上のような処理を実施すれば、サーバ側で個人情報など機械に対して秘匿すべき文字列を画像化又は音声化することができるようになる。すなわち、情報提供者が意図しない個人情報などの二次利用を防ぐことができるようになる。公開拒否先であっても、人間であれば、視覚又は聴覚によって秘匿すべき文字列の内容を認識することができる。
【0051】
特に、検索エンジンなどによって自動抽出されたメールアドレスがスパムメールの送信先に用いられるなどといったことを防止できる。さらに、氏名や住所といった他の表現を行うと間違った情報として伝えられるおそれのある情報についても、機械に対しては秘匿し、人間に対しては公開するといった両面性を保持させることができるようになる。
【0052】
以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。すなわち、個人情報だけが検索エンジンなどの機械に対する秘匿すべき情報ではないので、他の種類の文字列を秘匿対象として特定するようにしても良い。
【0053】
上で述べた例では、情報提供者端末又はサーバにおいて置換コンテンツを作成することとしていたが、置換コンテンツ作成はネットワーク上の他のコンピュータ(プロキシ、端末など)によって実施するようにしても良い。また、置換データが音声ファイルの場合にも、同一ファイルに音声データを埋め込むことができる場合もある。
【0054】
また、図1及び図7に示した機能ブロックは一例であって、必ずしも実際のプログラムモジュールと対応するわけではない。
【0055】
なお、サーバ、情報提供者端末、情報利用者端末、プロキシは、図9のようなコンピュータ装置であって、メモリ2501(記憶装置)とCPU2503(処理装置)とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施の形態における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本発明の実施の形態では、上で述べた処理を実施するためのアプリケーション・プログラムはリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
【0056】
(付記1)
テキストデータを含む公開すべきコンテンツデータを格納するコンテンツデータ格納部から処理すべきコンテンツデータを読み出し、当該コンテンツデータからテキストデータとしての出力を回避すべき文字列を特定する特定ステップと、
特定された前記文字列を、当該文字列の内容を維持し、前記テキストデータ以外の置換データに変換する変換ステップと、
前記コンテンツデータにおける前記文字列以外のデータと前記置換データとを用いて、前記コンテンツデータの公開内容を維持するための公開コンテンツデータを生成し、記憶装置に格納する生成ステップと、
を含み、コンピュータにより実行されるデータ変換方法。
【0057】
(付記2)
前記特定ステップが、
所定の種類の個人情報を抽出するステップ
を含む付記1記載のデータ変換方法。
【0058】
(付記3)
前記特定ステップが、
所定の種類の文字列の少なくとも一部を抽出するステップ
を含む付記1記載のデータ変換方法。
【0059】
(付記4)
前記テキストデータ以外の置換データが、前記文字列を表す画像データ又は音声データである
付記1記載のデータ変換方法。
【0060】
(付記5)
前記画像データが、前記文字列に含まれる文字に対応するフォントを崩した画像を含む
付記1記載のデータ変換方法。
【0061】
(付記6)
前記公開コンテンツデータが、前記置換データへの参照データを含む
付記1記載のデータ変換方法。
【0062】
(付記7)
前記公開コンテンツデータが、前記置換データを別ウインドウで表示させるためのデータを含む
付記1記載のデータ変換方法。
【0063】
(付記8)
前記公開コンテンツデータが、前記コンテンツデータにおける前記文字列以外のデータと前記置換データとを組み合わせて表示させるためのデータである
付記1記載のデータ変換方法。
【0064】
(付記9)
コンテンツデータ要求を受信した場合、当該コンテンツデータ要求の送信元が、公開拒否リストに登録されているか、又は公開許可リストに登録されていないか判断するステップと、
前記コンテンツデータ要求の送信元が前記公開拒否リストに登録されている又は前記公開許可リストに登録されていないと判断された場合には、前記記憶装置に格納されている前記公開コンテンツデータを、前記コンテンツデータ要求の送信元に送信するステップと、
前記コンテンツデータ要求の送信元が前記公開拒否リストに登録されていない又は前記公開許可リストに登録されていると判断された場合には、前記コンテンツデータ格納部に格納されている前記コンテンツデータを、前記コンテンツデータ要求の送信元に送信するステップと、
をさらに含む付記1記載のデータ変換方法。
【0065】
(付記10)
付記1乃至9のいずれか1つ記載のデータ変換方法をコンピュータに実行させるためのプログラム。
【0066】
(付記11)
テキストデータを含む公開すべきコンテンツデータを格納するコンテンツデータ格納部から処理すべきコンテンツデータを読み出し、当該コンテンツデータからテキストデータとしての出力を回避すべき文字列を特定する特定手段と、
特定された前記文字列を、当該文字列の内容を維持し、前記テキストデータ以外の置換データに変換する変換手段と、
前記コンテンツデータにおける前記文字列以外のデータと前記置換データとを用いて、前記コンテンツデータの公開内容を維持するための公開コンテンツデータを生成し、記憶装置に格納する生成手段と、
を有するデータ変換装置。
【図面の簡単な説明】
【0067】
【図1】本発明の第1の実施の形態に係るシステム概要を説明するための図である。
【図2】本発明の第1の実施の形態に係る情報提供者端末における処理フローを示す図である。
【図3】(a)は通常のコンテンツの表示例を示す図であり、(b)乃至(d)は置換コンテンツの表示例を示す図である。
【図4】置換コンテンツの他の表示例を示す図である。
【図5】(a)は通常のコンテンツのHTMLファイルの一例を示し、(b)乃至(d)は置換コンテンツの場合におけるHTMLファイルの一例を示す。
【図6】本発明の第1の実施の形態に係る配信処理時の処理フローを示す図である。
【図7】本発明の第2の実施の形態に係るシステム概要を説明するための図である。
【図8】本発明の第2の実施の形態に係るサーバの処理フローを示す図である。
【図9】コンピュータの機能ブロック図である。
【符号の説明】
【0068】
1 ネットワーク
3,301 情報提供者端末
5,501 サーバ
7 検索エンジン
9 情報利用者端末
31 入力コンテンツ格納部
32 置換コンテンツ格納部
33 コンテンツ変換プログラム
51,551 登録インターフェース部
52,552 入力コンテンツ格納部
53,559 置換コンテンツ格納部
54,560 配信処理部
55,561 配信ルール格納部
91 Webブラウザ
331 試験表示部
332,558 置換コンテンツ生成部
333,553 置換対象文字列抽出部
334 アップロード部
335,557 置換データ格納部
336,555 置換対象文字列格納部
337,556 置換データ生成部
554 抽出ルール格納部

【特許請求の範囲】
【請求項1】
テキストデータを含む公開すべきコンテンツデータを格納するコンテンツデータ格納部から処理すべきコンテンツデータを読み出し、当該コンテンツデータからテキストデータとしての出力を回避すべき文字列を特定する特定ステップと、
特定された前記文字列を、当該文字列の内容を維持し、前記テキストデータ以外の置換データに変換する変換ステップと、
前記コンテンツデータにおける前記文字列以外のデータと前記置換データとを用いて、前記コンテンツデータの公開内容を維持するための公開コンテンツデータを生成し、記憶装置に格納する生成ステップと、
を含み、コンピュータにより実行されるデータ変換方法。
【請求項2】
前記特定ステップが、
所定の種類の個人情報を抽出するステップ
を含む請求項1記載のデータ変換方法。
【請求項3】
前記特定ステップが、
所定の種類の文字列の少なくとも一部を抽出するステップ
を含む請求項1記載のデータ変換方法。
【請求項4】
前記テキストデータ以外の置換データが、前記文字列を表す画像データ又は音声データである
請求項1記載のデータ変換方法。
【請求項5】
前記画像データが、前記文字列に含まれる文字に対応するフォントを崩した画像を含む
請求項1記載のデータ変換方法。
【請求項6】
前記公開コンテンツデータが、前記置換データへの参照データを含む
請求項1記載のデータ変換方法。
【請求項7】
前記公開コンテンツデータが、前記コンテンツデータにおける前記文字列以外のデータと前記置換データとを組み合わせて表示させるためのデータである
請求項1記載のデータ変換方法。
【請求項8】
コンテンツデータ要求を受信した場合、当該コンテンツデータ要求の送信元が、公開拒否リストに登録されているか、又は公開許可リストに登録されていないか判断するステップと、
前記コンテンツデータ要求の送信元が前記公開拒否リストに登録されている又は前記公開許可リストに登録されていないと判断された場合には、前記記憶装置に格納されている前記公開コンテンツデータを、前記コンテンツデータ要求の送信元に送信するステップと、
前記コンテンツデータ要求の送信元が前記公開拒否リストに登録されていない又は前記公開許可リストに登録されていると判断された場合には、前記コンテンツデータ格納部に格納されている前記コンテンツデータを、前記コンテンツデータ要求の送信元に送信するステップと、
をさらに含む請求項1記載のデータ変換方法。
【請求項9】
請求項1乃至8のいずれか1つ記載のデータ変換方法をコンピュータに実行させるためのプログラム。
【請求項10】
テキストデータを含む公開すべきコンテンツデータを格納するコンテンツデータ格納部から処理すべきコンテンツデータを読み出し、当該コンテンツデータからテキストデータとしての出力を回避すべき文字列を特定する特定手段と、
特定された前記文字列を、当該文字列の内容を維持し、前記テキストデータ以外の置換データに変換する変換手段と、
前記コンテンツデータにおける前記文字列以外のデータと前記置換データとを用いて、前記コンテンツデータの公開内容を維持するための公開コンテンツデータを生成し、記憶装置に格納する生成手段と、
を有するデータ変換装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2007−249355(P2007−249355A)
【公開日】平成19年9月27日(2007.9.27)
【国際特許分類】
【出願番号】特願2006−69048(P2006−69048)
【出願日】平成18年3月14日(2006.3.14)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】