説明

個人情報削除装置、個人情報削除方法、個人情報削除プログラム、記録媒体

【課題】個人情報の含まれる音声信号の保管等には大きな負担が必要となる。本発明は、音声信号中に含まれる個人情報を削除し、音声信号の保管等に伴う負担を軽減することができる個人情報削除装置等を提供することを目的とする。
【解決手段】本発明の個人情報削除装置は、単語と、その単語の読みと、その単語が個人情報か否かが記録される認識辞書記録部を参照して、音声信号に対し音声認識処理を行い認識結果として、単語列、その単語列の各単語の始端時刻及び終端時刻を出力する音声認識部と、認識辞書記録部を参照して、単語列の各単語が個人情報か否かを判断し、個人情報の場合には、その単語の始端時刻及び終端時刻を出力する個人情報検出部と、音声信号のうち、個人情報と判断された単語の始端時刻から終端時刻までを所定の信号に変換する個人情報変換部とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声信号から個人情報を削除する装置、方法、プログラム及び記録媒体に関する。
【背景技術】
【0002】
個人情報を保護する目的で、音声の書き起こしテキスト中から固有表現抽出を用いて個人情報を抽出し、別の単語に変換することによって、個人情報を削除する技術として、非特許文献1記載の技術がある。なお、固有表現抽出とは計算機を用いた自然言語処理技術の一つであり、固有名詞(人名、地名など)や日付、時間表現などを抽出する技術である。また本明細書において、「個人情報」とは、生存する個人に関する情報であって、当該情報に含まれる氏名、生年月日その他の記述等により特定の個人を識別することができるもの(他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなるものを含む。)及びそのおそれのあるものをいう。
【非特許文献1】Min Tang et al., "Preserving Privacy in Spoken Language Databases", Proceedings of the International Workshop on Privacy and Security Issues in Data Mining, ECML/PKDD, Pisa, Italy, September, 2004
【発明の開示】
【発明が解決しようとする課題】
【0003】
電話回線等を提供する電気通信事業者等は、電話回線等から得られる音声信号を保管及び管理する際、音声信号中に含まれる個人情報の漏洩を防止しなければならない。そのため、高セキュリティルーム内で保管する必要がある。また、保管された音声信号に対してアクセス制限等を設ける必要がある。このため、音声信号の保管等には大きな負担が必要となる。非特許文献1記載の技術では、音声信号中に含まれる個人情報を自動的に削除することはできないため、この負担を軽減することができない。
【0004】
本発明は、音声信号中に含まれる個人情報を削除することができる個人情報削除装置、個人情報削除方法、個人情報削除プログラム、記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0005】
本発明の個人情報削除装置は、単語と、その単語の読みと、その単語が個人情報か否かが記録される認識辞書記録部を参照して、音声信号に対し音声認識処理を行い認識結果として、単語列、その単語列の各単語の始端時刻及び終端時刻を出力する音声認識部と、認識辞書記録部を参照して、単語列の各単語が個人情報か否かを判断し、個人情報の場合には、その単語の始端時刻及び終端時刻を出力する個人情報検出部と、音声信号のうち、個人情報と判断された単語の始端時刻から終端時刻までを所定の信号に変換する個人情報変換部とを有する。
【発明の効果】
【0006】
本発明の個人情報削除装置によれば、音声信号中に含まれる個人情報を削除することができ、音声信号の保管等に伴う負担を軽減することができる。
【発明を実施するための最良の形態】
【0007】
ここで、本発明の実施例について説明する。
【実施例1】
【0008】
図1は実施例1の個人情報削除装置100の構成例を、図2は実施例1の処理の流れの例を示す。なお、以下、対応する構成要素については同様の符号を付している。個人情報削除装置100は、認識辞書記録部110、音声認識部120、個人情報検出部140、及び個人情報変換部160を有する。
【0009】
認識辞書記録部110は、単語と、その単語の読みと、その単語が個人情報か否かが記録される。図3は認識辞書記録部に記録されるデータ例を示す。個人情報マークは、各単語が個人情報か否かを表し、「○」になっている単語が個人情報である。さらに、認識辞書記録部110は、従来の音声認識で用いる音声認識辞書の構成を有してもよく、例えば、その単語を一意に特定する単語ID、その単語の品詞等が記録されてもよいものとする。個人情報マークを付与する方法は、人手で付与する方法や、特定の品詞の単語に自動的にマークを付与する方法、人名辞典や地名辞典等に記載されている氏や名、地名に自動的にマークを付与する方法等が考えられる。なお、認識辞書記録部110は、音声認識を行うために用いる単語とその単語の読みが記録される音声認識辞書記録部と、個人情報認識を行うために用いる単語とその単語が個人情報か否かが記録される個人情報認識辞書記録部の2つの記録部からなるものを含む。認識辞書記録部110は、図示していない単語入力部を有してもよい。新たな単語と、その単語の読みと、その単語が個人情報か否かを新たに入力することができる。また、各情報の変更、削除することができる。認識辞書記録部110のデータを更新することができる。
【0010】
個人情報削除装置100は、電話回線等から得られる音声信号を入力される。電話回線等から得られる音声信号を記録媒体等に保存したものを間接的に入力されてもよい。図4(A)は、入力信号(音声信号)例を示す。さらに、音声信号は、音声認識部120及び個人情報変換部160に入力される。
【0011】
音声認識部120は、認識辞書記録部110を参照して、音声信号に対し音声認識処理を行い認識結果として、単語列、その単語列の各単語の始端時刻及び終端時刻を出力する(s120)。音声信号に対する音声認識処理としては、例えば、政瀧浩和他、”顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」”、NTT技術ジャーナル、日本、電気通信協会、2006年11月、p.15-18(以下、「参考文献1」という)記載の音声認識処理が考えられる。
【0012】
例えば、まず、音声信号の特徴量を抽出する処理を行う。次に、図示していない音響モデルを用いて、音声信号の特徴と音響モデルの各音素の特徴とを照合しスコア化する。ここで音響モデルとは、音響特徴量(例えば音韻的特徴パラメータ等)を統計的に表現したモデルである。本実施例では音素単位にモデル化されているものとする。音声信号の特徴と音響モデルの各音素の特徴とを照合する作業は、短時間毎に区切ったフレーム単位で照合する。次に、認識辞書記録部110のデータを用いて、音響モデルにより得られる音素列を単語に変換する。次に、図示していない言語モデルを用いて、認識辞書記録部110を用いて得られる単語列に対して言語的妥当性のスコアを加味して再評価し、最もスコアの高い単語列を認識結果として出力する。ここで言語モデルとは、単語のつながりを統計的に表現したモデルである。単語列が確定すると、音声信号の特徴と音響モデルの各音素の特徴とを照合する際に用いたフレームから各単語の始端時刻及び終端時刻がわかる。このようにして、例えば音声信号の先頭を時刻0としたときの各単語の始端時刻及び終端時刻を付与して出力する。図4(B)は音声認識部120が出力する単語列、その単語列の各単語の始端時刻及び終端時刻のデータ例を示す。
【0013】
個人情報検出部140は、認識辞書記録部110を参照して、単語列の各単語が個人情報か否かを判断し(s140)、個人情報の場合には、その単語の始端時刻及び終端時刻を出力する(s150)。音声認識部120が出力する単語列、その単語列の各単語の始端時刻及び終端時刻が、個人情報検出部140に入力される。
【0014】
例えば、図3及び図4(B)のデータ例を用いた場合、単語列「はい、横浜の鈴木です」の内、図3のデータ例を参照すると「横浜」及び「鈴木」が個人情報と判断される。よって、図4(B)よりそれぞれ対応する始端時間「135」及び「145」、終端時間「140」及び「150」を出力する。音声認識部120で用いる認識辞書記録110に個人情報マークを付与し、個人情報検出部140で用いる。よって、既存の音声認識辞書等のデータを利用して、認識辞書記録部110のデータを作成することもできる。
【0015】
個人情報変換部160は、音声信号のうち、個人情報と判断された単語の始端時刻から終端時刻までを所定の信号に変換する(s160)。ここで、所定の信号とは、音声信号として再生処理した場合に、聴覚上、音声等としてとらえることのできない信号をいう。例えば、無音や1kHz信号(いわゆる「ピー」音)等を発生させる音声信号が考えられる。
【0016】
個人情報変換部160は、音声信号と、個人情報と判断された単語の始端時刻と、終端時刻が入力される。個人情報変換部160は、始端時刻から終端時刻までの区間の長さを持つ所定の信号を発生し、入力された音声信号のうち、前記区間を所定の信号に置換し、個人情報削除信号を生成し、出力する。図4(C)は、出力信号(個人情報削除信号)例を示す。なお、本実施例では、前記区間を所定の信号に置換しているが、音声信号に対して、信号を加えたり、差し引いたりすることによって、前記区間を音声信号として再生処理した場合に、聴覚上、音声等としてとらえることのできない所定の信号に変換する構成であってもよい。この変換に用いる信号は、個人情報変換部160自体が発生してもよいし、周波数発生部170に指示して発生させたものを受け取る構成としてもよい。
【0017】
本発明の個人情報削除装置を用いることにより、音声信号中に含まれる個人情報を削除することができるという効果が得られる。さらに、音声信号の保管等に伴う負担を軽減することができる。
【0018】
[変形例1]
実施例1と異なる部分のみ説明する。図5は、変形例1の構成例を示す。個人情報削除装置100’は、認識辞書記録部110’、個人情報検出部140、及び個人情報変換部160を有する。ここで、個人情報削除装置100’は、音声認識部を有さない。なお、認識辞書記録部110’は、単語と、その単語が個人情報か否かが記録される。
【0019】
個人情報削除装置100’は、音声信号、及び、その音声信号に対し行われた音声認識処理の認識結果を入力される。認識結果としては、単語列、その単語列の各単語の始端時刻及び終端時刻等が考えられる。
【0020】
個人情報検出部140は、単語列、その単語列の各単語の始端時刻及び終端時刻が音声認識部120を介さず、入力される。その他、各部において、実施例1と同様の処理が行われる。このような構成とすることで、既存の音声認識装置を利用して、安価に個人情報削除装置を構成することができる。
【実施例2】
【0021】
図6は実施例2の個人情報削除システム190及び個人情報削除装置100(mは自然数)の構成例を示す。個人情報削除システム190は、単語と、その単語の読みと、その単語が個人情報か否かが記録されたマスター認識辞書記録部112と個人情報削除装置100を有する。各個人情報削除装置100とマスター認識辞書記録部112は、通信回線を介して接続される。通信回線としては、LAN192やインターネット194等が考えられる。また、個人情報削除装置100は、送受信部196を有し、マスター認識辞書記録部112と接続される。送受信部196としては、LANアダプタ等が考えられる。また、破線で示すように、インターネット194等に接続される場合には、個人情報削除装置100は、ルータ198やモデム等を介してマスター認識辞書記録部112’に接続される。なお、各個人情報削除装置100では、実施例1と同様の処理が行われる。
【0022】
マスター認識辞書記録部112は、図示していない単語入力部を有してもよい。新たな単語と、その単語の読みと、その単語が個人情報か否かを新たに入力することができる。また、各情報の変更、削除することができる。比較部199は、マスター認識辞書記録部112と各個人情報削除装置の認識辞書記録部110のデータを比較し、以下のような処理を行う。マスター認識辞書記録部112が更新された場合には、通信回線を介して、個人情報削除装置へ更新データを取り込み、認識辞書記録部110の更新処理を行う。また実施例1と同様に、各個人情報削除装置100の認識辞書記録部110も単語入力部を有し、各認識辞書記録部110から情報を更新してもよい。認識辞書記録部110が更新された場合には、通信回線を介して、マスター認識辞書記録部112へ更新データを送る。さらに、前述のようにマスター認識辞書記録部112のデータが更新されることで他の個人情報削除装置の認識辞書記録部110のデータも更新される。このようにシステムを構成することにより、実施例1と同様の効果を得ることができ、さらに、複数台の個人情報削除装置を管理する場合に、認識辞書記録部110のデータを同時に更新することができ、装置間のデータが相違することを防止することができる。なお、各個人情報削除装置100に音声信号及びその音声信号の認識結果が入力される場合には、各個人情報削除装置100は、実施例1の変形例1と同様に、音声認識部を有さない構成としてもよい。マスター認識辞書記録部及び認識辞書記録部は、単語と、その単語が個人情報か否かが記録される。
【0023】
[変形例1]
実施例2と異なる部分について説明する。図7は変形例1の個人情報削除システム290及び個人情報削除装置200の構成例を示す。個人情報削除システム290は、単語と、その単語の読みと、その単語が個人情報か否かが記録された認識辞書記録部210と個人情報削除装置200(mは自然数)を有する。ここで、各個人情報削除装置200は、認識辞書記録部を有さない。各個人情報削除装置200と認識辞書記録部210または210’は、通信回線を介して接続される。また、個人情報削除装置200は、送受信部196を有し、認識辞書記録部210と接続される。なお、各個人情報削除装置200では、通信回線を通じ、認識辞書記録部210を参照し、実施例1と同様の処理が行われる。また、各個人情報削除装置200に単語入力部を有し、通信回線を介して認識辞書記録部210の情報を更新してもよい。このようなシステムを構成することにより、各端末に認識辞書記録部を設けずとも実施例2と同様の効果を得ることができる。なお、各個人情報削除装置200に音声信号及びその音声信号の認識結果が入力される場合には、各個人情報削除装置200は、実施例1の変形例1と同様に、音声認識部を有さない構成としてもよい。認識辞書記録部210は、単語と、その単語が個人情報か否かが記録される。
【0024】
また、本発明は、ディレイ放送において、音声信号から個人情報を自動的に削除する場合等に利用してもよい。本発明において、ディレイ放送とは、何か不測の事態が起こったときにそのシーンをカットすることが可能なように、数秒〜数分遅らせて中継することをいう。
【0025】
上述した個人情報削除装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、または、その処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
【図面の簡単な説明】
【0026】
【図1】実施例1の個人情報削除装置100の構成例を示す図。
【図2】実施例1の処理の流れの例を示す図。
【図3】認識辞書記録部に記録されるデータ例を示す図。
【図4】図4(A)は、入力信号(音声信号)例を示す図、図4(B)は音声認識部120が出力する単語列、その単語列の各単語の始端時刻及び終端時刻のデータ例を示す図、図4(C)は、出力信号(個人情報削除信号)例を示す図である。
【図5】実施例1の変形例1の構成例を示す図。
【図6】実施例2の個人情報削除システム190及び個人情報削除装置100の構成例を示す図。
【図7】変形例1の個人情報削除システム290及び個人情報削除装置200の構成例を示す図。
【符号の説明】
【0027】
100,200 個人情報削除装置 110,210 認識辞書記録部
120 音声認識部 140 個人情報検出部
160 個人情報変換部 170 周波数発生部
190,290 個人情報削除システム

【特許請求の範囲】
【請求項1】
単語と、該単語の読みと、該単語が個人情報か否かが記録される認識辞書記録部と、
前記認識辞書記録部を参照して、音声信号に対し音声認識処理を行い認識結果として、単語列、該単語列の各単語の始端時刻及び終端時刻を出力する音声認識部と、
前記認識辞書記録部を参照して、前記単語列の各単語が個人情報か否かを判断し、個人情報の場合には、該単語の始端時刻及び終端時刻を出力する個人情報検出部と、
前記音声信号のうち、前記個人情報と判断された単語の始端時刻から終端時刻までを所定の信号に変換する個人情報変換部と、
を有する個人情報削除装置。
【請求項2】
単語と、該単語の読みと、該単語が個人情報か否かが記録される認識辞書記録部を参照して、音声信号に対し音声認識処理を行い認識結果として、単語列、該単語列の各単語の始端時刻及び終端時刻を出力する音声認識ステップと、
前記認識辞書記録部を参照して、前記単語列の各単語が個人情報か否かを判断し、個人情報の場合には、該単語の始端時刻及び終端時刻を出力する個人情報検出ステップと、
前記音声信号のうち、前記個人情報と判断された単語の始端時刻から終端時刻までを所定の信号に変換する個人情報変換ステップと、
を有する個人情報削除方法。
【請求項3】
単語と、該単語の読みと、該単語が個人情報か否かが記録された認識辞書記録部と接続され、音声信号と、該音声信号に対し行われた音声認識処理の認識結果である単語列と、その単語列の各単語の始端時刻と、終端時刻が入力される個人情報削除装置であって、
前記認識辞書記録部を参照して、前記単語列の各単語が個人情報か否かを判断し、個人情報の場合には、該単語の始端時刻及び終端時刻を出力する個人情報検出部と、
前記音声信号のうち、前記個人情報と判断された単語の始端時刻から終端時刻までを所定の信号に変換する個人情報変換部と、
を有することを特徴とする個人情報削除装置。
【請求項4】
請求項1または3記載の個人情報削除装置として、コンピュータを機能させるための個人情報削除プログラム。
【請求項5】
請求項4記載の個人情報削除プログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2010−91761(P2010−91761A)
【公開日】平成22年4月22日(2010.4.22)
【国際特許分類】
【出願番号】特願2008−261307(P2008−261307)
【出願日】平成20年10月8日(2008.10.8)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】