説明

愛称を推定する装置、方法およびプログラム

【課題】人名等の名称から愛称をより適切に取得する愛称推定装置を提供する。
【解決手段】名称に含まれる文字のうち、愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む愛称の候補の生成規則を記憶するルール記憶部121と、名称を入力する名称入力部101と、入力された名称に含まれる文字のうち、生成規則の位置情報で表される位置の文字を取得し、取得した文字と生成規則の付加文字列とを結合した愛称の候補を生成する候補生成部102と、生成された愛称の候補を出力する出力部103と、を備えた。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、名称を入力として愛称を推定して出力する装置、方法およびプログラムに関する。
【背景技術】
【0002】
近年、情報検索技術は広く浸透し多様な場面で使われるようになってきた。一般的に、情報検索を実行する際には、検索キーワードを入力として与え、入力された検索キーワードに一致または強く関連するような文書を結果として返す。例えば、ある人物の名称を検索キーワードとして、当該人物に関連する文書をWebページから検索することなどが行われている。
【0003】
人名等の名称には正式名称のほかに、他の呼び名として、愛称、略称、別名、および通称等が存在する。このため、正式名称と愛称等との対応関係を知らなければ、一方のみを検索キーワードとして検索することになり、必要な情報を網羅的に探すことが困難となる。例えば、人名「O田Y美」で愛称「Yりん」である人物がいたとき、「O田Y美」だけを検索キーワードとすると、「Yりん」のみを含む情報を取得することができない。
【0004】
一方、音声認識技術を用いたヒューマンインタフェースの実用化も進んでいる。そして、今後は音声対話や音声による情報検索が行われると想定される。音声による情報検索処理では、テキストによる情報検索処理と比較して、愛称等の表現が使われる可能性が高い。このため、ユーザの自由な発話を促進するためにも、愛称等の表現を正式名称に対応付けて認識できることが必要である。
【0005】
一般に音声認識では、発話された音声と照合するための音声認識辞書が用いられる。そして、音声認識辞書に存在しない未登録語は音声認識することができない。このため、愛称等の表現が音声認識辞書に単語登録されていなければ、音声で発話された愛称を認識することさえできない。さらに、検索対象となりうる人物の人名や愛称は日々更新されうるため、更新されうる人名等を正常に認識できるように音声認識辞書も更新する必要があるが、コストが大きい。
【0006】
例えば、検索対象となる人物としては、テレビ番組に出演するような芸能人が挙げられる。ところが、テレビ番組等では、新規な芸能人が登場し、その愛称が急速に広まることが多い。このように日々更新されうる人名等に対応するために、音声認識辞書を更新し続ける必要がある。
【0007】
なお、略称と正式名称との対応関係を獲得するための技術として、入力語を語分割し、分割した単語の頭文字を組み合わせる技術や、公的機関、大企業などの正式名称とその略称とを対応づけてデータベースに保持する技術が提案されている(例えば、特許文献1)。しかし、上述の音声認識辞書と同様に、日々更新されうる人名などを対象とする場合は、最新のデータベースを人手で提供し続けるためのコストが増大する。また、単語の頭文字を組み合わせるというだけの簡単な略称生成方法では、正式名称に含まれる語句以外の文字を含みうる愛称を生成できない。例えば、正式名称「N弁護士連盟」から略称「N弁連」などは生成できるが、正式名称「N弁護士連盟」に含まれる語句以外の文字を含みうる愛称は生成できない。
【0008】
また、特許文献2では、略称生成ルールを用いて、名称から略称を生成する技術が提案されている。この方法では、入力語を分割した各基本語のうち、略称生成に用いる箇所を指定するような略称生成ルールを保持する。そして、この略称生成ルールによって入力語から略称候補が生成される。また、語検索装置の対象文書に付与されたキーワード中に略称候補が存在すれば略称として判定され、略称による語検索も行われる。
【0009】
なお、略称とは、長い名称を省略したものであるため、正式名称に関連した文字列のみで構成される。例えば、人名「P田A也」、人名の読み「ピイタエイヤ」、愛称「ピイエイ」である人物の場合、人名の読みに含まれる文字列のみで構成される略称が愛称となっていると言える。一方、人名「S田U朗」、愛称「トケイ王子」である人物のように、人名とは全く異なる表現が愛称とされる場合がある。また、人名「I田M也」、人名の読み「アイタメツヤ」である人物に対して、人名の読みの一部を利用して元の人名とは関係のない文字を挿入し、新規の単語である愛称「メッチー」を作り出す場合がある。後者の2つの場合には、特許文献2のような略称の生成方法では愛称を生成することはできない。
【0010】
また、特許文献2では、語検索装置の対象文書にキーワードが付与されており、キーワードとして与えられている単語に略称候補が存在すればその略語候補が略語として選定される。例えば、「生命保険」という検索キーワードに対し、「生命保」「生保」「生保険」といった略語候補が存在するとき、文書に付与されたキーワードとして「生保」が存在すれば「生保」だけが略語として認定される。
【0011】
すなわち、特許文献2では、略称候補がキーワードとして付与された文書が存在することが前提となっている。しかし、例えば、Webページから検索する場合のように、愛称がキーワードとして語分割されているデータが存在しない場合には、愛称候補が生成された後、生成された愛称候補から適切な愛称候補を選定することは困難となる。
【0012】
一方、非特許文献1では、呼称と正式名称とが、「(呼称)こと(正式名称)」という日本語独特の典型表現で表されることを利用して呼称を抽出する技術が提案されている。具体的には、非特許文献1の方法では、「こと(正式名称)」を検索キーワードとしてWeb検索を行い、「こと」の前に出現する文字から正式名称に対応する呼称を抽出している。この方法によれば、上記の「ピイエイ」「トケイ王子」「メッチー」のいずれの愛称も取得できる可能性がある。
【0013】
【特許文献1】特開2003−333161号公報
【特許文献2】特開平11−25117号公報
【非特許文献1】外間 智子ほか、“Web データを用いた人物の呼称抽出”、DBSJ Letters Vol.5 No.2
【発明の開示】
【発明が解決しようとする課題】
【0014】
しかしながら、非特許文献1の方法であっても、正式名称に対応する正しい愛称を取得できない場合がある。非特許文献1では、「こと」の前に出現する文字列中から呼称部分を抽出する際に形態素解析器を使用している。このため、形態素解析器が利用する辞書中に愛称が単語として登録されておらず、愛称が名前から作られた造語であるような場合には、愛称を文字列中から切り分けることが困難となる。例えば、非特許文献1の方法では、正しい愛称が「Uーちゃん」であっても、「ーちゃん」が愛称として抽出される場合がある。
【0015】
また、非特許文献1では、上述のように「(愛称)こと(正式名称)」などの典型表現を利用しているが、検索対象文書中で愛称がそのような典型表現で記載されていない場合には、愛称を取得することができない。
【0016】
本発明は、上記に鑑みてなされたものであって、人名等の名称から愛称をより適切に取得できる装置、方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0017】
上述した課題を解決し、目的を達成するために、本発明は、名称から前記名称の愛称を推定する愛称推定装置であって、前記名称に含まれる文字のうち、前記愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む前記愛称の候補の生成規則を記憶する規則記憶部と、前記名称を入力する名称入力部と、入力された前記名称に含まれる文字のうち、前記生成規則の前記位置情報で表される位置の文字を取得し、取得した文字と前記生成規則の前記付加文字列とを結合した前記愛称の候補を生成する生成部と、生成された前記愛称の候補を出力する出力部と、を備えたことを特徴とする。
【0018】
また、本発明は、上記装置を実行することができる方法およびプログラムである。
【発明の効果】
【0019】
本発明によれば、人名等の名称から愛称をより適切に取得できるという効果を奏する。
【発明を実施するための最良の形態】
【0020】
以下に添付図面を参照して、この発明にかかる装置、方法およびプログラムの最良な実施の形態を詳細に説明する。
【0021】
(第1の実施の形態)
上述のように、従来は、愛称、略称、および別名等は、予め人手で作成してデータベースに登録していた。また、略称の場合は、所定の略称生成パターンによって、正式名称から略称を推定する方法が用いられていた。しかし、テレビ番組の番組表データ(EPG(Electronic Program Guide)データ)のような日々更新される情報では、例えば新しい芸能人が現れることによってデータの更新が頻繁に必要となる。このため、辞書に蓄えておくだけは充分に対応することが困難である。また、辞書の更新を人手で行うのはコストがかかる。
【0022】
第1の実施の形態にかかる愛称推定装置は、予め定められた愛称の候補(愛称候補)の生成規則(愛称生成ルール)に従って、入力された名称に対する愛称候補を生成する。
【0023】
図1は、第1の実施の形態にかかる愛称推定装置100の構成を示すブロック図である。図1に示すように、愛称推定装置100は、ルール記憶部121と、名称入力部101と、候補生成部102と、出力部103と、を備えている。
【0024】
ルール記憶部121は、入力された名称の愛称候補を生成するための愛称生成ルールを記憶する。図2は、ルール記憶部121に記憶された愛称生成ルールの一例を示す図である。図2に示すように、愛称生成ルールは、入力された名称のうち、いずれの文字種のいずれの位置の文字を使って愛称を生成するかを特定する情報(記号)と、愛称の一部を構成する付加文字列(「ちゃん」など)とを含んでいる。
【0025】
本実施の形態では、3桁の数値による記号で文字種と文字の位置を特定可能としている。100の位の数値は文字種を表し、「1」が正式名称、「2」がひらがな表記、および「3」がカタカナ表記にそれぞれ対応する。10の位の数値は、名称を構成する各語句単位の、名称の先頭を基準とした位置を識別するための情報を表す。例えば、姓と名とを語句単位とする人名の場合、10の位の数値が「1」の場合は姓を表し、「2」の場合は名を表す。なお、例えば、グループ名、団体名等の名称では、3つ以上の語句単位から構成される場合があるため、10の位の数値は3以上となりうる。以下では、10の位の数値は、「1(姓)」および「2(名)」のいずれかを取る場合を例に説明する。1の位の数値は、各語句単位内での先頭からの位置を識別するための情報を表す。
【0026】
なお、同図では愛称生成ルールの欄の右に愛称生成ルールを適用した例を記載しているが、実際のルール記憶部121には愛称生成ルールのみが記憶されている。
【0027】
また、ルール記憶部121は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
【0028】
名称入力部101は、人名等の名称の入力を受け付ける。なお、名称入力部101は、語句単位を識別可能な形式で名称の入力を受付ける。例えば、人名の場合、名称入力部101は、姓と名とをそれぞれ独立に入力する。
【0029】
また、名称入力部101は、正式名称とともに、正式名称のひらがな表記およびカタカナ表記の入力を受付ける。例えば、人名が「P田A也」の場合、名称入力部101は、姓名を分けた正式名称である姓の「P田」と名の「A也」とともに、ひらがな表記の姓の「ぴいた」と名の「えいや」や、カタカナ表記の姓「ピイタ」と名の「エイヤ」の入力を受付ける。
【0030】
なお、名称の入力方法はこれに限られず、名称を構成する語句単位を識別可能な方法であればあらゆる方法を適用できる。例えば、名称入力部101が、スペースなどの所定の文字列で語句単位に区切られた名称の入力を受付けるように構成してもよい。
【0031】
また、名称を語句単位に区切らずに入力するように構成してもよい。この場合、名称入力部101は、例えば人名辞典を利用して入力された「P田A也」を姓の「P田」と名の「A也」に分けるように構成してもよい。また、ひらがな表記とカタカナ表記の入力を受付ける代わりに、名称入力部101が、人名辞典等を利用して入力された正式名称の読みを推定し、ひらがな表記やカタカナ表記を取得するように構成してもよい。
【0032】
候補生成部102は、ルール記憶部121に記憶されている愛称生成ルールを参照して、入力された名称に対する愛称候補を生成する。具体的には、候補生成部102は、入力された名称を記号に変換し、愛称生成ルール中の記号のうち、変換した記号と同一の記号を、変換した記号に対応する文字に置き換えることにより愛称候補を生成する。
【0033】
ここで、名称から記号への変換方法の具体例について、図3〜図6を用いて説明する。図3は、入力された名称データの一例を示す図である。図3に示すように、以下では、漢字を含む正式名称である名称1と、ひらがな表記である名称2と、カタカナ表記である名称3とが入力された場合を例に説明する。なお、同図の記号欄は、各名称を記号に変換した結果を表している。変換方法の詳細は、それぞれ図4〜図6で説明する。
【0034】
図4は、図3の名称1(正式名称)を記号に変換する例を示す図である。図4は、名称1に含まれる文字表記ごとに、文字種、語句単位の位置(姓か名か)、および語句単位内での文字位置と、変換結果である記号とを表している。名称1は、正式名称であるため、文字種は「1」となる。また、区切り文字であるスペースの前後のいずれに位置するかによって、各文字表記に対応する姓名欄が「1」および「2」のいずれかに設定される。さらに、姓または名内での各文字表記の文字位置が設定される。そして、文字種、姓名、および文字位置に対応する各数値を結合した3桁の数値が変換結果の記号として生成される。
【0035】
図5は、図3の名称2(ひらがな表記)を記号に変換する例を示す図である。名称2はひらがな表記であるため、文字種に「2」が設定される。また、図6は、図3の名称3(カタカナ表記)を記号に変換する例を示す図である。名称3はカタカナ表記であるため、文字種に「3」が設定される。
【0036】
候補生成部102は、このようにして各名称を記号に変換し、図3に示すような記号を生成する。そして、候補生成部102は、変換した記号と同一の記号を含む愛称生成ルールに、変換した記号に対応する文字を当てはめることによって、愛称候補を生成する。
【0037】
例えば、正式名称として図3の人名301(「P田 A也」)と、カタカナ表記302(「ピイタ エイヤ」)とが入力され、図2の最上部の愛称生成ルール「311 312 321 322」に対して、入力された名称を適用する場合を考える。この場合、愛称生成ルール内の記号はいずれも100の位の数字が3であるため、候補生成部102は、カタカナ表記の文字を当てはめて愛称候補を生成する。具体的には、候補生成部102は、図2の最上部の愛称生成ルール中の「311」の部分に「ピ」、「312」の部分に「イ」、「321」の部分に「エ」、および「322」の部分に「イ」を当てはめ、図2の愛称候補201(「ピイエイ」)を生成する。
【0038】
出力部103は、候補生成部102が生成した1つまたは複数の愛称候補を出力する。適合する愛称生成ルールが存在せず、愛称候補が生成されなかった場合は、出力部103は、該当候補なしという結果を出力してもよい。
【0039】
次に、このように構成された第1の実施の形態にかかる愛称推定装置100による愛称推定処理について図7を用いて説明する。図7は、第1の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
【0040】
まず、名称入力部101が、正式名称、ひらがな表記、およびカタカナ表記を含む名称データを入力する(ステップS701)。次に、候補生成部102が、名称データ内の正式名称、ひらがな表記、およびカタカナ表記をそれぞれ記号化する(ステップS702)。
【0041】
次に、候補生成部102は、ルール記憶部121から愛称生成ルールを取得する(ステップS703)。そして、候補生成部102は、記号化した名称を愛称生成ルールに適用して愛称候補を生成する(ステップS704)。具体的には、候補生成部102は、取得した愛称生成ルールそれぞれについて、愛称生成ルールに含まれる記号のうち、ステップS702で名称から変換した記号と同一の記号を、変換した記号の変換元の文字に置き換えた愛称候補を生成する。最後に、出力部103が、生成された愛称候補を出力し(ステップS705)、愛称推定処理を終了する。
【0042】
このように、第1の実施の形態にかかる愛称推定装置では、予め定められた愛称生成ルールに従って、入力された名称に対する愛称候補を生成できるため、人名等の名称から愛称をより適切に取得することができる。
【0043】
また、生成した愛称候補によって音声認識辞書や愛称辞書を更新できるため、人手による辞書作成コストを削減することができる。さらに、情報検索の際に、正式名称と、生成された愛称候補との対応を用いることにより、いずれか一方が入力された場合であっても、愛称と正式名称の両方で検索を行うことが可能になる。
【0044】
一方、音声対話の際には、愛称推定結果を元に音声認識辞書に愛称を追加しておけば、ユーザが愛称で人名を呼称した場合であっても、愛称を正しく音声認識することが可能になる。また、人名が愛称で呼称された場合であっても、愛称を正式名称に変換することにより、呼称の対象を正しく理解することが可能になる。
【0045】
(第2の実施の形態)
第2の実施の形態にかかる愛称推定装置は、Webなどから取得された文書を対象として、生成された愛称候補を検索し、当該文書に含まれる愛称候補を選択することにより、さらに適切な愛称候補を取得する。
【0046】
図8は、第2の実施の形態にかかる愛称推定装置800の構成を示すブロック図である。図8に示すように、愛称推定装置800は、ルール記憶部121と、文書記憶部822と、名称入力部101と、候補生成部102と、出力部103と、選択部804と、を備えている。
【0047】
第2の実施の形態では、文書記憶部822と選択部804とを追加したことが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる愛称推定装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
【0048】
文書記憶部822は、Webページなどの所定の文書群を検索対象とし、正式名称を検索キーワードとして実行された検索処理の処理結果である文書を記憶する。文書記憶部822は、例えば検索キーワードの個数等に応じて順位付けされた検索結果の文書のうち、上位の所定数の文書を記憶する。
【0049】
選択部804は、候補生成部102が生成した愛称候補から、より適切な愛称候補を選択する。具体的には、選択部804は、まず生成された愛称候補それぞれについて、文書記憶部822に記憶した文書に愛称候補が含まれているか否かを判定する。そして、選択部804は、文書記憶部822の文書中に含まれる愛称候補に対して、「(愛称候補)こと(正式名称)」という連語を検索キーワードとし、Webページを検索対象として検索を実行する。そして、選択部804は、検索されたWebページが多い順に愛称候補を順位付けし、上位の所定数の愛称候補を選択する。
【0050】
次に、このように構成された第2の実施の形態にかかる愛称推定装置800による愛称推定処理について図9を用いて説明する。図9は、第2の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
【0051】
ステップS901からステップS904までの、名称入力処理、記号化処理、ルール取得処理、および候補生成処理は、第1の実施の形態にかかる愛称推定装置100におけるステップS701からステップS704までと同様の処理なので、その説明を省略する。
【0052】
愛称候補が生成された後、選択部804は、正式名称を検索キーワードとしてWebページなどの所定の文書群を検索し、上位の所定数の検索結果である文書を文書記憶部822に保存する(ステップS905)。
【0053】
次に、選択部804は、保存した文書に各愛称候補が存在するか否かを判定し、保存した文書中に含まれる愛称候補のみを選択する(ステップS906)。さらに、選択部804は、選択した愛称候補それぞれについて、「(愛称候補)こと(正式名称)」という連語を検索キーワードとしてWeb上で検索を行う(ステップS907)。そして、選択部804は、ヒット件数順に愛称候補を並べ、上位N個の候補を選択する(ステップS908)。
【0054】
最後に、出力部103が、選択された愛称候補を出力し(ステップS909)、愛称推定処理を終了する。
【0055】
なお、選択部804が、出力部103によって出力された愛称候補から、ユーザが指定した愛称候補を選択するように構成してもよい。この場合、例えば、出力部103が、生成された愛称候補をディスプレイなどの表示装置に表示し、キーボードやマウスなどのインターフェースによって、ユーザが表示された愛称候補から所望の愛称候補を指定可能とする。また、例えば、出力部103が、生成された愛称候補のテキストデータを音声信号に合成してスピーカから出力し、マイク等のインターフェースによってユーザが音声によって所望の愛称候補を指定できるように構成してもよい。
【0056】
ユーザに呼びかけを行うロボットなどの対話装置に本実施の形態を適用する場合、名称入力部101でユーザ等の名前を入力し、出力部103から出力された愛称を呼称表現として利用してもよい。この場合、対話装置は、例えば選択部804によって任意に愛称候補を選択し、選択した愛称で呼称して良いか否かを、ユーザに対して音声で確認するように構成してもよい。
【0057】
このように、第2の実施の形態にかかる愛称推定装置では、Webなどの所定の文書群から取得された文書を対象として、生成された愛称候補を検索し、当該文書に含まれる愛称候補を選択することによって、より適切な愛称候補を取得することができる。
【0058】
(第3の実施の形態)
第3の実施の形態にかかる愛称推定装置は、名称と、当該名称について事前に分かっている愛称との対を入力して愛称生成ルールを学習する。
【0059】
図10は、第3の実施の形態にかかる愛称推定装置1000の構成を示すブロック図である。図10に示すように、愛称推定装置1000は、ルール記憶部121と、名称入力部101と、候補生成部102と、出力部103と、学習データ入力部1005と、学習部1006と、を備えている。
【0060】
第3の実施の形態では、学習データ入力部1005および学習部1006を追加したことが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる愛称推定装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
【0061】
学習データ入力部1005は、名称と、その名称について既に分かっている愛称とを対応づけた学習データを入力する。学習データ入力部1005は、姓名に分割された正式名称、正式名称のひらがな表記、および正式名称のカタカナ表記などの異なる表記と、愛称との対を学習データとして入力する。なお、姓名に分割前の名称とその愛称との対を与えるように構成してもよい。
【0062】
学習部1006は、入力された学習データから新たな愛称生成ルールを生成し、生成した愛称生成ルールをルール記憶部121に保存する。具体的には、学習部1006は、まず、入力された学習データの名称と愛称との双方に共通して含まれる共通文字を取得する。そして、学習部1006は、得られた共通文字を候補生成部102と同様の方法により記号化する。さらに、学習部1006は、学習データの愛称のうち共通文字を図3に示すような名称データの記号に置き換えることにより愛称生成ルールを作成する。
【0063】
次に、このように構成された第3の実施の形態にかかる愛称推定装置1000による学習処理について図11および図12を用いて説明する。図11は、第3の実施の形態における学習処理の全体の流れを示すフローチャートである。また、図12は、生成された愛称生成ルールの一例を示す図である。
【0064】
なお、学習された愛称生成ルール、または事前に記憶された愛称生成ルールによる愛称推定処理は、第1の実施の形態の愛称推定処理を表す図7と同様であるためその説明を省略する。
【0065】
まず、学習データ入力部1005は、名称と愛称との対である学習データを入力する(ステップS1101)。次に、学習部1006は、名称と愛称とに共通する共通文字を取得する(ステップS1102)。次に、学習部1006は、取得した共通文字を記号化する(ステップS1103)。
【0066】
例えば、姓名に分割された人名である図12の正式名称1201(「H田 I美」)と、愛称1202(「Iちゃん」)とを対応づけた学習データが入力された場合、学習部1006は、「I」を共通文字として取得する。「I」は、正式名称の名の最初の文字であるため、学習部1006は、この共通文字を「121」に記号化する。
【0067】
次に、学習部1006は、共通文字の記号と、愛称内の共通文字以外の文字とを結合して愛称生成ルールを作成する(ステップS1104)。上記例では、記号化した「121」と、愛称内の共通文字「I」以外の文字とを結合した愛称生成ルール1203(「121ちゃん」)が作成される。
【0068】
図12では、人名「P野S也」のひらがな表記1211(「ぴいの えすや」)と、その愛称1212(「ぴいちゃん」)との対である学習データが入力された場合に生成される愛称生成ルール1213(「211 212ちゃん」)の例も示されている。
【0069】
なお、学習部1006は、さらに、愛称生成ルールを相互に比較することにより、新たな愛称生成ルールを生成する。具体的には、学習部1006は、まず、ある愛称生成ルール(ルール1とする)に対して記号部分のみが置き換えられた他の愛称生成ルール(ルール2とする)をルール記憶部121から検索する。そして、学習部1006は、このようなルール2が存在する場合、ルール1と記号部分が共通する他の愛称生成ルール(ルール3とする)をさらに検索し、ルール3の記号部分をルール2の記号部分に置換した新たな愛称生成ルールを生成する。
【0070】
例えば、図12に示すように、愛称生成ルール1203(「121ちゃん」)、愛称生成ルール1213(「211 212ちゃん」)、および愛称生成ルール1223(「121やん」)という3つの愛称生成ルールが、学習データから直接学習できたとする。このうち、愛称生成ルール1203(「121ちゃん」)および愛称生成ルール1213(「211 212ちゃん」)は、記号である「121」と「211 212」の部分のみが異なる。また、愛称生成ルール1203(「121ちゃん」)に対しては、同一の記号「121」を含む別の愛称生成ルール1223(「121やん」)が存在する。このため、学習部1006は、愛称生成ルール1223(「121やん」)の記号「121」の部分を、「211 212」に置き換えた愛称生成ルール(「211 212やん」)を新たに生成することができる。
【0071】
このように、学習データ中に直接学習することができるデータが存在しなかったとしても、既に学習された愛称生成ルールから、他の愛称生成ルール(「211 212やん」)を類推学習することができる。
【0072】
図11に戻り、学習部1006は、生成した愛称生成ルールをルール記憶部121に保存し(ステップS1105)、学習処理を終了する。
【0073】
図13は、学習された愛称生成ルールの使用例を示す図である。図13は、正式名称1301(「P田 Y子」)と、正式名称の読みであるひらがな表記1302(「ぴいた わいこ」)と、カタカナ表記1303(「ピイタ ワイコ」)とが入力された例を示している。この場合、直接学習された3つの愛称生成ルール(「121ちゃん」、「211 212 ちゃん」、および「121やん」)からは、それぞれ愛称候補1311、1312、1313(「Yちゃん」、「ぴいちゃん」、「Yやん」)が生成される。さらに、直接学習された愛称生成ルールから類推学習された愛称生成ルール(「211 212やん」)からは、愛称候補1314(「ぴいやん」)をさらに生成することができる。
【0074】
このように、第3の実施の形態にかかる愛称推定装置では、名称と愛称とを対応づけた学習データを用いて愛称生成ルールを学習することができる。
【0075】
上述のように、略称は、元の名称に関連した文字列のみで構成されるため、特許文献2のように略称を生成するための略称生成ルールを書き下すことは比較的容易である。一方、愛称は、名称とは無関係な文字が挿入され、表現の多様性が多い。このため、規則を書き下すことが難しい場合もある。本実施の形態の方法により愛称生成ルールを学習可能とすれば、このような問題を解消できる。
【0076】
(第4の実施の形態)
第4の実施の形態にかかる愛称推定装置は、愛称生成ルールによる愛称候補の生成に加えて、Webなどの外部データから愛称候補を抽出し、生成および抽出した愛称候補から適切な愛称候補を選択する。
【0077】
図14は、第4の実施の形態にかかる愛称推定装置1400の構成を示すブロック図である。図14に示すように、愛称推定装置1400は、ルール記憶部121と、文書記憶部822と、名称入力部101と、候補生成部102と、出力部103と、選択部1404と、候補抽出部1407と、を備えている。
【0078】
第4の実施の形態では、候補抽出部1407を追加したこと、および選択部1404の機能が第2の実施の形態と異なっている。その他の構成および機能は、第2の実施の形態にかかる愛称推定装置800の構成を表すブロック図である図8と同様であるので、同一符号を付し、ここでの説明は省略する。
【0079】
候補抽出部1407は、Web上のデータなどの外部データから愛称候補となる文字列を抽出する。候補抽出部1407は、例えば「(愛称)こと(正式名称)」のような典型表現を利用して外部データから愛称候補を含む文字列を検索する。具体的には、候補抽出部1407は、ある名称について、「こと(正式名称)」を検索キーワードとして外部データを検索する。そして、候補抽出部1407は、得られた文書から「こと(正式名称)」の前の所定数の文字からなる文字列を取得し、取得した文字列から愛称候補を抽出する。文字列の取得方法および取得した文字列から愛称候補を抽出する方法についての詳細は後述する。
【0080】
選択部1404は、候補生成部102が生成した愛称候補に加えて、候補抽出部1407が抽出した愛称候補を対象として、愛称候補の選択処理を実行する。また、選択部1404は、生成された愛称候補それぞれについて、文書記憶部822に記憶した文書中の正式名称の前後の所定文字数内に愛称候補が含まれているか否かを判定する。そして、選択部1404は、文書中の正式名称の前後の所定文字数内に含まれる愛称候補に対して、「(愛称候補)こと(正式名称)」という連語を検索キーワードとし、Webページを検索対象として検索を実行する。そして、選択部1404は、検索されたWebページが多い順に愛称候補を順位付けし、上位の所定数の愛称候補を選択する。
【0081】
次に、このように構成された第4の実施の形態にかかる愛称推定装置1400による愛称推定処理について図15を用いて説明する。図15は、第4の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
【0082】
ステップS1501からステップS1504までの、名称入力処理、記号化処理、ルール取得処理、および候補生成処理は、第2の実施の形態にかかる愛称推定装置800におけるステップS901からステップS904までと同様の処理なので、その説明を省略する。
【0083】
愛称候補が生成された後、選択部1404は、正式名称を検索キーワードとしてWebページなどの所定の文書群を検索し、上位の所定数の検索結果である文書(以下、文書pageという)を文書記憶部822に保存する(ステップS1505)。
【0084】
次に、選択部1404は、保存した文書pageから、正式名称の前後s文字(sは1以上の整数)の文字列を取得する(ステップS1506)。さらに、選択部1404は、取得した文字列中に出現する愛称候補のみを選択する(ステップS1507)。
【0085】
次に、候補抽出部1407が、文書pageから愛称候補を抽出する愛称候補抽出処理を実行する(ステップS1508)。愛称候補抽出処理の詳細については後述する。
【0086】
次に、選択部1404は、ステップS1507で選択された愛称候補およびステップS1508で抽出された愛称候補のそれぞれについて、「(愛称候補)こと(正式名称)」という連語を検索キーワードとしてWeb上で検索を行う(ステップS1509)。そして、選択部1404は、ヒット件数順に愛称候補を並べ、上位N個の候補を選択する(ステップS1510)。
【0087】
最後に、出力部103が、選択された愛称候補を出力し(ステップS1511)、愛称推定処理を終了する。
【0088】
次に、ステップS1508の愛称候補抽出処理の詳細について図16を用いて説明する。図16は、第4の実施の形態における愛称候補抽出処理の全体の流れを示すフローチャートである。
【0089】
まず、候補抽出部1407は、「こと(正式名称)」を検索キーワードとしてWeb検索を実行し、上位N件の文書を取得する(ステップS1601)。次に、候補抽出部1407は、取得した文書から、検索キーワードである「こと(正式名称)」の前のt文字(tは1以上の整数))の文字列strを取得する(ステップS1602)。
【0090】
次に、候補抽出部1407は、取得した文字列strのそれぞれについて、文字列strの任意の位置の文字から文字列strの最後の文字までの範囲の文字列である接尾辞を生成する(ステップS1603)。
【0091】
図17は、接尾辞の一例を示す図である。図17は、文字列1701(「今日は良い天気だ」)から作成される8つの接尾辞1711〜1718(「だ」、「気だ」、「天気だ」、「い天気だ」、「良い天気だ」、「は良い天気だ」、「日は良い天気だ」、「今日は良い天気だ」)を示している。
【0092】
図16に戻り、候補抽出部1407は、各接尾辞について、保存した文書pageおよび文字列strを対象から、接尾辞の前の1文字を取得し、取得した文字の種類数を取得する(ステップS1604)。
【0093】
図18は、種類数の取得方法の一例を示す模式図である。図18は、図17の接尾辞に対して、「今日は良い天気だ」、「明日は良い天気だ」、および「気持ちの良い天気だ」という3つの文字列のみが、文書pageおよび文字列str内に存在するときの、各接尾辞の前の文字の種類数を表している。なお、図18内の数値が、各接尾辞の直前の文字の種類数を表している。また、種類数を数える際には、文書page、文字列str、および接尾辞中のカタカナ表記はひらがな表記に置き換えて数える。
【0094】
この例では、例えば図17の接尾辞1715(「良い天気だ」)に対しては、直前の文字として文字1801(「は」)および文字1802(「の」)が取得される。したがって、接尾辞1715に対する種類数は2となる。
【0095】
図16に戻り、候補抽出部1407は、各接尾辞のうち未処理の接尾辞を取得する(ステップS1605)。そして、候補抽出部1407は、取得した接尾辞に対してステップS1604で取得された種類数が1より大きく、かつ、接尾辞の先頭1文字を削除した接尾辞に対してステップS1604で取得された種類数が1であるか否かを判断する(ステップS1606)。
【0096】
接尾辞に対して取得された種類数が1より大きく、かつ、接尾辞の先頭1文字を削除した接尾辞に対して取得された種類数が1である場合(ステップS1606:YES)、候補抽出部1407は、取得した接尾辞を愛称候補として抽出する(ステップS1607)。
【0097】
接尾辞に対して取得された種類数が1より大きく、かつ、接尾辞の先頭1文字を削除した接尾辞に対して取得された種類数が1でない場合(ステップS1606:NO)、候補抽出部1407は、さらに、接尾辞に対して取得された種類数が1であり、かつ、接尾辞の先頭1文字を削除した接尾辞に対して取得された種類数が1より大きいか否かを判断する(ステップS1608)。
【0098】
接尾辞に対して取得された種類数が1であり、かつ、接尾辞の先頭1文字を削除した接尾辞に対して取得された種類数が1より大きい場合(ステップS1608:YES)、候補抽出部1407は、取得した接尾辞から先頭1文字を削除した接尾辞を、愛称候補として抽出する(ステップS1609)。
【0099】
次に、候補抽出部1407は、すべての接尾辞を処理したか否かを判断する(ステップS1610)。すべての接尾辞を処理していない場合(ステップS1610:NO)、候補抽出部1407は、次の未処理の接尾辞を取得して処理を繰り返す(ステップS1605)。
【0100】
すべての接尾辞を処理した場合(ステップS1610:YES)、候補抽出部1407は、文字列str中での頻度が一致する他の愛称候補の部分文字列である愛称候補を削除する(ステップS1611)。
【0101】
このような処理により、「こと(正式名称)」を検索キーワードとして検索した文書から、適切な愛称候補を抽出することができる。例えば、非特許文献1のように形態素解析器を利用する場合と比較すると、正しい愛称が「Uーちゃん」である場合に、誤って「ーちゃん」が愛称として抽出される可能性を低減することができる。
【0102】
このように、第4の実施の形態にかかる愛称推定装置では、Webなどの外部データから愛称候補を抽出できるため、さらに適切な愛称候補を選択することができる。例えば、愛称生成ルールのみでは、名称内の文字を全く含まない愛称を推定することが困難であるが、外部データを参照することにより、このような愛称も抽出することが可能となる。
【0103】
次に、第1〜第4の実施の形態にかかる愛称推定装置のハードウェア構成について図19を用いて説明する。図19は、第1〜第4の実施の形態にかかる愛称推定装置のハードウェア構成図である。
【0104】
第1〜第4の実施の形態にかかる愛称推定装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。
【0105】
第1〜第4の実施の形態にかかる愛称推定装置で実行される愛称推定プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
【0106】
また、第1〜第4の実施の形態にかかる愛称推定装置で実行される愛称推定プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1〜第4の実施の形態にかかる愛称推定装置で実行される愛称推定プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0107】
また、第1〜第4の実施の形態の愛称推定プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
【0108】
第1〜第4の実施の形態にかかる愛称推定装置で実行される愛称推定プログラムは、上述した各部(名称入力部、候補生成部、出力部、選択部、学習データ入力部、学習部、候補抽出部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51(プロセッサ)が上記記憶媒体から愛称推定プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。
【産業上の利用可能性】
【0109】
以上のように、本発明にかかる装置、方法およびプログラムは、名称だけでなく名称の愛称が処理対象となりうる情報検索装置、音声認識装置、音声対話装置などに適している。
【図面の簡単な説明】
【0110】
【図1】第1の実施の形態にかかる愛称推定装置のブロック図である。
【図2】愛称生成ルールの一例を示す図である。
【図3】入力された名称データの一例を示す図である。
【図4】正式名称を記号に変換する例を示す図である。
【図5】ひらがな表記を記号に変換する例を示す図である。
【図6】カタカナ表記を記号に変換する例を示す図である。
【図7】第1の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
【図8】第2の実施の形態にかかる愛称推定装置のブロック図である。
【図9】第2の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
【図10】第3の実施の形態にかかる愛称推定装置のブロック図である。
【図11】第3の実施の形態における学習処理の全体の流れを示すフローチャートである。
【図12】生成された愛称生成ルールの一例を示す図である。
【図13】学習された愛称生成ルールの使用例を示す図である。
【図14】第4の実施の形態にかかる愛称推定装置のブロック図である。
【図15】第4の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
【図16】第4の実施の形態における愛称候補抽出処理の全体の流れを示すフローチャートである。
【図17】接尾辞の一例を示す図である。
【図18】種類数の取得方法の一例を示す模式図である。
【図19】第1〜第4の実施の形態にかかる愛称推定装置のハードウェア構成図である。
【符号の説明】
【0111】
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 愛称推定装置
101 名称入力部
102 候補生成部
103 出力部
121 ルール記憶部
201 愛称候補
301 人名
302 カタカナ表記
800 愛称推定装置
804 選択部
822 文書記憶部
1000 愛称推定装置
1005 学習データ入力部
1006 学習部
1201 正式名称
1202、1212 愛称
1203、1213、1223 愛称生成ルール
1211 ひらがな表記
1301 正式名称
1302 ひらがな表記
1303 カタカナ表記
1311〜1314 愛称候補
1400 愛称推定装置
1404 選択部
1407 候補抽出部
1701 文字列
1711〜1718 接尾辞
1801、1802 文字

【特許請求の範囲】
【請求項1】
名称から前記名称の愛称を推定する愛称推定装置であって、
前記名称に含まれる文字のうち、前記愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む前記愛称の候補の生成規則を記憶する規則記憶部と、
前記名称を入力する名称入力部と、
入力された前記名称に含まれる文字のうち、前記生成規則の前記位置情報で表される位置の文字を取得し、取得した文字と前記生成規則の前記付加文字列とを結合した前記愛称の候補を生成する生成部と、
生成された前記愛称の候補を出力する出力部と、
を備えたことを特徴とする愛称推定装置。
【請求項2】
前記名称と前記名称について既に分かっている愛称とを対応づけた学習データを入力する学習データ入力部と、
前記学習データの前記名称と前記学習データの前記愛称とに共通して含まれる共通文字を取得し、前記学習データの前記名称から前記共通文字の位置を表す位置情報を生成し、前記学習データの前記愛称から前記共通文字を削除した文字列を生成し、生成した位置情報と生成した文字列とを前記愛称の候補の生成規則として学習する学習部と、をさらに備えたこと、
を特徴とする請求項1に記載の愛称推定装置。
【請求項3】
予め定められた第1文書に前記愛称の候補が含まれるか否かを判定し、前記第1文書に含まれる前記愛称の候補を選択する選択部をさらに備えたこと、
を特徴とする請求項1に記載の愛称推定装置。
【請求項4】
前記選択部は、さらに、予め定められた第2文書のうち、選択された前記愛称の候補を含む前記第2文書を検索し、検索された前記第2文書の数が多い順に予め定められた個数の前記愛称の候補を選択すること、
を特徴とする請求項3に記載の愛称推定装置。
【請求項5】
前記選択部は、前記第1文書のうち、入力された前記名称を含む前記第1文書を対象として、前記愛称の候補が含まれるか否かを判定し、前記第1文書に含まれる前記愛称の候補を選択すること、
を特徴とする請求項3に記載の愛称推定装置。
【請求項6】
前記選択部は、入力された前記名称を含む前記第1文書から、前記名称の前および後の少なくとも一方の予め定められた文字数の文字列を取得し、取得した文字列を対象として、前記愛称の候補が含まれるか否かを判定し、取得した文字列に含まれる前記愛称の候補を選択すること、
を特徴とする請求項5に記載の愛称推定装置。
【請求項7】
予め定められた第3文書のうち、入力された前記名称を含む前記第3文書を検索し、検索された前記第3文書の前記名称の前および後の少なくとも一方の予め定められた文字数の文字列を取得し、取得した文字列から前記愛称の候補を抽出する抽出部をさらに備えたこと、
を特徴とする請求項1に記載の愛称推定装置。
【請求項8】
出力された前記愛称の候補のうち、利用者によって指定された前記愛称の候補を選択する選択部をさらに備えたこと、
を特徴とする請求項1に記載の愛称推定装置。
【請求項9】
名称から前記名称の愛称を推定する愛称推定装置で実行される愛称推定方法であって、
前記愛称推定装置は、前記名称に含まれる文字のうち、前記愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む前記愛称の候補の生成規則を記憶する規則記憶部を備え、
名称入力部が、前記名称を入力する名称入力ステップと、
生成部が、入力された前記名称に含まれる文字のうち、前記生成規則の前記位置情報で表される位置の文字を取得し、取得した文字と前記生成規則の前記付加文字列とを結合した前記愛称の候補を生成する生成ステップと、
出力部が、生成された前記愛称の候補を出力する出力ステップと、
を備えたことを特徴とする愛称推定方法。
【請求項10】
名称から前記名称の愛称を推定する愛称推定装置で実行される愛称推定プログラムであって、
前記愛称推定装置は、前記名称に含まれる文字のうち、前記愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む前記愛称の候補の生成規則を記憶する規則記憶部を備え、
前記名称を入力する名称入力手順と、
入力された前記名称に含まれる文字のうち、前記生成規則の前記位置情報で表される位置の文字を取得し、取得した文字と前記生成規則の前記付加文字列とを結合した前記愛称の候補を生成する生成手順と、
生成された前記愛称の候補を出力する出力手順と、
を前記愛称推定装置に実行させる愛称推定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate