説明

対話システム、対話方法およびプログラム

【課題】重要語を影響度の代わりに用いることにより、このタイムラグを解消する。
【解決手段】どの範囲の集団に影響を持った人物あるいは対話情報を抽出するかに応じて検索キーワードを定め、ソーシャルネットワーク上での対話情報を収集し、収集した対話情報に対して単語の出現頻度をカウントし、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する。そして、最新の重要語を保持し、重要語と前記集団を特定するキーワードを持った対話情報を抽出し、言語の理解、対話の制御、発話文の作成等を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ソーシャルネットワークにおける対話システム、対話方法およびプログラムに関し、特に、明示的な対象を持たない対話行為を行うことで、ソーシャルネットワークに適合したコミュニケーションを行う対話システム、対話方法およびプログラムに関する。
【背景技術】
【0002】
現在、ソーシャルネットワークのコミュニティが発達してきており、特に、Twitter(登録商標)は日本でのユーザ数が1000万人に迫る急激な成長を遂げている(2010年4月Nielsen Online調べ)。そのため、Twitter等のソーシャルネットワーク上のコミュニティで、自然言語を用いてユーザと対話し宣伝活動やユーザサポートを行う対話システム(bot)に対する期待が高まってきている。
【0003】
そのため、最近では、非特許文献1に示すように、Twitterに対応した対話システムは既に商品検索システムとの組み合せで商用化されている(例えば、非特許文献1参照)。このシステムは、ユーザ発言に対して、キーワードのマッチングと検索とを行うことで、商品の提示を行っている。
【0004】
また、非特許文献1に記載のシステムでは、単純なキーワードマッチを用いているため、一対一の応答しか行うことが出来ないが、非特許文献2に記載のシステムでは、システムが持つ知識と、ユーザ発言を構造化することで、ユーザの不十分な入力に対してシステムが聞き返し行いながらインタラクティブに情報提示を行うことが可能である(例えば、非特許文献2参照)。また、非特許文献3に記載のシステムでは、非特許文献2に記載のシステムを音声対話に適用し、音声認識誤りに対する聞き返しも含めたインタラクションを可能とする対話システムを構築している(例えば、非特許文献3参照)。
【0005】
これら非特許文献1から3のシステムは、実世界での人間同士の対話を再現する対話制御技術であり、入力に対して、必ず応答を行うシステムとなっている。しかし、人間は、ソーシャルネットワーク上で全ての入力に対して必ずしも応答するわけではなく、実世界にはない独特のコミュニケーションを行っている。
【0006】
ここで、Twitter上で構築される人間同士のコミュニケーションの構造は、大きく分けて図5の3つに分類される。つまり、(a)は、2者間の対話を示す。Twitterではこれらの二者間の会話を第三者が閲覧することが可能となっている。また、(b)のようにTwitterは、不特定多数のユーザが会話に参加できるため、会議や授業に類する聴衆全体に呼びかけるような対話を行う機能を持つ。Twitter上では、(a)や(b)のように実世界上での人間の会話を模したコミュニケーションが行われているが、Twitterは実世界には無い(c)に示した新たな形態を持ったコミュニケーションがソーシャルネットワーク上で行われている。
【0007】
Twitter上で各ユーザは、それぞれ自分が気に入った他のユーザをフォローすることでネットワークを構築している。図6は、あるユーザのフォローリストを示す。Twitterは、フォローリストに含まれるユーザの発言を、図7に示されるように、時系列順に提示する。Twitterでは、この画面をタイムライン(TL)と呼ぶ。基本的にTwitter上では、誰が自分をフォローするかは制御できないため、(c)に示すように、対象を特定せずに、応答を期待しない独り言に似た発言を行うことが多い。ユーザは自分のTL上に気に入った発言を見つけると、その発言に関して対象を特定せずに独り言を行う。
【0008】
以上のように、Twitter上に構築されるソーシャルネットワークの最大の特徴は、自分の発言に対する応答を他の別のユーザに義務付けないことであり、その暗黙の了解が発言の敷居を下げ、多数のアクティブユーザを獲得する要因の一つとなっている。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】コレカモ http://korekamo.net/
【非特許文献2】清田 陽司, 黒橋 禎夫, 木戸 冬子:大規模テキスト知識ベースに基づく自動質問応答 −ダイアログナビ−,自然言語処理, Vol.10,No.4,pp.145――175,July,2003.
【非特許文献3】翠輝久, 河原達也, 正司哲朗, 美濃導彦: 質問応答・情報推薦機能を備えた音声による情報案内システム. 情報処理学会論文誌,Vol.48,No.12,pp.3602――3611,2007.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、上述の非特許文献1から3に記載のシステムは、実世界での人間同士の対話に近い(a)や(b)に属する対話を可能とする対話制御技術であり、ユーザ入力に対して必ず応答を行うシステムとなっている。そのため(a)と(b)に属するコミュニケーションを取ることが可能である一方で、これらのシステムでは、Twitter上の着目すべきユーザをフォローし、TLから着目すべき発言を抽出することが出来ないため(c)に示すコミュニケーションを取ることができないという問題があった。
【0011】
また、TLから発言を抽出する方法として、影響度が高い対話情報を選ぶという戦略をとることも考えられる。各対話情報の発言が、どれだけリツイートされたかを観測することで、世界に対してどれだけ影響を与えた発言かを量ることが可能である。対話システムが、影響度の高い発言を選んで、言及することで、ユーザの注目を集め宣伝効果の高い発言を行うことが可能であり、有効な戦略である。
【0012】
しかし、どれだけリツイートされたか観測するためには、ある程度時間を取ってツイートを収集する必要がある。そのためユーザが発言してから対話システムが言及するまでタイムラグが発生してしまい、その話題の注目度が最も高い時期に発言する機会を逸してしまうことがある。
【0013】
そこで、本発明は、上述の課題に鑑みてなされたものであり、重要語を影響度の代わりに用いることにより、このタイムラグを解消する対話システム、対話方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明は、上述の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【0015】
(1)本発明は、ソーシャルネットワーク上で対話を行う対話システムであって、どの範囲の集団に影響を持った人物あるいは対話情報を抽出するかに応じて検索キーワードを定め、ソーシャルネットワーク上での対話情報を収集する対話情報収集装置(例えば、図1の対話情報収集装置100に相当)と、該収集した対話情報に対して単語の出現頻度をカウントし、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する重要語抽出装置(例えば、図1の重要語抽出装置200に相当)と、最新の重要語を保持し、重要語と前記集団を特定するキーワードを持った対話情報を抽出する応答フィルタ(例えば、図1の応答フィルタ300に相当)と、言語の理解、対話の制御、発話文の作成等を行う発話文生成装置(例えば、図1の発話文生成装置400に相当)と、を備えたことを特徴とする対話システムを提案している。
【0016】
本発明によれば、対話情報収集装置は、どの範囲の集団に影響を持った人物あるいは対話情報を抽出するかに応じて検索キーワードを定め、ソーシャルネットワーク上での対話情報を収集する。重要語抽出装置は、収集した対話情報に対して単語の出現頻度をカウントし、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する。応答フィルタは、最新の重要語を保持し、重要語と集団を特定するキーワードを持った対話情報を抽出する。発話文生成装置は、言語の理解、対話の制御、発話文の作成等を行う。したがって、重要語を影響度の代わりに用いることにより、従来、問題となっていたタイムラグを解消することができる。
【0017】
(2)本発明は、(1)の対話システムについて、前記対話情報収集装置が、所定の時間間隔で、ソーシャルネットワーク上での対話情報を収集することを特徴とする対話システムを提案している。
【0018】
本発明によれば、対話情報収集装置が、所定の時間間隔で、ソーシャルネットワーク上での対話情報を収集する。これにより、いままでは出現していなかったが、最近出現頻度が高くなった単語を重要語として抽出することができる。
【0019】
(3)本発明は、(1)または(2)の対話システムについて、前記重要語抽出装置が、文書iにおける単語wの出現頻度をTF(w)i、単語wを含む文書数をDF(w)、全単語の出現数をNとしたとき、数1のtf−idf(w)iを求めることにより前記普段は出現しないが最近出現頻度が高い単語を重要語として抽出することを特徴とする対話システムを提案している。
【0020】
本発明によれば、重要語抽出装置が、文書iにおける単語wの出現頻度をTF(w)i、単語wを含む文書数をDF(w)、全単語の出現数をNとしたとき、数1のtf−idf(w)iを求めることにより普段は出現しないが最近出現頻度が高い単語を重要語として抽出する。これにより、定量的に、重要語を抽出することができる。
【0021】
(4)本発明は、(3)の対話システムについて、前記重要語抽出装置が、最近、出現した文書集合に対して、前記数1の演算を行うことを特徴とする対話システムを提案している。
【0022】
本発明によれば、重要語抽出装置が、最近、出現した文書集合に対して、数1の演算を行う。したがって、最近、投稿された対話情報の集合における特定の語句の出現頻度を得ることができる。つまり、短い文書でコミュニケーションが行われる対話システムでは、その短い文書の中に複数の単語が登場することが元々少ない。また、ユーザが、1つの意見を述べるのに複数の文書を用いることがあり、集合に対して処理を適用しないと特徴を正しく抽出できない。加えて本発明は、特定の1ユーザの特定の発言について特徴を調べるのではなく、複数のユーザのある範囲を持った時期内における発言の傾向を捉えることを重要視するため、文書集合に対して演算をおこなっている。複数ユーザを対象とした理由は、宣伝効率の向上を目的とするとともに、あるコミュニティ内で注目度が高いキーワードに対して対話システムが発言することにより、ユーザ同士のコミュニケーションの活性化も目的としているためである。すなわち、対話システムが、一度発言しただけでは宣伝効果はその1回であるが、ユーザが対話システムの発言内容を参照してさらに発言すれば、口コミ効果によってより高い宣伝効果が期待できるためである。
【0023】
(5)本発明は、(1)の対話システムについて、前記応答フィルタが、前記重要語抽出装置から入力した単語とその重要度とを関連付けたデータベース(例えば、図3のデータベース310に相当)と、該データベースに登録された単語の重要度を入力のたびに更新する更新手段(例えば、図3の更新部320に相当)と、を備えたことを特徴とする対話システムを提案している。
【0024】
本発明によれば、データベースが、重要語抽出装置から入力した単語とその重要度とを関連付けて登録し、更新手段が、データベースに登録された単語の重要度を入力のたびに更新する。したがって、各単語について、ごく最近の重要度を常に把握することができる。つまり、重要語を含む発話に全てに反応してしまうと、対話システムの応答数が多くなりすぎてしまうため、これを防止する。
【0025】
(6)本発明は、(1)の対話システムについて、前記応答フィルタが、最大応答回数を計測する計測手段(例えば、図3の計測部330に相当)を備え、該最大応答回数が1以上の重要語を含む対話情報を前記発話文生成手段(例えば、図3の対話情報出力部340に相当)に出力することを特徴とする対話システムを提案している。
【0026】
本発明によれば、最大応答回数を計測する計測手段を備え、最大応答回数が1以上の重要語を含む対話情報を発話文生成装置に出力する。つまり、重要語を含む発話に全てに反応してしまうと、対話システムの応答数が多くなりすぎて、かえって、ユーザの注目が下がる可能性があるため、重要度を定数Kで割った値を応答回数の上限とする。
【0027】
(7)本発明は、(1)の対話システムについて、前記発話文生成装置が、応答文を作成する際に、前記重要語を含む文章を引用することを特徴とする対話システムを提案している。
【0028】
この発明によれば、発話文生成装置が、応答文を作成する際に、重要語を含む文章を引用する。つまり、重要語を含む文章を引用して応答文を作成することにより、重要語に着目すれば、重要語を影響度の代わりに用いて、タイムラグを解消することができる。
【0029】
(8)本発明は、(1)から(7)の対話システムについて、前記ソーシャルネットワークがツイッターであることを特徴とする対話システムを提案している。
【0030】
本発明によれば、ソーシャルネットワークがツイッターである。
【0031】
(9)本発明は、(8)の対話システムについて、前記対話情報収集装置が、タイムラインの中から対話情報を収集することを特徴とする対話システムを提案している。
【0032】
本発明によれば、対話情報収集装置が、タイムラインの中から対話情報を収集する。これにより、TLから着目すべき発言を抽出することができる。
【0033】
(10)本発明は、対話情報収集装置と、重要語抽出装置と、応答フィルタと、発話文生成装置とを備え、ソーシャルネットワーク上で対話を行う対話システムにおける対話方法であって、前記対話情報収集装置が、どの範囲の集団に影響を持った人物あるいは対話情報を抽出するかに応じて検索キーワードを定め、ソーシャルネットワーク上での対話情報を収集する第1のステップ(例えば、図4のステップS101に相当)と、前記重要語抽出装置が、該収集した対話情報に対して単語の出現頻度をカウントし、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する第2のステップ(例えば、図4のステップS102に相当)と、前記応答フィルタが、最新の重要語を保持し、重要語と前記集団を特定するキーワードを持った対話情報を抽出する第3のステップ(例えば、図4のステップS103に相当)と、前記発話文生成装置が、言語の理解、対話の制御、発話文の作成等を行う第4のステップ(例えば、図4のステップS104に相当)と、を備えたことを特徴とする対話方法を提案している。
【0034】
本発明によれば、対話情報収集装置が、どの範囲の集団に影響を持った人物あるいは対話情報を抽出するかに応じて検索キーワードを定め、ソーシャルネットワーク上での対話情報を収集し、重要語抽出装置が、収集した対話情報に対して単語の出現頻度をカウントし、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する。そして、応答フィルタが、最新の重要語を保持し、重要語と前記集団を特定するキーワードを持った対話情報を抽出し、発話文生成装置が、言語の理解、対話の制御、発話文の作成等を行う。したがって、重要語を影響度の代わりに用いることにより、従来、問題となっていたタイムラグを解消することができる。
【0035】
(11)本発明は、対話情報収集装置と、重要語抽出装置と、応答フィルタと、発話文生成装置とを備え、ソーシャルネットワーク上で対話を行う対話システムにおける対話方法をコンピュータに実行させるプログラムであって、前記対話情報収集装置が、どの範囲の集団に影響を持った人物あるいは対話情報を抽出するかに応じて検索キーワードを定め、ソーシャルネットワーク上での対話情報を収集する第1のステップ(例えば、図4のステップS101に相当)と、前記重要語抽出装置が、該収集した対話情報に対して単語の出現頻度をカウントし、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する第2のステップ(例えば、図4のステップS102に相当)と、前記応答フィルタが、最新の重要語を保持し、重要語と前記集団を特定するキーワードを持った対話情報を抽出する第3のステップ(例えば、図4のステップS103に相当)と、前記発話文生成装置が、言語の理解、対話の制御、発話文の作成等を行う第4のステップ(例えば、図4のステップS104に相当)と、をコンピュータに実行させるプログラムを提案している。
【0036】
本発明によれば、どの範囲の集団に影響を持った人物あるいは対話情報を抽出するかに応じて検索キーワードを定め、ソーシャルネットワーク上での対話情報を収集し、収集した対話情報に対して単語の出現頻度をカウントし、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する。そして、最新の重要語を保持し、重要語と前記集団を特定するキーワードを持った対話情報を抽出し、言語の理解、対話の制御、発話文の作成等を行う。したがって、重要語を影響度の代わりに用いることにより、従来、問題となっていたタイムラグを解消することができる。
【発明の効果】
【0037】
SNS上のコミュニティ内で、頻繁に話題にのぼる内容は、そのコミュニティ内で、ユーザの注目を集めている話題と考えられる。特に、Twitterのようなリアルタイムにコミュニケーションを行うSNSでは、注目を集める話題は、時間共に変化するため、Twitter上で宣伝行為を行う場合は、その話題の変化を捉えて的確なタイミングに発言することが重要となる。そのため、本発明では、ユーザが注目する話題に対しユーザが最もホットなタイミングで対話システムに言及させることにより、効果的に宣伝行為を行うことが可能となるという効果がある。
【0038】
また、本発明によれば、対話システムが、常に、影響度の高い対話情報に関する発言を行うことで、他のユーザの注目を集める効果がある。そのため、本対話システムは、宣伝用途において特に有効である。
【図面の簡単な説明】
【0039】
【図1】本発明の対話システムに係る構成を示す図である。
【図2】本発明の重要語抽出装置の構成を示す図である。
【図3】本発明の応答フィルタの構成を示す図である。
【図4】本発明の対話システムに係る処理を示す図である。
【図5】従来例に係るソーシャルネットワークにおける対話形式を例示する図である。
【図6】従来のTwitterにおけるユーザのフォローリストを例示する図である。
【図7】従来のTwitterにおけるフォローリストに含まれるユーザの発言を時系列順に提示した図である。
【発明を実施するための形態】
【0040】
以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【0041】
以下、図1から図4を用いて、本発明の対話システムに係る実施形態について説明する。なお、本実施形態においては、ソーシャルネットワークとして、Twitterを例示して説明する。
【0042】
<対話システムの構成>
本実施形態に係る対話システムは、図1に示すように、主に、対話情報収集装置100と、重要語抽出装置200と、応答フィルタ300と、発話文生成装置400とから構成されている。
【0043】
対話情報収集装置100は、どの範囲の集団に影響を持った人物・発言を抽出するかに応じて検索キーワードを定め、キーワードを用いてソーシャルネットワーク(Twitter)上の発言を検索収集する。重要語抽出装置200は、得られた対話情報(ツイット)内の単語の出現頻度をカウントし、単語毎に出現頻度の総数と最近の出現頻度を計測し、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する。応答フィルタ300は、最新の重要語を保持し、重要語と上記の集団を特定するキーワードを持った対話情報(ツイット)をTLから抽出し、発話文生成装置400に送る。発話文生成装置400は、言語の理解、対話の制御、発話文の作成等を行う。用途に応じて例えば非特許文献1から非特許文献3に示した従来の対話制御技術を用いる。システム発話を生成する際、元になった対話情報(ツイット)中で重要語を含む箇所を引用することで、対話システムが、ユーザ発話の何に反応したか明らかにするとともに、重要語自体が持つ影響力を利用してユーザからの注目を集める。
【0044】
つまり、どの範囲の集団に影響を持った人物・発言を抽出するかに応じて検索キーワードを定め、キーワードを用いてソーシャルネットワーク(Twitter)上の発言を検索収集し、得られた対話情報(ツイット)内の単語の出現頻度をカウントし、単語毎に出現頻度の総数と最近の出現頻度を計測し、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する。一方、応答フィルタ300は、ソーシャルネットワーク(Twitter)上からソーシャルネットワーク(Twitter)のタイムライン(TL)を取得したクライアントから対話情報(ツイット)をも入力するとともに、重要語抽出装置200から出力される重要語に対し、最新の重要語を保持し、重要語と上記の集団を特定するキーワードを持った対話情報(ツイット)をTLから抽出し、発話文生成装置400に送る。なお、タイムライン(TL)を取得したクライアントは、Twitter APIを用いて、対話システム(BOT)のタイムライン(TL)をリアルタイムに取得する。
【0045】
そして、発話文生成装置400は、言語の理解、対話の制御、発話文の作成等を行う。出力クライアントは、Twitter APIを用いて、発話文生成装置400から発話文を入力し、システムに対して、発言(ツイット)を送信する。
【0046】
<重要語抽出装置の構成>
本実施形態に係る重要語抽出装置200は、図2に示すように、出現頻度演算部210と、重要語抽出部220とから構成されている。
【0047】
出現頻度演算部210は、文書iにおける単語wの出現頻度をTF(w)i、単語wを含む文書数をDF(w)、全単語の出現数をNとしたとき、数1のtf−idf(w)iを求めることにより出現頻度を算出する。
(数1)
tf−idf(w)i=TF(w)i*log_e(N/DF(w))
【0048】
重要語抽出部220は、出現頻度演算部210の演算結果に基づいて、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する。なお、上記数1は、1文書における単語wの重要度ではなく、最近出現した文書集合における重要度であるため、TF(w)には、最近投稿された対話情報(ツイット)の集合における単語wの出現頻度を用いる。また、本実施形態に係る対話システムは、一定時間おきに、Search APIで最新の対話情報(ツイット)を収集することを想定していりため、ここ一定時間以内に投稿された対話情報(ツイット)集合における各単語の出現頻度を計算する。なお、短い文書でコミュニケーションが行われる対話システムでは、その短い文書の中に複数の単語が登場することが元々少ない。また、ユーザが、1つの意見を述べるのに複数の文書を用いることがあり、集合に対して処理を適用しないと特徴を正しく抽出できない。加えて本発明は、特定の1ユーザの特定の発言について特徴を調べるのではなく、複数のユーザのある範囲を持った時期内における発言の傾向を捉えることを重要視するため、文書集合に対して演算をおこなっている。複数ユーザを対象とした理由は、宣伝効率の向上を目的とするとともに、あるコミュニティ内で注目度が高いキーワードに対して対話システムが発言することにより、ユーザ同士のコミュニケーションの活性化も目的としているためである。すなわち、対話システムが、一度発言しただけでは宣伝効果はその1回であるが、ユーザが対話システムの発言内容を参照してさらに発言すれば、口コミ効果によってより高い宣伝効果が期待できるためである。
【0049】
<応答フィルタの構成>
本実施形態に係る応答フィルタ300は、図3に示すように、データベース310と、更新部320と、計測部330と、対話情報出力部340とから構成されている。
【0050】
データベース310は、重要語抽出装置200から入力した単語とその重要度とを関連付けて登録する。更新部320は、データベース310に登録された単語の重要度を入力のたびに更新する。計測部330は、最大応答回数を計測する。対話情報出力部340は、最大応答回数が1以上の重要語を含む対話情報を発話文生成装置400に出力する。
【0051】
つまり、応答フィルタ300は、重要語抽出装置200から送られた単語と重要度の組みをデータベース310に登録する。重要語は各単語の重要度は上記の更新頻度で新しく計算された値で更新する。これは、重要語を含む発話に全てに反応してしまうと、対話システムの応答数が多くなりすぎて、かえって、ユーザの注目が下がる可能性があるため重要度を定数Kで割った値を応答回数の上限とするものである。本実施形態では、最大応答回数が1以上の重要語を含む対話情報(ツイット)をTL上で検出した場合、応答フィルタ300は、対話情報(ツイット)を発話文生成装置400に送信する。
【0052】
<対話システムの処理>
図4を用いて、本実施形態に係る対話システムの処理について説明する。
【0053】
まず、対話情報収集装置100が、どの範囲の集団に影響を持った人物あるいは対話情報を抽出するかに応じて検索キーワードを定め、ソーシャルネットワーク(Twitter)上での対話情報(ツイット)を収集し(ステップS101)、重要語抽出装置200が、収集した対話情報に対して単語の出現頻度をカウントし、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する(ステップS102)。
【0054】
そして、応答フィルタ300が、最新の重要語を保持し、重要語と前記集団を特定するキーワードを持った対話情報を抽出し(ステップS103)、発話文生成装置400が、言語の理解、対話の制御、発話文の作成等を行う(ステップS104)。
【0055】
以上、説明したように、本実施形態によれば、ユーザが注目する話題に対しユーザが最もホットなタイミングで対話システムに言及させることにより、効果的に宣伝行為を行うことが可能となる。また、対話システムが、常に、影響度の高い対話情報に関する発言を行うことで、他のユーザの注目を集めるという効果がある。そのため、本対話システムは、宣伝用途において特に有効である。
【0056】
<実施例>
具体的な実施例として、Twitter社が公開しているAPIを用いて映画の映像配信サービスの販売促進を行うBotを実装するケースについて説明する。
【0057】
この場合、まず販売したい映画に関係する単語を映画の宣伝文から抽出しキーワードとする。対話情報収集装置100は、TwitterのSearch APIを用い、以上のキーワードでツイートを収集する。Twitter社が公開しているAPIでは、その契約形態に応じて得られるデータ量が異なるため、契約の範囲内で可能な限り漏れ無くデータを収集できるよう、定期的にSearch APIを利用しそのキーワードを含む呟きを収集する。
【0058】
重要語抽出装置200は、前述した方法で、重要語を抽出する。応答フィルタ300は、重要語抽出装置200から送られた単語と重要度の組みをDBに登録する。重要語は各単語の重要度は上記の更新頻度で新しく計算された値で更新する。重要語を含む発話に全てに反応してしまうと、Botの応答数が多くなりすぎてかえってユーザの注目が下がる可能性があるため重要度を定数Kで割った値を応答回数の上限とする。最大応答回数が1以上の重要語を含むツイートをTL上で検出した場合、応答フィルタ300は、ツイートを発話文生成装置400に送信する。
【0059】
発話文生成装置400の実施例としては非特許文献1に記載の技術と同じ手法について説明する。先ず、前もって宣伝したい映画についてマッチさせるキーワードとキーワードに応じたテンプレートを用意しておく。応答フィルタ300を経由して入力されたツイートに対して最長マッチするキーワードを抽出し、そのキーワードに対応したテンプレートを選択する。このとき応答フィルタ300から渡されたユーザのツイートから重要語を含む文を抽出し、何に対して言及しているかユーザに分かるように示す。
【0060】
以下は、発言用テンプレートの例である。
出演者は、「[映画タイトル]のような映画にもでているよ[宣伝用URL]」、監督名は、「[映画タイトル]も作っているよ[宣伝用URL]」、その他キーワードとしては、「こんな[映画タイトル]もあるよ[宣伝用URL]」等が例示できる。
【0061】
また、BOTの応答例としては、ユーザのツイートを「SF作家の小松左京氏が亡くなられた。Amazonの「日本沈没 第二部」の感想が急に増えている。http://amazon.com/hogehoge...」に対して、BOTのツイートとして、「小松左京さん原作映画の特集コーナーがあるよ http://www.kddi.com/lismo/komatsu_sakyou/@ユーザ名:SF作家の小松左京氏が亡くなられた。」とユーザのツイート中から重要語を含む文章を引用する。
【0062】
なお、対話システムの処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを対話システムに読み込ませ、実行することによって本発明の対話システムを実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
【0063】
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
【0064】
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0065】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0066】
100;対話情報収集装置
200;重要語集出装置
210;出現頻度演算部
220;重要語抽出部
300;応答フィルタ
310;データベース
320;更新部
330;計測部
340;対話情報出力部
400;発話文生成装置

【特許請求の範囲】
【請求項1】
ソーシャルネットワーク上で対話を行う対話システムであって、
どの範囲の集団に影響を持った人物あるいは対話情報を抽出するかに応じて検索キーワードを定め、ソーシャルネットワーク上での対話情報を収集する対話情報収集装置と、
該収集した対話情報に対して単語の出現頻度をカウントし、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する重要語抽出装置と、
最新の重要語を保持し、重要語と前記集団を特定するキーワードを持った対話情報を抽出する応答フィルタと、
言語の理解、対話の制御、発話文の作成等を行う発話文生成装置と、
を備えたことを特徴とする対話システム。
【請求項2】
前記対話情報収集装置が、
所定の時間間隔で、ソーシャルネットワーク上での対話情報を収集することを特徴とする請求項1に記載の対話システム。
【請求項3】
前記重要語抽出装置が、
文書iにおける単語wの出現頻度をTF(w)i、単語wを含む文書数をDF(w)、全単語の出現数をNとしたとき、数1のtf−idf(w)iを求めることにより前記普段は出現しないが最近出現頻度が高い単語を重要語として抽出することを特徴とする請求項1または請求項2に記載の対話システム。
(数1)
tf−idf(w)i=TF(w)i*log_e(N/DF(w))
【請求項4】
前記重要語抽出装置が、
最近、出現した文書集合に対して、前記数1の演算を行うことを特徴とする請求項3に記載の対話システム。
【請求項5】
前記応答フィルタが、
前記重要語抽出装置から入力した単語とその重要度とを関連付けたデータベースをと、
該データベースに登録された単語の重要度を入力のたびに更新する更新手段と、
を備えたことを特徴とする請求項1に記載の対話システム。
【請求項6】
前記応答フィルタが、最大応答回数を計測する計測手段を備え、
該最大応答回数が1以上の重要語を含む対話情報を前記発話文生成装置に出力することを特徴とする請求項1に記載の対話システム。
【請求項7】
前記発話文生成装置が、応答文を作成する際に、前記重要語を含む文章を引用することを特徴とする請求項1に記載の対話システム。
【請求項8】
前記ソーシャルネットワークがツイッターであることを特徴とする請求項1から請求項7に記載の対話システム。
【請求項9】
前記対話情報収集装置が、タイムラインの中から対話情報を収集することを特徴とする請求項8に記載の対話システム。
【請求項10】
対話情報収集装置と、重要語抽出装置と、応答フィルタと、発話文生成装置とを備え、ソーシャルネットワーク上で対話を行う対話システムにおける対話方法であって、
前記対話情報収集装置が、どの範囲の集団に影響を持った人物あるいは対話情報を抽出するかに応じて検索キーワードを定め、ソーシャルネットワーク上での対話情報を収集する第1のステップと、
前記重要語抽出装置が、該収集した対話情報に対して単語の出現頻度をカウントし、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する第2のステップと、
前記応答フィルタが、最新の重要語を保持し、重要語と前記集団を特定するキーワードを持った対話情報を抽出する第3のステップと、
前記発話文生成装置が、言語の理解、対話の制御、発話文の作成等を行う第4のステップと、
を備えたことを特徴とする対話方法。
【請求項11】
対話情報収集装置と、重要語抽出装置と、応答フィルタと、発話文生成装置とを備え、ソーシャルネットワーク上で対話を行う対話システムにおける対話方法をコンピュータに実行させるプログラムであって、
前記対話情報収集装置が、どの範囲の集団に影響を持った人物あるいは対話情報を抽出するかに応じて検索キーワードを定め、ソーシャルネットワーク上での対話情報を収集する第1のステップと、
前記重要語抽出装置が、該収集した対話情報に対して単語の出現頻度をカウントし、普段は出現しないが最近出現頻度が高い単語を重要語として抽出する第2のステップと、
前記応答フィルタが、最新の重要語を保持し、重要語と前記集団を特定するキーワードを持った対話情報を抽出する第3のステップと、
前記発話文生成装置が、言語の理解、対話の制御、発話文の作成等を行う第4のステップと、
をコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2013−109629(P2013−109629A)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2011−255050(P2011−255050)
【出願日】平成23年11月22日(2011.11.22)
【出願人】(000208891)KDDI株式会社 (2,700)