説明

情報処理装置、情報処理方法、および、プログラム

【課題】デジタルコンテンツの管理に係る負荷を大幅に軽減することが可能な情報処理装
置、情報処理方法、および、プログラムを提供する。
【解決手段】情報処理装置1は、処理対象コンテンツの分野を参照し、その分野に関連す
るコンテンツを取得し、取得したコンテンツから最重要単語を抽出して、対象コンテンツ
のメタデータに、抽出した最重要単語を含ませる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、静止画像や動画像等のコンテンツを処理する情報処理装置、情報処理方法、
および、プログラムに関する。
【背景技術】
【0002】
近年、個人が保存している画像等のコンテンツは増加する一方である。代表的なコンテ
ンツであるデジタル画像データには、デジタルカメラの機能によって、撮影日時を示す情
報等を含むメタデータが付加されることが多い。このメタデータに含まれる情報を利用す
れば、例えば特定の日に撮影されたデジタル画像データを検索することができ、デジタル
画像データの管理の一助となる。ところが、一般的なメタデータに含まれる情報は、撮影
日時や撮影時の条件(ISO感度、シャッタースピードなど)を示す情報であり、コンテ
ンツの内容に関連する情報は含まれない。このため、メタデータに含まれる情報を用いて
も、コンテンツの内容に基づく管理を行うことは困難であった。そこで、従来、画像デー
タに関連するイベントを探す機能を備えた装置が提案された(例えば、特許文献1参照)
。この装置は、イベントの日時に関する情報を記憶しており、対象の画像データの撮影日
時に基づいて、画像データとイベントとの関連の有無を判定する。
【特許文献1】特開2003−303210号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上記従来の装置は、イベントの日時に関する正確な情報を用意する必要
がある。このため、ユーザは常に最新の正確な情報を入力しなければならず、負荷が大き
いという問題があった。
また、コンテンツの管理を効率よく行うため、ユーザ自身が、コンテンツの内容に関連
する情報等を、例えばメタデータの形で付加しておけばよい。しかしながら、一つ一つの
コンテンツに対して、手作業でデータを入力する作業は非常に煩雑で負荷が大きく、多数
のコンテンツを処理することはできない。このため、多数のコンテンツを簡単に効率よく
管理するための手法が求められていた。
本発明は、多数のコンテンツを効率よく管理することが可能で、コンテンツの管理に係
る負荷を大幅に軽減できる情報処理装置、情報処理方法、および、プログラムを提供する
ことを目的とする。
【課題を解決するための手段】
【0004】
上記目的を達成するため、本発明は、処理対象コンテンツの内容に関する属性情報を取
得し、この属性情報に関連する参照コンテンツを取得する参照コンテンツ取得手段と、前
記参照コンテンツ取得手段により取得された前記参照コンテンツから特徴情報を抽出する
抽出手段と、前記抽出手段により抽出された特徴情報を含む前記処理対象コンテンツの付
加情報を生成する付加情報生成手段と、を備えることを特徴とする情報処理装置を提供す
る。
この構成によれば、処理対象コンテンツの内容に関する属性情報をもとに取得された参
照コンテンツから特徴情報が抽出され、この特徴情報を含む処理対象コンテンツの付加情
報が生成されるので、処理対象コンテンツの内容に関連する情報を付加情報に含めること
ができる。ここで生成される付加情報を、例えば検索キーとして利用すれば、処理対象コ
ンテンツを、その内容に基づいて検索することが可能になり、コンテンツを効率よく管理
できる。また、付加情報を生成する際には処理対象コンテンツの内容に関する属性情報に
関連する参照コンテンツが取得されるので、処理対象コンテンツに対応する属性情報があ
れば、自動的に付加情報が生成される。このため、付加情報の生成に関してユーザが煩雑
な作業を行う必要がなく、コンテンツの管理に係る負荷を大幅に軽減できる。
【0005】
ここで、前記属性情報毎に基準表現を記憶する基準表現記憶手段と、前記処理対象コン
テンツの属性情報に対応する基準表現を、前記基準表現記憶手段から取得する基準表現取
得手段と、を備え、前記参照コンテンツ取得手段は、前記基準表現取得手段により取得さ
れた基準表現または取得された基準表現に類似する表現を含む前記参照コンテンツを取得
する構成としてもよい。
この場合、参照コンテンツは属性情報に対応する基準表現または基準表現に類似する表
現を含んでいるので、処理対象コンテンツの内容に無関係な参照コンテンツが取得される
ことがない。このため、参照コンテンツから抽出された特徴情報は、確実に処理対象コン
テンツの内容に関連する情報であり、特徴情報の信頼性は非常に高いといえる。従って、
処理対象コンテンツの付加情報が、その内容と高い関連性を有する情報を含むことになり
、コンテンツを極めて効率よく管理できるようになる。
【0006】
また、前記抽出手段は、前記参照コンテンツ取得手段により複数の前記参照コンテンツ
が取得された場合に、これら複数の前記参照コンテンツから特徴情報の候補を抽出する候
補抽出手段と、前記基準表現の出現状態に基づいて各々の前記参照コンテンツの重み付け
を行うコンテンツ評価手段と、前記特徴情報の候補が抽出された前記参照コンテンツの重
みに基づいて、複数の前記特徴情報の候補の中から前記特徴情報を抽出する特徴情報抽出
手段と、を備えて構成されるものとしてもよい。
この場合、基準表現の出現状態に基づいて参照コンテンツに重み付けがなされ、さらに
、参照コンテンツから抽出された各々の特徴情報の候補の中から、その出自となった参照
コンテンツの重みに基づいて、特徴情報が選択される。このため、特徴情報の候補のうち
、処理対象コンテンツの内容と高い関連性を有する参照コンテンツから抽出されたものが
、特徴情報となる。従って、処理対象コンテンツの付加情報が、その内容と高い関連性を
有する情報を含むことになり、コンテンツを極めて効率よく管理できるようになる。
【0007】
また、前記候補抽出手段は、前記参照コンテンツに含まれる言語表現を言語単位に分割
し、個々の言語単位に対して重み付けを行い、この重みに基づいて一部の前記言語表現を
前記言語単位で選択して、前記特徴情報の候補とするものとしてもよい。
この場合、特徴情報の候補を抽出する際に、言語表現を言語単位で分割した上で重み付
けを行うので、参照コンテンツの中で重要性の高い言語表現を、特徴情報の候補として抽
出できる。このため、特徴情報の候補が処理対象コンテンツの内容と高い関連性を有する
ものとなる。さらに、特徴情報の候補が言語表現であるため、ユーザにとって非常にわか
りやすく、かつ、検索キーとして簡単かつ有効に利用できる。従って、処理対象コンテン
ツの付加情報が認識しやすく、検索容易性が高いので、コンテンツの管理を非常に効率よ
く行うことができる。
【0008】
さらに、前記基準表現は、単語、句、節、文、段落のいずれかの言語単位で構成される
言語表現であるものとしてもよい。
この場合、基準表現が単語、句、節、文、段落のいずれかの言語単位で構成される言語
表現であるため、この基準表現が適切か否かをユーザが容易に判断することができ、基準
表現の最適化を容易に行うことができる。これにより、処理対象コンテンツの内容に高い
関連性を有する参照コンテンツを取得することができ、ひいては、特徴情報の信頼性をよ
り高めることができ、より効率よくコンテンツを管理できるようになる。
【0009】
また、前記属性情報を入力するための入力手段を備え、前記参照コンテンツ取得手段は
、前記入力手段により入力された属性情報に関連する前記参照コンテンツを取得する構成
としてもよい。
この場合、処理対象コンテンツの属性情報を入力することで、参照コンテンツが取得さ
れ、処理対象コンテンツの付加情報が生成される。これにより、付加情報を入力する作業
を行うだけで、有用な付加情報が生成されるので、コンテンツの管理に係る負荷を大幅に
軽減できる。
【0010】
さらにまた、前記参照コンテンツ取得手段は、前記処理対象コンテンツが作成または更
新された日時から所定時間内に、作成または更新された前記参照コンテンツを取得するも
のとしてもよい。
この場合、参照コンテンツは、処理対象コンテンツが作成または更新された日時から近
い時期に作成または更新されたものであるから、参照コンテンツに含まれる情報は、確実
に、処理対象コンテンツの内容と高い関連性を有するものとなる。言い換えれば、処理対
象コンテンツの内容と乖離した参照コンテンツを排除することができ、ひいては、特徴情
報の信頼性をより高めることができ、より効率よくコンテンツを管理できるようになる。
【0011】
さらに、外部接続された通信回線を介して情報を送受信する通信手段を備え、前記参照
コンテンツ取得手段は、前記通信手段により通信可能な外部の装置から前記参照コンテン
ツを取得する構成としてもよい。
この場合、外部接続された通信回線を介して参照コンテンツを取得することで、極めて
多数のコンテンツの中から、参照コンテンツとして好適なコンテンツを取得できる。
【0012】
また、前記通信手段により受信したコンテンツを表示する外部コンテンツ表示手段を備
え、前記参照コンテンツ取得手段は、前記外部コンテンツ表示手段により過去に表示され
たコンテンツを前記参照コンテンツとして取得する構成としてもよい。
この場合、処理対象コンテンツの付加情報を生成する処理以外の動作において、表示さ
れたコンテンツの中から、参照コンテンツを取得することができるので、より好適な参照
コンテンツを取得できる。
【0013】
本発明は、処理対象コンテンツの内容に関する属性情報を取得し、この属性情報に関連
する参照コンテンツを取得し、取得した前記参照コンテンツから特徴情報を抽出し、抽出
した特徴情報を含む前記処理対象コンテンツの付加情報を生成すること、を特徴とする情
報処理方法を提供する。
この方法によれば、処理対象コンテンツの内容に関する属性情報をもとに取得された参
照コンテンツから特徴情報が抽出され、この特徴情報を含む処理対象コンテンツの付加情
報が生成されるので、処理対象コンテンツの内容に関連する情報を付加情報に含めること
ができる。ここで生成される付加情報は、コンテンツの内容に基づく検索を行う場合など
に利用することができ、コンテンツを効率よく管理できる。また、処理対象コンテンツの
内容に関する属性情報があれば付加情報が生成されるので、付加情報の生成に関してユー
ザが煩雑な作業を行う必要がなく、コンテンツの管理に係る負荷を大幅に軽減できる。
【0014】
また、本発明は、コンピュータを、処理対象コンテンツの内容に関する属性情報を取得
し、この属性情報に関連する参照コンテンツを取得する参照コンテンツ取得手段と、前記
参照コンテンツ取得手段により取得された前記参照コンテンツから特徴情報を抽出する抽
出手段と、前記抽出手段により抽出された特徴情報を含む前記処理対象コンテンツの付加
情報を生成する付加情報生成手段と、して機能させるためのプログラムを提供する。
このプログラムをコンピュータによって実行することにより、コンピュータは、処理対
象コンテンツの内容に関する属性情報をもとに取得された参照コンテンツから特徴情報を
抽出し、この特徴情報を含む処理対象コンテンツの付加情報を生成する。このため、処理
対象コンテンツの内容に関連する情報を付加情報に含めることができる。ここで生成され
る付加情報は、コンテンツの内容に基づく検索を行う場合などに利用することができ、コ
ンテンツを効率よく管理できる。また、処理対象コンテンツの内容に関する属性情報があ
れば、コンピュータが付加情報を生成するので、付加情報の生成に関してユーザが煩雑な
作業を行う必要がなく、コンテンツの管理に係る負荷を大幅に軽減できる。
【発明を実施するための最良の形態】
【0015】
以下、図面を参照して本発明を適用した実施形態について説明する。
図1は、本発明を適用した実施形態に係る情報処理装置1の構成を示すブロック図であ
る。
情報処理装置1は、デジタルコンテンツを対象として、その内容に関連する単語を選び
、選んだ単語を含むメタデータ(付加情報)を生成するメタデータ生成処理を実行する。
このメタデータ生成処理で、情報処理装置1は、予め登録されている他のコンテンツ(
以下、登録コンテンツと呼ぶ)のうち、処理対象のデジタルコンテンツ(以下、対象コン
テンツと呼ぶ)の作成日時に近い日時に作成または更新された登録コンテンツを選んで取
得する。情報処理装置1においては、ユーザの入力操作により、対象コンテンツの内容を
表す分野が指定される。情報処理装置1は、入力された対象コンテンツの分野に対応する
キーワードをもとに、取得した登録コンテンツを選び、選んだ各々の登録コンテンツから
重要単語を抽出する。さらに、情報処理装置1は、複数の登録コンテンツから抽出された
複数の重要単語(特徴情報の候補)の中から、最重要単語(特徴情報)を選び、この最重
要単語を含むメタデータを生成して、対象コンテンツのメタデータとする。
ここで、対象コンテンツは、動画像や静止画像の画像データ、或いは音声データ等、い
わゆるコンテンツと呼ばれる全てのものを含み、その記録方式等について制限はなく、ア
ナログコンテンツであってもデジタルコンテンツであってもよい。本実施形態では、一例
として、デジタル画像データ等を含むデジタルコンテンツを処理する場合について説明す
る。
まず、情報処理装置1の構成について説明する。
【0016】
図1に示すように、情報処理装置1は、情報処理装置1の各部の制御、および、後述す
る処理を実行する制御部2と、制御部2によって実行される各種制御プログラムを記憶し
たROM3と、プログラムやデータを一時的に記憶するRAM4とを備えている。
また、情報処理装置1は、制御部2によって実行されるプログラム、および、このプロ
グラムの実行時に処理されるデータ等を記憶する記憶部5と、ユーザが情報処理装置1に
対する指示入力を行うための入力部6と、制御部2によって実行される処理の結果等を出
力する出力部7と、外部の装置(図示略)に接続される外部インタフェース(I/F)8
と、外部の通信回線15に接続された通信インタフェース9とを備えている。これらの各
部はバス10により相互に接続されている。
【0017】
記憶部5は、磁気的記録媒体、光学的記録媒体、または半導体記憶デバイスを用いて各
種情報を不揮発的に記憶する。記憶部5は、情報処理装置1の各種機能を実現するための
アプリケーションプログラム51を記憶している。また、記憶部5は、図4〜図6を参照
して後述するメタデータ生成処理を情報処理装置1において実行するためのメタデータ生
成プログラム52を記憶している。
さらに、記憶部5は複数のデータ記憶領域を有し、これらのデータ記憶領域には、アプ
リケーションプログラム51の実行時に生成されたデータを格納するアプリケーション用
データ記憶部53、分野別にキーワードを記憶する分野別キーワード情報記憶部54、対
象コンテンツを記憶する対象コンテンツ記憶部55、登録コンテンツに係る情報を記憶す
る登録コンテンツ情報記憶部56、メタデータ生成処理で生成される情報を記憶する重要
単語記憶部57および最重要単語記憶部58が含まれる。
【0018】
アプリケーションプログラム51は、情報処理装置1によって、ウェブブラウザ機能お
よび電子メール送受信機能を含む各種機能を実現するためのプログラムである。ウェブブ
ラウザ機能は、通信インタフェース9に接続された外部の通信回線15を介して、インタ
ーネット等のネットワーク20に接続し、ネットワーク20を介してサーバ(図示略)に
アクセスし、サーバ上のウェブコンテンツを受信して表示画面71に表示する機能である
。このウェブブラウザ機能の実行時、制御部2は、外部コンテンツ表示手段として機能す
る。ウェブコンテンツは、HTML等の形式で記述されたテキストデータや画像データ等
を含む1または複数のファイルから構成されるコンテンツである。ウェブコンテンツを構
成する各種ファイルの形式に制限はなく、他のファイルへのリンクを含んでいてもよい。
【0019】
ウェブブラウザ機能の実行時、情報処理装置1は、表示したウェブコンテンツの履歴を
、ブラウザ履歴としてアプリケーション用データ記憶部53に記憶する。この表示履歴は
、例えば、表示したウェブコンテンツを取得するためのURL(Uniform Resource Locat
or)と、表示した日時とを含む。
電子メール送受信機能は、通信インタフェース9に接続された通信回線15を介してネ
ットワーク20に接続し、ネットワーク20を介して電子メールの送受信を行うとともに
、送受信した電子メールをアプリケーション用データ記憶部53に記憶する。なお、電子
メール送受信機能を、いわゆるウェブメール機能として実現してもよい。この場合、実際
に電子メールを送受信する機能はネットワーク20上のサーバ(図示略)によって実行さ
れ、送受信した電子メールは上記サーバに記憶される。情報処理装置1は、所定のIDお
よびパスワードを用いて上記サーバにアクセスすることにより、電子メールを送受信し、
送受信した電子メールを取得できる。
アプリケーション用データ記憶部53は、アプリケーションプログラム51の実行時に
生成または取得されたデータを記憶するための領域であり、上述したように、ブラウザ履
歴および送受信した電子メール等を記憶する。
【0020】
分野別キーワード情報記憶部54(基準表現記憶手段)は、複数の分野(属性情報)に
ついて、分野毎にキーワード(基準表現)を記憶する領域である。
図2は、分野別キーワード情報記憶部54に記憶されるキーワードの例を模式的に示す
図である。
この図2に示すように、分野としては、例えば、海外旅行、国内旅行、学校行事、サー
クル、海外出張、国内出張、家族行事等が挙げられる。また、各分野に対応づけて、乗り
継ぎ、待ち時間、直行便、船旅、列車、ホテル、運動会、ランドセル、撮影会、ホテル、
会議、結婚式など、各分野に関連するキーワードが記憶されている。
これらの分野および各分野に対応するキーワードは、入力部6の操作によってユーザが
自由に入力することが可能であり、図2の例に限定されず、情報処理装置1で処理する対
象コンテンツに適した分野とキーワードとが記憶されていることが好ましい。すなわち、
図2に例示した分野は、例えばユーザが撮影した静止画像や動画像である場合に適してい
るが、他の種類の対象コンテンツを用いる場合、分野は上記の例に限らない。例えば、ス
ポーツ、ドラマ、バラエティ、アニメーション、アクション、バイオレンス、サスペンス
、ミュージカル、成人向け、ホラー、家族向け、子供向け、音楽、政治、教育など、対象
コンテンツのジャンル等を示す情報を分野として用いてもよい。
また、図2にはキーワードとして単語が記憶される例を示したが、キーワードは単語に
限らず、句、節、文、段落等の言語単位で構成される言語表現を用いることができる。
【0021】
対象コンテンツ記憶部55は、情報処理装置1が実行するメタデータ生成処理の対象と
なるコンテンツを記憶する領域である。対象コンテンツ記憶部55には、対象コンテンツ
自体のデータに加え、対象コンテンツのメタデータが記憶される。このメタデータは、Ex
if(Exchangeable Image File Format)等の規格化された形式で対象コンテンツ自体
のデータに付加されていてもよいし、対象コンテンツとは独立したデータとして対象コン
テンツ記憶部55に記憶されていてもよい。
また、対象コンテンツ記憶部55に記憶される対象コンテンツは、例えば、外部インタ
フェース8等を介して、外部のハードディスクドライブや半導体メモリを内蔵したストレ
ージデバイス、パーソナルコンピュータ、デジタルスチルカメラ、デジタルビデオカメラ
、携帯型電話機等の装置から情報処理装置1に入力される。また、情報処理装置1自体が
静止画像または動画像を撮影する撮像部を備える場合、この撮像部で撮影された画像デー
タを対象コンテンツとして対象コンテンツ記憶部55に記憶してもよい。
【0022】
登録コンテンツ情報記憶部56は、メタデータ生成処理で登録コンテンツを取得するた
めの情報を記憶する領域である。
図3は、登録コンテンツ情報記憶部56に記憶される情報の構成例を示す図である。
この図3に示すように、登録コンテンツ情報記憶部56には、複数のコンテンツについ
て、コンテンツの名称と、各コンテンツを取得するためのコンテンツ取得情報とが対応づ
けて記憶されている。登録コンテンツとしては、インターネット等のネットワーク20を
介して取得可能なウェブコンテンツ(ウェブページ、ブログ形式のウェブページ、静止画
像データ、動画像データ、音声データなど)や、電子メール等が挙げられる。ネットワー
ク20を介して取得可能な情報については、コンテンツ取得情報として、例えばURLが
記憶されている。また、電子メールに対応するコンテンツ取得情報は、例えばアプリケー
ション用データ記憶部53に記憶されている送受信された電子メールのデータを参照する
ためのパスである。
【0023】
重要単語記憶部57は、メタデータ生成処理で抽出された重要単語を一時的に記憶する
領域であり、最重要単語記憶部58は、メタデータ生成処理で抽出された最重要単語を記
憶する領域である。
入力部6は、数字・文字・記号等を入力するキーや特定の動作を指示する機能キー等の
各種キースイッチ、ロータリースイッチ、電源ON/OFFボタン等を備え、これらスイ
ッチ或いはボタン等の操作に対応する操作信号を生成して、制御部2に出力する。
出力部7は、制御部2による処理結果や処理中の画像等を出力する。具体的には、LC
D(液晶ディスプレイ)等により構成される表示画面71に画像を表示させる機能、或い
は、図示しない印刷装置により画像を印刷させる機能を具備する。
情報処理装置1は、入力部6および出力部7を用いて、分野別キーワード情報記憶部5
4に記憶される分野とキーワードの入力を受け付けることが可能である。具体的には、情
報処理装置1は、制御部2による制御のもと、キーワード入力用画面を表示画面71に表
示し、このキーワード入力用画面が表示された状態で、入力部6の操作により入力された
文字列を、分野およびキーワードとして取得して、分野別キーワード情報記憶部54に記
憶する。
【0024】
外部インタフェース8は、情報処理装置1の外部の装置に接続されるインタフェースで
ある。ここで外部の装置としては、ハードディスクドライブや半導体メモリを内蔵したス
トレージデバイス、パーソナルコンピュータ、デジタルスチルカメラ、デジタルビデオカ
メラ、携帯型電話機等が挙げられる。外部インタフェース8は、USB(Universal Serial
Bus)、IEEE1394、Bluetooth(登録商標)、UWB、ZigBee(登録商標)等の機器接続方
式に対応したコネクタ等を備え、さらに、上記各種接続方式に対応したプロトコルを実行
可能なインタフェース回路を備える。
通信インタフェース9は、情報処理装置1の外部の通信回線15に接続され、通信回線
15を介してインターネット等のネットワーク20を利用して、各種データの送受信を行
う。通信インタフェース9の具体的な構成としては、Ethernet(登録商標)等の通信方式
に対応した有線接続インタフェース、および、IEEE802.11等の通信方式に対応した無線通
信インタフェース等が挙げられる。通信インタフェース9は、上記規格に準じたコネクタ
や無線通信部を備え、さらに、上記規格に準じたプロトコルを実行可能なインタフェース
回路を備える。
【0025】
通信回線15およびネットワーク20は、専用線、公衆電話回線、衛星通信回線、移動
体通信回線等の各種通信回線や図示しない各種サーバ装置等を含んで構成され、各種デー
タを送受信可能な通信回線および通信回線網であり、その具体的・物理的態様は特に限定
されない。ネットワーク20に接続される各装置との間には、通信事業者が提供するサー
バやファイアーウォール、ゲートウェイ装置等の各種機器が介在する構成としても良いが
、ここでは図示しない。
【0026】
次に、情報処理装置1の動作について説明する。以下に説明する動作において、制御部
2は、参照コンテンツ取得手段、抽出手段、付加情報生成手段、基準表現取得手段、候補
抽出手段、コンテンツ評価手段、および特徴情報抽出手段として機能する。
図4は、情報処理装置1により実行されるメタデータ生成処理を示すフローチャートで
ある。
この図4に示すメタデータ生成処理を開始する前に、情報処理装置1の対象コンテンツ
記憶部55には対象コンテンツが記憶される。
そして、制御部2は、出力部7を制御して、表示画面71によって対象コンテンツの分
野の入力を案内するとともに、入力部6の操作により入力される対象コンテンツの分野を
取得する(ステップS11)。
【0027】
続いて、制御部2は、登録コンテンツ情報記憶部56に記憶された情報と、分野別キー
ワード情報記憶部54に記憶されたキーワードとをもとにして、登録コンテンツに対する
重要単語抽出処理を実行する(ステップS12)。このステップS12の処理は、図5を
参照して後述する。
さらに、制御部2は、アプリケーション用データ記憶部53に記憶されたブラウザ履歴
と、分野別キーワード情報記憶部54に記憶されたキーワードとをもとにして、ウェブブ
ラウザ機能により表示された情報に対する重要単語抽出処理を実行する(ステップS13
)。このステップS13の処理については、ステップS12の処理と同様、図5を参照し
て後述する。
【0028】
その後、制御部2は、ステップS12およびS13の重要単語抽出処理により抽出され
た重要単語をもとに、最重要単語抽出処理を実行して、一つまたは所定数の最重要単語を
抽出する(ステップS14)。このステップS14の処理は、図6を参照して後述する。
そして、制御部2は、ステップS14で抽出した最重要単語を含むメタデータを生成し
て、対象コンテンツのメタデータとして対象コンテンツ記憶部55に記憶させ(ステップ
S15)、本処理を終了する。このステップS15で、既に対象コンテンツのメタデータ
が対象コンテンツ記憶部55に記憶されていれば、制御部2は、対象コンテンツ記憶部5
5に記憶されているメタデータに最重要単語を含ませて更新する。
【0029】
図5は、重要単語抽出処理を示すフローチャートである。
先に説明したように、図4のステップS12では、以下に説明する重要単語抽出処理を
、登録コンテンツについて実行する。また、ステップS13では、ウェブブラウザ機能に
より過去に表示されたウェブコンテンツについて重要単語抽出処理を実行する。
【0030】
この重要単語抽出処理で、制御部2は、ステップS11(図4)で入力された分野に対
応づけて分野別キーワード情報記憶部54に記憶されているキーワードを取得する(ステ
ップS21)。
続いて、制御部2は、対象コンテンツ記憶部55に記憶された対象コンテンツのメタデ
ータを参照し、対象コンテンツが作成または最後に更新された日時を取得する(ステップ
S22)。そして、制御部2は、登録コンテンツ情報記憶部56に記憶された登録コンテ
ンツの情報、および、アプリケーション用データ記憶部53に記憶されたブラウザ履歴を
取得し、これらの情報により取得されるコンテンツのうち、対象コンテンツが作成または
更新された日時から所定時間以内に、作成または更新されたコンテンツを一つ選択する(
ステップS23)。ステップS23で選択されるコンテンツは、対象コンテンツが作成ま
たは更新された日時より前か後かを問わず、所定時間以内に作成または更新された登録コ
ンテンツまたはウェブコンテンツである。
その後、制御部2は、選択したコンテンツのデータを取得する(ステップS24)。こ
こで、選択したコンテンツがウェブコンテンツである場合、制御部2は通信インタフェー
ス9を介してネットワーク20にアクセスし、ウェブコンテンツを取得する。また、選択
したコンテンツがアプリケーション用データ記憶部53に記憶されている場合、制御部2
は、アプリケーション用データ記憶部53からコンテンツを取得する。
【0031】
制御部2は、ステップS24で取得したコンテンツが、ステップS21で取得したキー
ワードのいずれか、または、キーワードの類似語を含むか否かを判別する(ステップS2
5)。
ここで、類似語とは、キーワードの同義語または類義語、若しくは、見かけ上キーワー
ドと類似する語である。
同義語または類義語を利用する場合、例えば、予め記憶部5に類似語辞書を記憶してお
き、ステップS21でキーワードを取得した際に類似語辞書から類似語を選択してもよい
。また、見かけ上キーワードに類似している語を利用する場合、例えば、ステップS25
でコンテンツ中のキーワードを検索する際に、検索条件を適宜設定して、キーワードと一
部の文字のみが一致する語を、キーワードと一緒に検索してもよい。
そして、コンテンツがキーワードまたは類似語を含む場合、制御部2は、このコンテン
ツを重要単語抽出対象コンテンツとして確定して(ステップS26)、ステップS27に
移行する。また、コンテンツがキーワードも類似語も含まない場合、制御部2は、そのま
まステップS27に移行する。
【0032】
ステップS27で、制御部2は、確定したコンテンツ以外に、登録コンテンツ情報記憶
部56に記憶された登録コンテンツの情報、および、アプリケーション用データ記憶部5
3に記憶されたブラウザ履歴から取得可能なコンテンツがあるか否かを判別する。ここで
他のコンテンツがある場合、制御部2はステップS23に戻り、別のコンテンツを選択し
て上記の処理を繰り返す。
これにより、対象コンテンツが作成または更新された日時から所定時間以内に作成また
は更新されたコンテンツのうち、キーワードまたは類似語を含むコンテンツが、重要単語
抽出対象コンテンツとして確定される。
【0033】
そして、全てのコンテンツについてステップS23〜S26の処理が終了した場合(ス
テップS27;No)、制御部2は、ステップS26で確定した各々の重要単語抽出対象
コンテンツに対し、TF/IDF(Term Frequency & Inverse Document Frequency
)処理を実行し、各々の重要単語抽出対象コンテンツから重要単語を抽出する(ステップ
S28)。
【0034】
ステップS28の処理について詳述する。
TF/IDF処理は、重要単語抽出対象コンテンツにテキストデータとして含まれる全
ての語について、重みを計算する処理である。
一つの重要単語抽出対象コンテンツのテキストデータをd、そのうちの一つの単語をt
とした場合、テキストデータdにおける単語tの重みW(t,d)は、下記式(1)によ
り求められる。
W(t,d)=TF(t,d)×IDF(t) ・・・(1)
ここで、TF(t,d)は、テキストデータdにおける単語tの出現頻度である。
また、IDF(t)は、全ての重要単語抽出対象コンテンツのうち、単語tが出現する
重要単語抽出対象コンテンツのテキストデータの数を、単語tの出現頻度として計算した
ものである。
【0035】
TF(t,d)は、一つの重要単語抽出対象コンテンツにおける出現頻度をもとに、単
語の重要度を表す指標である。言い換えれば、コンテンツ中に多く出現する単語が、重要
な単語とみなされる。
また、IDF(t)は、単語tが、特定の重要単語抽出対象コンテンツにおいて特異的
に出現する語であるかどうかを示す指標である。言い換えれば、特定のコンテンツに多く
出現する単語が、重要な単語とみなされる。
ステップS28で、制御部2は、上記式(1)に示す演算により、重要単語抽出対象コ
ンテンツに含まれる全ての単語について重みW(t,d)を求め、このW(t,d)によ
り示される重みが大きい単語を、重要単語として抽出する。この抽出は、重要単語抽出対
象コンテンツ毎に、全ての重要単語抽出対象コンテンツについて行われる。ここで抽出す
る重要単語の数は特に制限されず、制御部2は、予め定められた数の単語を抽出してもよ
いし、W(t,d)が一定の値を超えた単語を全て抽出してもよい。
【0036】
続くステップS29で、制御部2は、ステップS28で抽出された重要単語を、その重
要単語を抽出した重要単語抽出対象コンテンツに対応づけて、重要単語記憶部57に記憶
する。
さらに、制御部2はステップS30に移行して、各々の重要単語抽出対象コンテンツに
ついて、その重要単語抽出対象コンテンツから抽出した重要単語の重みW(t,d)、そ
の重要単語抽出対象コンテンツに出現したキーワードおよび類似語の種類、出現したキー
ワードおよび類似語の出現数を加味して、重要単語抽出対象コンテンツ毎の重みを求める
処理を行う。
この図5に示す重要単語抽出処理を、登録コンテンツ、および、ブラウザ履歴から取得
可能なコンテンツの両方について実行した後、制御部2は、次に説明する最重要単語抽出
処理を実行する。
【0037】
図6は、最重要単語抽出処理を示すフローチャートである。
制御部2は、まず、図5に示す重要単語抽出処理で確定された重要単語抽出対象コンテ
ンツのうち一つを選択して、その重要単語抽出対象コンテンツから抽出された重要単語と
、各々の重要単語の重みを重要単語記憶部57から読み出して取得する(ステップS41
)。
続いて、制御部2は、選択している重要単語抽出対象コンテンツについて、その重要単
語抽出対象コンテンツに出現したキーワードおよび類似語の種類、出現したキーワードお
よび類似語の出現数、および、その重要単語抽出対象コンテンツについて図5のステップ
S30で求めた重みを取得する(ステップS42)。
【0038】
そして、ステップS42で取得したキーワードおよび類似語の種類、出現したキーワー
ドおよび類似語の出現数、および、その重要単語抽出対象コンテンツの重みに基づいて、
その重要単語抽出対象コンテンツから抽出した重要単語の重みを再計算し(ステップS4
3)、重要単語と重みとを再び重要単語記憶部57に記憶する(ステップS44)。
制御部2は、他の重要単語抽出対象コンテンツがあるか否かを判別し(ステップS45
)、他の重要単語抽出対象コンテンツがある場合はステップS41に戻り、別の重要単語
抽出対象コンテンツを選択して上記の処理を繰り返す。
また、全ての重要単語抽出対象コンテンツについてステップS41〜S44の処理が済
んだ場合(ステップS45;Yes)、制御部2は、重要単語記憶部57に記憶された重
要単語の中から、各重要単語の重みを基準として最重要単語を選択し、最重要単語記憶部
58に記憶する(ステップS46)。ここで制御部2が選択する最重要単語の数について
特に制限はなく、一つであってもよいし、複数の最重要単語を選択してもよく、対象コン
テンツのメタデータの容量に関する制限などを基準として決めればよい。
【0039】
以上のように、本発明を適用した実施形態に係る情報処理装置1は、ユーザが対象コン
テンツに関係する分野を指定すると、指定された分野に関連する重要単語抽出対象コンテ
ンツを選択し、選択したコンテンツから最重要単語を選び出し、この最重要単語を対象コ
ンテンツのメタデータに登録する。これにより、対象コンテンツの内容に関係する適切な
単語を、対象コンテンツのメタデータに含ませることができる。
このメタデータは、対象コンテンツを含む多数のコンテンツから所望のコンテンツを検
索する際に用いることができる。特に、コンテンツの内容に関連する単語を含むメタデー
タを利用すれば、複雑な条件を用いて検索を行うことができるので、コンテンツの管理に
要する負荷を大幅に軽減できるという利点がある。さらに、情報処理装置1は、ユーザが
対象コンテンツの分野を指定するだけで上記の処理を実行する。つまり、ユーザは分野を
指定する入力を行うだけでよく、ユーザがコンテンツの内容に関連するメタデータを手作
業で作成する場合と比較して、操作が極めて簡単であり、ユーザの負荷を大幅に軽減でき
る。
【0040】
また、情報処理装置1は、予め、複数の分野に属するキーワードを分野別キーワード情
報記憶部54に記憶しており、ユーザが指定した対象コンテンツの分野に対応して記憶し
たキーワードまたはキーワードの類似語を含むか否かをもとに、重要単語抽出対象コンテ
ンツを選択する。これにより、対象コンテンツの内容と確実に関連する重要単語抽出対象
コンテンツを選び、これらの重要単語抽出対象コンテンツから単語を抽出することで、適
切な単語を抽出できる。
また、情報処理装置1は、重要単語を抽出する際に、重要単語抽出対象コンテンツのテ
キストを単語に分割した上で重み付けを行うので、重要単語抽出対象コンテンツの中で確
実に重要性の高い単語を、重要単語として抽出できる。
さらに、情報処理装置1は、重要単語のうち、その出自となった重要単語抽出対象コン
テンツの重みに基づいて最重要単語を抽出するので、対象コンテンツの内容と高い関連性
を有する最重要単語を抽出できる。
また、上記処理で抽出される重要単語および最重要単語は、単語という言語単位で分割
された言語表現であるため、ユーザにとって非常にわかりやすく、かつ、検索キーとして
簡単かつ有効に利用できる。従って、ユーザが認識しやすく、検索容易性が高い情報をメ
タデータに含ませることで、コンテンツの管理を非常に効率よく行うことができる。
【0041】
また、情報処理装置1は、対象コンテンツの作成または最終更新日時の前後所定時間内
に作成または更新されたコンテンツの中から重要単語抽出対象コンテンツを選択する。対
象コンテンツの作成または最終更新日時から離れた時期に作成または更新されたコンテン
ツにおいては、キーワードや類似語が異なる意味・ニュアンスで使われる可能性がある。
情報処理装置1は、対象コンテンツと時間的に離れたコンテンツを処理対象から排除する
ことにより、実質的に、対象コンテンツの内容から乖離したコンテンツを排除し、対象コ
ンテンツの分野と確実に関連する重要単語抽出対象コンテンツを選ぶので、より適切な単
語を抽出できる。
【0042】
また、情報処理装置1は、予め登録されたコンテンツの中から重要単語抽出対象コンテ
ンツを選択することが可能である上に、ブラウザ履歴に含まれていたコンテンツの中から
、重要単語抽出対象コンテンツを選択することもできる。ユーザが情報処理装置1を使用
して閲覧したウェブコンテンツの中から、重要単語抽出対象コンテンツを選択することで
、過去にユーザの興味を惹いたコンテンツを重要単語抽出対象コンテンツとして利用する
。これにより、重要単語抽出対象コンテンツの選択にユーザの趣向を反映させることで、
対象コンテンツの内容と確実に関連する重要単語抽出対象コンテンツを選択できる。
【0043】
なお、上記実施形態において、図1に示した構成は、主としてハードウェア構成により
、或いはハードウェアとソフトウェアとの協働により実現されるものであり、情報処理装
置1を構成する各部の具体的形態や物理的態様については任意である。
また、上記実施形態においては、キーワードとして単語を用い、重要単語および最重要
単語を抽出および処理する例について説明したが、本発明はこれに限定されるものではな
く、複数の単語からなる句、或いは、節、文、段落等をキーワードとして用いてもよいし
、重要単語および最重要単語に代えて、上記言語単位からなる情報を抽出および処理する
ことが可能である。
【0044】
また、上記実施形態においては、ユーザが入力部6を操作して対象コンテンツの分野を
入力する場合について説明したが、例えば、上述のメタデータ生成処理の実行前に、対象
コンテンツ記憶部55に記憶された対象コンテンツのメタデータに、既に対象コンテンツ
の分野を示す情報が含まれている場合は、この情報を読み取ることにより、入力部6によ
る入力を省略してもよい。具体的には、例えば、デジタル放送されたコンテンツには番組
のジャンルを示す情報が付加されているが、この情報を、対象コンテンツの分野を示す情
報として利用してもよい。
【0045】
さらに、上記実施形態においては対象コンテンツの内容に関する属性情報の一例として
、対象コンテンツの分野を用いた場合について説明したが、本発明はこれに限定されるも
のではなく、対象コンテンツの内容に関する属性情報として、自分で撮影した静止画像、
購入した静止画像、劇場映画、テレビ放送映像等のコンテンツの出自を示す情報や、対象
コンテンツが制作された国や地域を示す情報、R指定等の対象コンテンツの放送または放
映に関して設けられた規制を示す情報、対象コンテンツが映像である場合に当該映像に映
っている人または物あるいは場所や風景を示す情報等を用いることができる。
【0046】
上記実施形態で説明した情報処理装置1は、具体的には、パーソナルコンピュータ、P
DA、携帯型電話機等に適用可能であるが、デジタルスチルカメラ、デジタルビデオカメ
ラ、スキャナ、プロジェクタ、テレビ、プリンタおよびその他の画像データを処理する電
子機器に実装または接続することが可能である。この場合、例えば、デジタルスチルカメ
ラ、デジタルビデオカメラ、およびスキャナ等の画像生成機器に本発明を適用すれば、対
象コンテンツとしての画像の生成とともに、この画像に特徴情報を含むメタデータを付加
することができる。さらに、プロジェクタ、テレビ、プリンタ等の画像出力機器に本発明
を適用すれば、対象コンテンツとしての画像出力時に、特徴情報をメタデータに含ませる
ことができ、さらに、このメタデータを画像とともに出力することができる。
その他、情報処理装置1を構成する各部の具体的な細部構成については、本発明の趣旨
を逸脱しない範囲において、任意に変更可能である。
【図面の簡単な説明】
【0047】
【図1】本発明の実施形態に係る情報処理装置の構成を示すブロック図である。
【図2】分野別のキーワードの例を示す図である。
【図3】登録コンテンツ情報の例を模式的に示す図である。
【図4】メタデータ生成処理を示すフローチャートである。
【図5】重要単語抽出処理を示すフローチャートである。
【図6】最重要単語抽出処理を示すフローチャートである。
【符号の説明】
【0048】
1…情報処理装置、2…制御部(参照コンテンツ取得手段、抽出手段、付加情報生成手
段、基準表現取得手段、候補抽出手段、コンテンツ評価手段、特徴情報抽出手段、外部コ
ンテンツ表示手段)、3…ROM、4…RAM、5…記憶部、6…入力部、7…出力部、
8…外部インタフェース、9…通信インタフェース、15…通信回線、20…ネットワー
ク、51…アプリケーションプログラム、52…メタデータ生成プログラム、53…アプ
リケーション用データ記憶部、54…分野別キーワード情報記憶部(基準表現記憶手段)
、55…対象コンテンツ記憶部、56…登録コンテンツ情報記憶部、57…重要単語記憶
部、58…最重要単語記憶部。

【特許請求の範囲】
【請求項1】
処理対象コンテンツの内容に関する属性情報を取得し、この属性情報に関連する参照コ
ンテンツを取得する参照コンテンツ取得手段と、
前記参照コンテンツ取得手段により取得された前記参照コンテンツから特徴情報を抽出
する抽出手段と、
前記抽出手段により抽出された特徴情報を含む前記処理対象コンテンツの付加情報を生
成する付加情報生成手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記属性情報毎に基準表現を記憶する基準表現記憶手段と、
前記処理対象コンテンツの属性情報に対応する基準表現を、前記基準表現記憶手段から
取得する基準表現取得手段と、を備え、
前記参照コンテンツ取得手段は、前記基準表現取得手段により取得された基準表現また
は取得された基準表現に類似する表現を含む前記参照コンテンツを取得すること、
を特徴とする請求項1記載の情報処理装置。
【請求項3】
前記抽出手段は、
前記参照コンテンツ取得手段により複数の前記参照コンテンツが取得された場合に、こ
れら複数の前記参照コンテンツから特徴情報の候補を抽出する候補抽出手段と、
前記基準表現の出現状態に基づいて各々の前記参照コンテンツの重み付けを行うコンテ
ンツ評価手段と、
前記特徴情報の候補が抽出された前記参照コンテンツの重みに基づいて、複数の前記特
徴情報の候補の中から前記特徴情報を抽出する特徴情報抽出手段と、を備えて構成される
こと、
を特徴とする請求項2記載の情報処理装置。
【請求項4】
前記候補抽出手段は、前記参照コンテンツに含まれる言語表現を言語単位に分割し、個
々の言語単位に対して重み付けを行い、この重みに基づいて一部の前記言語表現を前記言
語単位で選択して、前記特徴情報の候補とすること、
を特徴とする請求項3記載の情報処理装置。
【請求項5】
前記基準表現は、単語、句、節、文、段落のいずれかの言語単位で構成される言語表現
であること、
を特徴とする請求項2から4のいずれかに記載の情報処理装置。
【請求項6】
前記属性情報を入力するための入力手段を備え、
前記参照コンテンツ取得手段は、前記入力手段により入力された属性情報に関連する前
記参照コンテンツを取得すること、
を特徴とする請求項1から5のいずれかに記載の情報処理装置。
【請求項7】
前記参照コンテンツ取得手段は、前記処理対象コンテンツが作成または更新された日時
から所定時間内に、作成または更新された前記参照コンテンツを取得すること、
を特徴とする請求項1から6のいずれかに記載の情報処理装置。
【請求項8】
外部接続された通信回線を介して情報を送受信する通信手段を備え、
前記参照コンテンツ取得手段は、前記通信手段により通信可能な外部の装置から前記参
照コンテンツを取得すること、
を特徴とする請求項1から7のいずれかに記載の情報処理装置。
【請求項9】
前記通信手段により受信したコンテンツを表示する外部コンテンツ表示手段を備え、
前記参照コンテンツ取得手段は、前記外部コンテンツ表示手段により過去に表示された
コンテンツを前記参照コンテンツとして取得すること、
を特徴とする請求項8記載の情報処理装置。
【請求項10】
処理対象コンテンツの内容に関する属性情報を取得し、この属性情報に関連する参照コ
ンテンツを取得し、取得した前記参照コンテンツから特徴情報を抽出し、抽出した特徴情
報を含む前記処理対象コンテンツの付加情報を生成すること、
を特徴とする情報処理方法。
【請求項11】
コンピュータを、
処理対象コンテンツの内容に関する属性情報を取得し、この属性情報に関連する参照コ
ンテンツを取得する参照コンテンツ取得手段と、
前記参照コンテンツ取得手段により取得された前記参照コンテンツから特徴情報を抽出
する抽出手段と、
前記抽出手段により抽出された特徴情報を含む前記処理対象コンテンツの付加情報を生
成する付加情報生成手段と、
して機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate