データ圧縮装置及びデータ圧縮方法

【課題】大規模なデータを高速に圧縮することができるデータ圧縮装置及びデータ圧縮方法を提供する。
【解決手段】データ圧縮装置が適用された情報収集サーバ1は、ユーザ識別子毎にコンテンツ識別子を一又は複数対応付けて個別データを生成し、生成した複数の個別データ同士を対応付けて圧縮対象データを生成する圧縮対象データ生成部22と、圧縮対象データに含まれる個別データを、所定の前記コンテンツ識別子の有無に応じてグループ分けを行うグループ分け部23と、グループ分け後の個別データのグループの中から、所定の抽出条件に従って個別データを抽出する個別データ抽出部24と、個別データの抽出対象となった個別データのグループの中で、抽出された個別データ以外の個別データを圧縮対象データから除外することで圧縮対象データのデータ量を圧縮するデータ圧縮部25と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データの圧縮を行うデータ圧縮装置及びデータ圧縮方法に関する。
【背景技術】
【0002】
従来、ユーザに対して提供するレコメンデーション情報等の分析を行う分析システムがある。この分析システムでは、ユーザによるコンテンツ情報の閲覧履歴等に基づいて、ユーザ識別子とコンテンツ情報を識別するコンテンツ識別子とを対応付けて行列形式で表したユーザ×コンテンツ行列を形成し、形成したユーザ×コンテンツ行列を用いてデータ処理を行っている。しかしながら、ユーザ数やコンテンツ情報の数が大規模になると、ユーザ×コンテンツ行列も大規模になり、データの処理時間が大幅に増加する。
【0003】
そこで、大規模なユーザ×コンテンツ行列を取り扱う場合、従来の分析システムでは、特異値分解等の線形代数の技術を利用してユーザ×コンテンツ行列を圧縮する方法が知られている。また、特許文献1には、時間的に異なる2つのデータにおいて両者が同じ値である場合には、前回の測定と同じ値であることを示すマークを付して、データ量を圧縮することが記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特表2010−500639号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特異値分解等の線形代数の技術を利用してユーザ×コンテンツ行列を圧縮する方法では、この圧縮自体に膨大な計算時間が必要となり、全体として、分析システムの計算時間を大幅に削減することができないといった問題がある。また、特許文献1に記載された方法では、時間的に異なるデータ間においてデータ量を圧縮することができるものの、圧縮の際に時間という概念を用いる必要がある。従って、例えば、データ中に時間の概念がない場合など、時間という概念を用いた圧縮が好ましくない場合には、特許文献1のデータ圧縮方法を用いることができないといった問題がある。
【0006】
そこで本発明は、大規模なデータを高速に圧縮することができるデータ圧縮装置及びデータ圧縮方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は、ユーザを識別するユーザ識別子毎に、コンテンツ情報を識別するコンテンツ識別子を一又は複数対応付けて個別データを生成し、生成した複数の個別データ同士を対応付けて圧縮対象データを生成する圧縮対象データ生成手段と、圧縮対象データに含まれる複数の個別データを、所定のコンテンツ識別子の有無に応じてグループ分けを行うグループ分け手段と、グループ分け手段によってグループ分けがされた個別データのグループの中から、所定の抽出条件に従って個別データを抽出する個別データ抽出手段と、個別データ抽出手段による個別データの抽出対象となった個別データのグループの中で、個別データ抽出手段によって抽出された個別データ以外の個別データを圧縮対象データから除外することで圧縮対象データのデータ量を圧縮するデータ圧縮手段と、を備えることを特徴とする。
【0008】
また、本発明は、圧縮対象データを圧縮する圧縮装置において実行されるデータ圧縮方法であって、ユーザを識別するユーザ識別子毎に、コンテンツ情報を識別するコンテンツ識別子を一又は複数対応付けて個別データを生成し、生成した複数の個別データ同士を対応付けて圧縮対象データを生成する圧縮対象データ生成ステップと、圧縮対象データに含まれる複数の個別データを、所定のコンテンツ識別子の有無に応じてグループ分けを行うグループ分けステップと、グループ分けステップにおいてグループ分けがされた個別データのグループの中から、所定の抽出条件に従って個別データを抽出する個別データ抽出ステップと、個別データ抽出ステップにおいて個別データの抽出対象となった個別データのグループの中で、個別データ抽出ステップにおいて抽出された個別データ以外の個別データを圧縮対象データから除外することで圧縮対象データのデータ量を圧縮するデータ圧縮ステップと、を有することを特徴とする。
【0009】
これらの発明にあっては、圧縮対象データが、所定のコンテンツ識別子の有無に応じてグループ分けされる。そして、グループ分けがされた個別データのグループの中から、所定の抽出条件に従って個別データが抽出される。そして、個別データの抽出対象となった個別データのグループの中で、抽出された個別データ以外の個別データを圧縮対象データから除外することで圧縮対象データのデータ量が圧縮される。このように、個別データのグループ分け、及び、所定のコンテンツ識別子の有無に応じた個別データの抽出を行うだけで、圧縮対象データの圧縮を行うことができる。これにより、圧縮の対象となる圧縮対象データが大規模となった場合であっても、圧縮対象データを高速に圧縮することができる。
【0010】
また、グループ分け手段は、グループ分け後の個別データを更にグループ分けすることが好適である。これにより、圧縮対象データから個別データを除外する際の対象となる個別データのグループをより好適に絞りこむことができ、好適な圧縮を行うことができる。
【0011】
また、グループ分け手段は、グループ分けされた個別データのグループの数、及び、グループ内に含まれる個別データの数、のうち少なくともいずれかが予め定められた閾値を満たすまで繰り返しグループ分けを行うことが好適である。これにより、グループ分けされた個別データのグループの数、及び、グループ内に含まれる個別データの数に応じて、圧縮対象データから個別データを除外する際の対象となる個別データのグループを、より一層好適に絞りこむことができる。
【0012】
また、グループ分け手段は、グループ分けを繰り返し行う際に、グループ分け毎に異なるコンテンツ識別子の有無に応じてグループ分けを行うことが好適である。これにより、グループ分け毎に異なるコンテンツ識別子の有無に応じて、圧縮対象データから個別データを除外する際の対象となる個別データのグループを、より一層好適に絞りこむことができる。
【0013】
また、個別データ抽出手段は、個別データを抽出する際に、個別データの抽出対象となる個別データのグループの中で、個別データに対応付けられたコンテンツ識別子の数が最も多い個別データを抽出することが好適である。これにより、抽出された個別データが属していたグループの中で、抽出された個別データ以外の個別データが圧縮対象データから除外されて抽出された個別データのみが残ることとなる。このように、対応付けられたコンテンツ識別子の数が最も多い個別データを残しながら圧縮対象データのデータ量の圧縮を行うことで、圧縮対象データの圧縮をより好適に行うことができる。
【0014】
また、個別データ抽出手段は、個別データを抽出する際に、個別データの抽出対象となる個別データのグループの中で、個別データに対応付けられたコンテンツ識別子の数が最も少ない個別データを抽出することが好適である。これにより、抽出された個別データが属していたグループの中で、抽出された個別データ以外の個別データが圧縮対象データから除外されて抽出された個別データのみが残ることとなる。このように、対応付けられたコンテンツ識別子の数が最も少ない個別データを残しながら圧縮対象データのデータ量の圧縮を行うことで、圧縮対象データの圧縮をより好適に行うことができる。
【0015】
また、個別データ抽出手段は、個別データのグループ内における過半数の個別データに対応付けられているコンテンツ識別子を抽出し、抽出したコンテンツ識別子を用いて個別データを抽出することが好適である。これにより、過半数の個別データに対応付けられているコンテンツ識別子を用いて個別データが抽出される。そして、抽出された個別データを残しながら圧縮対象データのデータ量の圧縮を行うことで、圧縮対象データの圧縮をより好適に行うことができる。
【0016】
また、コンテンツ情報は、ユーザが利用したコンテンツについての情報であり、圧縮対象データ生成手段は、ユーザが利用したコンテンツのコンテンツ識別子を、ユーザ識別子に対応付けることが好適である。これにより、例えば、ユーザ数が多く、利用するコンテンツの数が多いために、圧縮対象データのデータ量が膨大となるような場合であっても、圧縮対象データをより高速に圧縮することができる。
【発明の効果】
【0017】
本発明によれば、大規模なデータを高速に圧縮することができる。
【図面の簡単な説明】
【0018】
【図1】情報収集サーバの全体構成を示すブロック図である。
【図2】ユーザIDとコンテンツIDとが対応付けられた情報を示す図である。
【図3】特定コンテンツ順計算部が求める特定のコンテンツ順を示す図である。
【図4】圧縮対象データ生成部が生成する個別データを示す図である。
【図5】個別データのグループ分けの様子を示す図である。
【図6】圧縮後の圧縮対象データを示す図である。
【図7】情報収集サーバのハードウェア構成を示すブロック図である。
【図8】情報収集サーバが行うデータ圧縮処理の流れを示すフローチャートである。
【図9】個別データを示す図である。
【発明を実施するための形態】
【0019】
以下、図面を参照しつつ本発明に係るデータ圧縮装置を適用した情報収集サーバの好適な実施形態について詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
【0020】
図1に示すように、情報収集サーバ(データ圧縮装置)1は、ユーザが利用したコンテンツ情報等を収集し、蓄積するものである。情報収集サーバ1に蓄積された情報は、図示しない他のサーバ等に出力されて例えばレコメンデーション情報の提供等に利用される。このため、情報収集サーバ1は、情報収集部11と、履歴データベース12と、特定コンテンツ順計算部21と、圧縮対象データ生成部(圧縮対象データ生成手段)22と、グループ分け部(グループ分け手段)23と、個別データ抽出部(個別データ抽出手段)24と、データ圧縮部(データ圧縮手段)25と、を含んで構成される。
【0021】
情報収集部11は、ユーザが携帯端末等を用いてどのようなコンテンツ情報を利用したかについての情報を取得する。具体的には、情報収集部11は、ユーザを識別するユーザID(ユーザ識別子)と、ユーザが利用したコンテン情報を識別するためのコンテンツID(コンテンツ識別子)と、が対応付けられた情報を取得する。例えば、情報収集部11は、図2に示すように、ユーザIDとしての「U1」と、コンテンツIDとしての「C1」とが対応付けられた情報、ユーザIDとしての「U1」と、コンテンツIDとしての「C2」とが対応付けられた情報、・・・、のように、ユーザIDとコンテンツIDとが対応付けられた情報を複数取得する。
【0022】
情報収集部11は、取得した情報を、履歴データベース12に記憶させる。なお、情報収集部11は、ユーザID及びコンテンツIDについての情報を、図示しない移動端末から取得したり、これらのユーザID及びコンテンツIDを携帯端末から収集する他のサーバ等から取得したりすることができる。本実施形態において、ユーザID及びコンテンツIDについての情報の取得先は限定されない。
【0023】
履歴データベース12は、情報収集部11が収集したユーザIDとコンテンツIDとが対応付けられた情報、及び、データ圧縮部25が圧縮した圧縮後の圧縮対象データ、を記憶する。履歴データベース12に記憶された圧縮後の圧縮対象データは、図示しない他のサーバ等に出力されてレコメンデーション情報の提供等に利用される。
【0024】
特定コンテンツ順計算部21は、特定のコンテンツ順を求める。ここでの特定のコンテンツ順とは、履歴データベース12に記憶されたコンテンツIDの数に基づいて得られるコンテンツの人気ランキング順を用いる。なお、特定コンテンツ順計算部21は、特定のコンテンツ順として、人気ランキング順を用いる以外にも、ランダムなコンテンツ順を指定してもよい。また、特定のコンテンツ順として、マーケティングデータ等の外部データを利用して、グループ分け部23によるグループ分け処理が容易となるように手動でコンテンツ順を設定してもよい。
【0025】
ここでは、便宜上、図3に示すように、特定のコンテンツ順としてコンテンツID:C4が第1位、コンテンツID:C1が第2位、コンテンツID:C2が第3位、コンテンツID:C5が第4位、コンテンツID:C3が第5位、が特定コンテンツ順計算部21によって求められたものとする。
【0026】
圧縮対象データ生成部22は、まず、履歴データベース12に記憶されたユーザIDとコンテンツIDとが対応付けられた情報(図2参照)を用いて、ユーザID毎に個別データを生成する。具体的には、圧縮対象データ生成部22は、ユーザIDが「U1」についての個別データを生成する場合、図4(a)に示すように、ユーザID:U1に、コンテンツID:C1,C2,C4,C5を対応付ける。圧縮対象データ生成部22は、図4(a)に示すユーザID:U1についての個別データの生成と同様に、他のユーザIDについても個別データを生成する。
【0027】
次に、圧縮対象データ生成部22は、ユーザID毎に生成した複数の個別データ同士を対応付けて、図4(b)に示すように、圧縮対象データを生成する。この圧縮対象データは、ユーザIDとコンテンツIDとを対応付けて行列形式で示したユーザ×コンテンツ行列として表すことができる。
【0028】
グループ分け部23は、圧縮対象データに含まれる複数の個別データを、所定のコンテンツIDの有無に応じてグループ分けを行う。所定のコンテンツIDとして、特定コンテンツ順計算部21で求められた特定のコンテンツ順に含まれるコンテンツIDが用いられる。また、グループ分け部23は、所定のグループ分け条件を満たすまで繰り返しグループ分けを行う。なお、所定のグループ分け条件として、グループ分け対象となる各グループにおける個別データの数、及び、グループ分けの対象とする個別データのグループの数、を用いた条件が予め設定されている。また、グループ分け部23は、繰り返しグループ分けを行う際に、グループ分け毎に異なるコンテンツIDの有無に応じてグループ分けを行う。
【0029】
以下、図5を用いて、グループ分け部23が、ユーザID:U1,U2,U3,U4,U5の個別データをグループ分けする具体例について説明する。ここでは、所定のグループ分け条件として、グループ分け対象となる各グループにおける個別データの数が2以下、及び、グループ分けの対象とする個別データのグループの数が3以上、が設定されており、双方の条件を満たすまで、グループ分け部23がグループ分けを繰り返す。また、グループ分け部23は、繰り返しグループ分けを行う際に用いるコンテンツIDとして、特定コンテンツ順計算部21によって求められた特定のコンテンツ順の第1位のコンテンツIDから順に、繰り返しの度に順次下位のコンテンツIDを用いる。
【0030】
まず、グループ分け部23は、ユーザID:U1,U2,U3,U4,U5の5つの個別データが、所定のグループ分け条件を見たしているか否かを判断する。ここでは、グループ分け対象となるユーザID:U1,U2,U3,U4,U5のグループ(以下「グループG1」という)における個別データの数が5であり、グループ分け対象となるグループの数(グループG1)が1である。よって、所定のグループ分け条件を満たさないため、グループ分け部23は、特定のコンテンツ順の第1位のコンテンツID:C4の有無に応じて、グループG1の個別データのグループ分けを行う。
【0031】
ここでは、図4(b)に示すように、ユーザID:U1,U3,U5の個別データにコンテンツID:C4が含まれている。このため、グループ分け部23は、図5に示すように、グループG1に含まれる個別データを、ユーザID:U1,U3,U5の個別データのグループG11と、ユーザID:U2,U4の個別データのグループG12と、に分ける。
【0032】
次に、グループ分け部23は、グループ分け後のグループG11,G12を、さらにグループ分けを行うか否かを判断する。具体的には、グループ分け部23は、グループG11,G12がそれぞれ所定のグループ分け条件を見たしているか否かを判断する。ここでは、グループG11における個別データの数が3、グループG12における個別データの数が2であり、グループ分けの対象となるグループの数(グループG11,G12)が2である。よって、所定のグループ分け条件を満たさないため、グループ分け部23は、特定のコンテンツ順の第2位のコンテンツID:C1の有無に応じて、グループG11,G12のそれぞれを更にグループ分けする。
【0033】
ここでは、グループG11のグループ分けを行う場合、図4(b)に示すように、ユーザID:U1,U3の個別データにコンテンツID:C1が含まれている。このため、グループ分け部23は、図5に示すように、グループG11に含まれる個別データを、ユーザID:U1,U3の個別データのグループG21と、ユーザID:U5の個別データのグループG22と、にグループ分けする。同様に、グループG12のグループ分けを行う場合、ユーザID:U4の個別データにコンテンツID:C1が含まれている。このため、グループ分け部23は、図5に示すように、グループG12に含まれる個別データを、ユーザID:U2の個別データのグループG23と、ユーザID:U4の個別データのグループG24と、にグループ分けする。
【0034】
次に、グループ分け部23は、グループ分け後のグループG21,G22,G23,G24を、さらにグループ分けを行うか否かを判断する。具体的には、グループ分け部23は、グループG21〜G24が、それぞれ所定のグループ分け条件を見たしているか否かを判断する。ここでは、グループG21における個別データの数が2、グループG22,G23,G24における個別データの数がそれぞれ1であり、グループ分けの対象となるグループの数(グループG21〜G24)が4である。よって、所定のグループ分け条件を満たすため、グループ分け部23は、これ以上のグループ分けを行わない。
【0035】
個別データ抽出部24は、グループ分け部23によってグループ分けがされた個別データのグループの中から、所定の抽出条件に従って個別データを抽出する。具体的には、個別データ抽出部24は、個別データを複数含むグループを、個別データの抽出対象とする。そして、個別データ抽出部24は、抽出対象のグループに含まれる個別データの中で、各ユーザIDに対して最も多くのコンテンツIDが対応付けられている個別データを抽出する。
【0036】
例えば、図5に示すように、個別データがグループG21,G22,G23,G24にグループ分けされている場合、個別データ抽出部24は、個別データを2つ含むグループG21を、個別データの抽出対象として選択する。そして、個別データ抽出部24は、グループG21に含まれるユーザIDが「U1」,「U3」の個別データの中で、個別データに対応付けられているコンテンツIDの数が多い個別データを抽出する。ここでは、図4(b)に示すように、ユーザIDが「U1」の個別データには4つのコンテンツIDが対応付けられ、ユーザIDが「U3」の個別データには3つのコンテンツIDが対応付けられている。従って、個別データ抽出部24は、グループG21の中のユーザIDが「U1」の個別データを、抽出する。
【0037】
データ圧縮部25は、個別データ抽出部24による個別データの抽出対象となった個別データのグループの中で、個別データ抽出部24によって抽出された個別データ以外の個別データを圧縮対象データから除外することで圧縮対象データのデータ量を圧縮する。データ圧縮部25は、圧縮後の圧縮対象データを、履歴データベース12に記憶させる。
【0038】
例えば、個別データ抽出部24によって図5に示すグループG21の中のユーザIDが「U1」の個別データが抽出されている場合、ユーザIDが「U1」の個別データ以外の個別データであるユーザIDが「U3」の個別データを、図4(b)に示す圧縮対象データから除外する。これにより、図4に示す圧縮対象データからユーザIDが「U3」の個別データが除外され、図6に示す圧縮対象データのようにデータ量が圧縮される。
【0039】
このように、情報収集サーバ1は、ユーザIDとコンテンツIDとが対応付けられた圧縮対象データのデータ量を圧縮することができる。
【0040】
なお、情報収集サーバ1は、物理的には、図7に示すように、CPU101、主記憶装置であるRAM102及びROM103、ハードディスク等の補助記憶装置104、データ送受信デバイスである通信モジュール105、入力デバイスであるキーボード及びマウス等の入力装置106、ディスプレイ等の出力装置107などを含むコンピュータシステムとして構成されている。図1において説明した各機能は、図7に示すCPU101、RAM102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとでRAM102や補助記憶装置104におけるデータの読み出し及び書き込み等を行うことで実現される。
【0041】
次に、本実施形態における情報収集サーバ1が行う圧縮対象データの圧縮処理の流れ、及び、本発明に係るデータ圧縮方法について説明する。図8に示すように、特定コンテンツ順計算部21は、履歴データベース12に記憶された情報等を用いて、特定のコンテンツ順を求める(ステップS101)。
【0042】
次に、圧縮対象データ生成部22は、履歴データベース12に記憶された情報を用いて、ユーザID毎に個別データを生成する(ステップS102:圧縮対象データ生成ステップ)。そして、圧縮対象データ生成部22は、生成した複数の個別データ同士を対応付けて、圧縮対象データを生成する(ステップS103:圧縮対象データ生成ステップ)。
【0043】
次に、グループ分け部23は、圧縮対象データに含まれる複数の個別データを、特定のコンテンツ順に含まれるコンテンツIDの有無に応じて、グループ分けを行う(ステップS104:グループ分けステップ)。そして、グループ分け部23は、グループ分け対象となる各グループにおける個別データの数、及び、グループ分けの対象とする個別データのグループの数が、所定のグループ分け条件を満たしているか否かを判断する(ステップS105:グループ分けステップ)。所定のグループ分け条件を満たしていない場合(ステップS105:NO)、グループ分け部23は、所定のグループ分け条件を満たすまで個別データのグループ分け(ステップS104)を繰り返す。
【0044】
グループ分け部23によって所定のグループ分け条件が満たされたと判断された場合(ステップS105:YES)、個別データ抽出部24は、グループ分け部23によってグループ分けがされた個別データのグループの中から、所定の抽出条件に従って個別データを抽出する(ステップS106:個別データ抽出ステップ)。
【0045】
次に、データ圧縮部25は、個別データ抽出部24によって抽出された個別データを用いて圧縮対象データを圧縮し、圧縮後の圧縮対象データを履歴データベース12に記憶させる(ステップS107:データ圧縮ステップ)。
【0046】
本実施形態は以上のように構成され、圧縮対象データが、所定のコンテンツIDの有無に応じてグループ分けされる。そして、グループ分けがされた個別データのグループの中から、所定の抽出条件に従って個別データが抽出される。そして、個別データの抽出対象となった個別データのグループの中で、抽出された個別データ以外の個別データを圧縮対象データから除外することで圧縮対象データが圧縮される。このように、個別データのグループ分け、及び、所定のコンテンツIDの有無に応じた個別データの抽出を行うだけで、複雑な計算処理を行うことなく圧縮対象データのデータ量の圧縮を行うことができる。これにより、圧縮の対象となる圧縮対象データが大規模となった場合であっても、圧縮対象データのデータ量を高速に圧縮することができる。このように、圧縮対象データのデータ量の圧縮を行うことができるため、この圧縮対象データを利用する装置の計算時間を短縮することができる。
【0047】
また、グループ分け部23が、グループ分け後の個別データを更にグループ分けすることで、圧縮対象データから個別データを除外する際の対象となる個別データのグループをより好適に絞りこむことができ、好適な圧縮を行うことができる。
【0048】
また、グループ分け部23が、所定のグループ分け条件として予め設定された、グループ分けされた個別データのグループの数、及び、グループ内に含まれる個別データの数、を満たすまで繰り返しグループ分けを行う。これにより、グループ分けされた個別データのグループの数、及び、グループ内に含まれる個別データの数に応じて、圧縮対象データから個別データを除外する際の対象となる個別データのグループを、より一層好適に絞りこむことができる。
【0049】
また、グループ分け部23は、グループ分けを繰り返し行う際に、グループ分け毎に異なるコンテンツIDの有無に応じてグループ分けを行う。これにより、グループ分け毎に異なるコンテンツIDの有無に応じて、圧縮対象データから個別データを除外する際の対象となる個別データのグループを、より一層好適に絞りこむことができる。
【0050】
また、個別データ抽出部24は、個別データを抽出する場合、抽出対象となる個別データのグループの中で、個別データに対応付けられたコンテンツIDの数が最も多い個別データを抽出する。これにより、抽出された個別データが属していたグループの中で、抽出された個別データ以外の個別データが圧縮対象データから除外され、抽出された個別データのみが残ることとなる。このように、対応付けられたコンテンツIDの数が最も多い個別データを残しながら圧縮対象データの圧縮を行うことで、圧縮対象データのデータ量の圧縮をより好適に行うことができる。
【0051】
また、コンテンツ情報として、ユーザが利用したコンテンツについての情報を用いる。圧縮対象データ生成部22は、ユーザが利用したコンテンツのコンテンツIDを、ユーザIDに対応付ける。この場合、例えば、ユーザ数が多く、利用するコンテンツの数が多いために、圧縮対象データのデータ量が膨大となってしまっても、情報収集サーバ1によって圧縮対象データのデータ量をより高速に圧縮することができる。
【0052】
なお、上記実施形態において、所定のグループ分け条件として設定された、グループ分けされた個別データのグループの数、及び、グループ内に含まれる個別データの数、の双方を満たす場合にグループ分けを終了するものとしたが、いずれか一方を満たす場合にグループ分けを終了してもよい。また、所定のグループ分け条件は、上述のグループ分けされた個別データのグループの数、及び、グループ内に含まれる個別データの数、に限定されるものではなく、他の条件を設定してもよい。
【0053】
グループ分けを繰り返し行う際に、グループ分け毎に異なるコンテンツIDとして、特定のコンテンツ順に含まれるコンテンツIDを第1位から順に用いるものとしたが、これ以外の方法によって選ばれたコンテンツIDを用いてもよい。
【0054】
また、個別データ抽出部24は、個別データの抽出を行う際に、抽出対象のグループに含まれる個別データの中で、各ユーザIDに対して対応付けられているコンテンツIDの数が最も少ない個別データを抽出してもよい。この場合であっても、対応付けられたコンテンツIDの数が最も少ない個別データを残しながら圧縮対象データの圧縮を行うことができる。
【0055】
また、個別データ抽出部24は、個別データの抽出を行う際に、個別データのグループ内における過半数の個別データに対応付けられているコンテンツIDを抽出し、抽出したコンテンツIDを用いて個別データを抽出することもできる。以下、具体的例について説明する。図9に示すように、個別データの抽出対象となるグループG100に、ユーザID:U11,U12,U13の個別データが含まれているものとする。また、ユーザID:U11の個別データにはコンテンツID:C1,C2,C5,C7,C8が対応付けられており、ユーザID:U12の個別データにはコンテンツID:C1,C2,C5,C9,C10が対応付けられており、ユーザID:U13の個別データにはコンテンツID:C1,C2,C5,C9,C11,C12,C13,C14が対応付けられているものとする。
【0056】
この場合、まず個別データ抽出部24は、ユーザID:U11,U12,U13の個別データに対応付けられたコンテンツIDの中で、過半数の個別データに対応付けられているコンテンツIDを抽出する。ここでは、2以上の個別データに対応付けられているコンテンツID:C1,C2,C5,C9が抽出される。
【0057】
そして個別データ抽出部24は、個別データごとに、抽出したコンテンツIDと個別データに含まれるコンテンツIDとの類似度を求める。この類似度は、例えば、個別データに対して、抽出されたコンテンツIDが対応付けられている場合にはその数に応じて類似度を+1とし、抽出されたコンテンツID以外のコンテンツIDが対応付けられている場合にはその数に応じて類似度を−1とする。具体的には、ユーザID:U11の個別データには、抽出されたコンテンツID:C1,C2,C5,C9のうち3つのコンテンツID(C1,C2,C5)が対応付けられているため類似度を+3とし、抽出されたコンテンツID以外の2つのコンテンツID(C7,C9)が対応付けられているため類似度を−2とする。その結果、ユーザID:U1の個別データの類似度は「1」となる。このようにして、ユーザIDごとに個別データの類似度を求める。その結果、図9に示す例では、ユーザID:U11の個別データの類似度は「1」、ユーザID:U12の個別データの類似度は「3」、ユーザID:U13の個別データの類似度は「0」となる。
【0058】
そして、個別データ抽出部24は、求められた類似度が最も高いユーザIDの個別データ(ここでは、ユーザID:U12の個別データ)を抽出する。この場合であっても、過半数の個別データに対応付けられているコンテンツIDを用いて個別データを抽出し、抽出された個別データを残しながら圧縮対象データの圧縮を行うことができる。
【0059】
また、過半数の個別データに対応付けられているコンテンツIDを抽出した後、類似度を用いずに個別データを求めることもできる。具体的には、個別データ抽出部24は、例えば、過半数の個別データに対応付けられているコンテンツID:C1,C2,C5,C9を用いて、新たに個別データを作成する。より詳細には、過半数の個別データに対応付けられているコンテンツID:C1,C2,C5,C9に対し、新たに生成したユーザID:U20を対応付けて、新たな個別データを作成する。そして個別データ抽出部24は、作成した新たな個別データを、圧縮対象データの圧縮の際に残すデータとして抽出することもできる。この場合であっても、過半数の個別データに対応付けられているコンテンツIDを用いて個別データを抽出し、抽出された個別データを残しながら圧縮対象データの圧縮を行うことができる。
【符号の説明】
【0060】
1…情報収集サーバ、11…情報収集部、12…履歴データベース、21…特定コンテンツ順計算部、22…圧縮対象データ生成部、23…グループ分け部、24…個別データ抽出部、25…データ圧縮部。

【特許請求の範囲】
【請求項1】
ユーザを識別するユーザ識別子毎に、コンテンツ情報を識別するコンテンツ識別子を一又は複数対応付けて個別データを生成し、生成した複数の前記個別データ同士を対応付けて圧縮対象データを生成する圧縮対象データ生成手段と、
前記圧縮対象データに含まれる前記複数の個別データを、所定の前記コンテンツ識別子の有無に応じてグループ分けを行うグループ分け手段と、
前記グループ分け手段によってグループ分けがされた前記個別データのグループの中から、所定の抽出条件に従って前記個別データを抽出する個別データ抽出手段と、
前記個別データ抽出手段による前記個別データの抽出対象となった前記個別データのグループの中で、前記個別データ抽出手段によって抽出された前記個別データ以外の前記個別データを前記圧縮対象データから除外することで前記圧縮対象データのデータ量を圧縮するデータ圧縮手段と、
を備えることを特徴とするデータ圧縮装置。
【請求項2】
前記グループ分け手段は、グループ分け後の前記個別データを更にグループ分けすることを特徴とする請求項1に記載のデータ圧縮装置。
【請求項3】
前記グループ分け手段は、グループ分けされた前記個別データのグループの数、及び、グループ分けの対象となる前記個別データのグループ内に含まれる前記個別データの数、のうち少なくともいずれかが予め定められた閾値を満たすまで繰り返しグループ分けを行うことを特徴とする請求項2に記載のデータ圧縮装置。
【請求項4】
前記グループ分け手段は、グループ分けを繰り返し行う際に、グループ分け毎に異なる前記コンテンツ識別子の有無に応じてグループ分けを行うことを特徴とする請求項2又は3に記載のデータ圧縮装置。
【請求項5】
前記個別データ抽出手段は、前記個別データを抽出する際に、前記個別データの抽出対象となる前記個別データのグループの中で、前記個別データに対応付けられた前記コンテンツ識別子の数が最も多い個別データを抽出することを特徴とする請求項1〜4のいずれか一項に記載のデータ圧縮装置。
【請求項6】
前記個別データ抽出手段は、前記個別データを抽出する際に、前記個別データの抽出対象となる前記個別データのグループの中で、前記個別データに対応付けられた前記コンテンツ識別子の数が最も少ない個別データを抽出することを特徴とする請求項1〜4のいずれか一項に記載のデータ圧縮装置。
【請求項7】
前記個別データ抽出手段は、前記個別データのグループ内における過半数の前記個別データに対応付けられた前記コンテンツ識別子を抽出し、抽出した前記コンテンツ識別子を用いて前記個別データを抽出することを特徴とする請求項1〜4のいずれか一項に記載のデータ圧縮装置。
【請求項8】
前記コンテンツ情報は、前記ユーザが利用したコンテンツについての情報であり、
前記圧縮対象データ生成手段は、前記ユーザが利用したコンテンツのコンテンツ識別子を、前記ユーザ識別子に対応付けることを特徴とする請求項1〜7のいずれか一項に記載のデータ圧縮装置。
【請求項9】
圧縮対象データを圧縮する圧縮装置において実行されるデータ圧縮方法であって、
ユーザを識別するユーザ識別子毎に、コンテンツ情報を識別するコンテンツ識別子を一又は複数対応付けて個別データを生成し、生成した複数の前記個別データ同士を対応付けて圧縮対象データを生成する圧縮対象データ生成ステップと、
前記圧縮対象データに含まれる前記複数の個別データを、所定の前記コンテンツ識別子の有無に応じてグループ分けを行うグループ分けステップと、
前記グループ分けステップにおいてグループ分けがされた前記個別データのグループの中から、所定の抽出条件に従って前記個別データを抽出する個別データ抽出ステップと、
前記個別データ抽出ステップにおいて前記個別データの抽出対象となった前記個別データのグループの中で、前記個別データ抽出ステップにおいて抽出された前記個別データ以外の前記個別データを前記圧縮対象データから除外することで前記圧縮対象データのデータ量を圧縮するデータ圧縮ステップと、
を有することを特徴とするデータ圧縮方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2013−114479(P2013−114479A)
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願番号】特願2011−260417(P2011−260417)
【出願日】平成23年11月29日(2011.11.29)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)