有限オートマトン装置及びパターンマッチング方法

【課題】スループットを向上させると共に低消費電力化を図る。
【解決手段】データ駆動型状態テーブルメモリ１２０には、上位及び下位をそれぞれ状態及びデータストリーム要素とするアドレスに次状態が格納され、アドレスとデータストリーム識別子とを含むパケットが入力され、次状態とデータストリームＩＤとを含むパケットが出力される。合成ノード１４０〜１４３は、メモリ１２０の出力を入力にフィードバックさせる流路に介在され、この出力とマルチプレクサ１３３０〜１３３３の出力とを合成する。データストリームは、キュー列１３２の各キューに格納される。マルチプレクサ１３３０〜１３３３は、該出力に含まれるデータストリームＩＤに基づき、キュー列１３２のキューを選択して、このキューの出力段を合成ノード１４０〜１４３に結合させる。初期パケットと次状態のパケットとは、状態テーブルメモリ１２０と合成ノード１４０〜１４３との間の合流ノード１５０〜１５３に選択的に合流する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、データ駆動型半導体装置に用いられ、有限オートマトン装置及びパターンマッチング方法に係り、特に、データ駆動型状態テーブルメモリ及びデータストリームキュー列を備えＣＰＵアクセラレータとして用いて好適な有限オートマトン装置及びパターンマッチング方法に関する。
【背景技術】
【０００２】
インターネットの普及に伴い、スパムメールやファイルへのウイルス感染による被害が増大しており、メールサーバーでは大量のメール及びメール添付ファイルに対しメールフィルタリング及びウイルスチェックを高速に行う必要がある。
【０００３】
ウィルススキャンは、シグネチャーと呼ばれる可変長パターンの検索処理であり、平均１００〜１５０バイトのシグネチャーが約１０万種類存在すると言われている。
【０００４】
この検索でのパターンマッチングは、有限オートマトンを用いて行うことができる。有限オートマトンでは、現状態と入力とで次状態が定まり、これが繰り返し行われてパターンが検出される。ウィルススキャンの場合、入力はデータストリームのエレメント、例えば１バイトであり、データストリームに、多数のシグネチャーのどれが含まれているかのパターンマッチング処理を、１つの状態遷移テーブルで表すことができる（Ａｈｏ−Ｃｏｒａｓｉｃｋ法）。
【０００５】
この方法は、例えば下記特許文献１に開示されているように、メモリに状態遷移テーブルを格納しておき、現状態とデータストリームエレメントとをアドレスとしてメモリから次状態を読み出し、これに次のデータストリームエレメントを付加してアドレスとし次状態を読み出すという処理を繰り返すことにより、実施することができる。
【０００６】
しかしながら、ランダムアクセスであるので、アクセス毎に遅延が生じ、また、並列処理が出来ず、充分なスループットが得られない。多数のメモリを並列に動作させることもできるが、高速処理を連続的に行う必要があるので、消費電力が大きくなる。
【０００７】
有限オートマトン装置は、ウィルススキャンやメールフィルタリングだけでなく、ＸＭＬパースを行うこともでき、携帯電話などのモバイル機器に適用可能であり、このような用途では、処理の高速化のみならず低消費電力化が要求される。
【０００８】
一方、データ駆動型半導体装置では、例えば下記特許文献２に開示されているように、ローカルな同期制御が複数の要素のそれぞれで自立分散的に行われるので、システムクロックに同期して各要素を集中制御する同期型半導体装置よりも、処理の並列度を容易に高くすることができるとともに、消費電力を低減できる。
【特許文献１】米国特許第７，０８２，０４４号公報
【特許文献２】特開平５−１０８８５２
【発明の開示】
【発明が解決しようとする課題】
【０００９】
しかしながら、多並列パイプライン処理を行うデータ駆動型記憶装置が存在せず、また、このようなデータ駆動型記憶装置とマッチして多数のデータストリームを高速に記憶装置に供給することができないので、スループットを向上させると共に低消費電力化を図るということができない。
【００１０】
本発明の目的は、このような問題点に鑑み、スループットを向上させると共に低消費電力化を図ることが可能な有限オートマトン装置及びパターンマッチング方法を提供することにある。
【課題を解決するための手段】
【００１１】
本発明による有限オートマトン装置の第１態様では、
上位ビット及び下位ビットをそれぞれ状態及びデータストリーム要素とするアドレスに次状態が格納され、アドレスとデータストリーム識別子とを含むパケットが入力され、次状態と該データストリーム識別子とを含むパケットが出力されるデータ駆動型状態テーブルメモリと、
該状態テーブルメモリの出力を該状態テーブルメモリの入力にフィードバックさせる流路に介在され、データ入力端の第１部に供給されるデータを該データ入力端の第２部に供給される該次状態と合成する合成ノードと、
それぞれのキューにデータストリームが格納されるキュー列と、
該出力に含まれるデータストリーム識別子に基づき、該キュー列のキューを選択して、このキューの出力段を該第１部に結合させるマルチプレクサとを有する。
【００１２】
本発明による有限オートマトン装置の第２態様では、第１態様において、
該フィードバック流路の、該状態テーブルメモリと該合成ノードとの間に、初期パケットと該次状態のパケットとを選択的に合流させる合流ノードをさらに有する。
【００１３】
本発明による有限オートマトン装置の第３態様では、第２態様において、
該状態テーブルメモリには、パターン一致情報が含まれ、
該状態テーブルメモリの出力に含まれるパターン一致情報がパターン一致を示しているか否かを判定し、肯定判定した場合には該出力に含まれるデータストリーム識別子とともに割込要求信号を出力する出力回路をさらに有する。
【００１４】
本発明の第４態様では、第３態様において、
該キュー列の各キューについて、空きが所定量を超えた場合には該キューに対応したデータストリーム識別子とともに割込要求信号を出力する空検出回路をさらに有する。
【００１５】
本発明による有限オートマトン装置の第５態様では、第４態様において、
該マルチプレクサは、その入力が複数の入口ノードの入力であり、その出力が出口ノードの出力であるツリー形合流路を有する。
【００１６】
本発明による有限オートマトン装置の第６態様では、第５態様において、
供給されるデータストリームを行先アドレスに基づき順次選択的に分流させて該キュー列の１つのキューに転送させるツリー形分流路をさらに有する。
【００１７】
本発明による有限オートマトン装置の第７態様では、
上位ビット及び下位ビットをそれぞれ状態及びデータストリーム要素とするアドレスに次状態が格納され、アドレスを含むパケットが入力され、次状態を含むパケットが出力され、パケット順序が維持されるデータ駆動型状態テーブルメモリと、
該状態テーブルメモリの出力を該状態テーブルメモリの入力にフィードバックさせる流路に介在され、データ入力端の第１部に供給されるデータを該データ入力端の第２部に供給される該次状態と合成する合成ノードと、
該フィードバック流路の、該状態テーブルメモリと該合成ノードとの間に、初期パケットと該次状態のパケットとを選択的に合流させる合流ノードと、
それぞれの第１キューにデータストリームが格納されるキュー列と、
出力段を該第１部に結合させる第２キューと、
該合流ノードへの初期パケット投入順に基づき巡回する選択制御信号を順次生成する予測回路と、
該選択制御信号に応じ該キュー列の第１キューを選択して、この第１キューの出力段を該第２キューの入力段に結合させるマルチプレクサとを有する。
【発明の効果】
【００１８】
上記第１態様の構成によれば、上述のようなデータ駆動型状態テーブルメモリと合成ノードとキュー列とマルチプレクサとの組み合わせにより、スループットを向上させると共に低消費電力化を図ることができるという効果を奏する。
【００１９】
上記第２態様の構成によれば、初期パケット合流ノードを備えているので、処理開始を容易に行うことができるという効果を奏する。
【００２０】
上記第３態様の構成によれば、状態テーブルメモリにパターン一致情報が含まれ、状態テーブルメモリの出力に含まれるパターン一致情報がパターン一致を示している場合には該出力に含まれるデータストリーム識別子とともに割込要求信号を出力するので、処理結果を高速に得ることができるという効果を奏する。
【００２１】
上記第４態様の構成によれば、キュー列の各キューについて、空きが所定量を超えた場合には該キューに対応したデータストリーム識別子とともに割込要求信号を出力するので、多数のデータストリームを並列処理しても、キューに対しデータストリームを必要時に補給することができるという効果を奏する。
【００２２】
上記第５態様の構成によれば、マルチプレクサがツリー形合流路を有するので、構成が簡単であるという効果を奏する。
【００２３】
上記第６態様の構成によれば、ツリー形分流路を介してキュー列のキューにデータストリームを転送させるので、データ入力端の数を低減できるという効果を奏する。
【００２４】
上記第７態様の構成によれば、データ駆動型状態テーブルメモリ自体での次状態検出並列処理とデータ駆動型状態テーブルメモリに対するストリームエレメント供給処理とを、待ち合わせることなく並列して行うことができるので、検索処理をより高速化することができるという効果を奏する。
【００２５】
本発明の他の目的、構成及び効果は以下の説明から明らかになる。
【実施例１】
【００２６】
図１は、非同期（自己タイミング）式のデータ駆動型メモリ１０を示す概略ブロック図である。
【００２７】
メモリ１０では、分流路２０の下流側に、機能エレメントアレイとしてのメモリ行アレイ３０を介して合流路４０が接続されている。
【００２８】
図２（Ａ）は、メモリ行アレイ３０の配列の具体例を示す。
【００２９】
メモリ行アレイ３０の行及び列をそれぞれセット番号及びページ番号で識別する。説明の簡単化のため、メモリ行アレイ３０が６４行、１ページが８ワード、１ワードが３２ビットであるとする。以下では、メモリ行アレイ３０に対するリード及びライトがそれぞれ、ページ単位及びワード単位で行われる場合を説明する。
【００３０】
図１に戻って、分流路２０は、入口ノード２１１に供給されるパケットを、その行先アドレスに応じて順次選択的に分岐させるものであり、アドレスデコーダとして機能する。
【００３１】
図２（Ｂ）は、分流路２０でのパケットのフォーマットを示す。
【００３２】
パケット５０は、１ビットのコマンドフィールドと、１１ビットのアドレスフィールドと、３２ビットのデータフィールドとからなる。コマンドＣＭＤは、'０'のときリード、'１'のときライトを示す。アドレスＡＤＲは、上位６ビットの行先アドレスＤＡと、中位２ビットのページアドレスＰＡと、下位３ビットのワードアドレスＷＡとに分けられる。
【００３３】
行先アドレスＤＡは、分流路２０の行先、すなわちメモリ行アレイ３０の行（セット番号）を示す。ページアドレスＰＡは、パケット５０が行先アドレスへ到達した後に、そのメモリ行におけるリード対象の識別に用いられる。ページアドレスＰＡとページ内ワードアドレスＷＡとの組は、パケット５０が行先アドレスへ到達した後に、メモリ行におけるライト対象の識別に用いられる。データＤＡＴＡは、ライトのデータであり、リードの場合にはダミーである。
【００３４】
以下では、コマンドＣＭＤがリードの場合の分流路２０及び合流路４０でのパケットをそれぞれリードパケット及びリードデータパケット、ライトの場合の分流路２０でのパケットをライトデータパケットと称す。
【００３５】
合流路４０でのリードデータパケットは、パケット５０からコマンドＣＭＤの１ビットを除いた４３ビットであり、アドレスＡＤＲは、合流路４０の出口ノードに到達したパケット内のデータの識別に用いられる。
【００３６】
図１に戻って、分流路２０及び合流路４０はいずれも６段パイプラインであり、各パイプラインステージにおけるノードは、ラッチと、転送制御回路とを備えている。
【００３７】
図３は、束データ方式で分流路２０を構成した場合の第１段と第２段とのノードで構成される分流回路を示す概略ブロック図である。
【００３８】
第１段の入口ノード２１１は、ラッチ２１１Ｌと転送制御回路２１１Ｃとを備え、第２段のノード２２１は、ラッチ２２１Ｌと転送制御回路２２１Ｃとを備え、第２段のノード２２２は、ラッチ２２２Ｌと転送制御回路２２２Ｃとインバータ２２２Ｇとを備えている。転送制御回路２１１Ｃ、２２１Ｃ及び２２２Ｃはそれぞれ、ラッチ２１１Ｌ、２２１Ｌ及び２２２Ｌ内の入力段ゲート開閉をハンドシェイクプロトコルで行うものであり、段間が縦続接続されている。
【００３９】
転送制御回路はいずれも、後段からのＳＥＮＤ−ＩＮ（転送要求入力）信号がアクティブ、すなわち後段からのデータが確定していて、前段からのＡＣＫ−ＩＮ（転送許可入力）信号がアクティブ、すなわち前段がエンプティである場合に、ラッチのクロック入力端ＣＫにパルスを供給して後段からのデータをラッチに取り込み保持し、特別な制限がなければ後段へのＡＣＫ−ＯＵＴ信号をアクティブにし、前段へデータが到達したと考えられる所定時間経過後に前段へのＳＥＮＤ−ＯＵＴ信号をアクティブにする。
【００４０】
各転送制御回路は、出力を有効／無効にするための制御入力端を備えており、転送制御回路２２１Ｃ及び２２２Ｃの該制御入力端にはそれぞれ、ラッチ２１１Ｌに保持されたパケットの行先アドレス（ＤＡ５〜ＤＡ０）ＤＡの最上位ビットＤＡ５及びこれをインバータ２２２Ｇで反転させたものが供給される。したがって、ビットＤＡ５が'１'の場合、ラッチ２２１Ｌ及び２２２Ｌがそれぞれ有効及び無効になって、ラッチ２１１Ｌの内容がラッチ２２１Ｌに保持され、ビットＤＡ５が'０'の場合、ラッチ２２１Ｌ及び２２２Ｌがそれぞれ無効及び有効になって、ラッチ２１１Ｌの内容がラッチ２２２Ｌに保持される。
【００４１】
各転送制御回路はさらに、不図示のリセット入力端を有し、システムリセット時にこれにリセットパルスが供給されて、ＡＣＫ−ＩＮ及びＡＣＫ−ＯＵＴがアクティブ、ＳＥＮＤ−ＩＮ及びＳＥＮＤ−ＯＵＴがインアクティブになる。
【００４２】
転送制御回路は各種のものが公知であるので、その構成の説明を省略する。
【００４３】
図１に戻って、例えばノード２２１に保持されたパケットは、行先アドレスＤＡの第２ビットに応じてノード２３１又はノード２３２に保持され、例えばノード２３２に保持されたパケットは、行先アドレスＤＡの第３ビットに応じてノード２４３又はノード２４４に保持される。以下同様にして、分流路２０の行先アドレスＤＡの内容に応じ、第６段に配置された３２個の出口ノードの１つにパケットが到達する。各出力ノードは２つの分岐出力を有する。
【００４４】
各ノードにおいて、行先アドレスＤＡの対応するビットが'１'／'０'のとき図１においてそれぞれ上側／下側へデータが分岐するように定められているとする。例えば行先アドレスＤＡが'１１１１１１'の場合、このパケットは出力ノード２６１に到達する。ノード２６１において、行先アドレスＤＡの最下位ビットＤＡ０が'１'であるとき、メモリ行アレイ３０のメモリ行３１が有効にされ、ビットＤＡ０が'０'であるとき、メモリ行３２が有効にされる。
【００４５】
メモリ行アレイ３０を構成する６４個のメモリ行は、互いに同一構成である。各メモリ行は、その入力端及び出力端がそれぞれ分流路２０及び合流路４０の対応する出力端及入力端に結合されている。分流路２０の出力端及び合流路４０の入力端のそれぞれにラッチを接続することもできるが、段数を少なくしてターンアランドタイムを短縮するために、図１ではこれらのラッチが省略された構成となっている。
【００４６】
図５は、図１の分流路２０の出力ノード２６１と合流路４０の入口ノード４１１との間に接続されたメモリ行３１及び３２を示す概略ブロック図である。
【００４７】
メモリ行３１及び３２は、ノード２６１と入口ノード４１１との間に接続されている。ノード２６１は、ラッチ２６１Ｌと、この入力ゲートを開閉する転送制御回路２６１Ｃとからなり、入口ノード４１１は、ラッチ４１１Ｌと、この入力ゲートを開閉する転送制御回路４１１Ｃとからなる。
【００４８】
メモリ行３１及び３２には、ループ状の３２ビットのデータバスとアドレスＡＤＲの上位８ビットのアドレスバスからなるループ配線３１０が配設され、これがラッチ２６１Ｌのデータ出力端及びラッチ４１１Ｌのデータ入力端に接続されている。ループ配線３１０のデータバスには、メモリ行３１の構成要素である３２個のワードメモリ３１０Ｗ〜３１３１Ｗのそれぞれのデータ入力端及びデータ出力端が接続され、同様にメモリ行３２の構成要素である３２個のワードメモリ３２０Ｗ〜３２３１Ｗのそれぞれのデータ入力端及びデータ出力端が接続されている。
【００４９】
これらワードメモリ３１０Ｗ〜３１３１Ｗ及び３２０Ｗ〜３２３１Ｗのそれぞれのクロック入力端ＣＫ及び出力イネーブル制御入力端ＯＥを制御するために、転送制御回路２６１Ｃと転送制御回路４１１Ｃとの間に制御回路３１１が接続されている。
【００５０】
制御回路３１１には、ラッチ２６１Ｌに保持されたコマンドＣＭＤ、ページアドレスＰＡ、ワードアドレスＷＡ及びにラッチ４１１Ｌのクロック入力端ＣＫに供給されるクロックパルスＣＫ１が供給される。制御回路３１１は、このクロックパルスＣＫ１をカウントするカウンタ３１１ａを備え、リードの場合、そのカウントをワードアドレスＷＸとして、ラッチ４１１Ｌのデータ入力端のワードアドレスＷＡ部に供給する。
【００５１】
制御回路３１１は、転送制御回路２６１ＣからのＳＥＮＤ１及び転送制御回路４１１ＣからのＡＣＫ２のいずれか一方又は両方がインアクティブの場合には、各ワードメモリのクロック入力端ＣＫ及び出力イネーブル制御入力端ＯＥをインアクティブに維持してその入力ゲート及び出力ゲートを閉じる（ワードメモリのアクセスを無効にする）。
【００５２】
制御回路３１１は、転送制御回路２６１ＣからのＳＥＮＤ１及び４４１ＣからのＡＣＫ２が共にアクティブになると、カウンタ３１１ａをゼロクリアし、アドレスＡＤＲのうち、ビットＤＡ０が'１'であればワードメモリ３２０Ｗ〜３２３１Ｗのアクセスを無効にし、以下のような制御を行う。
【００５３】
制御回路３１１は、コマンドＣＭＤがリードを示していれば、転送制御回路２６１Ｃに対するＡＣＫ１をインアクティブに維持した状態で、次のような制御を行う。
【００５４】
（１）ワードメモリ３１３１Ｗ〜３１０Ｗのうち、ページアドレスＰＡとワードアドレスＷＸとで指定されるワードメモリの出力イネーブル制御入力端ＯＥをアクティブにさせて、このワードメモリの内容をループ配線３１０上に読み出させ、このデータがラッチ４１１Ｌのデータ入力端で確定したと考えられる所定時間経過後に、ＳＥＮＤ２をアクティブにさせる。転送制御回路４１１Ｃはこれに応答して、次段からのＡＣＫがアクティブであれば、クロックパルスＣＫ１をラッチ４１１Ｌのクロック入力端ＣＫに供給してループ配線３１０上のデータ（ＤＡＴＡ、ＤＡ及びＰＡ）及び制御回路３１１からのワードアドレスＷＸをラッチ４１１Ｌに取り込ませ保持させ、次いでＡＣＫ２をアクティブにさせる。制御回路３１１は、クロックパルスＣＫ１をカウンタ３１１ａでカウントしてワードアドレスＷＸをインクリメントし、ＡＣＫ２のアクティブに応答してＳＥＮＤ２をインアクティブにさせる。
【００５５】
（２）入口ノード４１１から次段へのデータ転送が完了すると、ＡＣＫ２がアクティブになり、制御回路３１１はこれに応答して、カウンタ３１１ａの値が８未満であれば（１）へ戻る。
【００５６】
カウンタ３１１ａの値が８になれば、転送制御回路２６１Ｃに対するＡＣＫ１をアクティブにして、ラッチ２６１Ｌがその後段からのデータを取り込めるようにさせる。
【００５７】
このような処理により、ノード２６１に保持されたアドレスＡＤＲのページアドレスＰＡで示される８ワードの記憶内容が順次メモリ行３１からラッチ４１１Ｌへ転送される。
【００５８】
制御回路３１１は、コマンドＣＭＤがライトを示していれば、ＳＥＮＤ２をインアクティブに維持した状態で、アドレスＡＤＲのページアドレスＰＡとワードアドレスＷＡとで指定されるワードメモリのクロック入力端ＣＫにパルスを供給して、ループ配線３１０上のデータをこのワードメモリに取り込ませ保持させ、次いでＡＣＫ１をアクティブにする。
【００５９】
このようなメモリアクセスを、メモリ行アレイ３０のうち最大３２個のメモリ行に対し同時に行うことが可能である。
【００６０】
リードパケットの場合、図１に戻って、合流路４０のどの入口ノードからでも、出口ノード４６１に到達する。すなわち、合流路４０では、経路選択に行先アドレスを用いる必要がない。合流路４０の各ノードでは、２入力のうち先に到達したデータを選択的に保持する。
【００６１】
図４は、束データ方式で合流路４０を構成した場合の第２段と第３段の一部である合流回路を示す概略ブロック図である。
【００６２】
第２段のノード４２１は、ラッチ４２１Ｌと転送制御回路４２１Ｃとを備え、第２段のノード４２２は、ラッチ４２２Ｌと転送制御回路４２２Ｃとインバータ４２２Ｇとを備え、第３段のノード４３１は、ラッチ４３１Ｌと転送制御回路４３１Ｃとを備えている。転送制御回路４２１Ｃ、４２２Ｃ及び４３１Ｃはそれぞれ、ラッチ４２１Ｌ、４２２Ｌ及び４３１Ｌ内の入力段ゲート開閉をハンドシェイクプロトコルで行うものであり、段間が縦続接続されている。
【００６３】
図４の回路は、図３の回路において信号の方向を逆にしたものになっている。但し、行き先アドレスのビットによる制御は行われていない。また、ラッチ４２１Ｌの出力とラッチ４２２Ｌの出力との衝突を避けるため、各ラッチは出力イネーブル制御入力端ＯＥを備え、転送制御回路４３１Ｃからラッチ４２１Ｌの出力イネーブル制御入力端ＯＥへ直接、ラッチ４２２Ｌにはインバータ４２２Ｇを介して出力イネーブル制御入力端ＯＥへ、制御信号が供給される。転送制御回路４３１Ｃは、転送制御回路４２１ＣからのＳＥＮＤ−ＩＮと転送制御回路４２２ＣからのＳＥＮＤ−ＩＮのうち先にアクティブになった方に対応するラッチの出力イネーブル制御入力端ＯＥを'１'にし、他方を'０'にする。
【００６４】
このような制御により、選択的（排他的）合流が行われる。
【００６５】
上記の如く構成されたメモリ１０において、入口ノード２１１にライトデータパケットを供給するとともに、入口ノード２１１へのＳＥＮＤ−ＩＮ信号をアクティブにさせると、その行先アドレスに応じ分流路２０内のパイプラインステージを順次流れてメモリ行アレイ３０に到達し、ライトデータパケット内のアドレスＡＤＲで指定されたワードに、ライトデータパケット内のデータＤＡＴＡが書き込まれる。
【００６６】
同様に、入口ノード２１１にリードパケットを供給するとともに、入口ノード２１１へのＳＥＮＤ−ＩＮ信号をアクティブにさせると、その行先アドレスＤＡに応じ分流路２０内のパイプラインステージを順次流れてメモリ行アレイ３０に到達し、リードパケット内のページアドレスＰＡで指定されたページのデータがワード単位で順次読み出され、行先アドレスＤＡの値とは無関係に、合流路４０内のパイプラインステージを順次通って出口ノード４６１に８ワード分のデータが到達する。
【００６７】
入口ノード２１１内のパケットがノード２２１又はノード２２２に転送されてＡＣＫ−ＯＵＴ信号がアクティブになると、次のパケットを入口ノード２１１に保持させることができる。また、次に供給するパケットの種類は、先に供給したパケットがリードパケットであるかライトデータパケットであるかによらず、任意である。
【００６８】
本実施例１のメモリ１０によれば、メモリ行アレイ３０を介してツリー形分流路２０及びツリー形合流路４０を配設するという簡単な構成で、集積配置されたメモリ行アレイ３０の任意の１行に対し、行き先アドレスを含むパケットを転送し、これに対応したパケットをツリー形合流路４０の出口ノード４６１から取り出すことができるという効果を奏する。
【００６９】
また、流路幅が比較的広い分流路２０の出口側及び合流路４０の入口側でパケットの混雑が避けられるので、メモリ行での処理の遅延が複数のメモリ行での分散並列処理により吸収され、ランダムアクセスのスループットが比較的高いという効果を奏する。
【００７０】
さらに、データ駆動型回路でプロセッサを構成した場合、非データ駆動型メモリを多数用いて並列度を上げるよりも１つのデータ駆動型メモリを用いた方が消費電力を大幅に低減できるので、特に長電池寿命が要求されるモバイル機器に用いて好適であるという効果を奏する。
【００７１】
なお、本実施例１ではページ単位でのリードについて説明したが、行単位、ワード単位又はバイト単位等でのアクセスであってもよいことは勿論である。この点は、以下の実施例においても同様である。
【実施例２】
【００７２】
図１のメモリ１０では、並列度が高いにもかかわらず入口ノード及び出口ノードがそれぞれ１つである点がボトルネックとなっている。図６は、この点を改良した本発明の実施例２のメモリ１０Ａを示す。
【００７３】
このメモリ１０Ａでは、分流路２０Ａに入口ノード２１２が追加され、入口ノード２１２の出力がノード２２１及び２２２Ａに供給されて、第２段のノード２２１Ａ及び２２２Ａが２合流・２分岐回路となっている。この合流は上述の選択型であり、例えばノード２２１Ａは、入口ノード２１１と２１２からのＳＥＮＤ−ＩＮのうち先にアクティブになったものに対応するデータを取り込んで保持する。この分流路２０Ａにおいても、図１の分流路２０と同様に、行先アドレスＤＡのみで定まる出口ノードへ到達する。したがって、ライトデータパケットについては新たな規則を設ける必要がない。
【００７４】
合流路４０Ａでは、出力段に出口ノード４６２を追加し、ノード４５１Ａ又はノード４６２Ａから出口ノード４６２へ転送可能にしている。ノード４５１Ａ及び４６２Ａはいずれも、２合流・２分岐回路である。
【００７５】
ここで、ノード４５１Ａから出口ノード４６１又は出口ノード４６２のいずれにデータを転送させるかの規則が必要になる。例えば、出口ノード４６１と４６２に優先順位を付け、両方がエンプティ（ＡＣＫ−ＩＮがアクティブ）である場合にはノード４５１Ａから優先順位の高いものの方へ転送させ、一方のみ空いている場合にはそちらへ転送させるように構成することもできる。
【００７６】
本実施例では、データ流を整然とさせるため、図７（Ａ）に示すように、パケット５０Ａに１ビットの系統ＣＨを追加し、この値が'０'のときはノード４５１Ａ又はノード４５２Ａから出口ノード４６２へ転送させ、'１'のときには、ノード４５１Ａ又はノード４５２Ａから出口ノード４６１へ転送させる。系統ＣＨの値は、リードパケットを入口ノード２１１と２１２とのいずれに供給するかにより定める。例えば、入口ノード２１２にパケットを供給するとき、系統ＣＨに'１'をセットし、入口ノード２１１に供給するとき、系統ＣＨに'０'をセットする。
【００７７】
このようにしてリードパケットを入口ノード２１１へ供給すると、メモリ行アレイ３０から読み出されるデータは必ず出口ノード４６１に到達し、リードパケットを入口ノード２１２へ供給すると、メモリ行アレイ３０から読み出されるデータは必ず出口ノード４６２に到達する。パケット経路は論理的対称性を有する。すなわち、メモリ行アレイ３０の列に関し分流路２０Ａと合流路４０Ａとでパケット経路が論理的に対称（第１の対称性）になる。また、互いに相補的な行先アドレス、例えば行先アドレス０１１０１１を有するパケットの経路と行先アドレス１００１００を有するパケットの経路とが、流路方向の軸に関し互いに、論理的に対称（第２の対称性）になる。本発明では、少なくとも第２の対称性を備えておればよい。
【００７８】
図７（Ｂ）は、系統ＣＨが'０'である場合に分流路２０Ａの第１及び第２段を通り得るリードパケットの経路と、読み出されたリードデータパケットが通り得る、合流路４０Ａの第５段及び第６段の経路とを示している。点線は系統ＣＨが'０'である場合を示し、実線は系統ＣＨが'１'である場合を示す。
【００７９】
リードパケットの行先は、系統ＣＨの値によらず、行先アドレスＤＡの値のみで定まる。例えば、系統ＣＨが'１'で行先アドレスＤＡの最上位ビットが'１'の場合、上述のように'１'で図７（Ｂ）の上側へ分岐し'０'で下側へ分岐すると定めると、入口ノード２１１に供給されたパケットはノード２２１Ａへ進む。
【００８０】
合流路４０Ａでは、第５段まで合流はあっても分岐がないので、系統ＣＨや行先アドレスＤＡの値と無関係に経路が一意的に定まり、前記の場合、リードデータパケットはノード４５１Ａに到達する。
【００８１】
系統ＣＨが'１'であるので、ノード４５１Ａから４６１Ａへ進む。行先アドレスＤＡの最上位ビットが'０'の場合についても同様にして、リードデータパケットは出口ノード４６１に到達する。すなわち、合流路４０Ａの第５〜６段での経路を系統ＣＨの値で定めると、メモリ行アレイ３０に関し分流路２０Ａと合流路４０Ａとで経路が対称になり、系統ＣＨが'１'の場合には必ず、分流路２０Ａの入口ノード２１１に対応した合流路４０Ａのノード４６１Ａに到達する。
【００８２】
他の点は上記第１実施例と同一である。
【００８３】
本実施例２によれば、上記のようなノードの追加及び変更により、メモリ１０Ａの入力ポート及び出力ポートの数が２倍になるので、スループットを大きく向上させることができるという効果を奏する。
【００８４】
また、２系統で、流路幅が比較的広い分流路２０Ａの後段及び合流路４０Ａの前段を共用するので、パフォーマンス低下を抑制しつつ通信路の規模に対する並列度を高くすることができるという効果を奏する。
【００８５】
さらに、パケット５０Ａに系統ＣＨを追加し、合流路４０Ａの出口側の合流・分岐回路で系統ＣＨの値に従って分岐させることにより、分流路２０Ａのどの入口ノードにリードパケットを供給すれば合流路４０Ａのどの出口ノードからリードデータパケットが得られるかが定まるので、合流路４０Ａから取り出されたデータの処理が容易になるという効果を奏する。
【実施例３】
【００８６】
図８は、入力ポート及び出力ポートの数を実施例２の場合の２倍にした、本発明の実施例３のメモリ１０Ｂを示す。
【００８７】
このメモリ１０Ｂでは、パケットの流れの方向の軸に関し構成が対称になるように、図６の構成にノードが追加されている。
【００８８】
すなわち、分流路２０Ｂの入力段に入口ノード２１３及び２１４が追加され、第２段にノード２２３Ａ及び２２４Ａが追加され、これらの間の接続が、ノード２１１及び２１２とノード２２１Ａ及び２２２Ａとの間の接続と同じになっている。また、分流路２０Ｂの第３段の各ノードも第２段と同様に２合流・２分岐回路にし、上記対称になるように第２段と第３段との間が接続されている。
【００８９】
分流路２０Ｂを流れるパケットの経路は、実施例２の場合と同様に、行先アドレスＤＡのみにより定まる。したがって、ライトデータパケットについては新たな規則を設ける必要がない。
【００９０】
合流路４０Ｂについても分流路２０Ｂと同様に、出力段にノード４６３Ａ及び４６４Ａが追加され、この後段にノード４５３Ａ及び４５４Ａが追加され、これらの間の接続が、ノード４６１Ａ及び４６２Ａとノード４５１Ａ及び４５２Ａとの間の接続と同じになっている。また、合流路４０Ｂのさらに後段（第４段）の各ノードも第５段と同様に２合流・２分岐回路にし、上記対称になるように第４段と第５段との間が接続されている。
【００９１】
図９（Ａ）は、パケット５０Ｂのフォーマットを示す。このパケット５０Ｂは、系統ＣＨが２ビットであり、他の点は図７（Ａ）と同一である。リードパケットの場合、パケットが入口ノード２１４〜２１１に供給されるとき、それぞれ系統ＣＨの値を０〜３とする。これにより、メモリ行アレイ３０から読み出されたリードデータパケットは、メモリ行アレイ３０に関し分流路２０Ｂでの経路と対称な経路を通ることになる。
【００９２】
図９（Ｂ）は、系統ＣＨが'０１'である場合に分流路２０Ｂの第１〜３段を通り得るリードパケットの経路と、読み出されたリードデータパケットが通り得る経路とを点線で示している。
【００９３】
リードパケットの行先は、上述のように、系統ＣＨの値によらず行先アドレスＤＡの値のみで定まる。例えば、行先アドレスＤＡの上位２ビットが'１１'の場合、上述のように'１'で図１１（Ｂ）の上側へ分岐し'０'で下側へ分岐すると定めると、最上位ビットが'１'であるので入口ノード２１３からノード２２３Ａへ進み、次のビットが'１'であるのでノード２２３Ａから２３１Ａへ進む。
【００９４】
合流路４０Ｂでは、第４段まで合流はあっても分岐がないので、系統ＣＨや行先アドレスＤＡの値と無関係に経路が一意的に定まり、前記の場合、リードデータパケットはノード４４１Ａに到達する。
【００９５】
系統ＣＨが'０１'であり、この第２ビットが'０'であるので、ノード４４１Ａから４５３Ａへ進む。次に、第１ビットが'１'であるのでノード４５３Ａから４６３Ａへ進む。行先アドレスＤＡの上位２ビットが他の場合についても同様にして、リードデータパケットはノード４６３Ａに到達する。すなわち、合流路４０Ｂの第４〜６段での経路を系統ＣＨの値で定めると、メモリ行アレイ３０に関し分流路２０Ｂと合流路４０Ｂとで経路が対称になり、系統ＣＨが'０１'の場合には必ず、分流路２０Ｂの入口ノード２１３に対応した合流路４０Ｂのノード４６３Ａに到達する。
【００９６】
図９（Ｃ）は、系統ＣＨが'１１'である場合に分流路２０Ｂの第１〜３段を通り得るリードパケットの経路と、読み出されたリードデータパケットが通り得る経路とを点線で示している。
【００９７】
本実施例３によれば、上記実施例２の構成を少し変えただけで上記実施例２で述べた効果がさらに高められる。
【００９８】
また、４系統で分流路２０Ｂの流路幅が比較的広い第４〜６段及び合流路４０Ｂの流路幅が比較的広い第１〜４段のノードを共用するので、パフォーマンス低下を抑制しつつ通信路の規模に対する並列度を高くすることができるという効果を奏する。
【実施例４】
【００９９】
図１０は、パイプライン段数を低減した、本発明の実施例４のメモリ１０Ｃを示す。
【０１００】
分流路２０Ｃでは、第３段の入力まで、図８の分流路２０Ｂのそれと同一である。分流路２０Ｂとの相違点は、第３段の各ノード及び第４段の各ノードの出力が４分岐となっている点である。これにより、分流路２０Ｂが６段パイプラインであるのに対し分流路２０Ｃは４段パイプラインとなる。合流路４０Ｃは、メモリ行アレイ３０に関し分流路２０Ｃと対称にし且つデータ流の方向を逆にした構成であり、４段パイプラインである。
【０１０１】
実施例３の場合と同様に、分流路２０Ｃでのパケットの経路は、入口ノードが決まると、パケットの経路は行先アドレスのみで定まり、合流路４０Ｄについては、選択的分岐出力を持つノードからのパケット経路は、系統により定まる。
【０１０２】
ノード入力端での合流の数が増えると、先着優先の選択的合流であるので、同一の合流ノードに転送されるパケット数が多くなると、転送待ちが生ずる。しかしながら、パケットが混雑していない時には、パイプライン段数が少ないので、レイテンシを短縮することができる。
【０１０３】
ライトパケットのようにメモリ行アレイ３０への書き込みが１ワードで完了する場合には分流路２０Ｃの出口ノードでの待ち時間が比較的短いので効果的である。これに対し、リードデータパケットは、メモリ行３１から８ワードのデータが順次読み出されるので、合流路４０Ｃの入力ノードにおいて、他のメモリ行３１から同一入口ノードへの待ち時間が比較的長くなる。これを避けるためには、合流路４０Ｃの代わりに合流路４０Ｂを用いればよい。すなわち、分流路２０Ｃと合流路４０Ｃとを組み合わせればよい。
【実施例５】
【０１０４】
図１１は、選択的合流ノードへの転送待ちを短縮した、本発明の実施例５の２ポート入力・２ポート出力型のメモリ１０Ｄを示す。
【０１０５】
図６の分流路２０Ａにおいて、選択的合流は第２段のノード２２１Ａ及び２２２Ａであり、第１段で待ちが生ずる。
【０１０６】
そこで、分流路２０Ｄでは、第２段において選択的合流が生じないように、第２段にノード２２３及び２２４を追加している。ノード２２３からノード２３１Ａ又は２３３Ａへ分岐して合流し、ノード２２４からノード２３５Ａ又は２３７Ａへ分岐して合流する。
【０１０７】
これにより、第３段の各ノードが選択的合流になるが、ノード数が４であるので、図６の分流路２０Ａの第１段でのパケット転送平均待ち時間よりも、分流路２０Ｄの第２段でのそれのほうが約半分になり、パケットの停滞を低減してスループットを向上させることができる。
【０１０８】
他の点は、実施例２と同一である。
【実施例６】
【０１０９】
図１２は、入力ポート及び出力ポートの数を実施例５の場合の２倍にした、本発明の実施例６のメモリ１０Ｅを示す。
【０１１０】
このメモリ１０Ｅでは、パケットの流れの方向の軸に関し構成が対称になるように、図１１の構成にノードが追加されている。
【０１１１】
すなわち、分流路２０Ｅの入力段に入口ノード２１３及び２１４が追加され、第２段にノード２２５〜２２８が追加され、第３段に１つおきにノード２３２Ａ、２３４Ａ、２３６Ａ及び２３８Ａが追加され、これらとノード２２５〜２２８との間の接続が、図１１の分流路２０Ｄの第２段と第３段との間の接続と同じ形になっている。また、分流路２０Ｅの第４段の各ノードも第３段と同様に２合流・２分岐回路にし、上記対称になるように第３段と第４段との間が接続されている。
【０１１２】
合流路４０Ｅは、メモリ行アレイ３０に関し分流路２０Ｅと対称にし且つデータ流の方向を逆にした構成である。
【０１１３】
実施例５の場合と同様に、分流路２０Ｅでのパケットの経路は、入口ノードが決まると、パケットの経路は行先アドレスのみで定まり、合流路４０Ｅについては、選択的分岐出力を持つノードからのパケット経路は、系統により定まる。
【０１１４】
本実施例６によれば、上記実施例５の構成を少し変えただけで上記実施例５で述べた効果がさらに高められる。
【実施例７】
【０１１５】
マルチＣＰＵにおいて、それぞれのＣＰＵが共有メモリに対するデータキャッシュメモリを持つと、コヒーレンシ（データの整合性）が保てなくなる。１つのデータキャッシュメモリに対し複数のＣＰＵが参照できる共有キャッシュによれば、コヒーレンシを保つことが可能となる。
【０１１６】
しかし、同期型の場合、複数のＣＰＵからのランダムな要求に対してもグローバルな同期をとる必要があるため、スループットが不充分となる。
【０１１７】
一方、非同期型パイプライン方式はスループットが高いが、パイプライン段数が増えるとレイテンシが増加してアクセスタイムが長くなるので、パイプライン方式は、通常のキャッシュメモリには向かない。
【０１１８】
しかし、マルチＣＰＵの場合、非同期型パイプライン方式を用いても、レイテンシ増加の欠点が相対的に隠蔽され、逆に多並列処理の利点が生きてくる。マルチコアＣＰＵについても同様である。
【０１１９】
図１３は、本発明が適用されたキャッシュメモリ６０の概略ブロック図である。このキャッシュメモリ６０は、プロセッサの内部に埋め込まれ又はプロセッサの外部に配置される。マルチＣＰＵでキャッシュメモリ６０を用いる場合には、パケットにＣＰＵ識別子を含ませる必要があるが、説明の簡単化のため、以下ではＣＰＵ識別子が無い場合を説明する。
【０１２０】
キャッシュメモリ６０には、実施例１のメモリ１０が配設され、このメモリ１０に対応してタグテーブル７０が配設されている。タグテーブル７０では、分流路７１の下流側にタグアレイ７２を介して合流路７３が接続されている。分流路７１及び合流路７３はそれぞれ、メモリ１０の分流路２０及び合流路４０と同一構成にすることができる。
【０１２１】
タグアレイ７２を構成するタグ行７２１の行数は、メモリ行アレイ３０のそれと同一である。リードパケット又はライトパケットは、キャッシュメモリ６０の外部から入出力部８０のインターフェイス８１を介して分流路７１に供給される。
【０１２２】
パケットのフォーマットが図２（Ｂ）のそれと異なる点は、アドレスＡＤＲにおいて上位側にタグアドレスＴＡが付加されている点と、ヒットビットＨＭが付加されている点である。メモリ１０の分流路２０に供給されるパケットのフォーマットは、分流路７１に供給されるパケットのそれと同一である。
【０１２３】
タグテーブル７０は、供給されるパケットに基づいて、外部メモリ上のタグアドレスＴＡ、行先アドレスＤＡ及びページアドレスＰＡで識別されるページのデータが、メモリ行アレイ３０内の行先アドレスＤＡで識別される行及びこの行内のページアドレスＰＡで識別されるページに格納されているかどうかを判定し、その結果に応じた処理を行うものである。
【０１２４】
タグテーブル７０は、供給されるパケットに含まれるタグアドレスＴＡの値が、行先アドレスＤＡで識別されるタグアレイ７２内の行及びこの行内のページアドレスＰＡで識別される列のＴＡＧに格納されているタグアドレスの値と一致するか否かでこの判定を行う。一致する場合にはヒットビットＨＭを'１'にセットし、そうでなければこれを'０'にセットして後述の追い出し／ライトバック／更新処理を行う。
【０１２５】
図１４は、タグアレイ７２内の隣り合うタグ行７２１と７２２との構成を示す概略ブロック図である。
【０１２６】
タグ行７２１及び７２２は、ノード７１１とノード７３１との間に接続されている。ノード７１１は、タグ行７２１及び７２２に対応する分流路７１の出口ノードであり、ノード７３１は、タグ行７２１及び７２２に対応する合流路７３の入口ノードである。
【０１２７】
タグ行７２１及び７２２は、ループ配線７４０を備え、これがラッチ７１１Ｌのデータ出力端及びラッチ７３１Ｌのデータ入力端に接続されている。ループ配線７４０は、コマンドＣＭＤ、ヒットビットＨＭ及びページアドレスＰＡ以外の信号線である。すなわち、コマンドＣＭＤ、ヒットビットＨＭ及びページアドレスＰＡ以外は、ラッチ７１１Ｌからラッチ７３１Ｌへ直接伝達される。ループ配線７４０に含まれるタグアドレス（ＴＡ）信号線は、タグ行７２１の構成要素であるコンパレータ７６０〜７６３の一方の入力端に接続され、タグ行７２２についても同様である。
【０１２８】
転送制御回路７１１Ｃと転送制御回路７３１Ｃとの間には、制御回路７４１が接続されている。タグ行７２１は、第０〜３ページに対応したページ情報記憶部７５０〜７５３を備え、これらはいずれも、タグＴＡＧ、バリッドビットＶ、ダーティビットＤ、ロックビットＬ及びカウンタＣＮＴを備えている。
【０１２９】
ページ情報記憶部７５０〜７５３のタグＴＡＧの内容はそれぞれ、コンパレータ７６０〜７６３の他方の入力端に供給される。コンパレータ７６０〜７６３は、いずれも２入力が互いに一致するときのみ'１'を出力する。コンパレータ７６０〜７６３の出力は、一方ではオアゲート７６４に供給されてヒットビットＨＭが生成され、他方ではエンコーダ７６５に供給されてページアドレスＰＡ１が生成される。
【０１３０】
マルチプレクサ７６６には、タグ行７２１のページアドレスＰＡ１及びヒットビットＨＭ１、これらに対応するタグ行７２２のページアドレスＰＡ２及びヒットビットＨＭ２、並びに制御回路７４１からのページアドレスＰＡ及びヒットビットＨＭが供給され、制御回路７４１からの選択制御信号によりこれらのうちの1組が選択されて、ラッチ７３１Ｌの対応するデータ入力端に供給される。ヒットビットＨＭ１及びＨＭ２は、制御回路７４１にも供給される。制御回路７４１にはさらに、ラッチ７１１Ｌから行先アドレスＤＡのビットＤＡ０、ページアドレスＰＡ、タグアドレスＴＡ及びコマンドＣＭＤが供給される。
【０１３１】
制御回路７４１は、ビットＤＡ０が'１'のときタグ行７２１側を有効にしてタグ行７２２側を無効にし、'０'のときこの逆にする。以下においてはビットＤＡ０が'１'である場合を説明する。
【０１３２】
ここで、図１３のノード７７は、次のような規則で、合流路７３からのパケットを分岐転送させる。
【０１３３】
（Ｒ）コマンドＣＭＤがリードコマンド又はライトコマンドでヒットビットＨＭが'１'、又は追い出しコマンドの場合、合流路７３からのパケットをメモリ１０の分流路２０側へ転送させ、その他の場合、すなわち更新コマンド又は外部メモリへの書込コマンドの場合には、このパケットを入出力部８０のノード８２側へ転送させる。
【０１３４】
制御回路７４１は、転送制御回路７１１ＣからのＳＥＮＤ３がアクティブであり且つ転送制御回路７３１ＣからのＡＣＫ４がアクティブであると、ビットＤＡ０が'１'であればタグ行７２１側の回路の出力を有効にしタグ行７２２側の回路の出力を無効にして、後述の制御を行った後、次のような後処理を行う。
【０１３５】
（Ａ）制御回路７４１は、ラッチ７３１Ｌの入力データが確定したと考えられる時間経過後に、転送制御回路７３１ＣへのＳＥＮＤ４をアクティブにする。転送制御回路７３１Ｃはこれに応答して、転送制御回路７３１Ｃの前段からのＡＣＫがアクティブであれば、ラッチ７３１Ｌのクロック入力端ＣＫにパルスを供給して入力データをラッチ７３１Ｌに取り込ませ保持させ、ＡＣＫ４をインアクティブにする。制御回路７４１はこれに応答してＳＥＮＤ４をインアクティブにする。制御回路７４１は次いで、ＡＣＫ３をアクティブにして、ラッチ７１１Ｌがその後段からのデータを取り込めるようにさせる。
【０１３６】
制御回路７４１は、コマンドＣＭＤがリードを示していれば、転送制御回路７１１Ｃに対するＡＣＫ３をインアクティブに維持した状態で、次のような制御を行う。
【０１３７】
（ａ）リードでキャッシュヒット
制御回路７４１は、オアゲート７６４の出力が確定していると考えられる所定時間経過後にヒットビットＨＭ１が'１'であれば、一方ではマルチプレクサ７６６に対し、ページアドレスＰＡ１とヒットビットＨＭ１との組を選択させ、ラッチ７１１ＬからのコマンドＣＭＤをそのままノード７３１へ供給し、他方ではページアドレスＰＡ１＝ｉに対応したページ情報記憶部７５ｉのカウンタＣＮＴをインクリメントする。但し、カウンタＣＮＴは、その値が最大値になるとインクリメントされない。
【０１３８】
制御回路７４１は、次いで上記後処理（Ａ）を行う。パケットは、合流路７３を通って図１３のノード７７へ転送される。ノード７７では、上記規則（Ｒ）によりメモリ１０側へ転送され、対応する１ページ分のデータが合流路４０から読み出されて、これが入出力部８０のノード８２を介しインターフェイス８１に供給され、インターフェイス８１からＣＰＵ側へ出力される。
【０１３９】
（ｂ）リードでキャッシュミスヒット且つページ内でＶ＝'０'有り
制御回路７４１は、ヒットビットＨＭ１が'０'、且つ、ページ情報記憶部７５０〜７５３のいずれかのバリッドビットＶが'０'（未使用）であれば、このバリッドビットＶが属するタグＴＡＧをこのパケットのタグアドレスＴＡで書き換え、コマンドＣＭＤを更新コマンドにし、このバリッドビットＶが属するページ情報７５ｉ（ｉは０〜３のいずれか）のｉをページアドレスＰＡとし、これとＨＭ＝'０'をマルチプレクサ７６６に供給するとともに、マルチプレクサ７６６に対しこれらＰＡとＨＭとの組を選択させ、次いで上記（Ａ）の後処理を行う。
【０１４０】
上記規則（Ｒ）により、更新コマンドのパケットはノード７７、８２及びインターフェイス８１を介し外部メモリコントローラ側へ供給され、外部メモリから、このパケットのタグアドレスＴＡ及びページアドレスＰＡで指定される１ページ分のデータがバーストモードで読み出される。
【０１４１】
このデータは、一方ではリード要求を行ったＣＰＵへ供給され、他方ではワード単位でインターフェイス８１へ供給される。インターフェイス８１では、前記更新パケットがこのデータの到着を待機しており、図１５に示すように、この更新パケットのデータフィールドに１ワードのデータが書き込まれ、そのコピーが分流路７１へ供給される。２回目以降は、更新パケット内のワードアドレスＷＡが１だけインクリメントされて同様の処理が、ＷＡ＝'１１'になるまで繰り返される。
【０１４２】
タグアレイ７２では、図１４において、次のような処理が行われる。制御回路７４１は、コマンドＣＭＤが更新コマンドである場合、ライトを示すコマンドＣＭＤをラッチ７３１Ｌに供給するとともに、バリッドビットＶが'０'であればこれを'１'にし、ロックビットＬを'１'にし、次いで上記（Ａ）の後処理を行う。
【０１４３】
上記規則（Ｒ）により、ライトコマンドのパケットはノード７７からメモリ１０へ分岐し、アドレスに応じた場所に１ワードのデータが順次書き込まれる。
【０１４４】
（ｃ）リードでキャッシュミスヒット且つページ内で全てＶ＝'１'
制御回路７４１は、ヒットビットＨＭ１が'０'、且つ、ページ情報記憶部７５０〜７５３のいずれのバリッドビットＶも'１'であれば、次のようにして追い出しページを決定する。
【０１４５】
すなわち、ページ情報記憶部７５０〜７５３のカウンタＣＮＴのうち、ロックビットＬが'０'であるカウンタＣＮＴの最小値がどれであるかを決定し、このカウンタＣＮＴが属するページ情報７５ｉ（ｉは０〜３のいずれか）のｉを追い出し／更新ページｉと決定する。ロックビットＬが'０'であることを追い出し／更新ページ決定対象の条件とすることにより、Ｌ＝'１'且つＶ＝'１'であればタグＴＡＧの書き換えが禁止される。
【０１４６】
制御回路７４１は次いで、ダーティビットＤが'１'であれば、追い出しを示すコマンドＣＭＤをラッチ７３１Ｌに供給し、ＰＡ＝ｉ及びＨＭ＝'１'をマルチプレクサ７６６に供給し、マルチプレクサ７６６にこの組を選択させる。次いで上記（Ａ）の後処理を行う。
【０１４７】
上記規則（Ｒ）により、パケットはノード７７を介しメモリ１０側へ転送され、リードコマンドの場合と同じ処理が行われて、対応する１ページ分のデータがワード単位で合流路４０から読み出され、ノード７７、入出力部８０のノード８２及びインターフェイス８１を介し外部メモリコントローラ側へ供給される。これにより、外部メモリ内の、パケットのタグアドレスＴＡ及びページアドレスＰＡで指定されるページに、データがライトバックされる。
【０１４８】
制御回路７４１は、ダーティビットＤが'０'である場合、又は、ダーティビットＤが'１'で上記追い出しコマンドのパケットをラッチ７３１Ｌへ転送する直前又は直後に、ラッチ７１１ＬからのタグアドレスＴＡをページ情報７５ｉのタグＴＡＧに書き込み、ロックビットＬを'１'にし、該転送の直後に、更新を示すコマンドＣＭＤをラッチ７３１Ｌに供給し、上記（２Ｒ）で述べた更新コマンドのパケット生成処理を行う。
【０１４９】
したがって、ダーティビットＤが'１'の場合、タグ行７２１から追い出しコマンドのパケットが出力された後直ぐに、更新コマンドのパケットが出力され、その後、追い出し処理と更新処理とが並列して行われる。
【０１５０】
制御回路７４１は、コマンドＣＭＤがライトを示していれば、転送制御回路７１１Ｃに対するＡＣＫ３をインアクティブに維持した状態で、次のような制御を行う。
【０１５１】
（ｄ）ライトでキャッシュヒット
制御回路７４１は、オアゲート７６４の出力が確定していると考えられる所定時間経過後にヒットビットＨＭ１が'１'であれば、一方ではマルチプレクサ７６６に対し、ページアドレスＰＡ１とヒットビットＨＭ１との組を選択させ、ラッチ７１１ＬからのコマンドＣＭＤをそのままノード７３１へ供給し、他方ではカウンタＣＮＴをインクリメントし、ダーティビットＤに'１'をセットする。次いで上記（Ａ）の後処理を行う。上記規則（Ｒ）により、パケットはノード７７を介しメモリ１０側へ転送され、パケット内の行先アドレスＤＡ、ページアドレスＰＡ及びワードアドレスＷＡで指定されるワードメモリにパケット内のデータＤＡＴＡが書き込まれる。
【０１５２】
（ｂ）ライトでキャッシュミスヒット
制御回路７４１は、ヒットビットＨＭ１が'０'であれば、メモリへの書き込みを示すコマンドＣＭＤをラッチ７３１Ｌに供給し、ヒットビットＨＭ＝'０'及びラッチ７１１ＬからのページアドレスＰＡをマルチプレクサ７６６に供給し、マルチプレクサ７６６にこの組を選択させる。次いで上記（Ａ）の後処理を行う。上記規則（Ｒ）により、パケットはノード７７、入出力部８０のノード８２及びインターフェイス８１を介し外部メモリコントローラ側へ供給され、外部メモリ内の、パケットのタグアドレスＴＡ及びページアドレスＰＡで指定されるページに、パケット内のデータＤＡＴＡが書き込まれる。
【０１５３】
本実施例７のキャッシュメモリ６０によれば、メモリ１０及びタグテーブル７０内の各パイプライン段及びノード７７、インターフェイス８１及びノード８２にパケットが分散しそれぞれのノードでローカルな同期をとってパイプライン処理を行うことができるので、複数のヒットと複数のミスヒットとに対する処理を同時に並列に行うことができ、スループットが高く、しかも構成が比較的簡単であるので、特に、同期型マルチＣＰＵやデータ駆動型処理装置に用いて好適である。
【実施例８】
【０１５４】
図１６は、本発明の実施例８のキャッシュメモリ６０Ａを示す概略ブロック図である。
【０１５５】
このキャッシュメモリ６０Ａでは、図１３のメモリ１０及びタグテーブル７０の代わりに、４系統のメモリ１０Ａ及びタグテーブル７０Ａが配設されている。これに対応して、図１３のノード７７の代わりに、ノード７７１〜７７４が配設され、図１３の入出力部８０の代わりに、入出力部８０と同一構成の入出力部８０１〜８０４が配設されている。
【０１５６】
キャッシュメモリ６０Ａの動作は、以上の説明から容易に理解できるので、これを省略する。
【０１５７】
本実施例８のキャッシュメモリ６０Ａによれば、系統が実施例７の場合の４倍になるので、スループットが高く、上記実施例で述べた効果が高くなる。しかも、各系統について、メモリ１０Ａ内及びタグテーブル７０Ａ内において第１〜４系統で共用されるノードが多く且つメモリ行アレイ３０及びタグアレイ７２が各系統で共用されるので、資源を有効利用できるとともに、構成の複雑化が避けられ、しかも、流路幅の比較的広い部分で共用されるので、パケットの混雑によるスループット低下が抑制されるという効果を奏する。
【実施例９】
【０１５８】
ＣＰＵでは一般に、２つのオペランドに対して処理を行う命令が多数有る。パイプライン段数が多いとレイテンシが長くなるが、１つのＣＰＵコアで時分割ｎ並列処理を行う場合、同期型では、切替時間がゼロであると仮定しても各処理の速度が１／ｎとなるので、例えばサーバーコンピュータのように並列度が高い場合には、非同期型の方が有利となる。
【０１５９】
図１７は、本発明が適用された実施例９の、このような用途に用いて好適なプロセッサの一部であるデータ処理部１０ＡＰを示す概略ブロック図である。
【０１６０】
この図に太線で示すように、合流路４０ＡＰのどの出口ノードにパケットが到達するかは系統値のみにより定まるので、同一系統に複数のパケットを連続して分流路２０Ａの入口ノードに供給することにより、これに対応したデータパケットを複数、合流路４０ＡＰの同一出口ノードに集めることができる。すなわち、系統値を同一にすることにより、出口ノードで複数のパケットの待ち合わせを自動的に行うことができる。
【０１６１】
そこで、合流路４０ＡＰでは、出口ノード４６１ＡＰ〜４６４ＡＰのそれぞれに、処理要素を備えている。各処理要素での処理内容は、同一であっても、系統値により定まるものであってもよい。処理要素は、高機能であっても低機能であってもよい。３０Ｒは、レジスタファイルとして用いられる。レジスタファイル３０Ｒを、これら処理要素で共有する領域と個々に専用する領域とに、自由に分割することができる。
【０１６２】
図１８（Ａ）は、コマンドＣＭＤを含む第１オペランドパケットＰ１と、第２オペランドパケットＰ２とを順次入口ノード２１１に投入したときに、これらに対応したパケットＰ１Ａ及びＰ２Ａがノード４６１Ｐに到達し、その処理要素により結果パケットＰ３が得られる場合を示している。第１オペランドパケットＰ１又は／及び第２オペランドパケットＰ２は、順次供給される複数のパケットであってもよい。
【０１６３】
このパケットＰ３が、図１８（Ｂ）に示すパケットＰ１Ｎ及びＰ２Ｎのように、次のステップのパケットＰ１とＰ２とに対応したものである場合、これらを、ノード４７を介し入口ノード２１１にフィードバックさせることにより、処理を連続的に高速に行うことができる。ノード４７は、ノード４６１Ｐが出力したパケットＰ１Ｎに基づいて、処理が完了したか否かを判定し、肯定判定した場合には結果を出力し、パケットに含まれる処理モード（又はＣＭＤ）に基づいて、処理を打ち切り又は継続する。
【０１６４】
分流路２０Ａは、デコーダとして機能するとともに、キューとしても機能する。また、合流路４０ＡＰの出口ノード以外のノードは、同一系統の処理要素へパケットを集配するとともに、キューとしても機能する。したがって、入口ノード２１１〜２１４にパケットが不定期に供給され、且つ、その平均時間が出口ノード４６１ＡＰ〜４６４ＡＰに備えられた処理要素の処理時間にほぼ等しい場合には、データ処理部１０ＡＰの外部にキューを設けることなく、効率よく処理を行うことができる。この平均時間は、入口ノード２１１〜２１４にパケットを供給する回路又は装置の並列度を調整することにより、適正な値に変更可能である。
【０１６５】
また、１つのリードパケットに対しレジスタファイル３０Ｒから複数パケットが読み出される場合にも、合流路４０ＡＰの出口ノード以外のノードはこれらに対するキューとして機能し、キューを新たに設けることなく、効率よく処理を行うことができる。
【０１６６】
したがって、データ処理部１０ＡＰ内の段数が比較的多くても、逆に利点となる場合がある。
【０１６７】
並列度が高いと多数のデータを同時に使用するが、本実施例９のデータ処理部１０ＡＰによれば、比較的多数のレジスタを複数の処理要素において選択的に利用でき、かつ、実施例１で述べたように高スループットでランダムアクセスができるので、効率よく処理を行うことができるという効果を奏する。
【０１６８】
また、従来ではＦＩＦＯメモリ、ハッシュメモリ、連想メモリ、演算部及び制御部等を備えたマッチングメモリで同一カラーのパケットを待ち合わせて処理要素で処理を行っていたので、構成が複雑であるとともに、処理が遅延してスループットが低下する原因となっていたが、本実施例９では、パケットペアが連続して合流するのでマッチングメモリを用いる必要が無く、構成が簡単になるとともにスループットが高くなるという効果を奏する。
【実施例１０】
【０１６９】
図１８（Ａ）において、パケットＰ１に対しレジスタファイル３０Ｒから読み出されるデータが例えば上述のリードパケットのように８ワードである場合、通信路でデータが混雑する。この場合、演算結果のパケット数が少なければその下流側のデータ混雑度を低減することができる。
【０１７０】
そこで、本発明のプロセッサのデータ処理部１０ＢＰでは、図１９において、合流路４０ＢＰの各ノードに処理要素を備え、パケットＰ１とＰ２（図１８）とが合流路４０ＢＰ上で合流したノードにおいて演算を行い、その結果を下流側に転送させる。
【０１７１】
図１９に示す太線は、第１系統と第４系統でのパケットペアの経路を示す。これら経路は、行先アドレスＤＡと系統ＣＨとで定まる。レジスタファイル３０Ｒに関し分流路２０Ａ上の経路と合流路４０ＢＰ上の経路とが論理的に対称になるように系統ＣＨを定めれば、行先アドレスＤＡのみで合流路４０ＡＰ上の合流点が定まる。この合流点に対応する分流路２０Ａ上の分岐点は、パケットペアの行先アドレスＤＡの最上位ビットからの一致ビット数により定まる。
【０１７２】
例えば図１９の上側のパケットペア経路Ｔ１及びＴ２の行先アドレスビットＤＡ１及びＤＡ２の一致部は、図２０（Ａ）に示すように上位２ビットの'１０'である。一致ビット数をｉで表すと、分流路２０Ａ上の第（ｉ＋１）段でパケットペアが分岐し、合流路４０ＡＰ上の第（６−ｉ）段でパケットペアが合流する。
【０１７３】
パケット合流段識別子を、図１９中に示すように上記ｉの値で表し、合流路４０ＡＰ上の各ノードに、固定した合流段識別子の値を持たせ、これがパケットペアの合流段識別子ＭＡと一致する場合、そのノードの処理要素でパケットペアに対する処理を行う。図２０（Ｂ）は、合流段識別子ＭＡを含むパケットのフォーマットを示す。図１９中に示すように、後の実施例で用いる分流路２０Ａ上での分岐段ＩＤも、上記ｉの値で表す。
【０１７４】
合流段識別子ＭＡの決定は、分流路２０Ａの後段側のノード２０１〜２０４において行う。図１８（Ｂ）に示すようにループを構成する場合には、ノード２０１〜２０４の配設位置は、合流路４０ＡＰの下流側であってもよい。
【０１７５】
図２１は、ノード２０１の構成を示す概略ブロック図である。
【０１７６】
このノード２０１は、ラッチ２０１Ｌと転送制御回路２０１Ｃとの基本構成のほかに、パケットペア判定部２０１Ｐと合流段ＩＤ決定部２０１Ｆとを備えている。
【０１７７】
パケットペア判定部２０１Ｐは、ラッチ２０１Ｌの出力及びその後段のデータ出力が確定している場合、すなわちノード２０１から出力されるＳＥＮＤ２及び転送制御回路２０１Ｃに供給されるＳＥＮＤ１が同時にアクティブである場合、ラッチ２０１Ｌの下流側及び上流側のパケットに含まれるパケットタイプＰＴ（図２０（Ｂ））がそれぞれ第１オペランドパケット及び第２オペランドパケットであることを示していれば、パケットペアであると判定する。
【０１７８】
合流段ＩＤ決定部２０１Ｆは、この判定に応答して、両パケットの行先アドレスＤＡに基づき、上述のようにして合流段識別子ＭＡを決定し、これを下流側ラッチに供給することにより、合流段識別子ＭＡを図１９のノード２１１のラッチに取り込ませ保持させる。
【実施例１１】
【０１７９】
リードパケットのペア（第１オペランドパケット及び第２オペランドパケット）に対し、第１パケットに含まれるコマンドに応じた処理を行う場合、それぞれのリードパケットは、図１９の分流路２０Ａにおいて、図２０（Ｂ）に示すデータフィールドデータＤＡＴＡが空きになっている。一方、分流路２０Ｂでは入口ノード側の流路幅が比較的狭いので、パケット数が多いと混雑し易い。また、パケットペアを順次分流路２０Ｂに供給しても、合流ノードでは先着優先であるので、パケットペア間に他のパケットが割り込むことが考えられる。
【０１８０】
そこで、リードパケットのペアを、図２２（Ａ）に示すように１パケットに圧縮する。図中、アドレスＡＤＲ１及びＡＤＲ２は、それぞれ第１オペランドアドレス及び第２オペランドアドレスである。これらの上位側ビットは、行先アドレスＤＡ１及びＤＡ２を除き、圧縮前の第１及び第２オペランドパケットに共通のフィールドであり、これにより圧縮率が高くなる。
【０１８１】
図２２（Ａ）において、アドレスＡＤＲ１及びＡＤＲ２の上位ビットである行先アドレスＤＡ１及びＤＡ２がそれぞれページアドレスＰＡ１及びＰＡ２から離れた位置にあるのは、パケットをその先頭側の通信路層制御データとそれ以外の機能モジュール層データとに分けた為である。通信路層制御データは通信路のみで用いられ、機能モジュール層データは、機能モジュールとしてのレジスタファイル３０Ｒ、及び合流路４０ＢＰ上の各ノードに含まれる処理要素で用いられる。圧縮パケットの行先アドレスはＤＡ１とＤＡ２の上位側一致ビットであるので、これらの一方のみでよいが、上述のノード２０１〜２０４で用いられるので、両方とも通信路層制御データとしている。
【０１８２】
ここで、アドレスＡＤＲ１とＡＤＲ２とは、行先アドレスＤＡが一般に異なるので、図１９において、分流路２０Ａ上のパケット経路Ｔ１及びＴ２の分岐点で、圧縮パケットをパケットペアに伸張する必要がある。どの段で分岐するかは、上述のようにノード２０１〜２０４で決定される合流段識別子ＭＡ（＝分岐段識別子）の値により定まる。
【０１８３】
そこで、分流路２０Ａの各ノードに、圧縮パケットをパケットペアに伸張する機能を備え、そのノードに、固定の分岐段識別子を割り当てておき、パケット内の合流段識別子ＭＡ（＝分岐段識別子）の値が該ノードの分岐段識別子に一致したときに、圧縮パケットをパケットペアに伸張する。
【０１８４】
図２２（Ａ）の圧縮パケット５０Ｄをパケットペアに伸張したパケット５０Ｅ及び５０Ｆをそれぞれ図２２（Ｂ）及び（Ｃ）に示す。パケット５０Ｅは、パケット５０Ｄをそのまま用いることができる。したがって、最初はパケット５０Ｄをコピーしたものをパケット５０Ｅとして次段へ転送させる。次いで、パケット５０Ｄ内の行先アドレスビットＤＡ１、ページアドレスＰＡ１及びワードアドレスＷＡ１をそれぞれ行先アドレスビットＤＡ２、ページアドレスＰＡ２及びワードアドレスＷＡ２に書き換えてこれをパケット５０Ｆとし、次段へ転送させる。
【０１８５】
次に、レジスタファイル３０Ｒから１ページ分読み出したリードデータパケット及びレジスタファイル３０Ｒへの１ページ分のライトパケットについては、いずれも先頭パケットのフォーマットをパケット５０Ｅと同一にし、これに、図２２（Ｄ）に示すフォーマットのパケット５０Ｇを８個連接させる。そして、パケット５０Ｅの軌跡に沿ってパケット５０Ｇを転送させ、その各ノードで行き先方向を切り替えないことにより、転送中に他のパケットに割り込まれないようにして、これら９パケットを連続させる。
【０１８６】
このような転送を可能にするために、一方では、各パケットに１ビットの連接ビットＣＮを備える。連接ビットＣＮが'１'のとき、これに後続するパケットが有ることを示し、'０'のとき、無いことを示す。図２３（Ａ）及び（Ｂ）はそれぞれ、パケットタイプＰＴが'０'の先頭パケットである第１オペランドパケット（レジスタファイル３０Ｒ内でコピーされた第１オペランドパケット）及びこれに続く、読み出された８ワードのリードデータパケットを示す。図２３（Ｃ）及び（Ｄ）はそれぞれ、パケットタイプＰＴが'１'の先頭パケットである第２オペランドパケット（レジスタファイル３０Ｒ内でコピーされた第２オペランドパケット）及びこれに続く、読み出された８ワードのリードデータパケットを示す。
【０１８７】
なお、順序ビットＯＤの値は、分流路４０ＢＰを出た後に順序維持を必要とするか否かにより、機能エレメントアレイ３０Ｒにおいて決定される。
【０１８８】
他方では、合流路４０ＢＰ上の各ノードに、連接ビットＣＮに対応したフリップフロップ（ノード側連接ビット）を備えておき、このフリップフロップの状態を次のように制御する。
【０１８９】
図２５は、合流路４０ＢＰ上の入口ノード及び出口ノード以外の任意の合流ノードＮ１のノード側連接ビットＦ１に対する状態制御回路４７とこれに関連する要素を示すブロック図である。合流ノードＮ１の後段のノードＮ０１及びＮ０２並びに前段のノードＮ２のフリップフロップをそれぞれＦ０１、Ｆ０２及びＦ０３と表記する。
【０１９０】
合流ノードＮ１は、フリップフロップＦ０１が'１'であれば先着優先の例外として、ノードＮ０１からのパケットを優先的に選択してラッチし、フリップフロップＦ０２が'１'であれば先着優先の例外として、ノードＮ０２からのパケットを優先的に選択してラッチする。
【０１９１】
状態制御回路４７は以下のようにノード側連接ビットＦ１の状態を制御し、これにより、フリップフロップＦ０１及びＦ０２のうち一方が先に'１'になっているときに他方が後から'１'にならないようにする。
【０１９２】
（１）状態制御回路４７は、フリップフロップＦ２が'０'であり、ノードＮ１がラッチしたパケットの連接ビットＣＮが'１'である場合、フリップフロップＦ１を'１'にする。
【０１９３】
（２）状態制御回路４７は、ノードＮ１がラッチしたパケットの連接ビットＣＮが'０'であれば、フリップフロップＦ０１及びＦ０２を'０'にする。
【０１９４】
（３）状態制御回路４７は、ノードＮ１がラッチしたパケットの連接ビットＣＮが'０'であり、ノードＮ１の合流段識別子がノードＮ１に保持されているパケットの合流段識別子ＭＡに一致していれば、フリップフロップＦ１を'０'にする。
【０１９５】
合流路４０ＢＰ上の入口ノードのフリップフロップＦ１に対する状態制御回路４７は、上記（１）及び（３）のみの処理を行う。合流路４０ＢＰ上の出口ノードのフリップフロップＦ１に対する状態制御回路４７は、上記（２）及び（３）の処理を行い、上記（１）について、フリップフロップＦ２が'０'であるとみなした処理を行う。
【０１９６】
図２４は、このようにしてセットされたフリップフロップをノード上の'１'で示す。
【０１９７】
各処理要素は処理対象である９ワード×２のパケットを保持するキューを備えており、上述の制御により、２組の連接パケットの合流ノードでは、先着優先によりフリップフロップが先に'１'になった方のノードからの９パケットを連続して取り込み保持し、次いで他方のノードのフリップフロップが'１'になって、このノードからの９パケットを連続して取り込み保持することができ、２組の連接パケットの一方が他方に混入したり他のパケットが連接パケットに混入したりするのを防止することができる。
【０１９８】
すなわち、第１オペランドの９パケットと第２オペランドの９パケットとがそれぞれ連接したものとなり、かつ、両者間が連接したものとなり、これらが処理要素に保持されて処理される。この処理要素で、処理結果が第１オペランドパケットと第２オペランドパケットとの２個になるとすると、処理結果を上述のように圧縮して１パケット化することにより、後流側でのパケットの混雑を避けるとともに、パケットに割り込みが生じないようにすることができる。
【０１９９】
分流路２０Ａ上の９連接ライトパケットに関しても、リードデータパケットの場合と同様にして、フリップフロップが'１'のノードを通ってデータパケットを転送させる。この場合、分流ノードでは連接パケットへの割り込みが生じないので、その状態制御回路は上記合流ノードのそれよりも簡単になる。なお、ライトパケットに関しては、パケット間の演算を行わないので、連接ビットを用いずに、図２２（Ｂ）の下位１１ビットを３２ビットに変更し、パケット単位でライト処理を行うようにしてもよい。
【実施例１２】
【０２００】
連接パケットに関しては、上記構成により連接パケット内でその順序が保たれる。
【０２０１】
しかしながら、シングルパケット同士、連接パケット同士及びシングルパケットと連接パケットとの間では、先着優先であるので、同一系統であっても場所によるパケットの混み具合により、合流路の出力ノードでのパケット順序が分流路の入力ノードでのパケット順序と同一になるとは限らない。異なる系統間では、分流路の入り口ノード及び合流路の出口ノードでパケットの系統値がノード位置で定まるので、パケット順序は問題とならない。
【０２０２】
次に、同一系統内でパケット順序が保たれている場合を、本発明の実施例１２として説明する。
【０２０３】
図２６（Ａ）〜（Ｃ）及び図２７（Ａ）、（Ｂ）において、○印はパケットを示し、○印内の符号はパケットＩＤを示し、矢印はパケットの進む方向を示している。同じ符号のパケットは、同一パケットではなく、互いに対応していることを示している。パケットＩＤは、例えば処理対象のストリームＩＤである。簡単化のため、これらの図では１系統のみを示している。
【０２０４】
データ駆動型処理回路では、一般に上述のように、互いに異なる処理対象のパケットを同一ループ内の各パイプラインステージで分散並列処理することができる。
【０２０５】
図２６（Ａ）に示すように、ループ１００上の部分１０１で処理ＰＲ１を行い、次いでループ１００上の部分１０２で処理ＰＲ２を行う場合を考える。ループ１０１は、例えば図２８に示すような構成の１系統分を含んでいてもよい。
【０２０６】
処理ＰＲ１の結果を処理ＰＲ２で用い又は処理ＰＲ２の結果を処理ＰＲ１で用いる場合に、図２６（Ｂ）に示すように、ループ１００を処理ＰＲ１のループ１０１Ａと処理ＰＲ２のループ１０２Ｂとに分割し、これらを結合ノード１０３で結合し、結合ノード１０３で、対応するパケット同士を待ち合わせて少なくとも一方から他方へ情報を伝達することにより、処理ＰＲ１とＰＲ２とで、少なくとも一方の処理結果を他方で利用する。
【０２０７】
これにより、図２６（Ａ）の１直列処理が２並列処理となり、ループのパイプライン段数が低減するので、結合ノード１０３での待ち合わせ時間が短ければ、スループットが向上する。
【０２０８】
例えばループ１０１Ａ上のパケット６が結合ノード１０３にラッチされたとき、これに対応したループ１０２Ａ上のパケット６が直ぐに結合ノード１０３に到達すれば、その結果を受け取って次のノードへ直ぐに移動できる。
【０２０９】
しかし、例えばループ１０１Ａ上のパケット５がパケット６を追い越し、これが、対応するループ１０２Ａ上のパケット５と待ち合わせてその結果を取得し、結合ノード１０３から離れた後に、ループ１０１Ａ上のパケット６が結合ノード１０３でラッチされると、ループ１０２Ａ上のパケット６は結合ノード１０３を通過した後なので、その結果を用いることができなくなる。
【０２１０】
これを避けるためにパケットを一時記憶させてそこからパケットの内容を取得するようにすると、処理が遅延するとともに、順次比較によりＩＤが一致するパケットを検索しなければならないので、構成が複雑になるとともに処理時間が長くなり、２並列化の意味がなくなる。
【０２１１】
もし、パケットの順番が保たれれば、結合ノード１０３で相手パケットのＩＤを確認することなく、それぞれが対応するパケットの処理結果を用いることができ、スループットが向上するとともに、パケットのデータ幅を短縮して回路規模を縮小することができ、さらに、コンポーネント化が可能となるので、システムの構築が容易となる。
【０２１２】
ループ１０２Ａ上のパケットは、加工されない定数であってもよい。すなわち、ループ１０２Ａはリングキュー（循環キュー）であってもよい。
【０２１３】
例えば、ループ１０１Ａ上に第１パケットを投入し、ループ１０２Ａ上に該第１パケットと関係した第２パケットを投入し、結合ノード１０３は、ループ１０１Ａでのパケットに含まれるコマンド又は特定ビットが結合ノード１０３からの出力（分岐方向が出力側）を示している場合、これに対応してループ１０２Ａからパケットを取り出すことにより、ループ１０１Ａでの第１パケットに対応した処理結果のパケットとともに第２パケットを取り出す。これにより、ループ１０１Ａ上で常に第２パケットを同伴させる必要が無く、構成が簡単になる。
【０２１４】
また、ループ１０２Ａがリングキューである場合、ループ１０１Ａはループ１０２Ａをスタックとして用いることができる。ループ１０１Ａと対応するループ１０２Ａ上のパケットが複数あっても、その個数ｎをループ１０１Ａ上のパケットに含ませておき、結合ノード１０３において、ループ１０２Ａ側のＳＥＮＤ−ＩＮがアクティブになったときにループ１０２Ａ側のＡＣＫ−ＯＵＴをアクティブにし、ループ１０１Ａ側のＡＣＫ−ＯＵＴをインアクティブに維持した状態でこれをｎ回繰り返すことにより、対応関係を保つことができる。
【０２１５】
すなわち、ループ１０１Ａのパケットが個数ｎの情報を含み、このパケットを１個転送させるとともにループ１０２Ａのパケットをｎ個転送させることにより、ループ１０１Ａの１パケットをループ１０２Ａのｎパケットと対応させる。結合ノード１０３は、ループ１０１Ａのパケットのコマンド又は特定ビットが、このパケットの全部又は一部（処理結果）をコピーしてループ１０２Ａへ投入することを示している場合、これを実行してループ１０１Ａの該パケットに含まれる個数ｎをインクリメント（これは他のノードで行ってもよい）する。
【０２１６】
前記の場合において、もし順序同期をとることができなければ、ループ１０２Ａを設けることができず、ループ１０１Ａ上のパケットは、対応するパケットをループ１０１Ａ上で連接させて引き連れていかなければならず、スループットが低下するとともに、ループ１０１Ａの構成及び処理が複雑になる。
【０２１７】
順序同期は、条件によっては全てのパケットについてとる必要はない。このような場合、図２２に示すように、順序制御用の順序ビットＯＤをパケットに備え、これが'１'のとき順序制御有り、'０'のとき無しと定める。そして、結合ノード１０３においてループ１０２Ａ上の対応するパケットを待つ際に、順序ビットＯＤが'０'であればループ１０２Ａ側のＳＥＮＤ−ＩＮがアクティブのときにループ１０２Ａ側のＡＣＫ−ＯＵＴをアクティブにしてこれを通過させることにより、ループ１０２Ａ上に順序制御不要なパケットを混在させることができる。ループ１０１Ａ上についても同様である。
【０２１８】
図２６及び２６中のパケットＡ〜Ｄは、順序ビットＯＤが'０'のものであり、その他のパケット１〜６は順序ビットＯＤが'１'のものを示している。
【０２１９】
なお、ループ間でパケットの対応がとれればよいので、ループ１０１Ａへの初期パケットの投入とループ１０１Ｂへの初期パケットの投入は、異なるノードで行ってもよい。
【０２２０】
また、ループ１０１Ａ及び１０２Ａは、条件分岐ノードを備え、パケットが含むコマンド又は特定ビットの値に応じてこのパケットの情報がループから外部へ取り出される。
【０２２１】
図２６（Ｃ）は、より複雑な関係のループを示す。
【０２２２】
この例では、ループ１０１Ａと１０１Ｂとが結合ノード１０３Ａで結合され、条件に応じて、ループ１０１Ａ上のパケットがループ１０１Ｂ上へ移動したり、その逆が行われたりするとする。同様に、ループ１０２Ａと１０２Ｂとが結合ノード１０３Ａで結合され、条件に応じて、ループ１０２Ａ上のパケットがループ１０２Ｂ上へ移動したり、その逆が行われたりするとする。また、同じ符号のパケットは同時に存在し得ず、ある時点ではどちらか一方のループに存在するとする。さらに、パケット１〜３はそれぞれパケット４〜６に対応しているとする。
【０２２３】
このような複雑な場合でも、例えばループ１０１Ａ上のパケット３が結合ノード１０３Ａを通ってループ１０１Ｂ上へ移動する際に、結合ノード１０３Ａにおいてこれに対応するパケット６をループ１０２Ａ上から１０２Ｂ上へ上記同様の制御により移動させてパケット順序の同期を取ることにより、上述の利点を得ることができる。
【０２２４】
待ち合わせ時間を短縮して順序同期の処理速度を速めるには、図２７（Ａ）に示すように、ループ１０２Ａと１０２Ｂとの間を、キュー１０４及び１０５を介して結合させ、処理結果のパケットを順次キューに格納し相手方が直ぐにこれから取り出せるようにすればよい。順序同期は、順序が予測できるので、予め処理結果をキューに入れておくことにより、処理結果を直ちに使用することが可能となる。
【０２２５】
上述のようにループを分割することは、ハードウェアのコンポーネント化のみならず、階層構造化をも可能にする。すなわち、図２７（Ｂ）に示すように、上述のキュー１０４及び１０５を上階層のループ１０６で処理すれば、階層構造となる。この例では、上階層のループ１０６での処理結果がキュー１０７及び１０８を介してそれぞれ下階層のループ１０１Ａ及び１０２Ａにフィードバックされている。
【０２２６】
以上のことは、各系統について成立するので、複数系統のそれぞれについて適用することができる。
【０２２７】
なお、ループ処理は効率がよいが、ループを１回通る場合でも順序同期を適用できるので、処理はループでなくてもよい。
【０２２８】
従来のデータ駆動型処理装置では、ローカルに同期を取って自律分散処理を行うことができるが、同期回路のシステムクロックに対応するものが存在しなかったので、自律分散処理に優れていても協調性が欠け、マイナーな存在であった。非同期回路において、パケットの順序を維持してループ間で順序同期をとることは、同期回路においてシステムクロックで同期をとることに対応している。
【０２２９】
マクロのネットワークでの非同期通信では、通信路でのパケット順序を維持できなくても同期型のＣＰＵ及び記憶装置と、ソフトウェアとの組み合わせによる高級機能により、ＴＣＰ層で順序を復元でき、パケット順序とは直接関係なく高級機能で自律分散協調制御を行うことが出来る。これに対し、内部でミクロのネットワークが構成されるデータ駆動型処理装置では、パケットの順序維持が協調制御の基本となる。
【０２３０】
本発明の順序同期は、自律分散による並列処理を維持しつつ簡単な構成で協調制御を可能にしデータ駆動型処理装置を高機能化するのに寄与するところが大きい。
【実施例１３】
【０２３１】
順序同期を実現するには、ループ状通信路でパケットの順序を同一系統内で維持する必要がある。パケットの順序を維持させるために順序合流を行わせる構成例を、本発明の実施例１３として説明する。
【０２３２】
分岐ノードでパケットが混雑していない方向へ分岐して先回りしても、同一系統ではその後、合流する。同一系統内でのパケットの順序の乱れは、選択的に合流するノードでのパケット追い越し、すなわち分岐ノードでのパケット順序が、これに対応した合流ノードでのパケット順序と相違することにより生ずる。
【０２３３】
この相違が何に対応するかを調べるため、分岐ノードとこれに対応する合流ノードでのパケット進行方向に着目する。例えば図２８の合流路４０ＢＰ上のノード４３３Ｐを通過するパケットは、その前に、これに対応する分流路２０Ａ上のノード２４３を通過している。パケットがノード２４３から次の段のどちらへ進むかで、パケットがノード４３３Ｐの後段のどちらからノード４３３Ｐに進むかが定まるという規則性がある。図２８ではこの関係がレジスタファイル３０Ｒに関し対称になるが、必ずしもこれに限定されず、論理的な対応関係があればよい。
【０２３４】
簡単化のため、リードデータパケットが１ワードの場合のリードパケットとこれに対応するリードデータパケットを考える。パケットの順序が保たれていれば、ノード２４３を順次通過するパケットのノード２４３での分岐方向の順序と、ノード４３３Ｐを順次通過するパケットのノード４３３Ｐでの分岐方向の順序とが対応する。
【０２３５】
もし、全ての系統について、パケット順序が維持されていれば、合流路４０ＢＰ上の任意の合流ノードとこれに対応する分流路２０Ａ上の分岐ノード（ノードペア）とについて、この対応関係が成立する。もし、２つのパケット間の順序に乱れがあれば、いずれかのノードペアで該対応関係が不成立となる。
【０２３６】
そこで、全てのノードペアについて、この対応関係を維持するように、合流路４０ＢＰ上のノードの切換を、これに対応する分流路２０Ａ上のノードの切換情報（Ｎ段前の時点での切換情報）に基づいて制御することにより、パケット順序を維持する。但し、分流路２０Ａの出口ノードと合流路４０ＢＰの入口ノードについては、Ｎ＝０であって、対応関係が既に維持されている。図２８の場合、Ｎは２、４、６、８及び１０である。
【０２３７】
図２８において、例えば、ノード２４３を上側及び下側へ進むパケットの軌跡をそれぞれＴ１及びＴ２とする。軌跡Ｔ１のパケットが先にノード２４３に保持され、次に軌跡Ｔ２のパケットがノード２４３に保持されるとする。軌跡Ｔ１上でパケットが混雑し、軌跡Ｔ２上でパケットがすいていて、ノード４３３Ｐの後段には軌跡Ｔ２のパケットの方が先に到達したとする。この場合、ノード２４３で上側に切り替えたという情報がノード４３３Ｐへ伝達され、ノード４３３Ｐで上側からのパケットを待ち、これがノード４３３Ｐに保持された後に、ノード２４３で下側に切り替えたという情報がノード４３３へ伝達され、次にノード４３３Ｐで下側からのパケットを待つようにすれば、パケットの順序が維持される。全てのノードペアについて、このような制御を行えば、少なくとも同一系統内でパケットの順序が維持される。
【０２３８】
図２９（Ａ）は、この順序を維持させるための合流路４０ＢＰの入口ノードを除く任意のノード１１０と、これに対応する分流路２０Ａ上のノード１１１との間に備えられた構成を示す。図３０は図２９（Ａ）の詳細ブロック図である。
【０２３９】
図２９（Ａ）ではノード１１０とノード１１１との間でパケットが流れ得る流路を分岐合流ノード１１２と表す。
【０２４０】
この構成では、ノード１１０と１１１との間にキュー１１３が備えられ、ＯＤ＝'１'であれば、ノード１１１からの分岐先方向を示す、行先アドレスＤＡの対応するビットＤＡｉ（図において上側分岐のとき'１'、下側分岐のとき'０'）が、キュー１１３の入力段１１３ａの１ビットラッチのデータ入力端に供給される。データ駆動型のキュー１１３は、転送制御回路で用いられるハンドシェイクプロトコルにより、途中にエンプティが存在すると自動的に詰められるという緩衝作用があるので、その段数は、ノード１１１とノード１１０との間のパイプライン段数Ｎ以上であればよい。キュー１１３の出力段から順次データを取り出せばよく、取り出す際に段数Ｎを考慮する必要はない。
【０２４１】
ノード１１０とその後段１１５及び１１６との構成は、図４の対応する構成と実質的に同一である。すなわち、ノード１１０はラッチ１１０Ｌの入力側にマルチプレクサ１１０Ｍが接続されているが、これは図４のラッチ４２１Ｌ及び４２２Ｌ内の出力側のゲートと出力イネーブル制御入力端ＯＥとの構成に対応している。図４との相違点は、図３０ではマルチプレクサ１１０Ｍの選択制御をキュー１１３の出力段１１３ｂのラッチ出力ＳＥＬで行っている点である。
【０２４２】
ノード１１１とその次段１１７及び１１８との構成は、図３の対応する構成と、ノード１１１の転送制御回路１１１Ｃを除き同一である。ノード１１１の転送制御回路１１１Ｃはキュー１１３の入力段１１３ａの転送制御回路との間についても信号授受を行っている点で、転送制御回路２１１Ｃと異なる。
【０２４３】
なお、図３０の分岐合流回路１１２Ａは、図２９（Ａ）の分岐合流回路１１２からノード１１５〜１１８を除いた部分である。
【０２４４】
ノード１１１から次段ノード１１７又は１１８へのＳＥＮＤをアクティブにするときに、同時にキュー１１３の入力段１１３ａへのＳＥＮＤをアクティブにする。すなわち、ノード１１１の転送制御回路１１１Ｃは、次段１１７又は１１８及び入力段１１３ａからのＡＣＫが共にアクティブであり且つ後段からのＳＥＮＤがアクティブであるときに次段１１７又は１１８及び入力段１１３ａへのＳＥＮＤをアクティブにする。
【０２４５】
ノード１１０は、２入力のうち、キュー１１３の出力段１１３ｂの出力に基づいて、ノード１１０の後段１１５及び１１６のラッチ出力の一方を選択する。すなわち、キュー１１３の出力段１１３ｂの出力ＳＥＬが'１'であれば、ノード１１０の後段上側のノード１１５からのデータを選択し、'０'であれば、ノード１１０の後段下側のノード１１６からのデータを選択する。この選択は、キュー１１０の出力段１１３ｂのラッチ出力ＳＥＬによりノード１１０のマルチプレクサ１１０Ｍを選択制御することにより行われる。
【０２４６】
ノード１１０は、その後段１１５又は１１６へのＡＣＫをアクティブにするときに、キュー１１３の出力段１１３ｂに対するＡＣＫをアクティブにする。すなわち、ノード１１０は、ノード１１０の後段１１５又は１１６及びキュー１１３の出力段１１３ｂからのＳＥＮＤが共にアクティブになり且つノード１１０の次段からのＡＣＫがアクティブになったときに、ノード１１０のラッチ１１０Ｌにデータを取り込ませて保持させ、キュー１１３の出力段１１３ｂ及びノード１１０の後段１１５又は１１６へのＡＣＫを共にアクティブにする。
【０２４７】
図２９（Ｂ）及び図３０において、ＤＡｉ＝'１'のとき、ノード１１１は、ノード１１７へパケットを分岐転送させる（この分岐が第１段）とともにキュー１１３の入力段１１３ａにＤＡｉ＝'１'を転送させる。Ｎ段経過後に、一方ではこれに対応するパケットがノード１１５に保持され、他方ではマルチプレクサ１１０Ｍの選択制御入力端に、前記ＤＡｉ＝'１'に対応したＳＥＬ＝'１'が供給されて、ノード１１０はノード１１５側を選択する。図２９（Ｃ）においても同様である。
【０２４８】
ここで、ライトパケットについては、レジスタファイル３０Ｒへの書き込みが終了し、合流路４０Ａ側へ対応するパケットが転送されないので、このパケットの順序ビットＯＤを'０'にしておく。転送制御回路１１１Ｃは、ノード１１１のラッチ１１１Ｌに保持した順序ビットＯＤが'０'であるとき、キューの入力段１１３へのＳＥＮＤをインアクティブに維持する。これによりキュー１１３の入力段１１３ａのラッチにはビットＤＡｉが転送されないので、順序維持の切り替えとは無関係になる。
【０２４９】
一方、リードパケットのように分流路２０Ａ側の１パケットが合流路４０ＢＰ側の複数パケットに対応する場合、キュー１１３においてもこの対応関係を維持する必要がある。この対応関係を維持するために、ノード１１０の転送制御回路１１０Ｃは、連接ビットＣＮが'１'のときは例外として、キュー１１３の出力段１１３ｂへのＡＣＫをインアクティブに維持する。これにより、連接パケットについてもノード１１０とノード１１１とで切り替えの対応関係を保つことができる。連接パケットの末尾パケットは連接ビットＣＮが'０'であるが、その１つ前のパケットの連接ビットＣＮが'１'であるので、図３１（Ｊ）に示すように、末尾パケットに対してもノード１１０の選択方向は変わらない。
【０２５０】
図３１（Ａ）〜（Ｊ）は、分流路２０Ａ側の１つのリードパケットの流れと、これに対応した合流路４０ＢＰ側の複数のリードデータパケット（連接パケット）の流れとを、時間を追って示す。図中の'１'は、上述のノード側フリップフロップの値を示す。図３１（Ａ）は４段分のデータ転送を纏めて示している。
【０２５１】
（１）図３１（Ａ）で、ＤＡｉ＝'１'であればノード１１１から次段上側（'１'側）１１７へデータが転送されると共に、ＯＤ＝'１'であれば行先アドレスＤＡｉの値がキュー１１３の入力段１１３ａに転送される。
【０２５２】
（２）図３１（Ｅ）で、連接先頭パケットがノード１１０の後段上側１１５に取り込まれて保持されるとともに、（１）で保持したＤＡｉ＝'１'がキュー１１３の出力段１１３ｂに取り込まれて保持され、ノード１１０のマルチプレクサ１１０Ｍはその選択制御入力端への'１'に応答して、ノード１１０の後段上側１１５のノードからのデータを選択する。
【０２５３】
（３）これにより、図３１（Ｆ）で、ノード１１０はこのデータを取り込み保持する。
【０２５４】
（４）その後、ノード１１０が保持しているパケットの連接ビットＣＮの値が'１'の間、ノード１１０の転送制御回路１１０Ｃからキュー１１３へのＡＣＫがインアクティブに維持されて、キュー１１３の出力段１１３ｂの出力ＳＥＬ＝'１'が維持され、ノード１１５（図２９）から連接パケットが順次ノード１１０へ到達する。
【０２５５】
このようにして、分流路２０Ａの任意のノードから、合流路４０ＢＰの対応するノードへ、順序制御情報ＤＡｉ→ＳＥＬが伝達され、これに応じ合流ノードでの選択制御が行われ、これにより全ての系統についてパケットの順序が維持される。
【０２５６】
したがって、この構成によれば、図２６及び図２７で述べた構成を実現して、その効果を達成することができる。
【０２５７】
なお、順序ビットＯＤは、図２６及び図２７について説明した順序ビットＯＤとしても使用できる。
【０２５８】
また、本発明の順序合流制御が行われるノード１１０とノード１１１との対は、ツリー形分流路とツリー形合流路の対応するノード対に限定されず、第１パケットが分岐ノードを通れば、該第１パケットに対応した第２パケットが合流ノードを通り、且つ、該分岐ノードでの該第１パケットの分岐方向と該合流ノードでの該第２パケットの合流方向とが対応しており、該分岐ノードと該合流ノードとの間のパイプライン段数がＮ（Ｎ≧１）であるという条件を満たす分岐ノードと合流ノードの対であればよい。
【０２５９】
さらに、ノード１１０を通るパケットはノード１１１を通るパケットと対応しているが、この対応関係は、両者が同一パケットであってもよい。
【実施例１４】
【０２６０】
次に、本発明のデータ駆動型処理装置の適用例として、有限オートマトン動作を行うＣＰＵアクセラレータについて説明する。
【０２６１】
有限オートマトンは、言語学、情報工学、生物学、数学、論理学など様々な領域で利用されている。有限オートマトンでは、現在状態と入力とにより、次状態が定まり、この状態遷移が繰り返し行われてパターン一致有無が判定される。
【０２６２】
図３７は、簡単な有限オートマトンの例を示す状態遷移図である。
【０２６３】
この例では、データストリームＤＳ＝"ＣＡＡＢＡＢＡＢＣＣＣＣＢＢＡＢＡＣＣ"の中に、検索データ集合ＲＤのパターン"ＡＢＡ"又は"ＡＢＣ"が含まれているか否かを決定する。現在の状態にデータストリームＤＳ中のエレメント"Ａ"、"Ｂ"又は"Ｃ"が入力されると、次の状態が定まり、これに次のエレメントが入力されるという処理が繰り返し行われ、出力時の状態が検出パターンに対応している。エレメントは文字コードに限定されず、所定のデータ幅のデータであればよい。
【０２６４】
ウイルス検出の例で言うと、検索データ集合ＲＤに含まれるパターンのそれぞれがウイルスに対応している。入力データストリームＤＳが多数のウイルスのどれに感染しているかのパターンマッチング処理を、１つの状態遷移図で表すことができる（パターンマルチング）。
【０２６５】
以下では、有限オートマトンをウイルス検出に適用した場合について説明するが、本発明のＣＰＵアクセラレータはこれに限定されるものではなく、全ての有限オートマトンに適用可能である。
【０２６６】
本発明の装置では、並列度が高いので、同時に多数の入力データストリームＤＳを取り扱うことができる。
【０２６７】
図３２は、行を状態Ｓ、入力である列を、データストリームを構成する１バイトのストリームエレメントＳＥとした状態遷移テーブルを示す。但し、この状態遷移テーブルには、１ビットの結果ビットＲが含まれている。
【０２６８】
状態Ｓを上位ビット、ストリームエレメントＳＥを下位ビットとするアドレスに、次の状態が格納されたメモリを用いる。１６進数表記で、例えば状態Ｓの初期値を"００００"とし、ストリームエレメントＳＥが"０１"であった場合、次の状態Ｓは"０００２"となる。これと次のストリームエレメントＳＥとで、次の状態Ｓが定まる。
【０２６９】
結果ビットＲは１ビットであり、ウイルスパターンが検出されたとき、Ｒ＝'１'となる。このときの状態Ｓで指定されるアドレスには、次の状態はなく、ウイルスコードＶＣが格納されている。ウイルスコードＶＣに対応したウイルス名は、ＣＰＵに管理させる。結果ビットＲは、パケット内のコマンドの役割を果たす。
【０２７０】
図３３は、本発明が適用された、実施例１４のデータ駆動型ＣＰＵアクセラレータ６０Ｑを示す概略ブロック図である。
【０２７１】
状態テーブルメモリ１２０は、例えば図８のメモリ１０Ｂの記憶容量を大きくしたものであり、その分流路１２１、メモリ行アレイ１２２及び合流路１２３はそれぞれ、図８の分流路２０Ｂ、メモリ行アレイ３０及び合流路４０Ｂに対応している。リードパケットに対するリードデータパケットは後述のように１ワードであり、これらのフォーマットは上述のものと異なる。メモリ行アレイ１２２には、図３２のテーブルが格納されている。
【０２７２】
図３５は、図３３の装置における１系統に関するデータフローをデータフォーマットとともに示す図である。
【０２７３】
系統ＣＨは、上述のように合流路１２３で用いられる定数である。結果ビットＲ及び状態Ｓは、状態テーブルメモリ１２０から読み出されたデータであり、これと、下位ビットとしてのストリームエレメントＳＥとで、状態テーブルメモリ１２０のアドレスが指定される。各系統で複数のデータストリームを処理することができ、そのストリーム識別子ＳＩＤをこの例では３ビットとしている。ストリーム識別子ＳＩＤ及び系統ＣＨは、状態テーブルメモリ１２０を含むループで、同一ストリームに対し不変である。
【０２７４】
図３３に戻って、複数のデータストリームは、ＤＭＡＣにより、インターフェイス１２４及びメモリコントローラ１２５を介し、バッファとしてのＲＡＭ１２６に一時格納された後、ＣＰＵ１２７によりインターフェイス１２４及びメモリコントローラ１２５を介してＲＡＭ１２６の内容が読み出され、メモリコントローラ１２５、インターフェイス１２４及び１２８並びにストリームバッファ１３０の分流路１３１を介しキューアレイ１３２に供給され保持される。ＣＰＵ１２７、ＲＡＭ１２６、メモリコントローラ１２５及びインターフェイス１２８は同期型であり、インターフェイス１２８は、同期型と非同期型との相互変換部を備えている。
【０２７５】
図３４は、図３３中のストリームバッファ１３０の概略ブロック図である。
【０２７６】
このストリームバッファ１３０の分流路１３１及び合流路（マルチプレクサ）１３３０〜１３３３はそれぞれ、図１の分流路２０の第３〜５段を抽出したもの及び合流路４０の第２〜４段を抽出したものと同一である。分流路１３１は、インターフェイス１２４の端子数を少なくするためのものであり、この例では４組としているが、１組以上であればよい。
【０２７７】
分流路１３１に供給されるパケットのフォーマットは、図３５に示す如く、３ビットのストリーム識別子ＳＩＤのフィールドと、８ビットのストリームエレメントＳＥのフィールドとからなる。
【０２７８】
ストリーム識別子ＳＩＤは、４系統×８本のキューアレイ１３２の８本のキューＩＤと対応づけられている。このようなキューＩＤをストリーム識別子ＳＩＤと対応させることにより、分流路１３１で行先アドレス５ビットの下位３ビットとして用いられたストリーム識別子ＳＩＤは、分流路１３１を出ると不要となり、キューアレイ１３２では８ビットのストリームエレメントＳＥのみ保持される。マルチプレクサ１３３０〜１３３３はそれぞれ系統０〜３の８本のキューの１つを選択して、それぞれノード１４０〜１４３に供給する。この選択は、分流路１２１へ転送しようとするパケットに含まれるストリーム識別子ＳＩＤであるＳＩＤ０〜ＳＩＤ３をそれぞれデコーダ１４５〜１４８でデコードした制御信号により行われる。
【０２７９】
マルチプレクサ１３３０〜１３３３は、通常の構成を用いることができるが、図３４に示すように８入力１出力の合流路を用いてもよい。この場合、ストリーム識別子ＳＩＤをデコードして、８本のキューのうちの対応する１つのキューの出力段に対してのみＡＣＫをアクティブにすればよい。この場合のデコーダは、１入力８出力の分流路を用いることができる。
【０２８０】
キューアレイ１３２を構成する各キューについて、半空になったときには、これを半空検出回路１３４で検出し、そのキューの系統ＣＨとストリーム識別子ＳＩＤとを伴って、インターフェイス１２８及び１２４を介したＣＰＵ１２７への割込要求ＩＲＱ２をアクティブにする。これによりＣＰＵ１２７は、ＲＡＭ１２６からデータを読み出して、対応する系統ＣＨ及びストリーム識別子ＳＩＤのキューにこれを補給する。ＲＡＭ１２６からインターフェイス１２４にはＤＭＡ転送することができる。
【０２８１】
半空検出は例えば、設定時間内におけるキューアレイ１３２の先頭でのＳＥＮＤ−ＯＵＴパルス数と中間部でのそれとの差が所定値以上となったことにより検出することができる。またキューアレイ１３２のそれぞれのキューについて、出力されるパケット数（ラッチパルス数）と供給されるパケット数（ラッチパルス数）とをカウントし、その差が設定値以上になったとき、同様に割込要求ＩＲＱ２をアクティブにする構成であってもよい。半空でなく、キューの所定割合が空になったことを検出してもよいことは勿論である。
【０２８２】
ノード１５０〜１５３のパケットは、結果ビットＲを含む必要がない。合成ノード１４０〜１４３にはそれぞれ、一方ではノード１５０〜１５３からパケットが供給され、これらのストリーム識別子ＳＩＤがそれぞれＳＩＤ０〜ＳＩＤ３としてマルチプレクサ１３３０〜１３３３に対する選択制御信号として供給され、他方ではマルチプレクサ１３３０〜１３３３からのストリームエレメントＳＥが合成ノード１４０〜１４３に付加されて合成され、合成ノード１４０〜１４３に取り込まれ保持される。
【０２８３】
合成ノード１４０〜１４３の出力が分流路１２１に転送される。合成ノード１４０〜１４３を省略し、これらの替わりに分流路１２１の入口ノードを用いてもよい。
【０２８４】
ノード１５０〜１５３には、ＣＰＵ１２７からインターフェイス１２４及び１２８を介した初期パケットと、合流路１２３からのパケットとが選択的に合流する。この初期パケットは、ＣＰＵアクセラレータ６０Ｑを起動させるためのものであり、図３５において、例えばＳ＝０、Ｒ＝０とし、系統ＣＨ及びストリーム識別子ＳＩＤをそれぞれの系統ごとに与えたものである。
【０２８５】
ストリーム識別子ＳＩＤの値は、ＣＰＵ１２７がインターフェイス１２４、１２８及び分流路１３１を介しキューアレイ１３２にデータストリームを供給したものであればよく、ＣＰＵ１２７が定めることができる。
【０２８６】
ＣＰＵ１２７は、ノード１５０〜１５３のそれぞれに１つ又は複数の初期パケットを順次供給する。ＣＰＵ１２７はこの際、合流路１２３の対応する出口ノードに対するＡＣＫをインアクティブにして、出口ノードからのパケットの流れを停止させておく。次いでこの停止を解除すると、状態テーブルメモリ１２０を含むループ内でパケットがパイプライン処理される。各系統の初期パケットは、本実施例では最大８個である。実際には、ループ内にパケットを分散させることができるので、その最大値は状態テーブルメモリ１２０の全段数に２を加えたものとすることができる。
【０２８７】
状態テーブルメモリ１２０の合流路１２３の各系統の出口ノードの出力は、出力回路１６０に供給される。
【０２８８】
出力回路１６０は、４系統の結果ビットＲのいずれかが'１'となると、その系統ＣＨ、ストリーム識別子ＳＩＤ及びウイルスコードＶＣを取り込んで保持し、ＣＰＵ１２７に対し、これらを供給するとともに割込要求ＩＲＱ１をアクティブにする。各データストリームについて、１つのウイルスを検出すればそのストリームに対する処理を打ち切ることができる。この場合、ストリームバッファ１３０内の、ウイルスが検出されたストリームをフラッシュし又は／及びこのストリームの追加を停止し、未処理ストリームがあればストリームバッファ１３０へ他のストリームを供給し、これに対応して初期パケットを、上述のように供給し、該他のストリームに対する処理を開始する。
【０２８９】
本実施例１４によれば、ＣＰＵアクセラレータ６０Ｑがデータ駆動型で構成されており、さらに状態テーブルメモリ１２０とストリームバッファ１３０とが並列動作するので、処理の並列度が高くてスループットが高いとともに、低消費電力であり、各種モバイル機器に好適である。
【実施例１５】
【０２９０】
図３６は、本発明が適用された、実施例１５の順序同期・データ駆動型ＣＰＵアクセラレータ６０ＱＡを示す概略ブロック図である。
【０２９１】
このＣＰＵアクセラレータ６０ＱＡではまず、ストリームバッファ１３０Ａの分流路１３１Ａを、図１の６段分流路２０を５段にしたもので構成するとともに、インターフェイス１２８Ａから、一方では分岐ノード１６３を介して分流路１３１Ａへデータストリームを転送させ、他方では分岐ノード１６１及びデマルチプレクサ（分流路）１６２を介して初期パケットをノード１５０〜１５３へ供給することにより、インターフェイス１２８Ａの出力端子数を低減している。
【０２９２】
ノード１６１でのパケットは、初期パケットであるか否かを示すビット及び系統ＣＨを有し、前者でノード１６１でのパケット分岐先が定まる。デマルチプレクサ１６２では、系統ＣＨが行先アドレスとして用いられ、これはその出力ノードで不要となる。
【０２９３】
次に、ストリームバッファ１３０Ａのそれぞれのキューが順序を維持しているので、このＣＰＵアクセラレータ６０ＱＡでは、上述の順序合流制御が行われる分流路１２１Ａ及び合流路１２３Ａを備えた状態テーブルメモリ１２０Ａを用いて、状態テーブルメモリ１２０Ａでのパケット順序を維持させることにより、状態テーブルメモリ１２０Ａとストリームバッファ１３０Ａとの間で順序同期をとっている。
【０２９４】
状態テーブルメモリ１２０Ａから出力されるパケットの順序が維持されるので、マルチプレクサ１３３０〜１３３３に対する選択制御を確実に予測することができる。この順序は、ＣＰＵ１２７がインターフェイス１２４、１２８、ノード１６１及びデマルチプレクサ１６２を介しノード１５０〜１５３へ供給する初期パケットの順序により定まる。すなわち、順序はＣＰＵ１２７が決定することになる。
【０２９５】
ストリームＩＤ予測回路１６３は、系統ＣＨ毎に不図示のリングキューを備えており、系統ＣＨ毎に、ノード１６１からのパケット内のストリーム識別子ＳＩＤを順次このリングキューに保持し、その出力に基づき、マルチプレクサ１３３０〜１３３３へそれぞれストリーム識別子ＳＩＤ０〜ＳＩＤ３を供給するとともに該リングキュー内のパケットを１段進ませ、キュー１７０〜１７３の先頭からのＡＣＫがアクティブになる毎にこれを繰り返すことにより、予めキュー１７０〜１７３へストリームエレメントＳＥを複数取り込ませ保持させる。
【０２９６】
合成ノード１４０〜１４３は、ノード１５０〜１５３へのＡＣＫをアクティブにするとき、同時に、対応するキュー１７０〜１７３の出力段へのＡＣＫをアクティブにする。
【０２９７】
このようにして、パケットが状態テーブルメモリ１２０Ａからノード１５０〜１５３を介しそれぞれ合成ノード１４０〜１４３へ到達したときに、キュー１７０〜１７３からのパケットをこれと同時に合成ノード１４０〜１４３へ到達させることが可能となり、合成ノード１４０〜１４３での待ち合わせのタイムラグがなくなるので、上記実施例１４よりも高速処理を行うことができる。
【０２９８】
なお、順序同期により合成ノード１４０〜１４３では、合成されるそれぞれのパケットのストリームＩＤが一致するので、状態テーブルメモリ１２０を含むループ内では、ストリームＩＤをパケットに含ませなくてもよい。
【０２９９】
この場合、出力回路１６０でウイルスを検出した際にストリーム識別子ＳＩＤを出力する必要があるので、ＳＩＤ予測回路１６３と同様に系統ＣＨ毎にリングキューを出力回路１６０に備えてこれにストリームＩＤを保持させ、合流路１２３Ａの出口ノードからのＳＥＮＤパルスで、対応するリングキュー内の所定段に対するＡＣＫをアクティブにして該所定段でパケットを１個進ませ、合流路１２３Ａの出口ノードから出力されているパケットのストリームＩＤを識別する。
【０３００】
また、ＳＩＤ予測回路１６３でのリングキューと、マルチプレクサ１３３０から合流路１２３Ａの出口ノードまでのパイプライン段数と、出口ノードからのＳＥＮＤパルスの数とから、該出口ノードから出力されているパケットのストリームＩＤを識別することもできる。
【０３０１】
さらに、ＣＰＵアクセラレータ以外の有限オートマトン装置として用いてもよい。
【０３０２】
また、本発明の特徴の１つが予測回路を用いている点であることに着目すれば、本発明は、状態テーブルメモリ１２０Ａを含むループを、他の機能のループに置換した構成であってもよい。
【０３０３】
なお、本発明には外にも種々の変形例が含まれる。
【０３０４】
例えば、上記各実施例又はその変形例の構成要素の組み合わせを変えた構成も、その機能を達成できるものは本発明に含まれる。
【０３０５】
また、分流路の行先アドレスをプロセッサの命令コードとし、分流路の出力側でこの命令コードに応じた処理手段を配置した構成であってもよい。この場合、レジスタファイル３０Ｒの各行をその命令コードに応じたレジスタ群として用いるこのができる。
【０３０６】
さらに、ストリームバッファ１３０又は１３０Ａは、その中でのデータ流を逆流させて、他のループコンポーネントでの処理結果を分類してＣＰＵ等へ出力するのに用いることができる。
【図面の簡単な説明】
【０３０７】
【図１】本発明の実施例１の非同期（自己タイミング）データ駆動型メモリを示す概略ブロック図である。
【図２】メモリ行アレイの配列の具体例を示す図である。
【図３】束データ方式で分流路を構成した場合の第１段と第２段とで構成される分流回路を示す概略ブロック図である。
【図４】束データ方式で合流路を構成した場合の第２段と第３段の一部である合流回路を示す概略ブロック図である。
【図５】図１の分流路２０の出力ノード２６１と合流路４０の入口ノード４１１との間に接続されたメモリ行３１及び３２を示す概略ブロック図である。
【図６】本発明の実施例２のデータ駆動型メモリを示す概略ブロック図である。
【図７】（Ａ）はパケットのフォーマットを示し、（Ｂ）は系統とパケットフローの関係を示す説明図である。
【図８】入力ポート及び出力ポートの数を実施例２の場合の２倍にした、本発明の実施例３のメモリを示す概略ブロック図である。
【図９】パケットのフォーマットを示す図である。
【図１０】パイプライン段数を低減した、本発明の実施例４のメモリを示す概略ブロック図である。
【図１１】選択的合流ノードへの転送待ちを短縮した、本発明の実施例５の２ポート入力・２ポート出力型のメモリを示す概略ブロック図である。
【図１２】入力ポート及び出力ポートの数を実施例５の場合の２倍にした、本発明の実施例６のメモリを示す概略ブロック図である。
【図１３】本発明の実施例７のキャッシュメモリを示す概略ブロック図である。
【図１４】タグアレイ内の隣り合うタグ行の構成を示す概略ブロック図である。
【図１５】インターフェイスで待機中の更新パケットが、ワードデータを受け取ってそのデータフィールドに書き込みパッケット化する動作の説明図である。
【図１６】本発明の実施例８のキャッシュメモリを示す概略ブロック図である。
【図１７】本発明の実施例９の、プロセッサの一部であるデータ処理部を示す概略ブロック図である。
【図１８】（Ａ）及び（Ｂ）は、パケットペアを分流路入口ノードに投入した後の処理の流れを示す概略説明図である。
【図１９】本発明の実施例１０の、プロセッサの一部であるデータ処理部を示す概略ブロック図である。
【図２０】（Ａ）はパケットペア行先アドレスに基づいて合流段ＩＤを決定する方法の説明図、（Ｂ）はパケットフォーマットを示す説明図である。
【図２１】合流段識別ノードの概略構成を示すブロック図である。
【図２２】（Ａ）〜（Ｄ）は本発明の実施例１１に係るパケットフォーマット説明図であり、（Ａ）はパケットペアを１パケットに圧縮したもののフォーマット、（Ｂ）及び（Ｃ）はこのパケットを２パケットに伸張させたもののフォーマット、（Ｃ）は連接パケットでの先頭に続くデータパケットを示す図である。
【図２３】（Ａ）及び（Ｂ）はそれぞれ第１オペランドの連接パケットの先頭パケット及びこれに続くデータパケットを示す説明図、（Ｂ）及び（Ｃ）はそれぞれ第２オペランドの連接パケットの先頭パケット及びこれに続くデータパケットを示す説明図である。
【図２４】合流路のノードに備えられた連接ビットがパケットペアの連接ビットによりセットされている状態を示す説明図である。
【図２５】ノードＮ１のノード側連接ビットＦ１に対する状態制御回路とこれに関連する要素を示すブロック図である。
【図２６】（Ａ）〜（Ｃ）は本発明の実施例１２に係り、（Ａ）はデータ駆動型処理ループを示し、（Ｂ）は（Ａ）を２分割して並列結合した回路を示し、（Ｃ）は複雑な処理ループを並列結合した回路を示す概略図である。
【図２７】（Ａ）及び（Ｂ）はそれぞれ同層及び異層間において、順序同期が成立している並列処理ループ間でのキューを介した処理結果の伝達を示す図である。
【図２８】本発明の実施例１３に係る、合流路のノードとこれに対応する分流路のノードとの間で生ずる切替順序の乱れの説明図である。
【図２９】（Ａ）は合流路の任意のノードについて、これに対応する分流路のノードとの間で切替同期を行う構成を示し、（Ｂ）及び（Ｃ）はこの構成の動作を示す図である。
【図３０】図２９の（Ａ）の詳細ブロック図である。
【図３１】（Ａ）〜（Ｊ）は、分流路側の１つのリードパケットの流れと、これに対応した合流路側の複数のリードデータパケット（連接パケット）との流れとを、時間を追って示す説明図である。
【図３２】行を状態Ｓとし、入力である列を、データストリームを構成する１バイトのストリームエレメントＳＥとした出力コマンド付状態遷移テーブルを示す図である。
【図３３】本発明の実施例１４のＣＰＵアクセラレータを示す概略ブロック図である。
【図３４】図３３中のストリームバッファの概略ブロック図である。
【図３５】図３３の装置における１系統に関するデータフローをデータフォーマットとともに示す図である。
【図３６】本発明の実施例１５の順序同期型ＣＰＵアクセラレータを示す概略ブロック図である。
【図３７】簡単な有限オートマトンの例を示す状態遷移図である。
【符号の説明】
【０３０８】
１０、１０Ａ〜１０Ｅ、１２０、１２０Ａメモリ
１０ＡＰ、１０ＢＰデータ処理部
２０、２０Ａ〜２０Ｅ、７１、１２１、１３１、１３１Ａ分流路
２０１Ｃ、２１１Ｃ、２２１Ｃ、２２２Ｃ、２６１Ｃ、４１１Ｃ、３１１Ｃ、３１２Ｃ、３１３１Ｃ、４１１Ｃ、４２１Ｃ、４２２Ｃ、４３１Ｃ、７１１Ｃ、７３１Ｃ転送制御回路
２０１Ｌ、２１１Ｌ、２２１Ｌ、２２２Ｌ、２６１Ｌ、３１１Ｌ、３１２Ｌ、３１３１Ｌ、４１１Ｌ、４２１Ｌ、４２２Ｌ、４３１Ｌ、７１１Ｌ、７３１Ｌラッチ
１１０、１１１、１１５〜１１８、２０１〜２０４、２２１〜２２８、２２１Ａ、２２２Ａ、２２３Ａ、２２４Ａ、２３１〜２３４、２３１Ａ、２３２Ａ、２４１、２４８、２５１、２６１、４１１、４１１Ａ、４１１Ｂ、４２１、４３１、４４１〜４４４、４４１Ａ、４５１〜４５４、４４１Ａ、４４２Ａ、４４３Ａ、４４４Ａ、４５１Ａ、４５２Ａ、４５３Ａ、４５４Ａ、４６１Ａ、４６１ＡＰ、４６２Ａ、４６３Ａ、４６４Ａ、４７、７１１、７３１、７７、７７１〜７７４、８２、Ｎ０１、Ｎ０２、Ｎ１、Ｎ２ノード
２０１Ｆ合流段ＩＤ決定部
２０１Ｐパケットペア判定部
２１１〜２１４、４１１入口ノード
２２２Ｇ、２６１Ｇ１、４１１Ｇ、４２２Ｇインバータ
２５１、４６１〜４６４出口ノード
２６１Ｇ２、３１３１Ｇオアゲート
３０、１２２メモリ行アレイ
３０Ｒレジスタファイル
３１０、７４０ループ配線
３１、３２メモリ行
３１１、７４１制御回路
３１１ａ、３１０Ｃカウンタ
３１０Ｗ、３１１Ｗ、３１２Ｗ、３１３Ｗ、３２０Ｗワードメモリ
４０、４０Ａ〜４０Ｅ、４０ＡＰ、４０ＢＰ、７３、１２３、１２３Ａ合流路
４７状態制御回路
５０、５０Ａ〜５０Ｇ、Ｐ１〜Ｐ３、Ｐ１Ａ、Ｐ２Ａ、Ｐ１Ｎ、Ｐ２Ｎパケット
６０、６０Ａキャッシュメモリ
６０Ｑ、６０ＱＡＣＰＵアクセラレータ
７０、７０Ａタグテーブル
７２タグアレイ
７２１、７２２タグ行
７５０〜７５３、７５ｉページ情報
７６０〜７６３コンパレータ
７６４オアゲート
７６５エンコーダ
７６６マルチプレクサ
８０、８０１〜８０４入出力部
８１、１２４、１２８、１２８Ａインターフェイス
１００、１０１、１０１Ａ、１０１Ｂ、１０２、１０２Ａ、１０２Ｂループ
１０３、１０３Ａ結合ノード
１０４、１０５、１１３、１７０〜１７３キュー
１２５メモリコントローラ
１２６ＲＡＭ
１２７ＣＰＵ
１３０、１３０Ａストリームバッファ
１３２キューアレイ
１３３０〜１３３３マルチプレクサ
１３４半空検出回路
１４０〜１４３、１５０〜１５３ノード
１６０出力回路
１６３ストリームＩＤ予測回路
１６２デマルチプレクサ
ＣＫクロック入力端
ＣＫ１、ＣＫ２クロックパルス
ＯＥ出力イネーブル制御入力端
ＣＭＤコマンド
ＡＤＲ、ＡＤＲ１、ＡＤＲ２アドレス
ＤＡ、ＤＡ１、ＤＡ２、ＤＡｉ行先アドレス
ＤＡ０〜ＤＡ５、ＣＨ０、ＣＨ１ビット
ＰＡ、ＰＡ１、ＰＡ２ページアドレス
ＷＡ、ＷＸ、ＷＡ１、ＷＡ２ワードアドレス
ＤＡＴＡデータ
ＣＮ連接ビット
ＯＤ順序ビット
ＨＭ、ＨＭ１、ＨＭ２ヒットビット
ＣＨ系統
ＰＴパケットタイプ
ＴＡ、ＴＡＧタグアドレス
ＣＮＴカウンタ
ＭＡ合流段識別子
ＰＲ１、ＰＲ２処理
Ｖバリッドビット
Ｄダーティビット
Ｌロックビット
Ｒ結果ビット
ＶＣウイルスコード
Ｓ状態
ＳＥストリームエレメント
ＳＩＤ、ＳＩＤ０〜ＳＩＤ３ストリーム識別子
ＩＲＱ１、ＩＲＱ２割込要求
ＤＳ入力データストリーム
ＲＤ検索データ集合
Ｆ０１、Ｆ０２、Ｆ１、Ｆ２フリップフロップ

【特許請求の範囲】
【請求項１】
上位ビット及び下位ビットをそれぞれ状態及びデータストリーム要素とするアドレスに次状態が格納され、アドレスとデータストリーム識別子とを含むパケットが入力され、次状態と該データストリーム識別子とを含むパケットが出力されるデータ駆動型状態テーブルメモリと、
該状態テーブルメモリの出力を該状態テーブルメモリの入力にフィードバックさせる流路に介在され、データ入力端の第１部に供給されるデータを該データ入力端の第２部に供給される該次状態と合成する合成ノードと、
それぞれのキューにデータストリームが格納されるキュー列と、
該出力に含まれるデータストリーム識別子に基づき、該キュー列のキューを選択して、このキューの出力段を該第１部に結合させるマルチプレクサと、
を有することを特徴とする有限オートマトン装置。
【請求項２】
該フィードバック流路の、該状態テーブルメモリと該合成ノードとの間に、初期パケットと該次状態のパケットとを選択的に合流させる合流ノードをさらに有することを特徴とする請求項１に記載の有限オートマトン装置。
【請求項３】
該状態テーブルメモリには、パターン一致情報が含まれ、
該状態テーブルメモリの出力に含まれるパターン一致情報がパターン一致を示しているか否かを判定し、肯定判定した場合には該出力に含まれるデータストリーム識別子とともに割込要求信号を出力する出力回路をさらに有することを特徴とする請求項２に記載の有限オートマトン装置。
【請求項４】
該キュー列の各キューについて、空きが所定量を超えた場合には該キューに対応したデータストリーム識別子とともに割込要求信号を出力する空検出回路をさらに有することを特徴とする請求項３に記載の有限オートマトン装置。
【請求項５】
該マルチプレクサは、その入力が複数の入口ノードの入力であり、その出力が出口ノードの出力であるツリー形合流路を有することを特徴とする請求項４に記載の有限オートマトン装置。
【請求項６】
供給されるデータストリームを行先アドレスに基づき順次選択的に分流させて該キュー列の１つのキューに転送させるツリー形分流路をさらに有することを特徴とする請求項５に記載の有限オートマトン装置。
【請求項７】
外部から供給されるデータストリームを該ツリー形分流路に供給し、該出力回路及び該空検出回路の出力を外部に供給するインターフェイスをさらに有することを特徴とする請求項６に記載の有限オートマトン装置。
【請求項８】
該状態テーブルメモリには、該パターン一致情報がパターン一致を示しているとき、次状態の替わりにパターン識別子が格納されており、
該出力回路は、該肯定判定した場合には該パターン識別子も出力することを特徴とすることを特徴とする請求項３に記載の有限オートマトン装置。
【請求項９】
該データ駆動型状態テーブルメモリは、
記憶行アレイと、
入口ノードに供給される第１パケットを、該第１パケットが含む行先アドレスに応じ下流側のノードへ順次選択的に分流させて、該記憶行アレイ内の１つの記憶行へ転送させるツリー形分流路と、
該記憶行から読み出された第２パケットを、下流側へ順次選択的に合流させて出口ノードへ転送させるツリー形合流路と、
を有し、該記憶行は、該第１パケットが含む記憶行内アドレスで指定される該記憶行内の一部の記憶データを読み出して該第２パケットとし、
該ツリー形分流路及び該ツリー形合流路のパイプライン段数がそれぞれ３以上であることを特徴とする請求項１乃至８のいずれか１つに記載の有限オートマトン装置。
【請求項１０】
上位ビット及び下位ビットをそれぞれ状態及びデータストリーム要素とするアドレスに次状態が格納され、アドレスを含むパケットが入力され、次状態を含むパケットが出力され、パケット順序が維持されるデータ駆動型状態テーブルメモリと、
該状態テーブルメモリの出力を該状態テーブルメモリの入力にフィードバックさせる流路に介在され、データ入力端の第１部に供給されるデータを該データ入力端の第２部に供給される該次状態と合成する合成ノードと、
該フィードバック流路の、該状態テーブルメモリと該合成ノードとの間に、初期パケットと該次状態のパケットとを選択的に合流させる合流ノードと、
それぞれの第１キューにデータストリームが格納されるキュー列と、
出力段を該第１部に結合させる第２キューと、
該合流ノードへの初期パケット投入順に基づき巡回する選択制御信号を順次生成する予測回路と、
該選択制御信号に応じ該キュー列の第１キューを選択して、この第１キューの出力段を該第２キューの入力段に結合させるマルチプレクサと、
を有することを特徴とする有限オートマトン装置。
【請求項１１】
該状態テーブルメモリには、パターン一致情報が含まれ、
該状態テーブルメモリの出力に含まれるパターン一致情報がパターン一致を示しているか否かを判定し、肯定判定した場合には該出力に対応した、予測されるデータストリーム識別子とともに割込要求信号を出力する出力回路をさらに有することを特徴とする請求項１０に記載の有限オートマトン装置。
【請求項１２】
該キュー列の各第１キューについて、空きが所定量を超えた場合には該第１キューに対応したデータストリーム識別子とともに割込要求信号を出力する空検出回路をさらに有することを特徴とする請求項１１に記載の有限オートマトン装置。
【請求項１３】
該マルチプレクサは、その入力が複数の入口ノードの入力であり、その出力が出口ノードの出力であるツリー形合流路を有することを特徴とする請求項１２に記載の有限オートマトン装置。
【請求項１４】
供給されるデータストリームを行先アドレスに基づき順次選択的に分流させて該キュー列の１つのキューに転送させるツリー形分流路をさらに有することを特徴とする請求項１３に記載の有限オートマトン装置。
【請求項１５】
外部から供給されるデータストリームを該ツリー形分流路に供給し、該出力回路及び該空検出回路の出力を外部に供給するインターフェイスをさらに有することを特徴とする請求項１４に記載の有限オートマトン装置。
【請求項１６】
該状態テーブルメモリには、該パターン一致情報がパターン一致を示しているとき、次状態の替わりにパターン識別子が格納されており、
該出力回路は、該肯定判定した場合には該パターン識別子も出力することを特徴とすることを特徴とする請求項１１に記載の有限オートマトン装置。
【請求項１７】
該データ駆動型状態テーブルメモリは、
記憶行アレイと、
入口ノードに供給される第１パケットを、該第１パケットが含む行先アドレスに応じ下流側のノードへ順次選択的に分流させて、該記憶行アレイ内の１つの記憶行へ転送させるツリー形分流路と、
該記憶行から読み出された第２パケットを、下流側へ順次選択的に合流させて出口ノードへ転送させるツリー形合流路と、
を有し、該記憶行は、該第１パケットが含む記憶行内アドレスで指定される該記憶行内の一部の記憶データを読み出して該第２パケットとし、
該第１パケットは該状態テーブルメモリに入力されるパケットであり、該第２パケットは該状態テーブルメモリから出力されるパケットであり、該ツリー形分流路及び該ツリー形合流路のパイプライン段数がそれぞれ３以上であることを特徴とする請求項１０乃至１６のいずれか１つに記載の有限オートマトン装置。
【請求項１８】
上位ビット及び下位ビットをそれぞれ状態及びデータストリーム要素とするアドレスに次状態及びパターン一致情報が格納され、アドレスとデータストリーム識別子とを含むパケットが入力され、次状態とパターン一致情報と該データストリーム識別子とを含むパケットが出力されるデータ駆動型状態テーブルメモリを用意し、
（ａ）該状態テーブルメモリの出力を該状態テーブルメモリの入力にフィードバックさせる流路において、データ入力端の第１部に供給されるデータを該データ入力端の第２部に供給される該次状態と合成させ、
（ｂ）該フィードバック流路において該合成を行う前に、初期パケットと該次状態のパケットとを選択的に合流させ、
（ｃ）キュー列のそれぞれのキューにデータストリームを格納させ、
（ｄ）該データ駆動型状態テーブルメモリの出力に含まれるデータストリーム識別子に基づき、該キュー列のキューを選択させて、このキューの出力段を該第１部に結合させ、
（ｅ）該状態テーブルメモリの出力に含まれるパターン一致情報がパターン一致を示しているか否かを判定させ、肯定判定した場合には該出力に含まれるデータストリーム識別子とともに割込要求信号を出力させる、
工程を有することを特徴とするパターンマッチング方法。
【請求項１９】
（ｆ）該キュー列の各キューについて、空きが所定量を超えた場合には該キューに対応したデータストリーム識別子とともに割込要求信号を出力させる、
工程をさらに有することを特徴とする請求項１８に記載のパターンマッチング方法。
【請求項２０】
上位ビット及び下位ビットをそれぞれ状態及びデータストリーム要素とするアドレスに次状態及びパターン一致情報が格納され、アドレスを含むパケットが入力され、次状態及びパターン一致情報を含むパケットが出力され、パケット順序が維持されるデータ駆動型状態テーブルメモリを用意し、
（ａ）該状態テーブルメモリの出力を該状態テーブルメモリの入力にフィードバックさせる流路において、第１キューの出力段から出力されるデータを該次状態と合成させ、
（ｂ）該フィードバック流路において、該合成を行う前に、初期パケットと該次状態のパケットとを選択的に合流させ、
（ｃ）キュー列のそれぞれの第２キューにデータストリームを格納させ、
（ｄ）該合流ノードへの初期パケット投入順に基づき巡回的に、該キュー列の第２キューを選択して、この第２キューの出力段の出力を該第１キューの入力段に供給させ、
（ｅ）該状態テーブルメモリの出力に含まれるパターン一致情報がパターン一致を示しているか否かを判定させ、肯定判定した場合には、該出力に対応した、予測されるデータストリーム識別子とともに割込要求信号を出力させる、
工程を有することを特徴とするパターンマッチング方法。
【請求項２１】
（ｆ）該キュー列の各第２キューについて、空きが所定量を超えた場合には該第２キューに対応したデータストリーム識別子とともに割込要求信号を出力させる、
工程をさらに有することを特徴とする請求項２０に記載のパターンマッチング方法。

【図１】