第１の処理回路と第２の処理回路との間で作業負荷を切り替えるためのデータ処理装置および方法

２つの処理回路の間で作業負荷の実施を切り替えるためのデータ処理装置および方法を提供する。データ処理装置は、第２の処理回路とアーキテクチャ上の互換性がある、第１の処理回路を有するが、第１の処理回路は、マイクロアーキテクチャ上で第２の処理回路とは異なる。任意の時点で、少なくとも１つのアプリケーションとそのアプリケーションを実行するための少なくとも１つのオペレーティングシステムとからなる作業負荷が、第１の処理回路および第２の処理回路のうちの１つによって実施される。スイッチコントローラは、移転刺激に応答して、移転元処理回路から移転先処理回路へ作業負荷の実施を移転するようにハンドオーバー動作を実施し、移転元処理回路は、第１の処理回路および第２の処理回路のうちの一方であり、移転先処理回路は、第１の処理回路および第２の処理回路のうちのもう一方である。ハンドオーバー動作中、スイッチコントローラは、移転元処理回路に、その最新アーキテクチャ状態を移転先処理回路に利用可能にさせ、この最新アーキテクチャ状態は、ハンドオーバー動作が開始された時に共有メモリからは利用できない状態であり、移転先処理回路が、移転元処理回路から作業負荷の実施を成功裏に引き継ぐために必要である。加えて、スイッチコントローラは、作業負荷の移転がそのオペレーティングシステムに透過的であるように、少なくとも１つのオペレーティングシステムから既定のプロセッサ固有の構成情報をマスクする。かかる手法は、処理回路間でアプリケーションを切り替える能力を備えるオペレーティングシステムを提供することに関連する複雑性を回避しながら、顕著なエネルギー消費利点を生み出すことが見出された。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、第１の処理回路と第２の処理回路との間で作業負荷を切り替えるためのデータ処理装置および方法に関し、特に、データ処理装置のエネルギー効率を向上させるために、かかる切り替えを実施するための技法に関する。
【背景技術】
【０００２】
現代のデータ処理システムにおいて、ゲーム操作等の高負荷タスクと、ＭＰ３再生等の低負荷タスクとの間の性能要求の差は、１００：１の比を超える場合がある。全てのタスクに単一のプロセッサが使用される場合、そのプロセッサは高性能でなければならないが、プロセッサのマイクロアーキテクチャの原理として、高性能プロセッサは、低性能プロセッサよりもエネルギー効率が低い。広範な性能レベルおよび対応するエネルギー消費特徴を備えたプロセッサを提供するために、動的電圧周波数制御（ＤＶＦＳ）またはパワーゲーティング等の技法を使用して、プロセッサレベルでエネルギー効率を向上させることは知られている。しかしながら、かかる技法は概して、単一のプロセッサがそのような多岐にわたる性能要件を持つタスクを担うことを可能にするには、不十分になっている。
【０００３】
したがって、そのような様々なタスクの実施のためにエネルギー効率の高いシステムを提供するために、マルチコアアーキテクチャを使用することが考えられた。複数のプロセッサコアを備えるシステムは、しばらくの間、処理能力を高めるために異なるコアが異なるタスクを並行して動作することを可能にすることによって、性能を高めるために使用されたが、そのようなシステムがエネルギー効率を向上させるためにどのように使用できるかという分析は、比較的最近の進展である。
【０００４】
文献「ＴｏｗａｒｄｓＢｅｔｔｅｒＰｅｒｆｏｒｍａｎｃｅＰｅｒＷａｔｔｉｎＶｉｒｔｕａｌＥｎｖｉｒｏｎｍｅｎｔｓｏｎＡｓｙｍｍｅｔｒｉｃＳｉｎｇｌｅ−ＩＳＡＭｕｌｔｉ−ＣｏｒｅＳｙｓｔｅｍｓ」（ＶＫｕｍａｒｅｔａｌによる）（ＡＣＭＳＩＧＯＰＳＯｐｅｒａｔｉｎｇＳｙｓｔｅｍｓＲｅｖｉｅｗ，４３号、第３巻（２００９年７月）に収容）は、同一命令セットアーキテクチャ（ＩＳＡ）に対応するが、機能、複雑性、電力消費、および性能面で異なる、いくつかのコアからなる、非対称単一命令セットアーキテクチャ（ＡＳＩＳＡ：ＡｓｙｍｍｅｔｒｉｃＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎＳｅｔＡｒｃｈｉｔｅｃｔｕｒｅ）マルチコアシステムを論じる。文書中、仮想作業負荷の特性が研究され、性能およびエネルギー消費を向上させるために、これらの作業負荷がＡＳＩＳＡシステム上でどのようにスケジュールされるべきかについて考察された。文書では、所定のタスクは高周波数／性能のマイクロアーキテクチャ（典型的に演算が集中するタスク）により適用するが、他のタスクは、より低い周波数／性能のマイクロアーキテクチャにより適しており、副作用として、より少ないエネルギーを消費する（典型的に入力／出力が集中するタスク）。かかる研究は、エネルギー効率の高い様式で多様なタスクを実行するために、ＡＳＩＳＡシステムをどのように利用することができるかを示すが、依然として、最も適切なプロセッサに個別のタスクをスケジュールするための機構を提供することが必要であり、そのようなスケジュール管理は典型的に、オペレーティングシステムに顕著な負担を強いることになる。
【０００５】
文献「Ｓｉｎｇｌｅ−ＩＳＡＨｅｔｅｒｏｇｅｎｅｏｕｓＭｕｌｔｉ−ＣｏｒｅＡｒｃｈｉｔｅｃｔｕｒｅｓ：ＴｈｅＰｏｔｅｎｔｉａｌｆｏｒＰｒｏｃｅｓｓｏｒＰｏｗｅｒＲｅｄｕｃｔｉｏｎ」（ＲＫｕｍａｒｅｔａｌによる）（第３６回ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｆＭｉｃｒｏａｒｃｈｉｔｅｃｔｕｒｅ（ＭＩＣＲＯ−３６’０３）の議事録）は、全てのコアが同一命令セットを実行するが、異なる能力および性能レベルを有する、マルチコアアーキテクチャを論じる。実行時、システムソフトウェアは、アプリケーションのリソース要件を評価し、エネルギー消費を最小限にしながら、これらの要件を最適に満たすことができるコアを選択する。文書の第２項に記載のように、アプリケーションの実行中、オペレーティングシステムソフトウェアは、アプリケーションを異なるコアに組み合わせ、例えば、特定の性能要件等、定義された目的機能を満たそうと試みる。第２．３項には、コアを切り替えるにはコストが存在し、切り替えの粒度の制限が必要となることが特筆されている。次いで、オペレーティングシステムが切り替えが順当であると判定した場合、新しいコアを駆動し、キャッシュのフラッシュをトリガして、全てのダーティキャッシュデータを共有メモリ構造に保存し、次いで、既定のオペレーティングシステムのエントリポイントで、新しいコアに起動するように信号を送信する、という特定の例が論じられる。旧コアは、次いで、電源を切断することができ、一方、新しいコアは、メモリから必要なデータを呼び出す。このような手法は、アプリケーションが、オペレーティングシステムによってコア間で切り替えられることを可能にするとして、第２．３項に記載される。文書の後半では、次いで、エネルギー消費削減を目的として、マルチコア環境で、そのような切り替えをどのように動的に実施することができるかを論じる。
【０００６】
上記の文献は、エネルギー消費削減を実現するために、単一ＩＳＡ異種マルチコアアーキテクチャの可能性を論じるが、依然として、オペレーティングシステムに、個別のアプリケーションを実行するためのスケジュール判定を可能にするに十分な機能を提供することを必要とする。この面でオペレーティングシステムの役割は、異なるアーキテクチャ特徴を備えるプロセッサインスタンス間で切り替える場合にはより複雑になる。この点で、文献で検討されたＡｌｐｈａコアＥＶ４からＥＶ８は、例えば、第２．２項の第５段落で論じられるように、完全にＩＳＡ互換ではないことに注意されたい。
【０００７】
さらに、文書は、コア間でアプリケーションを切り替える際に関わる顕著なオーバーヘッドが存在するという問題に対処していないが、この問題は、そのような切り替えから達成される利点を実質的に削減する可能性がある。
【０００８】
（発明の概要）
一態様から見ると、本発明は、データ処理動作を実施するための第１の処理回路と、データ処理動作を実施するための第２の処理回路とを備え、第１の処理回路は、データ処理装置によって実施される作業負荷が、第１の処理回路または第２の処理回路のいずれか上で実施することができるように、第２の処理回路とアーキテクチャ上の互換性があり、前記作業負荷は、少なくとも１つのアプリケーションと、少なくとも１つのアプリケーションを実行するための少なくとも１つのオペレーティングシステムとを含み、第１の処理回路は、第１の処理回路の性能が第２の処理回路の性能とは異なるように、マイクロアーキテクチャ上で第２の処理回路とは異なり、第１の処理回路および第２の処理回路は、任意の時点で、作業負荷が第１の処理回路および第２の処理回路のうちの１つによって実施されるように構成され、移転刺激に応答して、移転元処理回路から移転先処理回路へ作業負荷の実施を移転するようにハンドオーバー動作を実施するスイッチコントローラであって、移転元処理回路は、第１の処理回路および第２の処理回路のうちの一方であり、移転先処理回路は、第１の処理回路および第２の処理回路のうちのもう一方である、スイッチコントローラをさらに備え、スイッチコントローラは、ハンドオーバー動作中に、（ｉ）移転元処理回路に、ハンドオーバー動作が開始される時に第１の処理回路と第２の処理回路との間で共有される共有メモリからは利用可能ではない状態であり、移転先処理回路が、移転元処理回路から、作業負荷の実施を成功裏に引き継ぐために必要である、その最新アーキテクチャ状態を移転先処理回路に利用可能にさせ、（ｉｉ）作業負荷の移転が少なくとも１つのオペレーティングシステムに透過的であるように、少なくとも１つのオペレーティングシステムから、既定のプロセッサ固有の構成情報をマスクするように配置される、データ処理装置を提供する。
【０００９】
本発明によると、データ処理装置は、アーキテクチャ上では相互に互換性があるが、マイクロアーキテクチャ上では異なる、第１の処理回路および第２の処理回路を備えて提供される。第１の処理回路および第２の処理回路のアーキテクチャ上の互換性に起因して、１つ以上のアプリケーションからなるだけでなく、それらの１つ以上のアプリケーションを実行するための少なくとも１つのオペレーティングシステムも含む、作業負荷は、第１の処理回路と第２の処理回路との間で移動することができる。さらに、第１の処理回路および第２の処理回路がマイクロアーキテクチャ上で異なるため、第１の処理回路および第２の処理回路の性能特徴（したがって、エネルギー消費特徴）は異なる。
【００１０】
本発明によると、任意の時点で、作業負荷は、第１の処理回路および第２の処理回路のうちの１つによって実施され、スイッチコントローラは、移転刺激に応答して、処理回路の間で作業負荷の実施を移転するためにハンドオーバー動作を実施する。移転刺激の受信時、２つの処理回路のうち、作業負荷を現在実施している方が移転元処理回路と見なされ、もう一方が移転先処理回路と見なされる。ハンドオーバー動作を実施することを担うスイッチコントローラは、移転元処理回路の最新アーキテクチャ状態を移転先処理回路に利用可能にさせ、さらに、作業負荷の一部を形成している少なくとも１つのオペレーティングシステムから、既定のプロセッサ固有の構成情報をマスクし、作業負荷の移転がそのオペレーティングシステムに透過的であるようにする。
【００１１】
本発明の使用を通じて、一方の処理回路からもう一方の処理回路へ作業負荷全体を移行し、一方で、その移転をオペレーティングシステムからマスクし、さらにハンドオーバー動作が開始される時点で共有メモリに利用可能ではない必要なアーキテクチャ状態が、移転先処理回路に利用可能であることを保証し、作業負荷の実施を成功裏に引き継ぐことができるようにすることが可能である。
【００１２】
任意の特定の時点で、第１の処理回路および第２の処理回路のうちの１つの上だけで実施される作業負荷全体を巨視的エンティティとして取り扱うことによって、本発明の技法は、移転先処理回路が、作業負荷の実施を成功裏に引き継ぐことを可能にするために必要な情報全てを有することを保証しながら、作業負荷が、オペレーティングシステムに透過的である様式で、第１の処理回路と第２の処理回路との間で容易に切り替えられることを可能にする。かかる手法は、特定の処理回路に対するアプリケーションのスケジュールを管理するために、オペレーティングシステムを使用することからもたらされる前述の問題に対処し、顕著なエネルギー消費節約が達成できることが見出された。
【００１３】
一実施形態において、データ処理装置は、第１の処理回路および第２の処理回路に提供される電力を独立的に制御するための電力制御回路をさらに備え、移転刺激の発生前に、移転先処理回路は、電力節約状態にあり、ハンドオーバー動作中に、電力制御回路は、移転先処理回路が作業負荷の実施を引き継ぐ前に、移転先処理回路に電力節約状態を終了させる。そのような電力制御回路の使用を通じて、作業負荷を現在実施していない任意の処理回路によって消費されるエネルギーを削減することが可能である。
【００１４】
一実施形態において、ハンドオーバー動作に続いて、電力制御回路は、移転元処理回路に電力節約状態に入らせる。これは、ハンドオーバー動作の直後に発生することができる、または代替の実施形態において、移転元処理回路は、いくらかの既定の時間が経過した後のみに電力節約状態に入るように配置される場合があり、移転元処理回路によってまだ保存されているデータが、よりエネルギー効率が高く、より高い性能様式で移転先処理回路に利用可能にさせられることを可能にすることができる。
【００１５】
異なる処理回路の間での切り替えが発生する様式に関係なく、先行技術に存在するさらなる問題は、高速かつエネルギー効率の高い様式で、その切り替えが成功するために必要な情報をどのように移転するかである。具体的には、前述の最新アーキテクチャ状態が移転先処理回路に利用可能になることが必要である。これを達成することができる１つの方式は、その最新アーキテクチャ状態をハンドオーバー動作の一部として共有メモリに全て書き込み、したがって、移転先処理回路によってその後共有メモリから読み出すことができるようにすることである。本明細書に使用される場合、「共有メモリ」という用語は、第１の処理回路および第２の処理回路両方によって直接アクセスすることができるメモリを言い、例えば、相互接続により第１の処理回路および第２の処理回路両方に連結されるメインメモリである。
【００１６】
しかしながら、最新アーキテクチャ状態の全てを共有メモリに書き込む際に発生する問題は、そのようなプロセスは相当な時間がかかり、さらに相当なエネルギーも消費することで、これは、切り替えを実施することによって実現することができる潜在的な利点を大幅に相殺する可能性がある。
【００１７】
一実施形態によると、移転動作中、スイッチコントローラは、最新アーキテクチャ状態を取得するために、移転先処理回路が共有メモリを参照しなくても、その最新アーキテクチャを移転先処理回路に利用可能にするように、移転元処理回路に加速機構を採用させる。したがって、そのような実施形態によると、移転先処理回路に利用可能にするために、共有メモリを介してルーティングされるアーキテクチャ状態の要件を回避する機構が提供される。これは、移転動作中の性能向上だけでなく、移転動作に関連するエネルギー消費の削減ももたらす。
【００１８】
一実施形態において、少なくとも移転元回路は、関連キャッシュを有し、データ処理装置は、スヌープ制御回路をさらに有し、加速機構は、移転元回路の関連キャッシュおよびスヌープ制御回路の使用を通じて、移転先処理回路へ最新アーキテクチャ状態を移転することを含む。
【００１９】
この技法によると、移転先プロセッサに利用可能にしなければならない最新アーキテクチャ情報を記憶するために、移転元処理回路のローカルキャッシュが使用される。その状態は、次いで共有可能とマークされ、その状態がスヌープ制御回路を使用する移転先処理回路によってスヌープされることが可能になる。したがって、そのような実施形態において、第１の処理回路および第２の処理回路は、相互にハードウェアキャッシュコヒーレントになり、これによって、移転元処理回路から移転先処理回路への切り替えに関わる時間、エネルギー、およびハードウェアの複雑度を削減する。
【００２０】
１つの特定の実施形態において、加速機構は、保存および復元機構であり、移転元処理回路にその最新アーキテクチャ状態をその関連キャッシュに記憶させ、移転先処理回路に復元動作を実施させる。この復元動作により、スヌープ制御回路は、移転元処理回路の関連キャッシュから最新アーキテクチャ状態を呼び出し、その呼び出された最新アーキテクチャ状態を移転先処理回路に提供する。保存／記憶機構は、アーキテクチャ状態を移転元回路のローカルキャッシュに保存し、移転先処理回路が次いでその状態を呼び出すために、特に効率的な技法を提供する。
【００２１】
そのような手法は、移転先処理回路が独自の関連ローカルキャッシュを有するかどうかに関わらず使用される場合がある。アーキテクチャ状態の項目に対するリクエストが、移転先処理回路から直接、またはキャッシュミスの場合に移転先処理回路の関連ローカルキャッシュからのいずれかで、スヌープ制御回路によって受信されると必ず、アーキテクチャ状態の必要な項目が移転元回路に関連するローカルキャッシュに記憶され、移転先処理回路に返すために、そのデータを移転元回路のローカルキャッシュから（直接、または存在する場合は移転先処理回路の関連キャッシュを介してのいずれかで）呼び出すことを決定する。
【００２２】
１つの特定の実施形態において、移転先処理回路は、スヌープ制御回路によって取得された移転されたアーキテクチャ状態が移転先処理回路によって参照するために記憶される、関連キャッシュを有する。
【００２３】
しかしながら、上記のハードウェアキャッシュコヒーレンシ手法は、前述の加速機構を提供するために使用することができる唯一の技法ではない。例えば、代替の実施形態において、加速機構は、移転元処理回路と移転先処理回路との間に、移転元処理回路がその最新アーキテクチャ状態を移転先処理回路に提供する、専用バスを備える。そのような手法は典型的に、キャッシュコヒーレンシ手法を採用するよりも高いハードウェアコストを有するが、切り替えを実施するさらに高速の方式を提供することになり、所定の実装においては有利であり得る。
【００２４】
スイッチコントローラは、多様な形式をとることができる。しかしながら、一実施形態において、スイッチコントローラは、第１の処理回路および第２の処理回路から、少なくとも１つのオペレーティングシステムを論理的に分離する、少なくとも仮想化ソフトウェアを含む。異なるネイティブ命令セットを有するハードウェア上で実行される特定のネイティブ命令セットを使用するアプリケーションの書き込みを可能にするために、仮想マシンを使用することが知られている。アプリケーションは、アプリケーションの命令が仮想マシンにネイティブである、仮想マシン環境で実行されるが、仮想マシンは、異なるネイティブ命令セットを有するハードウェア上で実行するソフトウェアによって実装される。上記の実施形態のスイッチコントローラによって提供される仮想化ソフトウェアは、作業負荷と基底のハードウェアプラットフォームとの間に分離を提供するので、仮想マシン環境のハイパーバイザに類似の方式で動作すると考えることができる。本発明のコンテキストでは、仮想化ソフトウェアは、作業負荷をある処理回路から別の処理回路へ移転するための効率的な機構を提供し、一方、その作業負荷を形成するオペレーティングシステムから、プロセッサ固有の構成情報をマスクする。
【００２５】
移転刺激は、多様な理由で生成される可能性がある。しかしながら、一実施形態において、移転刺激のタイミングは、データ処理装置のエネルギー効率を向上させるように選択される。これは、多様な方式で達成することができる。例えば、性能に敏感なイベントをカウントするために（例えば、実行された命令の数、またはロードして記憶する動作の数）、処理回路の性能カウンタを設定することができる。サイクルカウンタまたはシステムタイマと組み合わされると、これによって、より高性能の処理回路に切り替えることによって遂行されるほうが適している場合がある、演算が集中するアプリケーションが実行中であることを識別すること、エネルギー効率が高い処理回路上で遂行されるほうが適している場合がある、ＩＯが集中するアプリケーションを示すロードして記憶する動作の回数が多いことを識別すること等を可能にする。代替の手法は、アプリケーションが「大型」、「小型」、または「大型／小型」としてプロファイルされ、マークされることで、それによって、オペレーティングシステムは、これに従い作業負荷を移動するようにスイッチコントローラとインターフェースすることができる（本明細書において「大型」という用語は、より高性能の処理回路を指し、「小型」という用語は、よりエネルギー効率の高い処理回路を指す）。
【００２６】
移転先処理回路が移転元処理回路から作業負荷の実施を成功裏に引き継ぐために必要なアーキテクチャ状態は、多様な形式をとることができる。しかしながら、一実施形態において、アーキテクチャ状態は、プログラムカウンタ値を含む、移転元処理回路の１つ以上の特殊目的レジスタの少なくとも最新値を含む。プログラムカウンタ値に加えて、多様な他の情報が特殊目的レジスタ内に記憶される場合がある。例えば、他の特殊目的レジスタとして、プロセッサモードの制御ビット、中断マスキング、実行状態およびフラグを保持する、プロセッサステータスレジスタ（例えば、ＡＲＭアーキテクチャのＣＰＳＲおよびＳＰＳＲ）が挙げられる。他の特殊目的レジスタとして、データエンディアンを変更する、ＭＭＵをオンまたはオフにする、データ命令キャッシュをオンまたはオフにする等のためのビットを保持する、アーキテクチャ制御（ＡＲＭアーキテクチャのＣＰ１５システム制御レジスタ）が挙げられる。ＣＰ１５の他の特殊目的レジスタは、例外アドレスおよびステータス情報を記憶する。
【００２７】
一実施形態において、アーキテクチャ状態はさらに、移転元処理回路のアーキテクチャレジスタファイルに記憶された最新値を含む。当業者によって理解されるように、アーキテクチャレジスタファイルは、アプリケーションが稼動中に実行される命令によって参照されるレジスタを含み、これらのレジスタは、演算のためのソースオペランドを保持し、これらの演算の結果が記憶される場所を提供する。
【００２８】
一実施形態において、第１の処理回路および第２の処理回路のうちの少なくとも１つは、単一処理装置を備える。さらに、一実施形態において、第１の処理回路および第２の処理回路のうちの少なくとも１つは、同一のマイクロアーキテクチャを備える１群の処理装置を備える。１つの特定の実施形態において、第１の処理回路は、同一のマイクロアーキテクチャを備える１群の処理装置を備える場合があり、一方、第２の処理回路は、（第１の処理回路を形成する群内の処理装置のマイクロアーキテクチャとは異なるマイクロアーキテクチャを備える）単一の処理装置を備える。
【００２９】
電力制御回路が第１の処理回路および第２の処理回路を選択的に入れることができる、電力節約状態は、多様な形式をとることができる。一実施形態において、電力節約状態は、電源を切断した状態、部分的／完全データ保存状態、休眠状態、またはアイドル状態のうちの１つである。そのような状態は、当業者によってよく理解され、従って、本明細書において詳細に記載しない。
【００３０】
第１の処理回路および第２の処理回路をマイクロアーキテクチャ上異なるように配置することができる方式はいくつか存在する。一実施形態において、第１の処理回路および第２の処理回路は、異なる実行パイプライン長、または異なる実行リソースのうちの少なくとも１つを有することによって、マイクロアーキテクチャ上異なる。パイプライン長の違いは、典型的に、動作周波数の違いになり、すなわち、性能に影響を与える。同様に、実行リソースの違いは、処理能力、したがって性能に影響を与える。例えば、より広範な実行リソースを有する処理回路は、任意の特定の時点でより多くの情報を処理することを可能にし、処理能力を向上させる。加えて、または代替として、ある処理回路は、他の処理回路よりも多くの実行リソース、例えば、より多くの算術論理装置（ＡＬＵ）を有する場合があり、これも処理能力を向上させる。異なる実行リソースの別の例として、エネルギー効率の高い処理回路は、簡単な順次パイプラインを備えて提供される場合があり、一方、より高性能の処理回路は、非順次のスーパースカラーパイプラインを備えて提供される場合がある。
【００３１】
例えば、ＧＨｚ周波数で実行する、高性能処理回路を使用する際に発生する可能性がある更なる問題は、そのようなプロセッサが、範囲内で動作するように設計された温度限界に到達する、さらに時々は超える時に発生する可能性がある。これらの問題に対処することを模索するために知られている技法は、熱出力を削減するために、処理回路を低出力状態に入れることが関わり、クロックスロットルおよび／または電圧低下を含む場合があり、処理回路を一定期間完全にオフにする可能性さえある。しかしながら、本発明の実施形態の技法を適合すると、熱限界を超えることを回避するために代替の手法を実装することが可能である。具体的には、一実施形態において、移転元処理回路は、移転先処理回路よりも性能が高く、データ処理装置は、移転元処理回路の熱出力を監視し、前記熱出力が既定のレベルに到達すると前記移転刺激をトリガするための温度監視回路をさらに備える。そのような技法によると、作業負荷全体を、より高い性能の処理回路からより低い性能の処理回路へ移行することができ、その後、より少ない熱が生成され、移転元処理回路を冷却することを可能にする。したがって、より低い処理能力ではあるが、継続してプログラム実行を行うことができる間に、２つの処理回路を含むパッケージを冷却することができる。
【００３２】
データ処理装置は、多様な方式で配置することができる。しかしながら、一実施形態において、第１の処理回路および第２の処理回路は、単一の集積回路内に存在する。
【００３３】
第２の態様から見ると、本発明は、データ処理動作を実施するための第１の処理手段と、データ処理動作を実施するための第２の処理手段とを備え、第１の処理手段は、データ処理装置によって実施される作業負荷が、第１の処理手段または第２の処理手段のいずれか上で実施することができるように、第２の処理手段とアーキテクチャ上の互換性があり、前記作業負荷は、少なくとも１つのアプリケーションと、少なくとも１つのアプリケーションを実行するための少なくとも１つのオペレーティングシステムとを含み、第１の処理手段は、第１の処理手段の性能が第２の処理手段の性能とは異なるように、マイクロアーキテクチャ上で第２の処理手段とは異なり、第１の処理手段および第２の処理手段は、任意の時点で、作業負荷が第１の処理手段および第２の処理手段のうちの１つによって実施されるように構成され、移転刺激に応答して、移転元処理手段から移転先処理手段へ作業負荷の実施を移転するようにハンドオーバー動作を実施する移転制御手段であって、移転元処理手段は、第１の処理手段および第２の処理手段のうちの一方であり、移転先処理手段は、第１の処理手段および第２の処理手段のうちのもう一方である、移転制御手段をさらに備え、移転制御手段は、ハンドオーバー動作中に、（ｉ）移転元処理手段に、ハンドオーバー動作が開始される時に第１の処理手段と第２の処理手段との間で共有される共有メモリからは利用可能ではない状態であり、移転先処理手段が、移転元処理手段から作業負荷の実施を成功裏に引き継ぐために必要である、その最新アーキテクチャ状態を移転先処理手段に利用可能にさせ、（ｉｉ）作業負荷の移転が少なくとも１つのオペレーティングシステムに透過的であるように、少なくとも１つのオペレーティングシステムから、既定のプロセッサ固有の構成情報をマスクするためである、データ処理装置を提供する。
【００３４】
第３の態様から見ると、本発明は、データ処理動作を実施するための第１の処理回路と、データ処理動作を実施するための第２の処理回路であって、第１の処理回路は、データ処理装置によって実施される作業負荷が、第１の処理回路または第２の処理回路のいずれか上で実施することができるように、第２の処理回路とアーキテクチャ上の互換性があり、作業負荷は、少なくとも１つのアプリケーションと、少なくとも１つのアプリケーションを実行するための少なくとも１つのオペレーティングシステムとを備え、第１の処理回路は、第１の処理回路の性能が、第２の処理回路の性能とは異なるように、マイクロアーキテクチャ上で第２の処理回路とは異なる、第１の処理回路と第２の処理回路とを有するデータ処理装置を動作する方法であって、任意の時点で、第１の処理回路および第２の処理回路のうちの１つの上で作業負荷を実施するステップと、移転刺激に応答して、移転元処理回路から移転先処理回路へ作業負荷の実施を移転するようにハンドオーバー動作を実施するステップであって、移転元処理回路は、第１の処理回路および第２の処理回路のうちの一方であり、移転先処理回路は、第１の処理回路および第２の処理回路のうちのもう一方であり、ハンドオーバー動作中に、（ｉ）移転元処理回路に、ハンドオーバー動作が開始される時に第１の処理回路と第２の処理回路との間で共有される共有メモリからは利用可能ではない状態であり、移転先処理回路が、移転元処理回路から作業負荷の実施を成功裏に引き継ぐために必要である、その最新アーキテクチャ状態を移転先処理回路に利用可能にさせ、（ｉｉ）作業負荷の移転が少なくとも１つのオペレーティングシステムに透過的であるように、少なくとも１つのオペレーティングシステムから、既定のプロセッサ固有の構成情報をマスクする、ステップと、を含む、方法を提供する。
【図面の簡単な説明】
【００３５】
本発明を、添付の図面に例示されるその実施形態を参照しながら、例示のみの目的でさらに説明する。
【図１】一実施形態によるデータ処理システムのブロック図である。
【図２】一実施形態によるスイッチコントローラ（本明細書において作業負荷移転コントローラとも呼ばれる）の提供が例示され、データ処理装置によって実施されている作業負荷を、その作業負荷を実施するために使用されているデータ処理装置内の特定のハードウェアプラットフォームから論理的に分離する。
【図３】一実施形態による、切り替え刺激に応答して作業負荷を移転元プロセッサから移転先プロセッサへ移転するために、移転元プロセッサおよび移転先プロセッサ両方によって実施されるステップを模式的に示す図である。
【図４Ａ】図３の保存動作中に、移転元処理回路の最新アーキテクチャ状態をその関連キャッシュに記憶するステップを模式的に示す。
【図４Ｂ】図３の復元動作中に、移転元処理回路の最新アーキテクチャ状態の移転先処理回路への移転を制御するために、スヌープ制御装置の使用を模式的に示す。
【図５】一実施形態による、移転動作中に移転元処理回路の最新アーキテクチャ状態を移転先処理回路へ移転するための加速機構を提供するための代替構造を示す。
【図６Ａ】一実施形態による、移転元処理回路から移転先処理回路へ作業負荷を移転するために実施されるステップを模式的に示す。
【図６Ｂ】一実施形態による、移転元処理回路から移転先処理回路へ作業負荷を移転するために実施されるステップを模式的に示す。
【図６Ｃ】一実施形態による、移転元処理回路から移転先処理回路へ作業負荷を移転するために実施されるステップを模式的に示す。
【図６Ｄ】一実施形態による、移転元処理回路から移転先処理回路へ作業負荷を移転するために実施されるステップを模式的に示す。
【図６Ｅ】一実施形態による、移転元処理回路から移転先処理回路へ作業負荷を移転するために実施されるステップを模式的に示す。
【図６Ｆ】一実施形態による、移転元処理回路から移転先処理回路へ作業負荷を移転するために実施されるステップを模式的に示す。
【図６Ｇ】一実施形態による、移転元処理回路から移転先処理回路へ作業負荷を移転するために実施されるステップを模式的に示す。
【図６Ｈ】一実施形態による、移転元処理回路から移転先処理回路へ作業負荷を移転するために実施されるステップを模式的に示す。
【図６Ｉ】一実施形態による、移転元処理回路から移転先処理回路へ作業負荷を移転するために実施されるステップを模式的に示す。
【図７】性能によるエネルギー効率の変動を示し、一実施形態による、図１に示された多様なプロセッサコアがその曲線に沿った多様な点でどのように使用されるかを示すグラフである
【図８Ａ】一実施形態において、低性能プロセッサパイプラインおよび高性能プロセッサパイプラインがそれぞれどのように利用されるかを模式的に示す。
【図８Ｂ】一実施形態において、低性能プロセッサパイプラインおよび高性能プロセッサパイプラインがそれぞれどのように利用されるかを模式的に示す。
【図９】処理作業負荷の実施が低性能、高エネルギー効率の処理回路、および高性能、低エネルギー効率の処理回路の間で切り替えられる際に、データ処理システムによって消費される電力の変動を示すグラフである。
【発明を実施するための形態】
【００３６】
図１は、一実施形態によるデータ処理システムを模式的に示すブロック図である。図１に示されるように、システムは、２つのアーキテクチャ上の互換性がある処理回路インスタンス（処理回路０（１０）および処理回路１（５０））を含むが、これらの異なる処理回路インスタンスは、異なるマイクロアーキテクチャを有する。具体的には、処理回路１０は、処理回路５０よりも高い性能で動作するが、処理回路１０は、処理回路５０よりもエネルギー効率が低いというトレードオフがあるように配置される。マイクロアーキテクチャ上の違いの例は、図８Ａおよび８Ｂを参照して以下に詳細に説明する。
【００３７】
各処理回路は、単一の処理装置（本明細書においては、プロセッサコアとも呼ばれる）を含む場合があるが、代替として、処理回路インスタンスのうちの少なくとも１つはそれ自体、同じマイクロアーキテクチャを備えた１群の処理装置を備える場合がある。
【００３８】
図１に示される例では、処理回路１０は、２つのプロセッサコア１５、２０を含み、両者はアーキテクチャ上でもマイクロアーキテクチャ上でも同じである。対照的に、処理回路５０は、単一のプロセッサコア５５のみを含む。以下の記載では、プロセッサコア１５、２０は典型的に、これらのコアは性能を重視して設計されているために、プロセッサコア５５よりも複雑度が高く、対照的にプロセッサコア５５は典型的に、エネルギー効率を重視して設計されているために実質的に複雑度が低いので、プロセッサコア１５、２０は、「大型」コアと呼ばれ、プロセッサコア５５は「小型」コアと呼ばれる。
【００３９】
図１では、コア１５、２０、５５の各々は、それぞれ、それ独自に関連したローカルレベル１キャッシュ２５、３０、６０を有すると想定され、これらは、関連コアによって参照されるための命令およびデータの両方を記憶するための統一キャッシュとして配置される場合、または個別のレベル１データおよびレベル１命令キャッシュを提供する、ハーバードアーキテクチャによって配置することができる。コアの各々は独自の関連レベル１キャッシュを有すると示されるが、これは要件ではなく、代替の実施形態では、コアのうちの１つ以上はローカルキャッシュを有さない場合がある。
【００４０】
図１に示される実施形態において、処理回路１０はまた、コア１５とコア２０との間で共有されるレベル２キャッシュ３５も含み、スヌープ制御装置４０は、２つのレベル１キャッシュ２５、３０とレベル２キャッシュ３５との間のキャッシュコヒーレンシを保証するために使用される。一実施形態において、レベル２キャッシュは、包括的キャッシュとして配置され、従って、レベル１キャッシュ２５、３０のいずれかに記憶される任意のデータは、レベル２キャッシュ３５にも存在する。当業者によって十分理解されるように、スヌープ制御装置４０の目的は、多様なキャッシュ間のキャッシュコヒーレンシを保証することであり、このため、アクセスリクエストを発行すると、コア１５、２０のいずれも必ず最新バージョンの任意のデータにアクセスすることを保証することができる。したがって、例示のみを目的として、コア１５が関連レベル１キャッシュ２５の中に存在しないデータに対するアクセスリクエストを発行した場合、スヌープ制御装置４０は、レベル１キャッシュ２５から伝播されたリクエストをインターセプトし、レベル１キャッシュ３０および／またはレベル２キャッシュ３５を参照して、そのアクセスリクエストが、これらの他のキャッシュのうちの１つの内容からサービスすることができるかを判定する。データがキャッシュのうちのいずれにも存在しない場合にのみ、アクセスリクエストは、相互接続７０を介して、メインメモリ８０に伝播され、メインメモリ８０は、処理回路１０および処理回路５０の両方の間で共有されるメモリである。
【００４１】
相互接続７０内に提供されたスヌープ制御装置７５は、スヌープ制御装置４０に類似の様式で動作するが、このインスタンスでは、処理回路１０内部に提供されたキャッシュ構造と、処理回路５０内部に提供されたキャッシュ構造との間のコヒーレンシを維持することを模索する。レベル２キャッシュ３５が包括的キャッシュである例では、スヌープ制御装置は、処理回路１０のレベル２キャッシュ３５と、処理回路５０のレベル１キャッシュ６０との間のハードウェアキャッシュコヒーレンシを維持する。しかしながら、レベル２キャッシュ３５が、排他的レベル２キャッシュとして配置される場合、スヌープ制御装置７５は、処理回路１０のキャッシュと処理回路５０のキャッシュ６０との間のキャッシュコヒーレンシを保証するために、レベル１キャッシュ２５、３０の中に保持されたデータもスヌープする。
【００４２】
一実施形態によると、処理回路１０および処理回路５０のうちの１つだけが、任意の時点で作業負荷を積極的に処理することになる。本明細書の目的では、作業負荷は、図２の参照番号１００によって模式的に示されるように、少なくとも１つのアプリケーションと、その少なくとも１つのアプリケーションを実行するための少なくとも１つのオペレーティングシステムを含む。この例では、２つのアプリケーション１０５、１１０は、オペレーティングシステム１１５の制御下で実行中であり、アプリケーション１０５、１１０およびオペレーティングシステム１１５はまとめて作業負荷１００を形成する。アプリケーションは、ユーザレベルに存在すると考えることができ、一方、オペレーティングシステムは、特権レベルに存在し、アプリケーションおよびオペレーティングシステムによって形成される作業負荷はまとめて、ハードウェアプラットフォーム１２５（ハードウェアレベル概念を表す）上で実行する。任意の時点で、そのハードウェアプラットフォームは、処理回路１０、または処理回路５０のいずれかによって提供される。
【００４３】
図１に示されるように、電力制御回路６５は、処理回路１０および処理回路５０に電力を選択的かつ独立的に供給するために、提供される。一方の処理回路からもう一方の処理回路へ作業負荷を移転する前は、処理回路のうちの１つだけ、すなわち、現在作業負荷を実施している処理回路（移転元処理回路）が典型的に完全に駆動し、もう一方の処理回路（移転先処理回路）は典型的に電力節約状態にある。作業負荷が一方の処理回路からもう一方へ移転されるべきであることが判定されると、移転動作中、両方の処理回路が駆動状態にある期間が存在するが、移転動作のある時点で、作業負荷が移転される移転元処理回路は、次いで、電力節約状態に入る。
【００４４】
電力節約状態は、実装に応じて、多様な形式をとることができるので、例えば、電源を切断した状態、部分的／完全データ保存状態、休眠状態、またはアイドル状態のうちの１つの場合がある。そのような状態は、当業者によってよく理解され、したがって、本明細書において詳細に記載しない。
【００４５】
記載の実施形態の目的は、作業負荷の必要な性能／エネルギーレベルに応じて、処理回路の間で作業負荷の切り替えを実施することである。したがって、作業負荷に、ゲームアプリケーションの実行等、１つ以上の高負荷タスクの実行が関わる場合、作業負荷は、大型コア１５、２０のうちの１つを使用、または両方を使用のいずれかで、高性能処理回路１０上で実行することができる。しかしながら、対照的に、作業負荷が、ＭＰ３再生等の低負荷タスクだけを実施する場合、作業負荷全体を処理回路５０に移転することができ、したがって、処理回路５０を利用することからエネルギー効率からの利点を実現することができる。
【００４６】
そのような切り替え能力を最大限に利用するためには、作業負荷を移転する動作が、切り替えの利点を否定する程度までエネルギーを消費しないために、さらに切り替えプロセスがそれ自体、何らかの顕著な程度まで性能を低下させないように十分迅速であることを保証するために、切り替えが単純かつ効率的な様式で発生することを可能にする機構を提供することが必要である。
【００４７】
一実施形態において、そのような利点は少なくとも部分的に、処理回路１０を処理回路５０とアーキテクチャ上で互換性があるように配置することによって達成される。これによって、正しい動作を保証しながら、作業負荷が、一方の処理回路からもう一方へ移行することができることを保証する。そのようなアーキテクチャ上の互換性は最低限、同じ命令セットアーキテクチャを共有するために、処理回路１０および５０の両方に必要である。しかしながら、一実施形態では、そのようなアーキテクチャ上の互換性は、２つの処理回路のインスタンスが、プログラマの観点から同一と認識されることを保証するように、より高い互換性要件も必要とする。一実施形態において、これには、同じアーキテクチャレジスタ、およびアプリケーションを実行時にオペレーティングシステムによって使用されるデータを記憶する１つ以上の特殊目的レジスタの使用が関わる。そのようなレベルのアーキテクチャ上の互換性によって、処理回路間の作業負荷の移転をオペレーティングシステム１１５からマスクすることが可能になるので、オペレーティングシステムは、作業負荷が処理回路１０上または処理回路５０上で実行されているかに関して全く認識しない。
【００４８】
一実施形態において、一方の処理回路からもう一方への移転の取扱は、図２に示されるスイッチコントローラ１２０（図中ではバーチャライザ、本明細書の他の場所では作業負荷移転コントローラとも呼ばれる）によって管理される。スイッチコントローラは、ハードウェア、ファームウェア、および／またはソフトウェア特徴の組み合わせによって具現化することができるが、一実施形態では、１つのネイティブ命令セットに書き込まれたアプリケーションが、異なるネイティブ命令セットを適合するハードウェアプラットフォーム上で実行されることを可能にするために、仮想マシンに見出されるハイパーバイザソフトウェアに性質的に類似したソフトウェアを含む。２つの処理回路１０、５０の間のアーキテクチャ上の互換性に起因して、スイッチコントローラ１２０は、既定のプロセッサ固有の構成情報のうちの１つ以上の項目をオペレーティングシステムからマスクすることだけによって、オペレーティングシステム１１５から移転をマスクすることができる。例えば、プロセッサ固有の構成情報は、ＣＰ１５プロセッサＩＤレジスタおよびＣＰ１５キャッシュタイプレジスタの内容を含む場合がある。
【００４９】
そのような実施形態において、スイッチコントローラは、移転先回路が作業負荷の実施を成功裏に引き継ぐ用意ができていることを可能にするために、移転の時点で移転元処理回路によって保持され、移転が開始される時点では共有メモリ８０から既に利用可能ではない、任意の最新アーキテクチャ状態が、移転先処理回路に利用可能になっていることを保証する必要があるに過ぎない。前述の例を使用すると、そのようなアーキテクチャ状態は典型的に、移転元処理回路のアーキテクチャレジスタファイルの中に記憶された最新値、さらに移転元処理回路の１つ以上の特殊目的レジスタの最新値を含む。処理回路１０、５０の間のアーキテクチャ上の互換性に起因して、この最新アーキテクチャ状態を移転元処理回路から移転先処理回路へ移転することができる場合、移転先処理回路は、移転元処理回路から作業負荷の実施を成功裏に引き継ぐ用意ができている。
【００５０】
処理回路１０、５０の間のアーキテクチャ上の互換性は、２つの処理回路の間の作業負荷全体の移転を促進するが、一実施形態においては、処理回路１０、５０は、２つの処理回路に関連して、異なる性能特徴が存在し、したがってエネルギー消費特徴等、マイクロアーキテクチャ上では相互に異なる。前述のように、一実施形態において、処理回路１０は、高性能で、エネルギー消費が高い回路であり、一方、処理回路５０は、低性能で、エネルギー消費が低い処理回路である。２つの処理回路は、いくつかの点でマイクロアーキテクチャ上では相互に異なる可能性があるが、典型的には、異なる実行パイプライン長、および／または異なる実行リソースのうちの少なくとも１つを有する。パイプライン長の違いは、典型的に、動作周波数の違いになり、すなわち、性能に影響を与える。同様に、実行リソースの違いは、処理能力、したがって性能に影響を与える。したがって、例として、処理回路１０は、処理能力を向上するために、より広範な実行リソースおよび／またはより多くの実行リソースを有する場合がある。さらに、プロセッサコア１５、２０内のパイプラインは、非順次のスーパースカラー処理を実施するように配置される場合があり、一方、エネルギー効率が高い処理回路５０内のより単純なコア５５は、順次パイプラインとして配置される場合がある。マイクロアーキテクチャ上の違いの更なる検討は、図８Ａおよび８Ｂを参照して後述する。
【００５１】
スイッチコントローラ１２０に、ある処理回路から別の処理回路へ作業負荷を移転させるためにハンドオーバー動作をさせる移転刺激の生成は、多様な理由でトリガすることができる。例えば、一実施形態では、アプリケーションは、「大型」、「小型」、または「大型／小型」としてプロファイルされ、マークされる場合があり、それによって、オペレーティングシステムは、これに従い作業負荷を移動するようにスイッチコントローラとインターフェースすることができる。したがって、そのような手法によって、移転刺激の生成は、実行されるアプリケーションの特定の組み合わせにマップすることができ、高性能が必要な場合には、作業負荷が高性能処理回路１０上で実行され、その性能が必要ではない場合には、その代わりにエネルギー効率の高い処理回路５０が使用されることを保証する。他の実施形態においては、１つ以上の入力に基づいて、一方の処理回路からもう一方への作業負荷の移転をいつトリガするかを動的に判定するために、アルゴリズムを実行することができる。例えば、性能に敏感なイベントをカウントするために（例えば、実行された命令の数、またはロードして記憶する動作の数）、処理回路の性能カウンタを設定することができる。サイクルカウンタまたはシステムタイマと組み合わされると、これによって、より高性能の処理回路に切り替えることによって遂行されるほうが適している場合がある、計算が非常に集中するアプリケーションが実行されることを識別すること、エネルギー効率が高い処理回路上で遂行されるほうが適している場合がある、ＩＯが集中するアプリケーションを示すロードと記憶の操作の回数が多いことを識別すること等を可能にする。
【００５２】
移転刺激がいつ刺激される場合があるかの更なる例として、データ処理システムは、動作中にデータ処理システムの温度を監視するための１つ以上の温度センサ９０を含む場合がある。最新の高性能処理回路、例えば、ＧＨｚ周波数で実行する回路は、時として、範囲内で動作することが設計されていた温度限界に到達する、または超える場合があり得る。そのような温度センサ９０を使用することによって、そのような温度限界が到達した時を検出することができ、これらの条件下で、データ処理システムの全体冷却をもたらすために、よりエネルギー効率の高い処理回路への作業負荷の移転をトリガするように、移転刺激を生成することができる。したがって、処理回路１０が高性能処理回路であり、処理回路５０がより低いエネルギーを消費するより低性能処理回路である、図１の例を考えると、デバイスの温度限界に到達した時に処理回路１０から処理回路５０へ作業負荷を移行することによって、より低い処理能力にも関わらず、依然として継続してプログラム実行を行うことを可能にしながら、デバイスのその後の冷却をもたらす。
【００５３】
図１には２つの処理回路１０、５０が示されるが、上述の実施形態の技法は、３つ以上の異なる処理回路を組み入れるシステムにも適用することができ、データ処理システムが、より広範な性能／エネルギーレベルに及ぶことを可能にすることが理解されるであろう。そのような実施形態において、異なる処理回路の各々は、処理回路間の作業負荷全体の容易な移行を可能にするために、アーキテクチャ上では相互に互換性があるように配置されるが、必要な性能／エネルギーレベルに応じて、それらの処理回路の使用の選択を可能にするように、マイクロアーキテクチャ上では相互に異なる。
【００５４】
図３は、移転刺激の受信後に作業負荷が移転元プロセッサから移転先プロセッサへ移転される時に移転元プロセッサ上および移転先プロセッサ上の両方で実施されるステップの順序を示す流れ図である。そのような移転刺激は、オペレーティングシステム１１５またはバーチャライザ１２０によって生成される場合があり、システムファームウェアインターフェースを介して、ステップ２００で、移転元プロセッサ（作業負荷だけでなく、スイッチコントローラ１２０の少なくとも一部を形成するバーチャライザソフトウェアも実行する）によって切り替え刺激が検出される。ステップ２００の移転刺激（本明細書では切り替え刺激とも呼ばれる）の受信によって、電力コントローラ６５は、移転先プロセッサ上で電源オンおよびリセット動作２０５を開始する。そのような電源オンおよびリセットに続いて、移転先プロセッサは、ステップ２１０でそのローカルキャッシュを無効にし、次いで、ステップ２１５でスヌープを有効にする。この時点で、移転先プロセッサは、作業負荷の移転を行う準備ができていることを移転元プロセッサに信号送信し、この信号によって、移転元プロセッサに、ステップ２２５での状態保存動作を実行させる。この状態保存動作は、図４Ａを参照して以下に詳細を記載するが、一実施形態においては、ハンドオーバー動作が開始される時点で、移転元処理回路が、共有メモリからは利用可能ではなく、移転先プロセッサが作業負荷の実施を成功裏に引き継ぐために必要である、その最新アーキテクチャ状態のうちのいずれかをそのローカルキャッシュに記憶することが関わる。
【００５５】
状態保存動作２２５に続いて、状態切り替え信号が移転先プロセッサ２３０に発行され、移転先プロセッサに対して、必要なアーキテクチャ状態を呼び出すためには、移転元プロセッサのスヌープを今開始しなければならないことを示す。このプロセスは、図４Ｂを参照して以下に詳細を記載する状態復元動作２３０を介して発生するが、一実施形態では、移転先処理回路が、相互接続７０内のスヌープ制御装置７５によってインターセプトされ、移転元プロセッサのローカルキャッシュ内にキャッシュされたコピーのアーキテクチャ状態を呼び出し、移転先プロセッサに返すようにさせる、一連のアクセスを開始することが関わる。
【００５６】
ステップ２３０に続いて、移転先プロセッサは、作業負荷の処理を引き継ぐ用意ができ、したがって、ステップ２３５で正常動作が開始する。
【００５７】
一実施形態において、移転先プロセッサ上で正常動作が開始すると、任意のダーティデータを共有メモリ８０にフラッシュするために、ステップ２５０で示されるように、移転元プロセッサのキャッシュを消去することができ、次いで、ステップ２５５で移転元プロセッサの電源を切断することができる。しかしながら、一実施形態では、移転先プロセッサの効率性をさらに向上させるため、移転元プロセッサは、図３でスヌープ期間として示される期間、駆動状態のままでいるように配置される。この期間中、移転元回路のキャッシュのうちの少なくとも１つは駆動状態のままでいるので、移転先プロセッサによって発行されたアクセスリクエストに応答して、スヌープ制御回路７５によってその内容をスヌープすることができる。図３に記載されるプロセスを使用して作業負荷全体を移転した後、移転先プロセッサが作業負荷の動作を開始する前の少なくとも最初の期間、作業負荷の実施中に必要なデータのうちのいくつかは、移転元プロセッサのキャッシュに存在する。移転元プロセッサが、その内容をメモリにフラッシュし、電源を切断していた場合、そのローカルキャッシュには大量のキャッシュミスが存在し、共有メモリからデータを多量に取得することになり、移転先プロセッサのキャッシュが「準備中」、すなわち、作業負荷によって指定された動作を実施するために移転先プロセッサによって必要とされるデータ値で充填される間に顕著な性能影響がもたらされるので、移転先プロセッサは、これらの早期段階中、比較的非効率的に動作することになる。しかしながら、スヌープ期間中に移転元プロセッサのキャッシュを駆動したままにすることによって、スヌープ制御回路７５は、移転元回路のキャッシュを参照することによって、大量のこれらのキャッシュミスリクストをサービスすることが可能になり、共有メモリ８０からそのデータを呼び出すことに比較して、顕著な性能利点を生み出す。
【００５８】
しかしながら、この性能利点は、切り替え後の所定時間のみ継続することが予想され、その後は、移転元プロセッサのキャッシュの内容が古くなる。したがって、ある時点で、スヌープ停止イベントが生成されて、ステップ２４５でスヌープを無効にし、その後、ステップ２５０で移転元プロセッサのキャッシュが消去され、次いで、ステップ２５５で移転元プロセッサの電源が切断される。スヌープ停止イベントが生成される場合がある多様な事例の検討は、図６Ｇを参照して以下に詳細を記載する。
【００５９】
図４Ａは、一実施形態にしたがい、図３のステップ２２５で実施される保存動作を模式的に示す。具体的には、一実施形態において、移転元処理回路３００からローカルキャッシュ３３０に記憶されることが必要なアーキテクチャ状態は、データ処理動作の処理中に算術論理装置（ＡＬＵ）３０５によって参照されるレジスタファイル３１０の内容、さらにその作業負荷が移転先処理回路によって引き継がれることを成功裏に可能するために、作業負荷によって必要とされる多種多様な情報を識別する多様な特殊目的レジスタ３２０の内容からなる。特殊目的レジスタ３２０の内容は、例えば、現在実行されている命令を識別するプログラムカウンタ値、さらに多様な他の情報を含む。例えば、他の特殊目的レジスタとして、プロセッサモードの制御ビット、中断マスキング、実行状態およびフラグを保持する、プロセッサステータスレジスタ（例えば、ＡＲＭアーキテクチャのＣＰＳＲおよびＳＰＳＲ）が挙げられる。他の特殊目的レジスタとして、データエンディアンを変更する、ＭＭＵをオンまたはオフにする、データ／命令キャッシュをオンまたはオフにする等のビットを保持する、アーキテクチャ制御（ＡＲＭアーキテクチャのＣＰ１５システム制御レジスタ）が挙げられる。ＣＰ１５の他の特殊目的レジスタは、例外アドレスおよびステータス情報を記憶する。
【００６０】
図４Ａに模式的に示されるように、移転元処理回路３００は、典型的に、いくつかのプロセッサ固有の構成情報３１５も保持するが、この情報は、移転先処理回路には該当しないので、キャッシュ３３０に保存する必要はない。プロセッサ固有の構成情報３１５は、典型的に、ロジック定数を使用して、移転元処理回路３００にハードコードされ、例えば、ＣＰ１５プロセッサＩＤレジスタの内容（各処理回路で異なる）、またはＣＰ１５キャッシュタイプレジスタの内容（キャッシュ２５、３０、６０の構成に依存し、例えば、キャッシュが異なるライン長を有することを示す）を含む場合がある。オペレーティングシステム１１５が、プロセッサ固有の構成情報３１５を必要とする場合、プロセッサが既にハイパーバイザモードにない限り、ハイパーバイザモードへの実行トラップが発生する。これに応答して、バーチャライザ１２０は、一実施形態において、リクエストされた情報の値を示す場合があるが、別の実施形態では、「仮想」値を返す。プロセッサＩＤ値の場合、この仮想値は、「大型」および「小型」プロセッサ両方で同じであるように選択することができるので、これにより、バーチャライザ１２０によって、実際のハードウェア構成がオペレーティングシステム１１５から隠されるようにする。
【００６１】
図４Ａに模式的に示されるように、保存動作中、レジスタファイル３１０および特殊目的レジスタ３２０の内容は、移転元処理回路によって、キャッシュ３３０の中に記憶されて、キャッシュされたコピー３３５を形成する。このキャッシュされたコピーは、次いで共有可能とマークされ、移転先プロセッサが、スヌープ制御装置７５を介して、この状態をスヌープすることを可能にする。
【００６２】
移転先プロセッサでその次に実施される復元動作は、図４Ｂに模式的に示される。具体的には、移転先処理回路３５０（その独自のローカルキャッシュを有する場合も有さない場合もある）は、アーキテクチャ状態の特定の項目に対するリクエストを発行し、そのリクエストは、スヌープ制御装置７５によってインターセプトされる。スヌープ制御装置は、次いで、移転元処理回路のローカルキャッシュ３３０にスヌープリクエストを発行して、アーキテクチャ状態のその項目が移転元のキャッシュに存在するかを判定する。図４において記載される保存動作中に行われるステップによって、移転元のキャッシュ３３０でヒットが検出され、そのキャッシュされたアーキテクチャ状態は、スヌープ制御装置７５を介して、移転先処理回路３５０へ返されることになる。このプロセスは、アーキテクチャ状態の項目全てが移転元処理回路のキャッシュのスヌープを介して呼び出されるまで、反復的に繰り返すことができる。移転先処理回路３５０に関する任意のプロセッサ固有の構成情報は典型的に、前述のように移転先処理回路３５０にハードコードされる。このため、復元動作が完了すると、移転先処理回路は、作業負荷の取扱を成功裏に引き継ぐことを可能にするために必要な情報を全て有する。
【００６３】
さらに、一実施形態において、作業負荷１００が「大型」処理回路１０または「小型」処理回路５０によって実施されるかどうかに関わりなく、バーチャライザ１２０は、同じ値を有する仮想構成情報をオペレーティングシステム１１５に提供し、このため、「大型」および「小型」処理回路１０、５０の間のハードウェアの違いは、バーチャライザ１２０によってオペレーティングシステム１１５からマスクされる。すなわち、オペレーティングシステム１１５は、作業負荷１００の実施が、異なるハードウェアプラットフォームに移転されたことを認識しない。
【００６４】
図４Ａおよび４Ｂを参照して記載した保存および復元動作によると、多様なプロセッサインスタンス１０、５０は、移転元プロセッサから移転先プロセッサへアーキテクチャ状態を移転する際に関わる時間、エネルギー、およびハードウェアの複雑度を軽減するために、相互にハードウェアキャッシュコヒーレントであるように配置される。本技法は、移転元プロセッサから移転先プロセッサへ移転されなければならず、移転動作が行われる時点で共有メモリからは利用可能ではない、状態の全てを記憶するために移転元プロセッサのローカルキャッシュを使用する。状態は、移転元プロセッサのキャッシュ内で共有可能とマークされているため、これによって、ハードウェアキャッシュコヒーレントの移転先プロセッサが、この情報を移転動作中にスヌープすることを可能にする。そのような技法を使用することによって、その状態をメインメモリ、またはローカルメモリのいずれかがマップした記憶要素に保存する必要なく、プロセッサインスタンス間で状態を移転することが可能である。したがって、これは、顕著な性能およびエネルギー消費の利点を生み、エネルギー消費利点を実現することを模索するために、作業負荷を切り替えることが適切である多様な状況が増える。
【００６５】
しかしながら、前述のキャッシュコヒーレンスを使用する技法は、共有メモリを介して最新アーキテクチャ状態をルーティングすることなく、移転先プロセッサに最新アーキテクチャ状態を利用可能にするための１つの加速機構を提供するが、そのような加速機構を実施することができる唯一の方式ではない。例えば、図５は、ハンドオーバー動作中にアーキテクチャ状態が移転可能であるために、専用バス３８０が移転元処理回路３００と移転先処理回路３５０との間に提供される、代替機構を示す。したがって、このような実施形態では、図３の保存および復元動作２２５、２３０は、専用バス３８０を利用する代替の移転機構によって置換される。そのような手法は典型的に、キャッシュコヒーレンシ手法を採用するよりも高いハードウェアコストを有するが（キャッシュコヒーレンシ手法は典型的に、データ処理システム内に既に位置するハードウェアを利用する）、切り替えを実施するさらに高速の方式を提供することになり、所定の実装においては有利であり得る。
【００６６】
図６Ａ〜６Ｉは、移転元処理回路３００から移転先処理回路３５０へ作業負荷の実施を移転するために実施される、一連のステップを模式的に示す。移転元処理回路３００は、処理回路１０、５０のうち、移転前に作業負荷を実施している方であり、移転先処理回路は、処理回路１０、５０のもう一方である。
【００６７】
図６Ａは、移転元処理回路３００が、電力コントローラ６５によって駆動され、処理作業負荷１００を実施中であり、一方、移転先処理回路３５０が電力節約状態にあるという、初期状態のシステムを示す。この実施形態において、電力節約状態は、電源切断状態であるが、前述のように、他の種類の電力節約状態も使用されてもよい。作業負荷１００は、アプリケーション１０５、１１０と、アプリケーション１０５、１１０を実行するためのオペレーティングシステム１１５とを含み、バーチャライザ１２０によって、移転元処理回路３００のハードウェアプラットフォームから、抽象化される。作業負荷１００を実施中、移転元処理回路３００は、図４Ａに示されるように、例えば、レジスタファイル３１０および特殊目的レジスタ３２０の内容を含む場合がある、アーキテクチャ状態４００を維持する。
【００６８】
図６Ｂでは、移転刺激４３０はバーチャライザ１２０によって検出される。図６Ｂでは、移転刺激４３０は外部イベント（例えば、温度センサ９０による温度上昇の検出）として示されるが、移転刺激４３０はまた、バーチャライザ１２０自体によって、またはオペレーティングシステム１１５（例えば、オペレーティングシステム１１５は、特定のタイプのアプリケーションがプロセスされると、バーチャライザ１２０に伝達するように構成することができる）によってトリガされたイベントであることも可能である。バーチャライザ１２０は、移転刺激４３０に応答して、電力コントローラ６５を制御することによって、移転先処理回路３５０を駆動状態に入れるために、移転先処理回路３５０に電力を供給する。
【００６９】
図６Ｃでは、移転先処理回路３５０が、バーチャライザ１２０の実行を開始する。バーチャライザ１２０は、移転先処理回路３５０を駆動する時に、キャッシュ４２０の中に存在する場合がある、誤ったデータ値によって生じる処理エラーを防止するために、そのキャッシュ４２０を無効にするように、移転先処理回路３５０を制御する。移転先キャッシュ４２０が無効化されている間、移転元処理回路３５０は、作業負荷１００を引き続き実施する。移転先キャッシュ４２０の無効化が完了すると、バーチャライザ１２０は、作業負荷１００のハンドオーバーの準備ができたことを、移転元処理回路３００に信号送信するように、移転先処理回路３５０を制御する。移転先処理回路３５０のハンドオーバー動作の準備できるまで、移転元処理回路３００上で作業負荷１００の処理を継続することによって、ハンドオーバーの実施の影響を軽減することができる。
【００７０】
次の段階で、図６Ｄに示されるように、移転元処理回路３００は、作業負荷１００の実施を停止する。この段階中、移転元処理回路３００も移転先処理回路３５０も作業負荷１００を実施しない。アーキテクチャ状態４００のコピーが、移転元処理回路３００から移転先処理回路３５０へ移転される。例えば、アーキテクチャ状態４００は、図４Ａおよび４Ｂに示されるように、移転元キャッシュ４１０に保存され、移転先処理回路３５０に復元することができる、または図５に示されるように、専用バス上から移転することができる。アーキテクチャ状態４００は、共有メモリ８０の中に既に存在する情報以外に、移転先処理回路３５０が作業負荷１００を実施するために必要な状態情報全てを含む。
【００７１】
アーキテクチャ状態４００を移転先処理回路３５０に移転させると、移転元処理回路３００は、移転元キャッシュ４１０が駆動状態のままである以外、電力制御回路６５（図６Ｅを参照）によって電力節約状態になる。一方、移転先処理回路３５０は、移転されたアーキテクチャ状態４００を使用して、作業負荷１００の実施を開始する。
【００７２】
移転先処理回路３５０が作業負荷１００の処理を開始すると、スヌープ期間が開始する（図６Ｆを参照）。スヌープ期間中、スヌープ制御装置７５は、移転先処理回路３５０に代わって、移転元キャッシュ４１０に記憶されたデータをスヌープし、データを呼び出すことができる。移転先処理回路３５０が、移転先キャッシュ４２０の中に存在しないデータをリクエストすると、移転先処理回路３５０は、スヌープ制御装置７５からデータをリクエストする。スヌープ制御装置７５は、次いで、移転元キャッシュ４１０をスヌープし、スヌープの結果キャッシュヒットがある場合、スヌープ制御装置７５は、移転元キャッシュ４１０からスヌープしたデータを呼び出し、移転先処理回路３５０に返し、そこでスヌープしたデータを移転先キャッシュ４２０に記憶することができる。一方、移転元キャッシュ４１０のスヌープの結果がキャッシュミスの場合、リクエストされたデータは、共有メモリ８０から取得され、移転先処理回路３５０に返される。移転元キャッシュ４１０のデータにアクセスするほうが、共有メモリ８０にアクセスするよりも時間が短く、より少ないエネルギーを必要とするため、ある期間移転元キャッシュ４１０をスヌープすることによって、作業負荷１００の移転先処理回路３５０へのハンドオーバーに続く最初の期間中の処理性能を向上させ、エネルギー消費を削減する。
【００７３】
図６Ｇに示されるステップで、スヌープ制御装置７５は、移転元キャッシュ４１０を駆動状態に維持することがもはや効率的ではないことを示す、スヌープ停止イベントを検出する。スヌープ停止イベントは、スヌープ期間の終了をトリガする。スヌープ停止イベントは、スヌープ制御回路７５によって監視される１組のスヌープ停止イベントのうちの任意の１つの場合がある。例えば、１組のスヌープ停止イベントは、以下のイベントのうちの任意の１つ以上を含むことができる。
ａ）移転先処理回路３５０が作業負荷１００の実施を開始した後に、移転元キャッシュ４１０のキャッシュヒットとなるスヌープヒットのパーセントまたは比（すなわち、スヌープヒットの数／合計スヌープの数に比例する量）が、既定の閾値レベル未満になる場合
ｂ）移転先処理回路３５０が作業負荷１００の実施を開始して以来実施されたトランザクションの数、または既定のタイプのトランザクション（例えば、キャッシュ可能なトランザクション）の数が、既定の閾値を超える場合
ｃ）移転先処理回路３５０が作業負荷１００の実施を開始して以来経過した処理サイクルの数が、既定の閾値を超える場合
ｄ）移転先処理回路３５０が作業負荷１００の実施を開始して以来初めて、共有メモリ８０の特定領域がアクセスされた場合
ｅ）移転先処理回路３５０が作業負荷１００の実施を開始した後、初期期間中にアクセスされた、共有メモリ８０の特定領域が、既定のサイクル数または既定の期間中、アクセスされない場合
ｆ）移転先処理回路３５０が、移転された作業負荷１００の実施を開始して以来初めて、既定のメモリ場所に書き込む場合
【００７４】
これらのスヌープ停止イベントは、スヌープ制御装置７５を含む、コヒーレント相互接続７０の中のプログラム可能なカウンタを使用して検出することができる。他の種類のスヌープ停止イベントも、１組のスヌープ停止イベントに含められる場合がある。
【００７５】
スヌープ停止イベントを検出すると、スヌープ制御装置７５は、スヌープ停止信号４４０を移転元プロセッサ３００へ送信する。スヌープ制御装置７５は、移転元キャッシュ４１０のスヌープを停止し、今後は共有メモリ８０からリクエストされたデータを取得し、取得したデータを、取得したデータをキャッシュすることができる、移転先処理回路３５０に返すことによって、移転先処理回路３５０からのデータアクセスリクエストに応答する。
【００７６】
図６Ｈでは、移転元キャッシュの制御回路は、スヌープ停止信号４４０に応答して、共有メモリ８０に任意の有効およびダーティデータ値を保存するために（すなわち、そのキャッシュされた値は、共有メモリ８０の中の対応する値よりも最新である）、キャッシュ４１０を消去する。
【００７７】
図６Ｉでは、移転元キャッシュ４１０は、次いで、電力コントローラ６５によって電力が切断されるので、移転元処理回路３００は全体が電力節約状態になる。移転先処理回路３５０は、作業負荷１００の実施を継続する。オペレーティングシステム１１５の観点から、この状況はこうして図６Ａと同じである。オペレーティングシステム１１５は、作業負荷の実行がある処理回路から別の処理回路へ移転したことを認識しない。別の移転刺激が発生すると、作業負荷の実施を切り替えて第１のプロセッサに戻すために（この場合、処理回路１０、５０の「移転元処理回路」と「移転先処理回路」は逆になる）、図６Ａ〜６Ｉの同じステップを使用することができる。
【００７８】
図６Ａ〜６Ｉの実施形態において、キャッシュ４１０および移転元処理回路３００に対する独立的な電力制御が有効であるので、移転元処理回路３００は、移転元キャッシュ４１０以外、移転先処理回路３５０が作業負荷の実施を開始すると電力を切断することができ（図６Ｅを参照）、一方、移転元処理回路３５０のキャッシュ４１０だけが駆動状態のままである（図６Ｆ〜６Ｈを参照）。移転元キャッシュ４１０は、次いで、図６Ｉで電力が切断される。この手法は、エネルギーを節約するために、特に、移転元処理回路３００が「大型」処理回路１０である場合に有用とすることができる。
【００７９】
しかしながら、スヌープ期間中に移転元処理回路３００全体を引き続き駆動し、次いで、スヌープ期間および移転元キャッシュ４１０の消去の終了に続いて、移転元処理回路３００全体を、図６Ｉの電力節約状態に入れることも可能である。これは、移転元キャッシュ４１０が、移転元プロセッサコアに深く組み込まれているので、移転元プロセッサコアとは独立的に駆動することができない場合により有用な場合がある。この手法はまた、移転元プロセッサが「小型」処理回路５０であり、その電力消費が、「大型」処理回路１０に比較して有意ではない場合、「大型」処理回路１０が移転された作業負荷１００の処理を開始すると、スヌープ期間中に、キャッシュ６０以外の「小型」処理回路５０を電力節約状態に切り替えることは、システムの全体的な電力消費にほとんど影響を有さない場合があるので、より実際的であり得る。これは、「小型」処理回路５０および「小型」コアのキャッシュ６０に対して個別の電力制御を提供する余分のハードウェア複雑度が正当化されない場合があることを意味することができる。
【００８０】
いくつかの状況では、作業負荷の移転前に、移転元キャッシュの中に記憶されたデータは、作業負荷１００の実施を開始する際に、移転先処理回路３５０によって必要とされないことがわかる場合がある。例えば、移転元処理回路３００は、移転が発生する時にアプリケーションをちょうど完了したばかりの場合があり、したがって、移転の時点の移転元キャッシュ４１０のデータは、完了したアプリケーションに関係し、移転後に移転先処理回路３５０によって実施されるアプリケーションには関係しない。そのような場合、スヌープオーバーライドコントローラは、バーチャライザ１２０およびスヌープ制御回路７５をトリガして、移転元キャッシュ４１０のスヌープをオーバーライドし、移転元処理回路３００を制御して、スヌープ停止イベントがスヌープ期間の終了の信号を送信することを待機することなく、移転元キャッシュ４１０を消去して電力を切断する。この場合、図６Ａ〜６Ｉの技法は、データが移転元キャッシュ４１０からスヌープされる、図６Ｆのステップを含まず、図６Ｅのステップから、図６Ｇのステップへ直接進むことになる。このように、前もって、移転元キャッシュ４１０の中のデータが移転先処理回路３５０に有用ではないことがわかっている場合、スヌープ停止イベントを待機することなく、移転元キャッシュ４１０および移転元処理回路を電力節約状態に入れることによって、電力を節約することができる。スヌープオーバーライドコントローラは、バーチャライザ１２０の一部にすることができる、または移転元処理回路３００上で稼動するファームウェアとして実装することができる。スヌープオーバーライドコントローラは要素の組み合わせとして実装することも可能で、例えば、オペレーティングシステム１１５は、アプリケーションが終了した時にバーチャライザ１２０に伝達することができ、バーチャライザ１２０は、次いで、アプリケーションが終了した時に移転が発生する場合、移転元キャッシュ４１０のスヌープをオーバーライドすることができる。
【００８１】
図７はグラフで、線６００は性能に伴いエネルギー消費がどのように変動するかを示す。このグラフの様々な部分で、データ処理システムは、性能とエネルギー消費との間の適切なトレードオフを取得することを模索するために、図１に示されるプロセッサコア１５、２０、５５の様々な組み合わせを利用するように配置することができる。したがって、例として、いくつかの非常に高性能タスクを実行することが必要な場合、所望の性能を達成するために、処理回路１０の大型コア１５、２０の両方を実行することが可能である。任意選択的に供給電圧を変動する技法は、これらの２つのコアを利用する時に性能およびエネルギー消費のいくらかの変動を可能にするために使用することができる。
【００８２】
必要な性能が大型コアのうちの１つだけを使用して達成できるレベルにまで性能要件が低下すると、タスクは、大型コア１５、２０のうちの１つだけに移行することができ、もう一方のコアは電力切断または何らかの他の電力節約状態に入る。ここでも、供給電圧の変動は、そのような単一の大型コアを使用する際に、性能とエネルギー消費との間で何らかの変動を可能にするために使用することができる。２つの大型コアから１つの大型コアへの遷移は、全てのインスタンスで利用されるのが処理回路１０であり、処理回路５０は電力節約状態にあるので、移転刺激の生成も、作業負荷を移転するための上記の技法の使用も必要としないことに注意されたい。しかしながら、図７の破線６１０によって示されるように、小型コアが必要な性能を達成することが可能なレベルにまで性能が低下すると、作業負荷全体が、小型コア５５上で実行され、処理回路１０が電力節約状態に入るように、作業負荷全体を処理回路１０から処理回路５０へ移転するための前述の機構をトリガするために、移転刺激を生成することができる。ここでも、供給電圧を変動する技法は、小型コア５５の性能およびエネルギー消費のいくらかの変動を可能にするために使用することができる。
【００８３】
図８Ａおよび８Ｂはそれぞれ、一実施形態による、低性能プロセッサパイプライン８００と高性能プロセッサパイプライン８５０との間のマイクロアーキテクチャ上の違いを示す。図８Ａの低性能プロセッサパイプライン８００は、図１の小型処理コア５５に適し、図８Ｂの高性能プロセッサパイプライン８５０は、大型コア１５、２０に適する。
【００８４】
図８Ａの低性能プロセッサパイプライン８００は、メモリ８０から命令を取得するための取得段階８１０と、取得した命令を解読するための解読段階８２０と、実行するための命令を発行する発行段階８３０と、整数演算を実施するための整数パイプライン８４０、乗算累積演算を実施するためのＭＡＣパイプライン、およびＳＩＭＤ（単一命令、複数データ）演算または浮動小数点演算を実施するためのＳＩＭＤ／ＦＰＵパイプライン８４４を含む、複数の実行パイプラインとを含む。低性能プロセッサパイプライン８００では、発行段階８３０は、一度に単一命令を発行し、命令が取得された順序で命令を発行する。
【００８５】
図８Ｂの高性能プロセッサパイプライン８５０は、メモリ８０から命令を取得するための取得段階８６０と、取得した命令を解読するための解読段階８７０と、解読した命令に指定されたレジスタの名前を変更するための名前変更段階８７５と、実行するための命令をディスパッチするためのディスパッチ段階８８０と、２つの整数パイプライン８９０、８９２、ＭＡＣパイプライン８９４、および２つのＳＩＭＤ／ＦＰＵパイプライン８９６、８９８を含む、複数の実行パイプラインとを含む。高性能プロセッサパイプライン８５０では、ディスパッチ段階８８０は、パイプライン８９０、８９２、８９４、８９６、８９８のうちの異なるものに対して一度に複数の命令を発行することができる、並列発行段階である。また、ディスパッチ段階８８０は、命令を非順次に発行することができる。低性能プロセッサパイプライン８００とは異なり、ＳＩＭＤ／ＦＰＵパイプライン８９６、８９８は、可変長であり、すなわち、ＳＩＭＤ／ＦＰＵパイプライン８９６、８９８を通じて進む動作は、所定の段階をスキップするように制御することができる。そのような手法の利点は、複数の実行パイプラインそれぞれが異なるリソースを有する場合、最短パイプラインを最長パイプラインと同じ長さにするように、人工的に長さを変える必要がなく、その代わりに、異なるパイプラインによって生じる結果の非順次性質に対応するロジックが必要なことである（例えば、処理例外が発生した場合、全てを順次に戻す）。
【００８６】
名前変更段階８７５は、プログラム命令の中に含まれ、プログラマのモデル観点からは、ハードウェアプラットフォームの実際のレジスタである、物理的レジスタに対して、特定のアーキテクチャレジスタを識別する、レジスタ指定子をマップするために提供される。名前変更段階８７５は、プログラマのマイクロプロセッサのモデル観点に存在するよりも大きい集団の物理的レジスタが、マイクロプロセッサによって提供されることを可能にする。このより大きい集団の物理的レジスタは、２つ以上の異なる命令に指定された同じアーキテクチャレジスタを、２つ以上の異なる物理的レジスタにマッピングすることによって、書き込み後書き込み（ＷＡＷ）ハザード等のハザードが回避されることを可能にして、異なる命令が同時に実行することができるため、非順次実行中に有用である。レジスタの名前変更技法の詳細については、読者は、本発明人による米国特許出願第２００８／１１４９６６号および米国特許第７，５９０，８２６号を参照されたい。
【００８７】
低性能パイプライン８００および高性能パイプライン８５０は、いくつかの点でマイクロアーキテクチャ上異なる。マイクロアーキテクチャ上の違いは、
ａ）異なる段階を有するパイプライン。例えば、高性能パイプライン８５０は、低性能パイプライン８００には存在しない、名前変更段階８７５を有する。
ｂ）異なる能力を有するパイプライン段階。例えば、低性能パイプライン８００の発行段階８３０は、単一の命令発行だけが可能であるが、高性能パイプライン８５０のディスパッチ段階８８０は、並列に命令を発行することができる。並列発行は、パイプラインの処理能力を向上させ、したがって性能が向上する。
ｃ）異なる長さを有するパイプライン段階。例えば、高性能パイプライン８５０の解読段階８７０は、３つの副段階を含む場合があるが、低性能パイプライン８００の解読段階８２０は、単一の副段階だけを含む場合がある。パイプライン段階が長くなればなるほど（副段階の数が大きくなればなるほど）、同時に実行できる命令の数が大きくなり、したがって、パイプラインが動作することができる動作周波数が大きくなり、より高レベルの性能をもたらす。
ｄ）実行パイプラインの異なる数（例えば、高性能パイプライン８５０は、低性能パイプライン８００よりも多い実行パイプラインを有する）。より多くの実行パイプラインを提供することによって、より多くの命令を並列に処理することができ、したがって性能が高まる。
ｅ）順次実行（パイプライン８００のように）または非順次実行（パイプライン８５０のように）を提供する。命令が非順次に実行できる場合、性能を最適化するために命令の実行を動的にスケジュールすることができるので、性能が向上する。例えば、低性能の順次パイプライン８００では、一連のＭＡＣ命令は、その後の命令が整数パイプライン８４０およびＳＩＭＤ／浮動小数点パイプライン８４４のうちの１つによって実行される可能性がある前に、ＭＡＣパイプライン８４２によって１つずつ実行されることが必要である。対照的に、高性能パイプライン８５０では、ＭＡＣ命令はＭＡＣパイプ８９４によって実行することができ、一方（名前変更によって解決することができない任意のハザードに左右されるが）異なる実行パイプライン８９０、８９２、８９６、８９８を使用するその後の命令は、ＭＡＣ命令と並列に実行することができる。すなわち、非順次命令は処理性能を向上させることができる。
【００８８】
これらの、およびその他の例のマイクロアーキテクチャ上の違いによって、パイプライン８５０が、パイプライン８００よりも高い性能処理を提供することになる。一方、マイクロアーキテクチャ上の違いは、パイプライン８５０がパイプライン８００よりも多くのエネルギーを消費することにもなる。このように、マイクロアーキテクチャ上異なるパイプライン８００、８５０を提供することによって、作業負荷の処理を高性能（高性能パイプライン８５０を有する「大型」処理回路１０を使用することによって）またはエネルギー効率（低性能パイプライン８００を有する「小型」処理回路５０を使用することによって）いずれかのために最適化することが可能になる。
【００８９】
図９は、作業負荷１００の実施が、大型処理回路１０と小型処理回路５０との間で切り替えられる際の、データ処理システムの電力消費の変動を例示するグラフを示す。
【００９０】
図９の点Ａでは、作業負荷１００は、小型処理回路５０上で実施されているので、電力消費が低い。点Ｂで、高負荷処理が実施されることを示す移転刺激が発生し、このために、作業負荷の実施は、大型処理回路１０にハンドオーバーされる。すると、大型処理回路１０が作業負荷を実施する間、電力消費が上昇し、点Ｃの高さにとどまる。点Ｄでは、両方の大型コアが、組み合わされて動作して、作業負荷を処理すると想定される。しかしながら、性能要件が、作業負荷が大型コアのうちの１つだけによって取り扱うことができるレベルに低下すると、作業負荷は、大型コアのうちの一方だけに移行し、もう一方はレベルの隣接点Ｅまでの電力の低下によって示されるように、電力が切断される。しかしながら、点Ｅで、別の移転刺激が発生して（低負荷処理へ戻ることが望まれることを示す）、小型処理回路５０への作業負荷の実施の移転をトリガする。
【００９１】
小型処理回路５０が処理作業負荷の処理を開始すると、大型処理回路の大部分は電力節約状態にあるが、大型処理回路１０のキャッシュは、スヌープ期間中（図９の点Ｆ）駆動状態のままで、キャッシュの中のデータが小型処理回路５０のために呼び出されることを可能にする。したがって、大型処理回路１０のキャッシュによって、点Ｆの電力消費は、小型処理回路５０だけが駆動していた時の点Ａよりも高くなる。スヌープ期間の最後に、大型処理回路１０のキャッシュの電力が切断され、点Ｇで、電力消費は、小型処理回路５０だけが作動していた低レベルに戻る。
【００９２】
上述のように、図９で、電力消費は、大型処理回路１０のキャッシュがスヌープ期間中駆動しているため、点Ｆのスヌープ期間中、点Ｇよりも高い。この電力消費の増加は、大型から小型への遷移の後のみに示されるが、小型から大型への遷移の後にスヌープ期間が存在する場合があり、その間に小型処理回路５０のキャッシュの中のデータは、スヌープ制御装置７５によって、大型処理回路１０のためにスヌープすることができる。小型から大型の遷移のスヌープ期間は、小型処理回路５０のキャッシュをスヌープ期間中駆動状態のままにすることによって消費される電力が、処理負荷作業を実施する際に大型処理回路１０によって消費される電力に比較して有意ではないので、したがって、小型処理回路５０のキャッシュが駆動していることによる電力消費の非常にわずかな増加は、図９のグラフには視認することができないため、図９には示されていない。
【００９３】
上述の実施形態は、エネルギー効率または性能のために最適化されたマイクロアーキテクチャを備える２つ以上のアーキテクチャ上の互換性があるプロセッサインスタンスを含むシステムを説明した。オペレーティングシステムおよびアプリケーションによって必要とされるアーキテクチャ状態は、作業負荷全体がプロセッサインスタンス間で切り替えられることを可能にするために、必要な性能／エネルギーレベルに応じて、プロセッサインスタンス間で切り替えることができる。一実施形態において、プロセッサインスタンスのうちの１つだけが任意の指定の時間に作業負荷を実行し、他の処理インスタンスは電力節約状態にあるか、または電力節約状態に入る／終了する過程にある。
【００９４】
一実施形態において、プロセッサインスタンスは、移転元プロセッサから移転先プロセッサへアーキテクチャ状態を切り替える際に関わる時間、エネルギー、およびハードウェアの複雑度を削減するために、相互にハードウェアキャッシュコヒーレントであるように配置される場合がある。これによって、切り替え動作を実施するための時間を削減し、実施形態の技法を使用することができる可能性を増やす。
【００９５】
そのようなシステムは、よりエネルギー効率の高いプロセッサをより低い処理作業負荷のために使用することができ、より高い性能のプロセッサをより高い処理作業負荷のために使用することができるように、バッテリー寿命および／または温度管理、および性能の範囲のいずれかのためにエネルギー効率が重要である多様な状況において使用される場合がある。
【００９６】
２つ以上の処理インスタンスはアーキテクチャ上で互換性があるため、アプリケーションの観点からは、２つのプロセッサ間の唯一の違いは、利用可能な性能である。一実施形態の技法を通じて、オペレーティングシステムおよびアプリケーションがどのプロセッサ上で実行しているかに関して、オペレーティングシステム、およびオペレーティングシステム上で実行しているアプリケーションに対して透過的であるように、オペレーティングシステムを関与する必要なく、プロセッサ間で必要な全てのアーキテクチャ状態を移動することができる。
【００９７】
前述の実施形態に記載のようにアーキテクチャ上の互換性があるプロセッサインスタンスを使用する場合、移転される必要があるアーキテクチャ状態の全体量は、データキャッシュ内に容易に収容することができ、最新の処理システムはしばしば、キャッシュコヒーレンスを実装するので、切り替えるアーキテクチャ状態をデータキャッシュ内に記憶することによって、移転先プロセッサは、既存の回路構造を利用するエネルギー効率の高い方式で、この状態を迅速にスヌープすることができる。
【００９８】
１つの記載の実施形態において、切り替え機構は、データ処理システムが温度制限を超えないことを保証するために使用される。具体的には、温度制限に到達しそうな場合、作業負荷全体をよりエネルギー効率の高いプロセッサインスタンスに切り替えることができ、より低い処理能力ではあるが、継続してプログラム実行を行いながら、システム全体を冷却することを可能にする。
【００９９】
本明細書では特定の実施形態を説明したが、本発明はそれに限定されないこと、本発明の範囲内でそれに対する多数の変更および追加が行われ得ることが理解されるであろう。例えば、本発明の範囲を逸脱することなく、独立請求項の特徴とともに、以下の従属請求項の特徴の多様な組み合わせを作製することができる。

【特許請求の範囲】
【請求項１】
データ処理装置であって、
データ処理動作を実施するための第１の処理回路と、
データ処理動作を実施するための第２の処理回路と、を備え、
前記第１の処理回路は、前記データ処理装置によって実施される作業負荷が、前記第１の処理回路または前記第２の処理回路のいずれか上で実施することができるように、前記第２の処理回路とアーキテクチャ上の互換性があり、前記作業負荷は、少なくとも１つのアプリケーションと、前記少なくとも１つのアプリケーションを実行するための少なくとも１つのオペレーティングシステムとを含み、
前記第１の処理回路は、前記第１の処理回路の性能が前記第２の処理回路の性能とは異なるように、マイクロアーキテクチャ上で前記第２の処理回路とは異なり、
前記第１の処理回路および前記第２の処理回路は、任意の時点で、前記作業負荷が前記第１の処理回路および前記第２の処理回路のうちの１つによって実施されるように構成され、
前記データ処理装置はさらに、移転刺激に応答して、移転元処理回路から移転先処理回路へ前記作業負荷の実施を移転するようにハンドオーバー動作を実施するスイッチコントローラであって、前記移転元処理回路は、前記第１の処理回路および前記第２の処理回路のうちの一方であり、前記移転先処理回路は、前記第１の処理回路および前記第２の処理回路のうちのもう一方である、スイッチコントローラを備え、
前記スイッチコントローラは、前記ハンドオーバー動作中に、
（ｉ）前記移転元処理回路に、前記ハンドオーバー動作が開始される時に前記第１の処理回路と前記第２の処理回路との間で共有される共有メモリからは利用可能ではない状態であり、かつ前記移転先処理回路が、前記移転元処理回路から前記作業負荷の実施を成功裏に引き継ぐために必要である、その最新アーキテクチャ状態を前記移転先処理回路に利用可能にさせ、かつ、
（ｉｉ）前記作業負荷の前記移転が前記少なくとも１つのオペレーティングシステムに透過的であるように、前記少なくとも１つのオペレーティングシステムから、既定のプロセッサ固有の構成情報をマスクするように配置される、データ処理装置。
【請求項２】
前記第１の処理回路および前記第２の処理回路に提供される電力を独立的に制御するための電力制御回路をさらに備え、
前記移転刺激の発生前に、前記移転先処理回路は、電力節約状態にあり、前記ハンドオーバー動作中に、前記電力制御回路は、前記移転先処理回路が前記作業負荷の実施を引き継ぐ前に、前記移転先処理回路に前記電力節約状態を終了させる、請求項１に記載のデータ処理装置。
【請求項３】
前記ハンドオーバー動作に続いて、前記電力制御回路は、前記移転元処理回路に前記電力節約状態に入らせる、請求項２に記載のデータ処理装置。
【請求項４】
前記移転動作中、前記スイッチコントローラは、最新アーキテクチャ状態を取得するために、前記移転先処理回路によって前記共有メモリを参照することなく、その最新アーキテクチャ状態を前記移転先処理回路に利用可能にさせるように、前記移転元処理回路に加速機構を採用させる、請求項１〜３のいずれかに記載のデータ処理装置。
【請求項５】
少なくとも前記移転元回路は、関連キャッシュを有し、
前記データ処理装置は、スヌープ制御回路をさらに備え、
前記加速機構は、前記移転元回路の関連キャッシュおよび前記スヌープ制御回路の使用を通じた、前記移転先処理回路への前記最新アーキテクチャ状態の移転を含む、請求項４に記載のデータ処理装置。
【請求項６】
前記加速機構は、保存および復元機構であり、前記移転元処理回路に、その最新アーキテクチャ状態をその関連キャッシュに記憶させ、前記移転先処理回路に復元動作を実施させ、前記復元動作により、前記スヌープ制御回路が、前記移転元処理回路の関連キャッシュから前記最新アーキテクチャ状態を呼び出し、その呼び出された最新アーキテクチャ状態を前記移転先処理回路に提供する、請求項５に記載のデータ処理装置。
【請求項７】
前記移転先処理回路は、前記スヌープ制御回路によって取得される前記移転されたアーキテクチャ状態が、前記移転先処理回路によって参照されるために記憶される、関連キャッシュを有する、請求項５または請求項６に記載のデータ処理装置。
【請求項８】
前記加速機構は、前記移転元処理回路が、その最新アーキテクチャ状態を前記移転先処理回路に提供する、前記移転元処理回路と前記移転先処理回路との間の専用バスを備える、請求項４〜７のいずれかに記載のデータ処理装置。
【請求項９】
前記スイッチコントローラは、前記第１の処理回路および前記第２の処理回路から、前記少なくとも１つのオペレーティングシステムを論理的に分離する、少なくとも仮想化ソフトウェアを備える、請求項１〜８のいずれかに記載のデータ処理装置。
【請求項１０】
前記移転刺激のタイミングは、前記データ処理装置のエネルギー効率を向上させるように選択される、請求項１〜９のいずれかに記載のデータ処理装置。
【請求項１１】
前記アーキテクチャ状態は、プログラムカウンタ値を含む、前記移転元処理回路の特殊目的レジスタの１つ以上の、少なくとも最新値を含む、請求項１〜１０のいずれかに記載のデータ処理装置。
【請求項１２】
前記アーキテクチャ状態は、前記移転元処理回路のアーキテクチャレジスタファイルの中に記憶された前記最新値をさらに含む、請求項１１に記載のデータ処理装置。
【請求項１３】
前記第１の処理回路および前記第２の処理回路のうちの少なくとも１つは、単一処理装置を備える、請求項１〜１２のいずれかに記載のデータ処理装置。
【請求項１４】
前記第１の処理回路および前記第２の処理回路のうちの少なくとも１つは、同一のマイクロアーキテクチャを備える一群の処理装置を備える、請求項１〜１３のいずれかに記載のデータ処理装置。
【請求項１５】
前記電力節約状態は、
電源を切断した状態、
部分的／完全データ保存状態、
休眠状態、または
アイドル状態、のうちの１つである、請求項２に従属する請求項３〜１４のいずれかに記載のデータ処理装置。
【請求項１６】
前記第１の処理回路および第２の処理回路は、
異なる実行パイプライン長、または
異なる実行リソースのうちの少なくとも１つを有することによって、マイクロアーキテクチャ上異なる、請求項１〜１５のいずれかに記載のデータ処理装置。
【請求項１７】
前記移転元処理回路は、前記移転先処理回路よりも高い性能であり、前記データ処理装置は、
前記移転元処理回路の熱出力を監視し、前記熱出力が既定レベルに到達すると、前記移転刺激をトリガするための温度監視回路をさらに備える、請求項１〜１６のいずれかに記載のデータ処理装置。
【請求項１８】
前記第１の処理回路および前記第２の処理回路は、単一集積回路内に存在する、請求項１〜１７のいずれかに記載のデータ処理装置。
【請求項１９】
データ処理装置であって、
データ処理動作を実施するための第１の処理手段と、
データ処理動作を実施するための第２の処理手段と、を備え、
前記第１の処理手段は、前記データ処理装置によって実施される作業負荷が、前記第１の処理手段または前記第２の処理手段のいずれか上で実施することができるように、前記第２の処理手段とアーキテクチャ上の互換性があり、前記作業負荷は、少なくとも１つのアプリケーションと、前記少なくとも１つのアプリケーションを実行するための少なくとも１つのオペレーティングシステムとを含み、
前記第１の処理手段は、前記第１の処理手段の性能が前記第２の処理手段の性能とは異なるように、マイクロアーキテクチャ上で前記第２の処理手段とは異なり、
前記第１の処理手段および前記第２の処理手段は、前記作業負荷が、任意の時点で前記第１の処理手段および前記第２の処理手段のうちの１つによって実施されるように構成され、
前記データ処理装置はさらに、移転刺激に応答して、移転元処理手段から移転先処理手段へ前記作業負荷の実施を移転するようにハンドオーバー動作を実施する移転制御手段であって、前記移転元処理手段は、前記第１の処理手段および前記第２の処理手段のうちの一方であり、前記移転先処理手段は、前記第１の処理手段および前記第２の処理手段のうちのもう一方である、移転制御手段を備え、
前記移転制御手段は、前記ハンドオーバー動作中に、
（ｉ）前記移転元処理手段に、前記ハンドオーバー動作が開始される時に前記第１の処理手段と前記第２の処理手段との間で共有される共有メモリ手段からは利用可能ではない状態であり、かつ前記移転先処理手段が、前記移転元処理手段から前記作業負荷の実施を成功裏に引き継ぐために必要である、その最新アーキテクチャ状態を前記移転先処理手段に利用可能にさせ、かつ、
（ｉｉ）前記作業負荷の前記移転が前記少なくとも１つのオペレーティングシステムに透過的であるように、前記少なくとも１つのオペレーティングシステムから、既定のプロセッサ固有の構成情報をマスクするためのものである、データ処理装置。
【請求項２０】
データ処理動作を実施するための第１の処理回路と、データ処理動作を実施するための第２の処理回路とを有するデータ処理装置を動作する方法であって、前記第１の処理回路は、前記データ処理装置によって実施される作業負荷が、前記第１の処理回路または前記第２の処理回路のいずれか上で実施することができるように、前記第２の処理回路とアーキテクチャ上の互換性があり、前記作業負荷は、少なくとも１つのアプリケーションと、前記少なくとも１つのアプリケーションを実行するための少なくとも１つのオペレーティングシステムとを備え、前記第１の処理回路は、前記第１の処理回路の性能が前記第２の処理回路の性能とは異なるように、マイクロアーキテクチャ上で前記第２の処理回路とは異なり、前記方法は、
任意の時点で、前記第１の処理回路および前記第２の処理回路のうちの１つの上で前記作業負荷を実施するステップと、
移転刺激に応答して、移転元処理回路から移転先処理回路へ前記作業負荷の実施を移転するようにハンドオーバー動作を実施するステップであって、前記移転元処理回路は、前記第１の処理回路および前記第２の処理回路のうちの一方であり、前記移転先処理回路は、前記第１の処理回路および前記第２の処理回路のうちのもう一方である、ハンドオーバー動作を実施するステップと、
前記ハンドオーバー動作中に、
（ｉ）前記移転元処理回路に、前記ハンドオーバー動作が開始される時に前記第１の処理回路と第２の処理回路との間で共有される共有メモリからは利用可能ではない状態であり、かつ前記移転先処理回路が、前記移転元処理回路から前記作業負荷の実施を成功裏に引き継ぐために必要である、その最新アーキテクチャ状態を前記移転先処理回路に利用可能にさせるステップと、
（ｉｉ）前記作業負荷の前記移転が前記少なくとも１つのオペレーティングシステムに透過的であるように、前記少なくとも１つのオペレーティングシステムから、既定のプロセッサ固有の構成情報をマスクするステップと、を含む、方法。

【図１】

【図２】

【図３】

【図４Ａ】

【図４Ｂ】

【図５】

【図６Ａ】

【図６Ｂ】

【図６Ｃ】

【図６Ｄ】

【図６Ｅ】

【図６Ｆ】

【図６Ｇ】

【図６Ｈ】

【図６Ｉ】

【図７】

【図８Ａ】

【図８Ｂ】

【図９】

【公表番号】特表２０１３−５２１５５７（Ｐ２０１３−５２１５５７Ａ）
【公表日】平成２５年６月１０日（２０１３．６．１０）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - プログラム制御のための装置，例．制御装置 (15,360)
      - プログラム記憶方式を用いるもの，すなわちプログラムを受取りそし... (15,354)
        
        マルチプログラミング装置 (6,551)
        
        リソースの割り当て，例．中央処理装置 (2,373)
        
        プログラムの起動；プログラムの切換，例．割込みによるもの (1,522)
    - メモリ・システムまたはアーキテクチャ内でのアクセシング，アドレ... (20,382)
      - アドレシングまたはアロケーション；リロケーション (4,708)
        
        階層構造のメモリ・システム，例．仮想メモリ・システム，における... (2,277)

【出願番号】特願２０１２−５５５４８７（Ｐ２０１２−５５５４８７）
【出願日】平成２３年２月１７日（２０１１．２．１７）
【国際出願番号】ＰＣＴ／ＧＢ２０１１／０５０３１７
【国際公開番号】ＷＯ２０１１／１０７７７６
【国際公開日】平成２３年９月９日（２０１１．９．９）
【出願人】（５９４１５４４２８）エイアールエム　リミテッド (85)
【Ｆターム（参考）】

階層構造のメモリシステム (9,317)

[ Back to top ]

第１の処理回路と第２の処理回路との間で作業負荷を切り替えるためのデータ処理装置および方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

第１の処理回路と第２の処理回路との間で作業負荷を切り替えるためのデータ処理装置および方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク