ディー・クルー・テクノロジーズ Blog

bookmark_borderスケーリング則/ムーアの法則

システムLSI(SoC: System on a Chip)は、約3年ごとに0.7倍のペースで微細化が進んでいます。この微細化のトレンドのことは、スケーリング則やムーアの法則、またはデナードの法則とも呼ばれています。

スケーリング則では0.7倍のスケールダウンにより単位面積あたりの集積密度が2倍になり、同一電圧で1.7倍高速化し、消費電力が半分になる性能向上が図られます。スケーリング則と素子構造および回路パラメータとの関係について、詳しくは下図を参照してください。

下図でKはスケーリング係数(<1)であり、約3年でx0.7 です。

図1スケーリング則(デナード則)

次は、LSI低電圧化の流れについて説明します。

bookmark_borderシステムLSIの低消費電力化技術(6)  

昨今はチャージリサイクリングによる低消費電力化の研究が活発です。その1つを今日はお話します。

チャージリサイクリングでViを下げる

以前の記事で解説した数式を1つ思い出していただきたいのですが、CMOSLSIの消費電力の算出で、Pcは(1)「C・Vi・Ve・f」もしくは(2)「C・Ve2・f」で表されます、と申し上げました。このうちViを、「チャージリサイクリング」と呼ばれる低消費電力化を図る技術についてご紹介します。

チャージリサイクリング技術とは?


ブログをご覧の皆様には基本的レベルの事ですが、重要なのであえて申し上げますと、LSIの内部ノードは、演算動作に応じてVeと0の間を遷移します。内部ノードを、0→Veにする時は電源から所定のノードへ電荷を供給し、Ve→0にする時はノードの電荷をGNDへ引き抜いています。

演算動作中、演算を実施しているノードと、これから演算を開始するノードがLSI内で同時に存在します。すなわち“Ve”へ充電したいノードと“0”へ放電したいノードが混在する。ということが頻発します。この状態でノード毎に充放電すれば、当たり前ですが消費電力量は増えますね。

チャージリサイクリングとは、あるノードをVe→0にする時、その電荷をすべてGNDへ捨てるのはもったいないので、電荷の一部を0→Veにしたい別ノードへ渡して再利用する技術なのです。

なんとも賢い方法ですね。原理図を示します。

図16 チャージリサイクリング技術(原理図)

チャージリサイクリングのメカニズム


メカニズムを簡単に説明します。

ノード[A]、[B]を各々Ve→0、0→Veにする場合、t1のタイミングでS1をONさせ電荷分配によってノード[A]および[B]をVe/2にします。次いでt2のタイミングでS2(GND側スイッチ)、S3(電源側スイッチ)をONし、ノード[A]、[B]を各々目標のVe/2→0、Ve/2→Veにします。この過程において、ノード[A]の放電する電荷の1/2はノード[B]を充電するために再利用されている。このチャージリサイクリング技術によって、消費電力を1/2に低減する事ができるわけです。

チャージリサイクリング技術の強誘電体メモリ応用例

さらに、図17にこの技術を強誘電体メモリ(FeRAM)へと応用した事例を示します。従来強誘電体メモリは、セルプレート線に容量値の大きい強誘電体メモリセルが接続されており、その充放電時の消費電力が大きな問題でした。

図17 強誘電体メモリ(FeRAM)への応用事例

メモリアクセスによってセルプレート選択線CP1=“1”(選択)からCP2=“1”へ切り換えるとき、まず、電荷回収用容量線CP0とCP1をSW1によってONさせ、CP1とCP0とを電荷分配させる。この時、CP1の電荷の一部がCP0へと転送されます。次にCP0とCP2をSW2によってONさせると、CP0の電荷の一部がCP2へ転送されます。
すなわち、放電すべきCP1の電荷の一部が、スイッチドキャパシタ動作によってCP1→CP0→CP2のパスで、充電すべきCP2で再利用することができるのですね。この時 CPn/CP0値を最適化すれば、およそ50%近い電荷再利用効率を得る事ができた、という事例になります。

「容量の充放電」がポイント

ポイントは、CMOSLSIで使われる電力のほとんどが「容量の充放電」で費やされている事実です。ですから、チャージリサイクリングのような「容量の充放電」をコントロールする技術は低消費電力化において重要な技術です。言い換えるなら、LSI回路設計における低消費電力化とは「ある大きな容量のノードを放電する時、その電荷をどこか他のノードに利用できないか?」が本質といっても過言ではありません。(その解決策を考えるのがLSI技術者の面白いところでもありますね)

さて、システムLSIの低消費電力化技術についてはひとまず終え、次はDVFSについてご紹介できればと思います。

bookmark_borderシステムLSIの低消費電力化技術(5)

今日はアルゴリズムの工夫による低消費電力化についてです。

動画処理の世界では、動画をフレームで記録する際に、データ線の遷移確率を減らすデータ表現等が次々に発表されていきました。今日は私が以前映像録画機器で用いた事例として「符号付き絶対値表現」を用いた低消費電力化手法を紹介いたします。

ビデオ信号のフレーム差分データ処理

記録中の映像フレームで、絵の一部が動いたか、そうではないか、をLSIで検出処理する場合、現在のフレームと1フレーム前とのビデオ信号の差を判別する処理が必要となります。15図で示した通り、この時必要なフレーム差分データは、一般に大きな容量ノードであるバスラインあるいはチップ外へ出力されることが多いので、消費電力が大きくなりがちです。またビデオ信号はフレーム間の相関が大きく、差分処理の出力が、「少し大きい」あるいは「少し小さい」値となる場合が多いです。

デジタルデータで処理する場合、通常「2の補数」で表現します。図15にも示しましたが、1サンプルごとにMSBからLSBまで表現する場合、ほとんどのビットが赤数字で示したようにデータ遷移してしまいます。このビットのデータ遷移=電力消費の発生ですから、大きな電力消費をしていることになります。

図15 符号付き絶対値表現による低電力化

符号付き絶対値表現

これに対し図15の中央のように「符号付き絶対値表現」を用いますと、この仕組みでは専用の符号ビットを持たせていますので、符号ビット自身は頻繁にデータ遷移しますが、一方で絶対値データ値のビット(LSB近傍を除く)はほとんどデータ遷移しません。データ遷移がなければ電力消費しないので、「符号付き絶対値表現」を用いると、データバスやLSIチップ間配線の様な(消費電力が大きくなる)大容量ノードでのデータ遷移の確率を減らすので、十分な低消費電力化が見込めます。

この方法によって、世の中のビデオカメラの画像信号のフレーム間処理や、水平走査線間処理等の相関の大きな信号処理の低消費電力化に成功するなど、家庭録画機器の低消費電力化と性能アップに特に有効な手法となりました。

次はチャージリサイクリングによる低消費電力化について、ご紹介します。

bookmark_borderシステムLSIの低消費電力化技術(4)

今日は、アーキテクチャの工夫による低消費電力化の方法です。

アーキテクチャの工夫による低消費電力化の方法として、並列処理、パイプライン処理が従来よりある処理技術として有名です。

並列処理

そのうちの1つ、並列処理の概略図を(図14)に示します。例えば、ある演算器を2つ並列に配置します。この配置ですと演算機1つの場合と比較して、同一スループットに対して演算サイクルタイムを2倍に広げる事ができます。という事は動作周波数を1/2に下げられるので、電源電圧Veを約1/3にする低消費電力化が図れることになります。 

 ただしデメリットもあります。並列2系統の回路が必要ですから、当然ながらチップ面積が大きくなりますので、システムLSIのコスト(またはチップサイズ)と消費電力とはトレードオフの関係になりますので、並列処理はとにかく低消費電力を重視する製品向けのLSIに適した方式であると言えます。

図14 並列処理

bookmark_borderシステムLSIの低消費電力化技術(3) 

この記事では、システムLSIの低消費電力化技術の1つとして、一世を風靡した8ミリビデオ・カムコーダ用に開発したDRAM混載SoCについてお話します。

8ミリビデオカムコーダとは?

使ったご経験がある方おられると思いますが、個人がテープに録画記録するビデオカメラで、運動会で活躍するお子さんをこぞって撮影するお父さんたち、旅行先で動画撮影のために持ち歩く旅行スタイルなど、当時の生活の楽しみ方を根本から変える画期的製品でした。持ち歩いて長時間撮影したいと、より軽量かつ小型なカムコーダを市場から求められましたので、それを実現するための技術開発が行われました。

当時のマルチメディア画像処理の仕組み

画像処理を中心としたマルチメディア信号処理では、大容量メモリ(フレームメモリ)とロジックとの信号のやりとりが特に頻繁になります。

図12 NR+TBCシステム

カムコーダでは画像処理のために、「ノイズ・リデューサ+タイム・ベース・コレクタ」略してNR+TBCシステム(図12)を用いていました。入力であるVTR(録画映像)のPB信号は、録画テープを回転させるドラムの回転ムラ等に起因した時間的な「ゆらぎ」、Δfジッターを持っています。映像をきれいに残すためにはSN比の向上を図るNRが重要で、これを実現する為に「ジッターを持った」1フレーム前の信号との相関を利用します。これがNR+TBCシステムです。

1フレーム前の相関を利用するためにはフレームメモリからTBCされたジッターの無い信号を出力する必要があります。しかし、各々8ビットのビデオ・データともなると、NR+TBCの処理だけでも、メモリとロジックとで、24本のデータラインが13.5MHzのサンプリング・レートで結ばれることになり、消費電力が高くなってしまいます。

ロジック+DRAM混載のSoCの必要性

当時はフレームメモリ(DRAM)とロジックとは別チップであり、その場合ピン間容量が大きく、消費電力の点で、携帯用機器としては大きな問題でした。通常LSIのブロック内、ブロック間、チップ間の配線部分の容量比率は、おおよそ1:10:100(図13)であり、ここまでのピン間容量比率であればもう信号処理ロジックとフレームメモリとを同一チップに入れる方が、消費電力的に圧倒的に有利です。そういう経緯から、ロジックとDRAMを混載した「システム・オン・チップ」(SoC)の新規技術開発およびその実現プロセスが必要となったのです。

図13 DRAM混載による消費電力削減

これから先のマルチメディア信号処理

今回はDRAM混載による消費電力削減の重要性について、お伝えしました。その後ビデオ撮影のできる製品は携帯電話、スマホな高解像度で撮影できる製品は増えましたが、これから先の画像処理においても、さらなる高解像度化への要求は続くはずです。特に画像圧縮/伸長、画像認識、3次元グラフィックス等が主役となるマルチメディア信号処理では、今後もメモリ中心の処理が避けられないはずです。こうしたことからも、DRAMプロセスをコアとしたDRAM・ASIC混載プロセス技術が今後重要になるのではないかと想定しています。

次は、低消費電力化を実現するアーキテクチャの工夫について、書きたいと思います。

bookmark_borderシステムLSIの低消費電力化技術(2)

こんにちは。今日はDRAM,SRAM, フラッシュメモリなどの低消費電力化についてお伝えします。

活性化領域の最小化技術とは?

DRAM、SRAM、フラッシュメモリ等のメモリでは、ワード線およびビット線分割によるアレー分割によって、その空間的活性化領域を低減し、低消費電力化を図っています。携帯機器等に使用されるプロセッサでは、プロセッサを構成する各機能ブロックへのクロックの供給を必要に応じて断続的にコントロールするパワーマネジメントによって低消費電力化を図っています。こうした活性化領域の最小化技術について説明します。

ワード線分割

ワード線分割の原理を図9※に示します。ワード線を分割してN個のサブアレーに分ける事により、1本のワード線に接続されるセル数を1/Nに減らします。1個のサブアレーのみが活性化されるので、低消費電力化が図れます。 

※原理を示したもので、現在実践されるワード線分割は多様化しています。

図9 ワード線分割方式

フラッシュメモリのプログラム動作時の様に高電圧パルスが必要な場合は、上図の副ローデコーダに増幅器の役割も担わせて、高電圧系の活性化領域を減らし低消費電力化を図る事もできる。ビット線についても同様に階層化する事により、同様の効果が得られます。

選択的ビット線プリチャージ

選択的ビット線プリチャージは、ASICにおけるRAMやROM等で用いられている技術で、その原理を図10に示します。

図10 選択的ビット線プリチャージ

本方式のコンセプトは読み出し動作において選択されたビット線のみプリチャージして、低消費電力化を図る事です。プリチャージはカラムスイッチを介してセンスアンプ側から行います。読み出し動作で選択されていないビット線は、カラムスイッチが閉じているため、プリチャージされず、活性化領域の最小化=低消費電力化が図れます。

以前に画像処理に使うMPEG2ビデオコーデックLSIを開発したことがありますが、従来版ではLSIの全消費電力の2/3をデュアルポートRAMが占めていたのですが、この選択的ビット線プリチャージ方式を用いる事によって、RAMの消費電力を1/3以下にする事に成功し、600mWという低消費電力のMPEG2ビデオコーデックチップを実現したことがあります。

バス分割

現在のMPUやDSPでは、そのメインバスがチップ全体に及んでおり、より大きな容量値を持っていることが多いです。こうしたチップではDCTやディジタル・フィルタ等の処理を行う時、積和演算がくり返し行われますが、この積和演算はALU及び乗算器とレジスタとのデータのやりとりが頻繁で、しかもそれをメインバスを介して行うため、大きな容量ノードであるメインバスの活性化率が上がってしまい、消費電力的に問題となっておりました。その解決策であるバス分割を図11に示します。

図11 バス分割

バス分割では、あたかも得意な機能の異なる右脳と左脳を脳梁で分けるように、積和演算を行うアクセスが頻繁な「演算系」とアクセス頻度が高くない「周辺系」とを分割する事によって低消費電力化が図られています。

次に、DRAM混載SOCについて事例を折り混ぜながら解説していこうと思います。

bookmark_borderシステムLSIの低消費電力化技術(1)

こんにちは。今日はCMOS LSIの性能を上げつつ低消費電力化を実現する技術の1つをご紹介します。

前の記事「CMOS LSIの消費電力と動作周波数」をご覧になる方はこちら

低しきい値MOS技術とは

低電源電圧領域におけるCMOS LSIの高速動作の最大のポイントはVthです。Vthを低くできれば高速化を図れるはずですが、実際はサブスレッシュホールド・リーク電流という別の問題によって効果は制限されてしまいます。一般にSi-MOSでは、Vthを0.1V下げると、そのOFF時のリーク電流が1桁増えます。Vthを下げられる限界はプロセス製造ばらつきを考慮すると0.3~0.4Vです。

ところが近年、論理回路のVthを0.1~0.2Vのレベルまで下げて回路の高速化を図り、低電圧化により増大するリーク電流を回路的工夫によって解決する 技術が開発されました。それぞれ 「 MT-CMOS (Multi-Threshold CMOS)」  「 ダイナミック・ウェル・バイアス法」と呼ばれます。

MT-CMOS (Multi-Threshold CMOS) 

MT-CMOSの原理図を図7に示します。

0.1~0.2Vレベルの低しきい値(L-Vth)MOSで構成されたLSI論理回路を機能に応じていくつかの回路ブロックに分け、各ブロックとLSI電源との間に、0.4~0.5Vレベルの標準しきい値MOS(H-Vth)の電源スイッチを挿入します。

図7 MTCMOS (NTT、NEC、日立 他)

MT-CMOSでは、パワーマネジメントによって動作ブロックと非動作ブロックに制御され、動作ブロック【青】の(H-Vth)MOSスイッチのみONさせます。動作ブロック【青】の論理回路は(L-Vth)MOSで構成されており、低電圧にもかかわらず高速動作します。一方、非動作ブロック【赤】の(L-Vth)MOSで構成される論理回路には、サブスレッシュホールド・リーク電流が流れるものの、(H-Vth)MOSスイッチによって遮断され、悪影響を抑え込みます。

動作ブロック【青】の論理回路のサブスレッシュホールド・リーク電流は依然存在するのですが、信号処理に応じてノードを充放電する動作電流に比べて小さいので無視できます。加えて、動作ブロックの電源スイッチによる電圧ドロップ(IRドロップ)についても、各ブロックのサブ電源ラインが持つ大きなノード容量による低域フィルタ的な働きにより抑圧され、ほとんど問題とならないです。

このMT-CMOS技術は、90nm以降の先端プロセスを待たずに、1Vレベルの低電源電圧における高速動作を実現する有力な手段となりました。

ダイナミック・ウェル・バイアス法

ダイナミック・ウェル・バイアス法は、LSI論理回路を低しきい値(L-Vth)MOSを用いて構成し、回路の高速化を図る方法です。MT-CMOSと同様、非動作(スタンバイ)時における(L-Vth)MOSを介したサブスレッシュホールド・リーク電流が問題となるのですが、これを、ソースーウェル間を深くバイアスする事によりVthの値を大きくしてリーク電流を抑圧するのが、ダイナミック・ウェル・バイアス法のコンセプトです。この原理図を図8に示しました。

図8 ダイナミック・ウェルバイアス制御(東芝)

LSIを機能に応じていくつかのブロックに分け、各ブロックごとのウェル・バイアスを動作ブロックについては浅く(Vth→小)して動作を高速化し、待機ブロックは深く(Vth→大)してリークを押さえる。MT-CMOSとは違うVthのコントロール技術で、サブスレッシュホールド・リーク電流を抑圧しつつ低電源電圧高速動作を実現できる。

冒頭でVthの制御では、プロセス製造ばらつきの考慮が必要と申し上げましたが、1Vレベルの低電源電圧動作時では、プロセス上のばらつきが動作周波数に与える影響が大きく、Vthが高い方向へ大きくバラツクと最大動作周波数が極端に低下してしまいます。ダイナミック・ウェル・バイアス法では、動作ブロックにおいて、ウェル・バイアスをVthのバラツキに適応してコントロールすれば、安定した所望のVthが得られ、低電源電圧高速動作を実現する事ができます。確立後しばらくこの方法はプロセス、温度、電源電圧等の変動において有力な手段でありました。

次は、活性化領域を最小化して省電力化を狙った技術をご紹介します。

bookmark_borderCMOS LSIの消費電力と動作周波数(3)

CMOS LSIについての3回目です。

今日はLSIのデザインルール微細化に伴う低電源電圧化についてお話します。

CMOSLSIの低消費電力化のためには、電源電圧Veの低減が最も有効であることは、前回記事でもお話した通りですが、最大動作周波数FmaxがVeに依存しているので、最大周波数も低下してしまうという問題がございます。これはどう解決したらよいのでしょうか。

デザインルール微細化に伴う低電源電圧化

CMOSプロセスは、3年(1世代)でデザイン・ルール“L”が0.7倍にスケールダウンされるので、前回お示しした(7)式の分母のL1.5が小さくなります。

これは図4のVe-Fmax特性の勾配が大きくなる事を意味し、同一電源電圧であれば3年で約1.7倍の高速化を図れることになります。

図4 Ve-Fmax特性(再掲)

別の言い方をすれば、ある周波数Fxを動作させる電源電圧は3年で2/3にできる(図5)。さらにスケールダウン則に伴う容量低減も考慮すると消費電力は3年で1/3にする事ができる。

図5 デザインルール微細化に伴う低電源電圧化

すなわち、デザイン・ルール“L”の微細化に伴い、キャリアの移動度の速度飽和現象およびホットキャリア耐性の問題が発生し、MOSトランジスタの最高性能を発揮する電圧、いわゆる「最良電圧」は低電圧化していく、という事になります。

最大動作周波数 Fmaxの温度特性について

低電源電圧動作では、Fmaxの温度特性に注意する必要があります。(6)式を高温および低温について図示すると図6となります。

図6 最大動作周波数 Fmaxの温度特性

高温環境ではキャリア移動度が低下するため、キャリア移動度μは負の温度係数を持っている。また高温環境では印加ゲート電圧に対してウェルにチャネルができ易くなるので、Vthは負の温度係数を持っている。

以上からFmaxの温度特性は、「高い電源電圧では低温環境の方が、低い電源電圧では高温環境の方が高速化する逆転現象」が起こります。プロセスによっても依存いたしますが、一般にVdd=1~1.5Vの間に温度係数ゼロの点が存在するようです。

CMOS LSIで高速応答性を維持しながら、低消費電力化を図る

CMOS・LSIの設計において、その高速性を維持しながら、低消費電力化を図る事が重要である。ここで、(1)式に示した消費電力の式を再度(8)として示します。

  Pc = C・Ve・Vi・f+Ve・Idc ・・・・・(8)

ここでIdcはDC電流成分で、センスアンプの電流源、ダウンコンバータのバイアス電流、低しきい値MOSトランジスタのサブスレッシュホールド・リーク電流等です。

LSIの低消費電力化とは、所望の動作をさせながら、(8)式の各項の値をいかに低減するかの技術です。その代表的な技術について、また次の記事でご紹介いたします。

bookmark_borderCMOS LSIの消費電力と動作周波数(2)

CMOS LSIの続きとなります。

FmaxのVe依存について

前回の最後に最大動作周波数について式(3)を導きました。

MOSトランジスタの飽和領域の特性について、RoはMOSトランジスタのダイナミック・オン抵抗(非飽和領域)、Gmは相互コンダクタンスで(飽和領域)で、この2つは下のような関係にあります。

下の図3にMOSトランジスタの飽和領域の特性を示します。

図3 MOSトランジスタの飽和領域における特性

この図3から、Gm(飽和領域)を求めると、(4)式で表されます。

(3),(4)式から最大動作周波数Fmaxは(5)式で表されます。

一般にCMOSは、フルスイング動作なので、Vgs=Veと表せます。またMOSトランジスタのデザイン・ルールをLとすると、スケーリング則により、tox、W、Lg、C はほぼLに比例する。以上から(5)式は(6)式の様に簡略化できます。

更にサブミクロン以下の微細なMOSトランジスタでは、キャリアの速度飽和により近似的にμ ∝√Lの関係にあるので、(7)式の様にも表現できる。

(6)式から電源電圧Veに対する最大動作周波数Fmaxの関係を図示すると図4の様になる。

図4 Fmax の Ve依存

今回は、式の変形を多用しましたが、最大動作周波数Fmaxが電源電圧Veと依存関係にあることをお分かりいただけたらうれしいです。

bookmark_borderCMOS LSIの消費電力と動作周波数(1)

CMOS LSIの強み

LSI(大規模集積回路)はCPUやメモリ、各種デジタル回路など、幅広いアプリケーションで使用されており、現代のエレクトロクス製品になくてはならない技術です。

LSIに搭載するトランジスタを小さくたくさん並べ集積度をあげるほどLSIの演算性能は上がるのですが、様々な課題が発生します。LSIの動作周波数を上げればトランジスタの処理速度は上がりますが、消費電力も上がります。トランジスタは0と1を電気的に切り替えるスイッチなので、スイッチを動かせば動かすほど当然電力消費が増加します。

CMOS LSIは、こうした課題に対処できるように、低消費電力でありつつ高速応答性がその特徴です。このブログでは、どのようにCMOSの技術特性を活用し、高い応答性能をどのように引き出していったのか、数式や図を使ってご紹介していきたいと思います。

CMOS LSIの Pc(消費電流)の求め方

さて、CMOS LSIの中で、電力はどのように供給され、どのように使われるのでしょうか。数式によって導き出してみます。まず始めに、CMOS LSIのPc (消費電流)の求め方式にまとめてみました。これは式(1)のように示すことができます。

式1

次にCMOS LSIのトランジスタで起きている電流の動きについて図1に示しました。

図1 CMOS LSIの消費電力

CMOSのMOSとは「MOSトランジスタ(金属酸化膜半導体トランジスタ)」のことで、このMOSトランジスタにはNチャネル型とPチャネル型があります、CMOS LSIはこれらのトランジスタを組み合わせて構成されます。LSI内部ノードおよび外部ピンの容量を充放電する際、この図で「P」と書いているPチャネル型MOS(PMOS)で充電し、「N」と書いているNチャネル型MOS(NMOS)を用いて放電されます。

一般にCMOS回路はフルスイング動作なので、Vi=Veとなります。したがって消費電力は式(1)を変形して、式(2)でも表すことができます。

すなわち消費電力Pcは電源電圧Veの2乗に比例するので、電源電圧Veの低減が低消費電力化に最も有効であることがわかります。

Fmax(最大周波数) の求め方

つぎに、最大動作周波数 “Fmax”についてです。

図2 CMOS LSI内部ノードの波形

図2でCMOS LSIの内部を簡易的に示してみました。ここで“Fmax”は、図2の”ノード①” をいかに早く充電できるかに等しいので、式(3)で表すことができます。

ここで想定していただきたいことがあります。単に電源電圧Veを下げると、CMOS LSIの最大動作周波数Fmaxが低下する問題が生じます。CMOS LSIの技術では、低消費電力でありながら高速応答性が保てることが特徴ですから、そのあたりを解決していく術であります。

次回は、電源電圧Veと最大周波数Fmaxの依存関係についてもう少し深く説明していきます。