AI および HPC データセンター
フォールトトレラントソリューション
内蔵メモリ
フラッシュメモリセルの寿命には限りがあり、その寿命を延ばすためのウェアレベリングやリフレッシュ機能などの重要なデータを保護する技術が必要です。これにより、フラッシュデバイスの信頼性がより長くなります。このまま読み進めて、ストレージと内蔵メモリのデータインテグリティソリューションをご覧ください。
SafeDataテクノロジーは、独自の電力損失検出回路とホールドアップ回路を高度なコントローラーファームウェアアルゴリズムと組み合わせて、転送中のデータを揮発性キャッシュからNANDフラッシュメモリにフラッシュし、突然の停電によるデータの破損や損失から保護します。
システム操作中に電源障害が発生すると、ドライブが破損し、データが損傷する可能性があります。その結果、ドライブの再フォーマット、オペレーティングシステムの再インストールが必要になり、製品が RMA に返品される可能性があるため、ダウンタイムが発生します。
電力損失保護テクノロジーは最も重要な付加価値機能の1つであり、組み込みSSDs に最大の違いをもたらします。TRUGGED SSDs には、激しい電源サイクルにも耐えられるハードウェアとファームウェアの両方のアーキテクチャレベルが搭載されています。
SMARTのSafeDataテクノロジーは、予期しない電力損失を検出した直後に、長期間にわたって安定した電力供給を保証します。電源管理ICは、データがDRAMキャッシュからNANDに安全に処理および保存されるように、搭載されているすべてのデバイスと十分な電力を共有する上で重要な役割を果たします。
バックアップ電源リレーからデータストレージの完了までの平均処理時間は、コンピューティングの複雑さやサイズにもよりますが、通常約40ミリ秒から60ミリ秒かかります。SMARTのSafeDataテクノロジーは、停電時のデータ整合性を強化するために、80ミリ秒から120ミリ秒長いバッファリング時間を提供します。
SMARTのDDR4 NVDIMMは、マルチチャネルNANDフラッシュと高速スイッチング回路を採用した独自のSafeStorエンジンを搭載しており、通常の動作時にはJEDEC標準のDDR4 RDIMMとして機能しながら、堅牢なバックアップと復元機能を提供します。
NVDIMMは、エンタープライズストレージ、HPC、機械学習などの組み込みストレージプラットフォームのコンピューティングパフォーマンスを向上させるために使用されます。SMARTのSafeStorテクノロジーを使用すると、DRAMが処理しているデータは、予期しない停電が発生した場合にバックアップ電源用のスーパーキャパシタを使用してNANDフラッシュに移動されます。電源が戻ると、DRAMデータはNANDフラッシュから復元され、スーパーキャパシタは数分で再充電されます。
SMARTのSafeStorは、ホストコントローラーからのコマンドに応じてバックアップおよび復元操作を開始するエンジンをサポートし、NANDフラッシュインターフェースを管理します。SafeStorエンジンは、マルチチャンネルの高速NAND回路と高速スイッチング回路を採用し、堅牢なバックアップとリストア機能を提供すると同時に、通常の動作時にはJEDEC標準のDDR4 RDIMMとして機能します。
突発的な電力損失(SPL)が発生すると、ハイブリッドスーパーキャパシタモジュールによって一時的な電力がNVDIMMに供給されます。このモジュールは、個々のアプリケーション環境に合わせて調整できます。SMARTの幅広いNVDIMMラインナップは、エンドツーエンドのエラーチェックおよび修正機能を備えており、バックアップおよびリストア操作中に高いレベルのデータ整合性を確保します。
シングルイベントアップセット(SEU)は、高エネルギーの中性子またはアルファ粒子がランダムに衝突してメモリビットの状態が反転したときに、デジタルシステムでビットステータスが不注意に変化することです。これらの高エネルギー粒子は、宇宙線などの地球または地球外の発生源から発生する可能性があります。
SEUは、宇宙からの宇宙線や放射性不純物からのアルファ粒子による一時的なエラーを引き起こすことにより、電子デバイス、特にSSDs に深刻かつ重大な脅威をもたらします。これらの一見小さなエラーは、大きな混乱を招く可能性があります。
SEUは、デジタルシステムの異常動作やシステム全体の障害につながる可能性があります。特にアクセスやアクセスが困難なシステムでは、これらのエラーに対処することが、通常の運用への回復を確実にするために重要です。これは、システムの信頼性の高い運用と中断のないランタイムを維持するために不可欠です。
SMARTの高度なエラー検出および修正テクノロジーは、ECC(エラーコード修正)エンジンを強化し、RAID(独立ディスクの冗長アレイ)メカニズムを利用します。データは、以前に保存されたパリティによって他のページに再構築されます。復元されたデータは新しいブロックに保存され、以前に保存されたブロックは更新されます。
セルあたりの保存ビット数の増加に伴い、フラッシュメモリがより小さな形状に移行するにつれて、エラー率も増加します。ECC では、エラーが過度に増加しているかどうかをチェックするうえで、本質的に限界があります。したがって、フラッシュストレージデバイスの信頼性を確保するには、より強力なエラー修正アルゴリズムが必要です。
Advanced Error Detection & Correction(高度なエラー検出と訂正)を使用すると、修正できずサーバ障害の原因となる特定のメモリエラーを修正できるため、標準 ECC よりも保護が強化されます。
SMARTの高度なエラー検出および修正メカニズムには低密度パリティチェック(LDPC)コードが付属しており、TLC NANDのエラーを効率的にデコードして修正し、安定性とP/Eサイクルを高めます。RAIDエンジンデータ復旧は、RAIDドライブおよびストレージコンポーネントから破損したデータを回復および復元するために使用されます。
エンドツーエンド保護は、エラー修正コード(ECC)と巡回冗長検査(CRC)などの追加の保護メカニズムを利用してエラーを検出して修正することにより、SSD内のすべてのデータ転送ポイントでデータが正しく転送されることを保証します。
エラーはデータ送信中に必ず発生します。ストレージデバイスのサイズが大きくなるにつれて、データ破損の問題はますます大きくなっています。データは常に破損しており、気付かないこともあります。
SSD には複数のデータ転送ポイントがあります。データがホストからコントローラに到達すると、内蔵SRAMまたは別のDRAMチップで処理されてから、NANDフラッシュに保存されます。エラー修正コード(ECC)と巡回冗長検査(CRC)のメカニズムがすべてのデータ転送ポイントに実装され、エラーをシームレスに検出して修正します。さらに、フラッシュとコントローラーバッファーの間にLDPCが実装されているため、TLC NANDのエラーを効率的にデコードして修正し、安定性とP/Eサイクルを高めます。
Background Scan and Refresh は、ブロック読み取りの回数をカウントし、コールドデータを新しいブロックに再配置して、データが常に正常なブロックに保存されるようにします。
それらのページを含むブロックに対して消去コマンドを実行する前に、個々のページに対して非常に多くの読み取りアクセスを実行すると、読み取り障害エラーが発生する可能性があります。読み取り障害は通常、電子がブロックのコールドゾーンに安定して蓄積され、何千回もデータを読み取ってもデータが移動しない場合に発生します。
SMARTのバックグラウンドスキャンと更新は、読み取り妨害エラーの発生を未然に防ぐ上で積極的な役割を果たします。SMARTのバックグラウンドスキャンと更新は、ブロック読み取りの回数をカウントし、コールドデータを新しいブロックに再配置することで、データが常に正常なブロックに保存されるようにします。
セルフモニタリング、分析、レポートテクノロジー(S.M.A.R.T.)は、重要なドライブ情報を監視および表示することにより、予定外のダウンタイムによるリスクを防止する自己監視システムです。
インジケータには、ドライブの状態、ステータス、使用情報、および潜在的なディスク問題が含まれます。その主な機能は、ドライブの信頼性を示すさまざまな指標を検出して報告することです。つまり、差し迫ったハードウェア障害を予測しながらドライブがどれくらいの時間稼働できるかを検出して報告することです。
S.M.A.R.T. データから差し迫ったドライブ障害の可能性があることが示されると、ホストシステム上で実行されているソフトウェアがユーザーに通知して、データ損失を防ぐための措置を講じることができ、障害が発生したドライブはデータを失うことなく交換できます。
SMART Modular Technologiesは、統合メモリソリューションの設計、開発、高度なパッケージングを通じて、世界中のお客様がハイパフォーマンスコンピューティングを実現できるよう支援します。当社のポートフォリオは、今日の最先端のメモリテクノロジーから、標準および従来のDRAMおよびフラッシュストレージ製品まで多岐にわたります。30 年以上にわたり、当社は成長著しい市場における多様なアプリケーションのニーズを満たす標準、高耐久性、カスタムのメモリおよびストレージソリューションを提供してきました。 詳細については、今すぐお問い合わせください。
Penguinのチームは、高性能で可用性の高いHPCおよびAI エンタープライズソリューションの設計、構築、導入、管理を行い、お客様が画期的なイノベーションを実現できるよう支援しています。
今すぐお問い合わせいただき、インフラストラクチャソリューションプロジェクトのニーズについてご相談ください。