人工智慧與高效能運算資料中心
容錯解決方案
整合式記憶體
快閃記憶體電池的使用壽命有限,需要保護重要資料的技術,例如磨損平衡和刷新功能,以延長使用壽命,使快閃裝置更長時間可靠。繼續閱讀以探索儲存和整合記憶體的資料完整性解決方案。
SafeData 技術結合了獨特的功耗損偵測和阻斷電路與先進的控制器韌體演算法,可將飛行中的資料從揮發性快取移至 NAND Flash 記憶體,以保護資料免於突然耗電時損毀和/或損失。
當系統操作期間發生電源故障時,磁碟機可能會損壞和資料損壞。這會導致停機時間,因為驅動器必須重新格式化,必須重新安裝作業系統,以及產品可以退回 RMA。
損耗保護技術是最重要的增值功能之一,在嵌入式 SSD 中產生了最大的差異。真正堅固的 SSD 配備硬體和韌體架構等級,可以承受強烈的電源循環。
SMART 的 SafeData 技術可確保在偵測到意外的電源損失後,可確保長時間穩定的電源供應。電源管理 IC 在與機上的所有設備共享足夠的電力方面起著重要的作用,以確保數據安全地處理並從 DRAM 快取存儲到 NAND。
從備份電源繼電器到資料儲存完成的平均處理時間通常需要約 40ms-60ms,具體取決於計算複雜度或大小。SMART 的 SafeData 技術提供 80ms-120 毫秒更長的緩衝時間,在斷電時加強資料完整性。
SMART 的 DDR4 NVDIMM 採用專有的 SafeStore 引擎,該引擎採用多通道 NAND 快閃記憶體和高速切換電路,提供強大的備份和還原功能,同時在正常操作期間充當 JEDEC 標準 DDR4 RDIMM 功能。
NVDIMM 用於加速嵌入式儲存平台的運算效能,例如企業儲存、HPC 和機器學習。使用 SMART 的 SafeStore 技術,DRAM 正在處理的數據將在意外的電源損失事件期間使用超級封蓋來提供備用電源移動到 NAND 快閃記憶體。回復電源後,DRAM 資料會從 NAND 快閃記憶體恢復,並在幾分鐘內即可重新充電。
SMART 的 SafeStore 支持引擎,該引擎根據主機控制器的命令啟動備份和還原操作,並管理 NAND Flash 介面。SafeStor 引擎採用多通道快速 NAND 和高速切換電路,提供強大的備份和還原功能,同時在正常操作期間充當 JEDEC 標準 DDR4 RDIMM 功能。
在突發電源損耗 (SPL) 事件期間,會透過混合式 supercap 模組提供臨時電源給 NVDIMM,該模組可針對個別應用程式環境量身定制。SMART 擴充的 NVDIMM 系列具有端對端錯誤檢查和校正功能,以確保在備份和還原作業期間具有高水平的資料完整性。
單一事件突發 (SEU) 是高能量中子或 α 粒子隨機發生時,當高能量中子或 α 粒子隨機發生,導致記憶位元翻轉狀態時,在數位系統中發生的位元狀態的意外變化。這些高能粒子可以來自地面或地外來源,例如宇宙射線。
SEU 對電子設備(尤其是 SSD)造成臨時錯誤,因為來自太空的宇宙射線或放射性雜質的 Alpha 顆粒引起的臨時錯誤。這些似乎很小的錯誤可能會導致重大中斷:
SEU 可能導致數字系統的異常運行,甚至完全系統故障。解決這些錯誤,尤其是在難以接觸或存取的系統中,對於確保恢復正常作業至關重要。這對於維持可靠的作業和系統的不間斷運行時間至關重要。
SMART 的先進錯誤偵測和校正技術強化 ECC(錯誤代碼校正)引擎,並利用 RAID(獨立磁碟的冗餘陣列)機制。數據是通過先前存儲在其他頁面中的等級重建。恢復的數據將存儲在新區塊中,並重新整理先前的存儲區塊。
隨著每個儲存格儲存的位元數增加,Flash 記憶體移至較小的幾何圖形,錯誤率也會增加。ECC 顯示了檢查錯誤過多增加的固有限制。因此,需要更強大的錯誤修正算法來確保 Flash 存儲設備的可靠性。
進階錯誤偵測與校正提供比標準 ECC 的額外保護,因為可以修正若干記憶體錯誤,否則不會更正並導致伺服器故障。
SMART 的先進錯誤檢測和校正機制配備低密度同等檢查 (LDPC) 代碼,可有效地解碼和更正 TLC NAND 中的錯誤,以提高穩定性和 P/E 週期。RAID 引擎資料復原用於從 RAID 磁碟機和儲存元件中恢復和還原損壞的資料。
端對端防護使用錯誤修正代碼 (ECC) 和其他保護機制 (例如循環備援檢查 (CRC)) 來偵測和修正錯誤,確保資料在 SSD 內的每個資料傳輸點正確傳輸。
數據傳輸期間一定會發生錯誤。隨著存儲設備的大小增加,數據損壞問題越來越大。數據一直被損壞,有時您甚至不會注意到它。
SSD 內有多個數據傳輸點。資料從主機到達控制器後,將由嵌入式 SRAM 或單獨的 DRAM 晶片處理,然後儲存在 NAND 快閃記憶體中。每個資料傳輸點都實施錯誤校正代碼 (ECC) 和循環備援檢查 (CRC) 機制,以無縫偵測和修正錯誤。此外,在 Flash 和控制器緩衝區之間實現 LDPC,以有效地解碼和更正 TLC NAND 中的錯誤,以提高穩定性和 P/E 週期。
背景掃描和重新整理可以計算區塊讀取的時間,並將冷數據重新定位到新區塊,以確保數據始終存儲在健康的區塊中。
在針對包含這些頁面的區塊刪除指令之前,在個別頁面執行非常高的讀取存取權,可能會導致讀取干擾錯誤。當電子穩定存儲在塊的冷區中,且數千次數據讀取後沒有數據移動時,通常會發生讀取干擾。
SMART 的背景掃描和重新整理在避免發生讀取干擾錯誤方面發揮主動作用。SMART 的背景掃描和重新整理通過計算區塊讀取的時間並將冷數據重置到新區塊中,確保數據始終存儲在健康的區塊中。
自我監控、分析和報告技術 (S.M.A.R.T.) 是一種自我監控系統,可通過監控和顯示關鍵驅動器信息來防止意外停機時間的風險。
指示器包括磁碟機的健康狀態、狀態、使用資訊以及潛在的磁碟問題。它的主要功能是檢測並報告各種驅動器可靠性的指標,或者在預測即將發生的硬件故障時間的驅動器可以運行多長時間。
當 S.M.A.R.T. 資料表明可能發生即將發生的磁碟機故障時,主機系統上執行的軟體可能會通知使用者,以便採取行動以防止資料遺失,並且可以更換故障的磁碟機而不會遺失任何資料。
SMART 模組化技術透過整合式記憶體解決方案的設計、開發和進階封裝,協助世界各地的客戶實現高效能運算。我們的產品組合包括當今領先的記憶體技術,到標準和傳統的 DRAM 和快閃儲存產品。三十多年來,我們提供標準、堅固且自訂記憶體和儲存解決方案,滿足高成長市場中各種應用的需求。 立即聯繫我們以獲取更多信息。
在 Penguin,我們的團隊設計、構建、部署和管理高效能、高可用性的 HPC 和 AI 企業解決方案,使客戶能夠實現突破性的創新。
立即聯繫,讓我們討論您的基礎架構解決方案專案需求。