• <strike id="aymay"></strike>
    <strike id="aymay"></strike>
    <ul id="aymay"><dfn id="aymay"></dfn></ul>
    <ul id="aymay"><sup id="aymay"></sup></ul>
  • <del id="aymay"></del>

    浪潮M3服務器RAS設計之IMS內存檢測隔離技術

    2018-01-25 09:15 來源:美通社 作者:Janet

    浪潮天梭M13服務器是專為超大規模實時事務處理而設計的大型關鍵計算系統,面向總部級別的銀行存儲款、電信行業計費系統、跨國企業ERP等關鍵應用場景。M13支持處理器核心數量超過1000個,具有強大的在線事務處理能力,同時采用了復雜的高可用技術系統,滿足業務7*24小時穩定運行需求。

    天梭M13的內存高可用挑戰

    RAS特性(即服務器的可靠性Reliability、可用性Availability以及可服務性Serviceability)對于大型關鍵應用主機來說尤為關鍵,能夠讓主機容忍各類軟硬件故障,可以顯著延長系統平均無故障時間,保證客戶業務持續穩定運行,是保障系統高可用性的技術基礎。

    M13的可用性設計覆蓋了系統的每個部分,極為復雜,本文只介紹一項內存可用性技術 -- IMS內存檢測隔離。

    內存錯誤和故障是引發系統硬件故障的原因之一,一方面,從SDR到DDR,再到目前的DDR3,內存的容量和性能不斷提升,內存顆粒容量的增大、單元密度增加、生產工藝的復雜,客觀上增加了內存缺陷檢查和測試的難度;另一方面,天梭M13最大支持1536個DIMM插槽,內存容量高達48TB,使得內存發生錯誤和故障的概率顯著增加。

    IMS -- Intelligent Memory Surveillance

    目前,內存錯誤的診斷和處理技術相對成熟,主要有ECC、chipkill、SDDC等,這些技術能夠檢驗內存錯誤,進行相應處理,但是有一定局限性,例如ECC可以檢驗和糾正一個數據位錯誤,但無法糾正2個錯誤位同時發生,而且如果ECC錯誤頻繁發生會導致Multi-bit被標識為不可用,甚至觸發MRC內存管理機制,將整個Rank/DIMM做disable處理。頻繁的內存錯誤并不表示內存物理失效,也有可能是外部環境溫度過高、電壓波動等因素導致,這樣的處理會減少內存性能、浪費內存空間,從而降低系統性能。

    IMS -- Intelligent Memory Surveillance,是一套完整的內存錯誤和故障校驗、診斷和處理方法,具備內存檢測、失效隔離和預警等完整的內存管理功能,解決了內存故障無法修復導致停機、故障難于定位、個別錯誤導致大規模內存浪費等內存錯誤和故障處理難題。

    IMS系統概述

    浪潮天梭M13高端服務器的IMS系統配置了高效的內存診斷工具,用戶可以自行對內存問題進行檢查。M13開機時,在BIOS啟動階段(進入操作系統前),用戶可進入Diagnostic模塊,在3種不同強度的測試模式 -- Quick、Standard和Extensive中進行選擇,對內存進行測試和檢驗。檢測完成后,對于關鍵區域或大塊面積的不可修復錯誤,IMS會給出警示信息,提示用戶需要更換內存,對于非關鍵區域、分散性的少量錯誤,IMS會將錯誤地址記錄并對故障單元進行隔離,機器之后的運行時不會再對這些錯誤地址進行訪問。

    當系統啟動成功,進入OS后,IMS會實時進行內存的監測、保護和處理。首先IMS系統會實時統計內存ECC錯誤信息,并對錯誤地址以IMS自帶的多個測試算法進行強化測試,對錯誤進行有效性確認,同時預測相關可能出錯的地址。最后,IMS系統對確認錯誤或預測產生的不可糾錯的內存,應用 OS的隔離技術,在此部分內存區域空閑時予以隔離,離開應用內存空間。

    IMS -- 內存錯誤減少95%以上

    IMS系統能夠在天梭M13服務器運行過程中,有效減少失效內存進入系統的機會。開機前的可選Diagnostic功能類似工廠專用內存測試ATE,但又優于ATE,可以讓用戶方便的進行全面內存檢查。隨著服役時間的延長,內存的電氣性能會不斷衰減,從而產生內存失效隱患,Diagnostic功能讓用戶有效避免這一隱患。

    在系統運行時,IMS可以將故障內存進行隔離,也很好的防止內存退化帶來的內存錯誤,提高系統可靠性。而且IMS對于內存錯誤的定位和處理更為精細和及時,某些本應作RMA處理的內存,可以在現場進行處理修復,大幅減少內存空間浪費行為。

    在使用IMS后,ECC log報錯日志內容隨時間推移成收斂狀態,效果顯著,每小時ECC報錯數從400次逐步減少到不足10次。浪潮統計數據表明,IMS可以有效減少內存錯誤的發生,提高內存可用性。

    從天梭K1到天梭M13,浪潮關鍵應用主機在系統性能、可用性等方面都有了顯著的提高。浪潮在RAS高可用等關鍵核心技術上的持續突破,有效提升了其關鍵應用主機系統的可靠性及產品品質,為金融、電信等關鍵行業的核心信息化應用提供了強有力的基礎設施保障。

    浪潮 M3服務器 RAS設計 IMS

    相關閱讀

    暫無數據

    一周熱門

    主站蜘蛛池模板: 国产探花在线精品一区二区| 国产精品毛片VA一区二区三区| 最新国产精品精品视频| 国产夫妇精品自在线| 无夜精品久久久久久| 国产精品国产三级国产AⅤ| 2022国产精品不卡a| 国模和精品嫩模私拍视频| 国产精品久久久久久福利69堂| 人妻精品久久无码区| 久久久久久一区国产精品| 久久久久久久99精品免费观看| 精品日韩亚洲AV无码| 一本一本久久a久久精品综合麻豆| 国产精品亚洲精品日韩已方| 精品精品国产自在久久高清| 国内精品久久久久影院日本| 亚洲AV午夜福利精品一区二区 | 久久精品成人| 国产精品99无码一区二区| 国内精品51视频在线观看| 久久九九精品99国产精品| 亚洲性日韩精品一区二区三区 | 精品一区二区三区无码免费视频| 一本久久a久久精品亚洲| 日韩欧美一区二区三区中文精品 | 日韩经典精品无码一区| 精品国产一区二区三区久久蜜臀 | 国产午夜福利精品一区二区三区 | 2021国产三级精品三级在专区| 久久亚洲国产精品一区二区| 国产精品毛片久久久久久久| 国产麻豆精品一区二区三区v视界 国产麻豆一精品一AV一免费 | 久热精品人妻视频| 久久亚洲国产精品123区 | 精品福利一区二区三区| 国产精品麻豆VA在线播放| 国产精品99久久久久久猫咪| 少妇亚洲免费精品| 亚洲国产综合精品中文第一区| 国产AV国片精品|