使用、功能與設置選項不斷演變,所以數(shù)據(jù)中心硬件經理需要知曉當今服務器內存的類型以及它們如何影響計算。
保障服務器可靠性
內存存儲著每個虛擬機的鏡像與數(shù)據(jù),所以內存的可靠性對企業(yè)服務器來說尤其重要。如果內存故障,很可能導致該內存中虛擬機奔潰,造成數(shù)據(jù)丟失或更嚴重的服務器故障。不同類型服務器內存可以在緩解內存故障上起到不同效果。
錯誤校正碼(ECC)是一種已知技術,用于定位與校正內存內容中的錯誤。ECC采用某種算法來存儲內存中一定量的數(shù)據(jù),如單64位內存地址,接著為數(shù)據(jù)計算一個代碼,將代碼放入某個保留內存空間。當服務器讀取內存內容,并計算出一個ECC,再將其與內存中的ECC相比較。如果兩者匹配,則被認為是有效。如果不匹配,則ECC算法會檢測那個比特是錯誤的并修改之。ECC檢測不能修復雙位錯誤。
高級ECC通過分配多個獨立的ECC設備,而不是單個進行內存讀取,擴展了ECC機制。高級ECC可以糾正單位與雙位錯誤并檢測內存設備故障。
單設備錯誤校正(SDDC)采用混合ECC結構檢測并修正多位錯誤,最多支持4比特;該技術同樣能夠確認并關閉雙列直插存儲器模塊(DIMM)上失效的內存芯片 。SDDC可以從服務器內存映射中移除失效芯片或整個內存模塊,讓服務器通過備用模塊恢復內存內容。高端服務器制造商采用交易標簽來識別、關閉與恢復內存故障管理,如IBM的Chipkill,Hewlett Packard Enterprise的Advanced ECC與Chipspare,還有基于Intel的鎖步內存。
某些服務器內存類型會犧牲性能來保護內存完整性。配置為高可靠性的服務器,會試圖對一些相關聯(lián)的故障進行處理,如總線頻率(速度)、溫度、電壓水平和內存刷新率等。服務器會降低頻率與電壓,從而降低內存組件的壓力,熱損耗和故障率。
如果你正計劃更新數(shù)據(jù)中心服務器,會發(fā)現(xiàn)有更多的服務器內存選項可用,現(xiàn)在的內存模塊使用串行存在檢測(SPD)空間,來記錄每個模塊可校正的內存錯誤數(shù)量與位置。SPD跟蹤錯誤率并尋找可能出現(xiàn)可修正錯誤急劇增加的模塊。技術人員可以據(jù)此先發(fā)制人,如內存熱備或將工作負載遷移至其他服務器,然后更換有問題的DIMM。相似的技術,如內存頁退役,跟蹤可恢復的內存錯誤到內存頁或區(qū)域。一旦發(fā)現(xiàn)可校正錯誤變得過大,系統(tǒng)會將受災頁面退休并禁止使用,直到問題內存模塊被更換。
服務器內存在性能中的角色
數(shù)據(jù)中心硬件采購者為了獲取最佳內存與系統(tǒng)性能,應該為每個DIMM通道購買相同區(qū)塊、容量和速度的內存。如果DIMM容量不同時,需要確保所有DIMM兼容相同的區(qū)塊與速度,而且所有通道都采用相同大小的組合。每個可用通道都應該在相同位置安裝邏輯唯一的DIMM。
要理解服務器級的內存配置,最好是理解內存的幾何形狀與特征。區(qū)塊通常是與DIMM的內存芯片組織方式與如何實現(xiàn)硬件層交互有關。例如,一塊擁有8個8位芯片的DIMM,擁有一個區(qū)塊,而一塊在雙面都擁有8個芯片的DIMM則擁有兩個區(qū)塊。
內存模塊容量直接與構成模塊的內存芯片有關。容量通常被以芯片深度x芯片寬度x區(qū)塊數(shù)方式進行標注。例如,擁有4個區(qū)塊的128Mbit x 16位芯片,具有的總內存容量為128 x 16 x 4 = 8,192 Mbits或1GB內存容量。DIMM被組織到通道中,并通過服務器內存管理器管理。
DIMM同樣可以通過速度來分類:總線連接內存與處理器的時鐘率。安裝了DDR4 DIMM的最新企業(yè)級服務器創(chuàng)下了每秒1866 - 2133百萬次數(shù)據(jù)傳輸(MT/s)的記錄,與此同時采用較舊的DDR3 DIMM內存的服務器最高只能達到1600MT/s或1333MT/s。
服務器處理器必須支持所需的內存頻率。舊的或更廉價的服務器內存類型可能限制了內存以較低的頻率運行,影響性能。
并不是越多越好
增加服務器內存容量可以簡單增加更多的DIMM,但過多的DIMM可能會降低頻率進而影響性能。例如,裝有兩個DIMM的服務器,速度可達2133MT/s,但如果再增加一根,速度會降低為1866MT/s。建議采用較少的DIMM,而使用更大容量的內存。低負載DIMM能夠提供最大的容量與性能。
如果服務器支持,就選擇彈性內存取代高級ECC。高級ECC會捆綁多個內存通道主機控制器來支持SDDC大數(shù)據(jù)帶寬(x8)內存芯片。某些情況下,一些通道可能無法使用,而且無法被填充。多內存控制器之間交互也同樣會阻礙內存性能。諸如Dell PowerEdge R710提供了另一種優(yōu)化模式,以支持獨立運行所有內存通道和內存控制器,但這樣可能會限制內存集合不大于x4。
為提升數(shù)據(jù)中心技術并支持更多并發(fā)虛擬機,服務器買家需要理解這些方法以提高內存設備性能。