數(shù)據(jù)中心基礎設施現(xiàn)代化框架如何搭建?
隨著數(shù)據(jù)中心基礎設施的長期運營超出其保修范圍,其軟件工具不再反映或展示實際情況,運營和維護(O&M)計劃變得過時和/或人員不足,導致服務中斷的風險顯著增加。
陳舊過時的數(shù)據(jù)中心必須實現(xiàn)現(xiàn)代化或?qū)⑵銲T外包給云計算服務和托管服務提供商,以最大限度地降低業(yè)務中斷的風險。而其他沒有實現(xiàn)現(xiàn)代化的數(shù)據(jù)中心無法從最近的技術進步中獲益。這些改進使數(shù)據(jù)中心變得更簡單、更高效、更易于管理,而且現(xiàn)在的運營成本更低。以下介紹如何實現(xiàn)數(shù)據(jù)中心設施現(xiàn)代化的簡單四步框架。
首先從定義設計和操作標準開始。然后將其用于執(zhí)行識別風險和需求的差距分析。這種由施耐德電氣解決方案架構師團隊開發(fā)的方法,應該用于涵蓋數(shù)據(jù)中心現(xiàn)代化的三個關鍵領域:(1)設備硬件(電氣和機械),(2)軟件系統(tǒng),(3)操作和維護計劃。
保持IT系統(tǒng)運行取決于所有這三個領域。因此,在現(xiàn)代化項目中考慮所有因素至關重要。
現(xiàn)代化框架的四個步驟
遵循這些基本步驟有助于確保采用適量且有條理的方法來確定現(xiàn)代化的內(nèi)容和方法,無論組織可能需要什么或在過程中處于什么位置。
?。?)制定設計標準
首先要記錄現(xiàn)代化項目的具體目標,這一點非常重要。在項目結束時,組織希望其數(shù)據(jù)中心能實現(xiàn)哪些功能?應該如何表現(xiàn)?以及需要實現(xiàn)什么樣的目標?組織從更大的業(yè)務和IT目標開始是有用的。自從開始構建數(shù)據(jù)中心以來,這些很可能已經(jīng)發(fā)生了變化。關鍵性和功率需求將會發(fā)生顯著變化。
在當今組織目標的背景下重新評估其需求將幫助確定各個事項。例如,真正需要什么級別的電氣冗余,或者某個特定地點的運營團隊人員配備級別應該是什么。每個關鍵領域的設計標準應該記錄下來。例如,如果決定數(shù)據(jù)中心應滿足特定的層級或關鍵性標準,那么應該在設計標準中記錄具體滿足這些要求所需的內(nèi)容。確保組織獲得所有主要利益相關方的支持,并了解IT外包戰(zhàn)略是什么。配電和不間斷電源的設計標準示例如文中的圖表所示。
配電系統(tǒng)和APCUPS供電系統(tǒng)的示例設計標準
?。?)基準性能
通過明確詳細記錄組織希望達到的設計標準,下一步是評估數(shù)據(jù)中心在所有三個域中的當前狀態(tài)。這涉及對基礎設施設備及其互連進行物理調(diào)查。
組織需要了解每個設備的工作年限、維護合同狀態(tài)、負載與容量等。這意味著需要與設計和制造(O&M)團隊溝通,并審查其程序方法和培訓文檔。企業(yè)不應該僅僅依靠圖紙或書面報告。還應對照設備基準檢查數(shù)據(jù)中心基礎設施管理(DCIM)工具,以了解資產(chǎn)的軟件映射及其互連與實際情況的匹配程度。使用設計標準文檔作為記分卡來記錄當前的實際情況。
?。?)確定差距并考慮備選方案
在記錄當前情況的情況下,下一步是確定差距,即當前的現(xiàn)實或性能不滿足數(shù)據(jù)中心未來的需求。考慮并記錄彌補每個缺口所需的內(nèi)容。
供應商和咨詢工程師可能需要清楚地了解其選擇以及它們的成本。這項工作將開始構成一個流程圖,說明實現(xiàn)項目目標所需的時間、成本和人力。反過來,這可能會導致組織重新評估設計標準。而這是一個迭代過程。
(4)優(yōu)先考慮需求
實際的實施項目升級和更換之前的最后一步是優(yōu)先處理縮小差距所需的措施,以使數(shù)據(jù)中心達到設計標準中規(guī)定的性能水平。作為關鍵任務數(shù)據(jù)中心,所有差距都需要根據(jù)它們對IT持續(xù)運作所代表的風險程度進行評估。對于審計中發(fā)現(xiàn)的每個問題,組織必須了解其風險。
顯然,風險最大的差距會成為組織需要關注的重點之一。這種風險需要與成本、時間、對正在進行的運營可能造成的破壞,以及與其他被認為重要的目標(如能效目標)相平衡。
需要注意的是,第三方供應商可以幫助組織,甚至對評估流程提供幫助。它們不僅可以簡化并可能為組織加速流程,而且將從擁有和運營數(shù)據(jù)中心的經(jīng)驗中受益。此外,它們的獨立性可能會對組織的數(shù)據(jù)中心設施中可能存在的風險做出更準確、公正的判斷。
識別并解決基礎問題
在創(chuàng)建設計標準和基準測試性能的過程中,組織可能會發(fā)現(xiàn)容易解決的問題,即涉及相對較少甚至沒有資本性支出和實施時間的項目。當然,這些問題應該馬上解決。人們經(jīng)??吹降牟扇〉膶嶋H行動包括:
?電源:對過期的設備進行預防性維護(PM)服務,從UPS電源中移除未使用的電源模塊,重新分配不平衡負載,糾正PDU/機架PDU分配中的錯誤,如果發(fā)現(xiàn)冗余規(guī)則被破壞等。
?冷卻:進行過期預防性維護(PM)服務,在機架上添加空白面板,堵塞高架地板上的孔洞,清除地板下空氣通道中的障礙物,確保地磚位于正確位置,確保機架正確對齊等。
?操作:更新/更正竣工圖紙,確保分布操作流程(MOP)和應急操作流程(EOP)正確無誤,并處在正確的位置,驗證員工是否接受過應急程序的適當培訓。
?軟件系統(tǒng):檢查并確保所有軟件工具都具有資產(chǎn)、資源及其依賴關系的準確映射;檢查警報閾值和通知策略。
遵循并堅持這一框架將簡化流程,并降低風險。它將通過專注于流程改進、硬件升級和替換來優(yōu)化成本,這些措施可以減少可能對IT系統(tǒng)和應用程序最大影響的停機關鍵事件和故障。而且,新的業(yè)務需求可能意味著當今所需的基礎設施可能比剛構建時所需要的要少得多。
當組織將其與現(xiàn)代基礎設施及其管理工具帶來的可能效率增益相結合時,實現(xiàn)現(xiàn)代化的數(shù)據(jù)中心設施的實際總擁有成本通常低于組織的預期。
陳舊過時的數(shù)據(jù)中心必須實現(xiàn)現(xiàn)代化或?qū)⑵銲T外包給云計算服務和托管服務提供商,以最大限度地降低業(yè)務中斷的風險。而其他沒有實現(xiàn)現(xiàn)代化的數(shù)據(jù)中心無法從最近的技術進步中獲益。這些改進使數(shù)據(jù)中心變得更簡單、更高效、更易于管理,而且現(xiàn)在的運營成本更低。以下介紹如何實現(xiàn)數(shù)據(jù)中心設施現(xiàn)代化的簡單四步框架。
首先從定義設計和操作標準開始。然后將其用于執(zhí)行識別風險和需求的差距分析。這種由施耐德電氣解決方案架構師團隊開發(fā)的方法,應該用于涵蓋數(shù)據(jù)中心現(xiàn)代化的三個關鍵領域:(1)設備硬件(電氣和機械),(2)軟件系統(tǒng),(3)操作和維護計劃。
保持IT系統(tǒng)運行取決于所有這三個領域。因此,在現(xiàn)代化項目中考慮所有因素至關重要。
現(xiàn)代化框架的四個步驟
遵循這些基本步驟有助于確保采用適量且有條理的方法來確定現(xiàn)代化的內(nèi)容和方法,無論組織可能需要什么或在過程中處于什么位置。
?。?)制定設計標準
首先要記錄現(xiàn)代化項目的具體目標,這一點非常重要。在項目結束時,組織希望其數(shù)據(jù)中心能實現(xiàn)哪些功能?應該如何表現(xiàn)?以及需要實現(xiàn)什么樣的目標?組織從更大的業(yè)務和IT目標開始是有用的。自從開始構建數(shù)據(jù)中心以來,這些很可能已經(jīng)發(fā)生了變化。關鍵性和功率需求將會發(fā)生顯著變化。
在當今組織目標的背景下重新評估其需求將幫助確定各個事項。例如,真正需要什么級別的電氣冗余,或者某個特定地點的運營團隊人員配備級別應該是什么。每個關鍵領域的設計標準應該記錄下來。例如,如果決定數(shù)據(jù)中心應滿足特定的層級或關鍵性標準,那么應該在設計標準中記錄具體滿足這些要求所需的內(nèi)容。確保組織獲得所有主要利益相關方的支持,并了解IT外包戰(zhàn)略是什么。配電和不間斷電源的設計標準示例如文中的圖表所示。
配電系統(tǒng)和APCUPS供電系統(tǒng)的示例設計標準
?。?)基準性能
通過明確詳細記錄組織希望達到的設計標準,下一步是評估數(shù)據(jù)中心在所有三個域中的當前狀態(tài)。這涉及對基礎設施設備及其互連進行物理調(diào)查。
組織需要了解每個設備的工作年限、維護合同狀態(tài)、負載與容量等。這意味著需要與設計和制造(O&M)團隊溝通,并審查其程序方法和培訓文檔。企業(yè)不應該僅僅依靠圖紙或書面報告。還應對照設備基準檢查數(shù)據(jù)中心基礎設施管理(DCIM)工具,以了解資產(chǎn)的軟件映射及其互連與實際情況的匹配程度。使用設計標準文檔作為記分卡來記錄當前的實際情況。
?。?)確定差距并考慮備選方案
在記錄當前情況的情況下,下一步是確定差距,即當前的現(xiàn)實或性能不滿足數(shù)據(jù)中心未來的需求。考慮并記錄彌補每個缺口所需的內(nèi)容。
供應商和咨詢工程師可能需要清楚地了解其選擇以及它們的成本。這項工作將開始構成一個流程圖,說明實現(xiàn)項目目標所需的時間、成本和人力。反過來,這可能會導致組織重新評估設計標準。而這是一個迭代過程。
(4)優(yōu)先考慮需求
實際的實施項目升級和更換之前的最后一步是優(yōu)先處理縮小差距所需的措施,以使數(shù)據(jù)中心達到設計標準中規(guī)定的性能水平。作為關鍵任務數(shù)據(jù)中心,所有差距都需要根據(jù)它們對IT持續(xù)運作所代表的風險程度進行評估。對于審計中發(fā)現(xiàn)的每個問題,組織必須了解其風險。
顯然,風險最大的差距會成為組織需要關注的重點之一。這種風險需要與成本、時間、對正在進行的運營可能造成的破壞,以及與其他被認為重要的目標(如能效目標)相平衡。
需要注意的是,第三方供應商可以幫助組織,甚至對評估流程提供幫助。它們不僅可以簡化并可能為組織加速流程,而且將從擁有和運營數(shù)據(jù)中心的經(jīng)驗中受益。此外,它們的獨立性可能會對組織的數(shù)據(jù)中心設施中可能存在的風險做出更準確、公正的判斷。
識別并解決基礎問題
在創(chuàng)建設計標準和基準測試性能的過程中,組織可能會發(fā)現(xiàn)容易解決的問題,即涉及相對較少甚至沒有資本性支出和實施時間的項目。當然,這些問題應該馬上解決。人們經(jīng)??吹降牟扇〉膶嶋H行動包括:
?電源:對過期的設備進行預防性維護(PM)服務,從UPS電源中移除未使用的電源模塊,重新分配不平衡負載,糾正PDU/機架PDU分配中的錯誤,如果發(fā)現(xiàn)冗余規(guī)則被破壞等。
?冷卻:進行過期預防性維護(PM)服務,在機架上添加空白面板,堵塞高架地板上的孔洞,清除地板下空氣通道中的障礙物,確保地磚位于正確位置,確保機架正確對齊等。
?操作:更新/更正竣工圖紙,確保分布操作流程(MOP)和應急操作流程(EOP)正確無誤,并處在正確的位置,驗證員工是否接受過應急程序的適當培訓。
?軟件系統(tǒng):檢查并確保所有軟件工具都具有資產(chǎn)、資源及其依賴關系的準確映射;檢查警報閾值和通知策略。
遵循并堅持這一框架將簡化流程,并降低風險。它將通過專注于流程改進、硬件升級和替換來優(yōu)化成本,這些措施可以減少可能對IT系統(tǒng)和應用程序最大影響的停機關鍵事件和故障。而且,新的業(yè)務需求可能意味著當今所需的基礎設施可能比剛構建時所需要的要少得多。
當組織將其與現(xiàn)代基礎設施及其管理工具帶來的可能效率增益相結合時,實現(xiàn)現(xiàn)代化的數(shù)據(jù)中心設施的實際總擁有成本通常低于組織的預期。
- 上一篇:數(shù)據(jù)中心優(yōu)化需要考慮的主要因素 2019/3/4
- 下一篇:開放與創(chuàng)新的邊緣計算促使微數(shù)據(jù)中心興起 2019/2/28