版本升級(jí)是存儲(chǔ)集群長期運(yùn)行中必不可少的動(dòng)作,通過版本升級(jí)可以增加功能、修復(fù)漏洞、提升性能,但離線升級(jí)方式或串行在線升級(jí),對(duì)于金融、通信等對(duì)業(yè)務(wù)連續(xù)性和升級(jí)時(shí)效要求較高的行業(yè)來說是難以接受的。對(duì)此,浪潮信息在分布式存儲(chǔ)平臺(tái)上研發(fā)出在線并發(fā)升級(jí)算法,能夠保證在不影響企業(yè)業(yè)務(wù)的前提下進(jìn)行快速、可靠的版本迭代,實(shí)現(xiàn)整體存儲(chǔ)平臺(tái)升級(jí)效率提升超10倍。
浪潮信息研發(fā)的在線并發(fā)升級(jí)算法,相對(duì)于傳統(tǒng)串行在線升級(jí)有兩大優(yōu)勢:首先,其先進(jìn)性在于從集群底層數(shù)據(jù)分布結(jié)構(gòu)出發(fā),對(duì)節(jié)點(diǎn)進(jìn)行升級(jí)分類,可有效避免上層協(xié)議對(duì)于并發(fā)升級(jí)的影響,進(jìn)而實(shí)現(xiàn)了集群全場景并發(fā)升級(jí)。其次,升級(jí)隊(duì)列生成器可以根據(jù)當(dāng)前集群實(shí)際情況制定出優(yōu)化的升級(jí)策略,而升級(jí)控制器保證實(shí)際升級(jí)過程中能夠綜合各種集群服務(wù)狀態(tài),在確保集群業(yè)務(wù)正常的情況下動(dòng)態(tài)調(diào)整各節(jié)點(diǎn)的升級(jí)順序,進(jìn)而實(shí)現(xiàn)在存儲(chǔ)業(yè)務(wù)不受影響的前提下快速完成存儲(chǔ)版本的迭代。
例如,在存儲(chǔ)系統(tǒng)由70臺(tái)設(shè)備組成的情況下,按照傳統(tǒng)串行升級(jí)方式,整個(gè)存儲(chǔ)集群完成升級(jí)耗時(shí)在8小時(shí)左右。在采用浪潮信息的并發(fā)升級(jí)技術(shù)后,存儲(chǔ)集群升級(jí)耗時(shí)縮減至42分鐘,整體升級(jí)時(shí)間縮短90%。
【資料圖】
浪潮信息的并發(fā)升級(jí)技術(shù)之所以能有效提升集群整體升級(jí)效率,關(guān)鍵在于此技術(shù)能夠根據(jù)存儲(chǔ)系統(tǒng)底層結(jié)構(gòu)將70個(gè)節(jié)點(diǎn)劃分為5個(gè)升級(jí)組,單個(gè)升級(jí)組之間相互獨(dú)立,可以進(jìn)行并發(fā)升級(jí)。然后根據(jù)存儲(chǔ)系統(tǒng)服務(wù)分布、存儲(chǔ)池狀態(tài)、閾值等信息綜合計(jì)算得出單個(gè)升級(jí)組內(nèi)可允許并行升級(jí)的節(jié)點(diǎn)個(gè)數(shù),具體分組內(nèi)容如下表所示:
升級(jí)組 | 服務(wù)器個(gè)數(shù) | 并發(fā)個(gè)數(shù) |
root_1 | 9 | 2 |
root_2 | 9 | 3 |
root_3 | 12 | 3 |
root_4 | 20 | 4 |
root_5 | 20 | 4 |
在進(jìn)行分組后集群節(jié)點(diǎn)可進(jìn)行兩輪并發(fā),首先是5個(gè)升級(jí)組間可以執(zhí)行并發(fā)升級(jí),其次單個(gè)升級(jí)組內(nèi)節(jié)點(diǎn)按照并發(fā)個(gè)數(shù)進(jìn)行并發(fā)升級(jí)。經(jīng)過兩輪并發(fā)升級(jí)后集群升級(jí)耗時(shí)被縮減至42分鐘。
圖2,圖3為某70個(gè)節(jié)點(diǎn)的存儲(chǔ)集群升級(jí)前、升級(jí)中以及升級(jí)后的IOPS、帶寬性能曲線圖。存儲(chǔ)集群在線升級(jí)時(shí)間為2022/06/29 01:00 – 02:00執(zhí)行在線升級(jí),在線升級(jí)期間IOPS、帶寬性能與升級(jí)前、后保持一致并未有下降,仍維持在正常水平。
圖2 IOPS 性能曲線
圖3 帶寬性能曲線
浪潮信息支持不同版本間的功能互通,即在整個(gè)升級(jí)期間不同版本間業(yè)務(wù)可以正?;ネǎ挥绊懠涸δ艿恼J褂?。
浪潮信息的分布式存儲(chǔ)產(chǎn)品還支持暫停/繼續(xù)功能。當(dāng)在線升級(jí)時(shí)間窗口不足或節(jié)點(diǎn)升級(jí)異常時(shí),用戶可主動(dòng)觸發(fā)升級(jí)暫停動(dòng)作,浪潮信息的分布式存儲(chǔ)可以在記錄下當(dāng)前集群升級(jí)狀態(tài)后進(jìn)行集群狀態(tài)恢復(fù)并退出升級(jí)。升級(jí)暫停期間浪潮信息支持系統(tǒng)多版本兼容,使得集群即使在各節(jié)點(diǎn)系統(tǒng)版本不一致的情況下,也可以維持整個(gè)存儲(chǔ)系統(tǒng)的功能、穩(wěn)定性和性能不受影響,集群仍可正常對(duì)外提供服務(wù)。此后用戶可通過繼續(xù)升級(jí)功能來恢復(fù)集群升級(jí)。暫停和繼續(xù)功能不僅增加了升級(jí)功能的穩(wěn)定性和健壯性,同時(shí)也解決了大規(guī)模集群用戶升級(jí)時(shí)間窗口選擇難的問題。
浪潮信息的分布式存儲(chǔ)AS13000,基于在線并發(fā)升級(jí)功能,已經(jīng)在金融、通信、醫(yī)療等行業(yè)實(shí)現(xiàn)規(guī)模部署,在實(shí)際升級(jí)操作中可快速、安全的實(shí)現(xiàn)分布式存儲(chǔ)版本的迭代,有效提升升級(jí)效率、降低運(yùn)維成本。未來,浪潮信息將持續(xù)秉承“存儲(chǔ)即平臺(tái)”戰(zhàn)略,加速推進(jìn)存儲(chǔ)系統(tǒng)功能的研發(fā)和創(chuàng)新,助力各個(gè)行業(yè)全面釋放數(shù)據(jù)價(jià)值,加速數(shù)字化轉(zhuǎn)型。