數(shù)智QA|AI大模型時代,IT運維將有哪些變化?
數(shù)智QA|AI大模型時代,IT運維將有哪些變化?

當你春節(jié)假期抱著手機搶紅包的時候
當你與TA煲視頻電話的時候
當你買完東西掃碼支付的時候
當你輸入目的地開始叫車的時候
...
你一定不愿看到手機應用進度一直轉(zhuǎn)圈、畫面卡頓
流暢的體驗,離不開背后萬千ICT基礎(chǔ)設(shè)施的支持
正是這些基礎(chǔ)設(shè)施不斷應對互聯(lián)網(wǎng)流量洪峰的沖擊,時刻響應用戶的應用請求。而數(shù)字基礎(chǔ)設(shè)施和企業(yè)業(yè)務(wù)的穩(wěn)定運行,更離不開IT運維的精心管理和保障。
IT運維,簡而言之,就是對IT環(huán)境、系統(tǒng)、設(shè)備及網(wǎng)絡(luò)進行全面的維護和管理。IT運維包括但不限于對硬件、軟件、網(wǎng)絡(luò)、數(shù)據(jù)庫及安全設(shè)施等的監(jiān)控、維護、優(yōu)化和故障排除,在IT基礎(chǔ)設(shè)施運營等方面扮演著至關(guān)重要的角色。如今,IT運維已經(jīng)成為保證企業(yè)穩(wěn)定運營、提高系統(tǒng)效率、保障數(shù)據(jù)安全、快速響應故障以及推動技術(shù)創(chuàng)新和智能化轉(zhuǎn)型的關(guān)鍵力量。
隨著AI、云計算、大數(shù)據(jù)等技術(shù)的不斷發(fā)展,特別是生成式人工智能及AI大模型的發(fā)展,IT運維也在不斷創(chuàng)新和演進,進入“智能運維時代”。
本期的《數(shù)智QA》,我們將從多個維度,深入探討智能運維為行業(yè)智能化帶來的影響。
數(shù)智 QA
當前企業(yè)IT運維普遍面臨哪些問題?
Artificial Intelligence for IT Operations
運維機制不完善:沒有建立起穩(wěn)定、規(guī)范的IT運維機制,導致運維流程的操作層面缺乏統(tǒng)一的標準和指導,使得運維工作難以規(guī)范化、系統(tǒng)化。
運維質(zhì)量低下:由于運維工作的復雜性和繁瑣性,以及缺乏有效的運維工具和技術(shù)支持,導致IT運維本身的質(zhì)量很難提高,存在大量的重復性勞動和手動操作。
團隊建設(shè)有待提升:運維團隊中技能水平參差不齊,一些關(guān)鍵技能和知識僅存在于少數(shù)核心人員中,導致過度依賴這些人員,一旦他們離職或生病,整個運維工作可能面臨嚴峻考驗。
運維成本高昂:企業(yè)業(yè)務(wù)的不斷發(fā)展和IT系統(tǒng)日益復雜,導致運維成本不斷攀升,成為企業(yè)的沉重負擔。如何降低運維成本、提高運維效率成為企業(yè)亟待解決的問題。
什么是智能運維?
Artificial Intelligence for IT Operations
智能運維即AIOps(Artificial Intelligence for IT Operations),由Gartner在2016年最先提出,是將人工智能和機器學習技術(shù)應用于IT運維領(lǐng)域的一種方法。AIOps可提高處理故障的響應速度、降低故障影響范圍、增強系統(tǒng)穩(wěn)定性和可靠性,并提高IT運維團隊的工作效率和資源利用率。
相較于傳統(tǒng)IT運維,智能運維有哪些優(yōu)勢?
Artificial Intelligence for IT Operations
主要體現(xiàn)在五個方面:
1.強大的數(shù)據(jù)處理和分析能力:AIOps通過數(shù)據(jù)平臺廣泛采集、處理和分析數(shù)字化業(yè)務(wù)運行過程中的多樣化運維數(shù)據(jù),包括告警、指標、日志、配置以及運維工單等類別,提升了運維大數(shù)據(jù)的治理能力、優(yōu)化數(shù)據(jù)質(zhì)量,為進一步激活運維數(shù)據(jù)的價值打下了良好基礎(chǔ)。
2.快速的故障預判及風險防范能力:AIOps能夠?qū)崟r數(shù)據(jù)進行異常檢測和問題預判,有效降低數(shù)字化業(yè)務(wù)的運行風險,提升可用性和穩(wěn)定性。運維人員能夠提前發(fā)現(xiàn)潛在問題并采取相應的措施,從而避免或減少故障的發(fā)生。
3.更低的運維人力成本:AIOps使真正意義上的跨域根本原因定位成為可能,降低對專業(yè)運維人員經(jīng)驗技能的依賴,迅速縮短故障排查時間并有效降低人力成本。
4.更高的自動化和智能化效率:AIOps可以自動化許多傳統(tǒng)的運維任務(wù),如日志分析、事件管理、故障診斷等。同時,AIOps還具備智能化的決策支持能力,可以為運維團隊提供實時的警報、推薦解決方案和執(zhí)行修復操作等智能化支持。
5.更好的業(yè)務(wù)理解能力:AIOps不僅能夠關(guān)注IT系統(tǒng)本身的狀態(tài)和性能,還能夠感知業(yè)務(wù)側(cè)的影響力。這使得運維團隊能夠更好地理解業(yè)務(wù)需求并優(yōu)先處理對業(yè)務(wù)影響較大的問題,從而確保業(yè)務(wù)的連續(xù)性和穩(wěn)定性。
中國信通院《中國AIOps現(xiàn)狀調(diào)查報告(2023)》顯示,2023年有55.69%的受訪企業(yè)加大了在AIOps智能運維的投入資金。其中,保證運維質(zhì)量,提高運維效率仍為目前企業(yè)關(guān)注度最高的應用方向。
全新AI時代,大模型加持的智能運維將發(fā)揮什么作用?
Artificial Intelligence for IT Operations
1.智能化監(jiān)控和預警:AI大模型能夠處理海量的運維數(shù)據(jù),通過實時監(jiān)控和智能分析,及時發(fā)現(xiàn)系統(tǒng)的異常和潛在問題。這將使得運維團隊能夠更快速、準確地響應故障,并提前采取預防措施,避免或減少故障的發(fā)生。
2.自動化運維和修復:借助AI大模型,AIOps將實現(xiàn)更高程度的自動化。從日志分析、事件管理到故障診斷和修復,許多繁瑣的運維任務(wù)將由AI系統(tǒng)自動完成。
以Lenovo xCloud聯(lián)想混合云智能運維解決方案為例,該方案基于聯(lián)想技術(shù)與解決方案交付團隊多年來服務(wù)聯(lián)想內(nèi)部業(yè)務(wù)的實踐經(jīng)驗積淀而成。聯(lián)想混合云AIOps以數(shù)據(jù)驅(qū)動的智能分析為大腦、任務(wù)驅(qū)動的自動化平臺為手腳,實現(xiàn)對混合云環(huán)境端到端的智能管理,助力IT不同角色實現(xiàn)以業(yè)務(wù)價值為導向的IT運營,保障業(yè)務(wù)連續(xù)性,實現(xiàn)快速業(yè)務(wù)交付,降本增效。
聯(lián)想混合云AIOps為客戶提供了豐富的運維場景支持,并實現(xiàn)開箱即用,同時具備高靈活性,可為企業(yè)提供個性化運維服務(wù)。通過建立企業(yè)統(tǒng)一的運維數(shù)據(jù)湖,對數(shù)據(jù)進行采集、治理、分析、存儲,聯(lián)想混合云AIOps可為企業(yè)建立系統(tǒng)的知識圖譜并實現(xiàn)全方位、多視角的智能數(shù)據(jù)分析和可視,支持企業(yè)對業(yè)務(wù)運營進行智能決策,加速企業(yè)智能化進程。目前,聯(lián)想混合云AIOps解決方案已經(jīng)在IT資產(chǎn)和配置管理、自動化運維管理、一體化運維平臺等領(lǐng)域?qū)崿F(xiàn)落地應用。
在吉利星睿智算中心·智能仿真平臺建設(shè)中,依托聯(lián)想混合云AIOps解決方案,聯(lián)想為吉利提供了統(tǒng)一運維入口及訪問控制,實現(xiàn)一體化運維管理。集群自動化運維支持對高性能計算資源維護和使用過程中的日常運維工作,統(tǒng)一的高性能計算任務(wù)調(diào)度、管理及執(zhí)行,使仿真任務(wù)計算效率提升10%。豐富的運維自動化場景進一步降低了運維技術(shù)門檻,智算中心運維效率提升30%,平臺計算效率提升30%,并有望將計算效率進一步提升10%-30%。
3.個性化運維服務(wù):AI技術(shù)助力之下,AIOps將越來越注重為企業(yè)提供個性化服務(wù)。AI大模型能夠根據(jù)企業(yè)的業(yè)務(wù)需求和系統(tǒng)特點,定制化提供運維解決方案,滿足企業(yè)的特定需求。
4.知識圖譜與智能決策:AI大模型能夠構(gòu)建運維知識圖譜,將分散的運維知識整合起來,形成結(jié)構(gòu)化的知識體系?;谶@個知識體系,AI系統(tǒng)能夠提供智能的決策支持,幫助運維團隊作出更明智的決策。
在某省級大型能源集團的IT運維中,聯(lián)想為該集團及分公司構(gòu)建了統(tǒng)一的運維平臺,支持企業(yè)資產(chǎn)管理、服務(wù)運營、監(jiān)控告警等服務(wù),大幅提升了運維標準化和成熟度。在聯(lián)想混合云AIOps解決方案助力下,該集團數(shù)據(jù)中心故障切換時間縮短4.5倍,硬件成本節(jié)約40%,業(yè)務(wù)承載能力提升6倍。
5.安全性增強:AI大模型在網(wǎng)絡(luò)安全領(lǐng)域也有廣泛應用,能夠?qū)崟r監(jiān)測和識別潛在的安全威脅,自動采取防御措施。這將使得IT運維在保障系統(tǒng)安全方面更加高效和可靠。
Gartner的數(shù)據(jù)顯示,2023年AIOps在中國的市場滲透率只達到了目標受眾的5%-20%。這一數(shù)據(jù)意味著仍有大量企業(yè)還未進行AIOps建設(shè),未來AIOps市場前景廣闊。目前,已經(jīng)開始應用AIOps的企業(yè),智能運維水平普遍還處于輔助智能化運維階段,主要以系統(tǒng)輔助分析,幫助人工進行決策和操作為主。隨著AI大模型和生成式AI技術(shù)的加速落地,AIOps智能運維也將循序漸進不斷升級,在質(zhì)量、成本、效率、安全等維度持續(xù)完善,助推企業(yè)智能化轉(zhuǎn)型。