智能運維解決方案

  智能運維的必然性

a) 運維場景多樣化。隨著IT業務持續增長,為保證業務連續性,不同業務之間衍生出大量的運維場景,單一解決方案無法實現貫穿業務的始末,導致出現場景斷層,無法基于現有IT業務實現全面的覆蓋。

b) 工具場景多樣化運維過程是故障發現、故障解決、提高運維質量的過程。不同企業的IT運維建設之路不盡相同,運維工具的建設也參差不齊,因而數據孤島、無法貼近業務等問題日漸明顯。

c) 云架構模式的普及運維工具需要基于云架構傳統的”監管控”模式已經落后于企業的多元化需求的變化。

d) 數據的快速增長運維工具的建設企業不缺乏對IT業務運行狀態的數據但是卻面臨無法數據整合,無法貼合業務,無法通過告警判斷影響范圍等問題

e) 缺乏基于海量數據的故障預測對于海量的數據,無法通過“自學習”的方式提煉數據關聯關系

對以上運維現狀,我司結合近10年的基礎運維經驗及現有智能運維的落地情況,認為智能運維的建設之路并非一朝一夕可成,建設的路徑為:“由下至上”、“由分散到集中”、“由數據到結論”,方能真正切合用戶的場景落實智能運維。

                                        

         智能運維方案介紹

設計架構圖

運維監控

數據接入層


數據接入層即PIGOSS智慧平臺,為智能運維的核心層。

對下負責將環控系統、BSM監控系統 、安全感知平臺、安全管理平臺及其他業務系統的告警數據整合,此外還提供更強大的 REST API 以及方便的 Email、短信集成方式,可將任何系統的告警數據快速接入到TOC智慧平臺。

對上負責將分散的數據歸集,是分散數據的處理樞紐。另外可以通過北向接口把數據集中的提供給大數據平臺。


數據融合層

數據接入層僅僅完成對數據的集中,集中數據僅僅完成智能的基礎,數據的價值在于能為未來決策提供準確的依據。借助大數據引擎,把運維場景中狀態數據、性能數據、告警數據、業務數據放入引擎進行分析,通過分析結果建立基于業務場景的運維模型,通過不同業務模型的建立,完成從業務到基礎數據的無縫銜接;

智慧應用層

智慧應用層為智能運維的成果體現,數據融合層提供基于大數據的分析結果。可根據不同的數據模型,模塊化的添加不同的應用,實現基于大數據的應用管理。

另外,還提供對基于該應用層的數據展現,可以基于應用層的分析結果做2D大屏展現、3D立體展現等,也可以通過終端進行訪問

智能運維分步建設


面對工具多樣性、告警源多樣性、數據多樣性、團隊多樣性的場景,TOC 方案提供了邊融合、邊迭代的解決方案。

通過 “松耦合” 的方式持續整合專業運維工具、數據、流程,持續優化運維數據共享、團隊協同、資源優化的運維效果,最終實現智能大數據運維



建議TOC智慧解決方案的迭代步驟如下:

第一步:實現集中的告警服

分析梳理已有運維工具的告警數據源,選擇適當的接口方式(API,郵件解析、短信解析、插件等)實現告警數據在TOC 的統一集中管理。同時嚴格規范告警策略和告警規則。

這個過程中可以依據實際情況逐步對工具進行合理的替代、升級、補充。設立集中的告警服務臺崗位(團隊),對TOC告警規范規則、及時響應負責任。

第二步:接工ITSM)服流程管理

TOC 作為匯聚多個告警源的集中告警服務臺,與ITSM 工單流程統一對接,不僅避免各局部告警工具分別與ITSM 流程對接,而且能夠從更高維度實現服務流程的統籌規劃,從更高維度實現不同告警源的關聯告警合并開單,提升服務管理能力和效率。

第三步:實現全局的統計分析

有了前兩步的集中服務管理數據,可以通過全局的數據統計評價各告警源的規范性、各類服務響應的SLA水平,發現運維服務瓶頸,優化服務資源匹配。

第四步:梳理全局業務關聯和告警關

隨著TOC 逐步整合匯聚的數據源不斷豐富,可以在TOC 平臺實現對全局業務關聯邏輯,告警關聯邏輯梳理,提供更全面的業務運維視圖,并能基于海量數據確定故障影響的范圍。

實現這一效果的前提是TOC數據的完整性達到足夠的程度

第五步:大數據平臺數據融合

隨著TOC運維數據的沉淀,依靠人工梳理,數據之間的關聯關系遠遠不夠,需引入大數據平臺。根據TOC數據沉淀及現有的數據集和問題點,結合有監督學習和無監督學習的方式,進行機器學習,通過反復訓練的方式,進一步提高場景和算法的擬合度,逐漸完善基于現有場景的智能算法。

第六步:大數據應用的建設

大數據平臺實現數據融合后,建立基于大數據場景的模塊化應用。以智能算法及大數據作為支撐,依據算法輸出的預測結果,簡化IT運維操作,為運維管理決策提供更大的價值。


乐透型35选7开奖号码