一、傳統日志處理技術困境
圖1 傳統日志處理技術困境
如上圖所示,面對海量機器數據,傳統的日志處理技術存在較多問題的,可以歸納為以下幾點:
1) 數據孤島。在傳統日志處理系統中,各設備/系統的日志數據是孤立、分散存儲在不同系統中的,不同系統的日志數據無法進行關聯和發現共性。在定位分析問題時,系統管理員往往需要多次登陸不同系統,使用簡易的腳本命令或程序查看日志數據,操作繁瑣,并且容易出錯。如何解決機器數據統一存儲和管理問題?
2) 海量存儲。傳統日志處理系統采用關系型數據庫,無法適應TB/PB級機器數據存儲和快速訪問性能要求,也不適合處理以非結構化類型為主的機器數據。如何解決海量非結構化機器數據低成本存儲和持續可擴展性問題?
3) 全文檢索。傳統日志處理系統無法實現從非結構化的機器數據全文中快速查找相關匹配信息。如何實現問題快速查找、定位和回溯?
4) 價值發掘。傳統日志處理系統在數據存儲、快速計算、全文檢索等方面存在諸多限制,同時也限制了對機器數據的新價值挖掘。如何快速實現對來源不同的機器數據進行關聯分析和機器學習,發掘新的數據價值,如:總體態勢、趨勢分析、異常預測等,并通過可視化圖表和儀表盤進行直觀呈現?
當前,大數據技術可以很好地解決傳統日志系統存在的諸多問題。
二、大數據技術用于ITOA
圖2 大數據應用于ITOA
如圖2所示,IT系統中的存儲、服務器、數據庫、中間件、操作系統、網絡、安全、虛擬機、應用等所有部件的機器數據,如:日志、配置、事件、告警等,都可以統一采集和存儲到一個大數據平臺,進行統一管理、檢索和分析。大數據技術采用分布式存儲,基于X86服務器集群及橫向擴展能力,可以提供海量的、低成本的存儲能力,為統一數據管理,打破數據孤島提供基本的技術能力;同時,通過Hadoop并行處理框架對海量數據進行快速數據計算,通過ElasticSearch對非結構化數據提供一個分布式全文檢索引擎,可支持快速全文檢索、數據關聯分析、機器學習挖掘等價值變現能力。
三、新華三IT大數據
圖3 IT大數據技術架構
IT大數據是一款針對數據中心推出的大數據應用系統,基于分布式處理架構,通過對日志數據、傳感數據、安全事件、KPI指標、網絡數據等機器數據進行統一采集、解析、存儲和管理,提供全文檢索、機器學習、關聯分析、可視化圖表、監控告警等功能,幫助用戶獲得海量機器數據有價值的信息。IT大數據由大數據平臺、數據采集、應用適配、IT大數據應用和運維管理等五個部分組成。
1.大數據平臺
大數據平臺基于分布式計算框架Hadoop/Spark和分布式檢索引擎ElasticSearch混合架構。
ElasticSearch是當前流行的企業級全文檢索引擎,其特點包括:支持JOSN進行數據索引、支持RESTful檢索引擎接口、基于Lucene全文檢索引擎等。ElasticSearch提供分布式檢索引擎架構,基于X86服務器及本地硬盤,可以橫向擴展集群節點到上千臺,存儲和處理PE/EB索引數據。ElasticSearch支持索引數據分塊和多副本機制,副本分布存儲在集群的不同節點,可提供分布式處理能力,并支持索引數據的冗余備份機制。
IT大數據對Hadoop/Spark和ElasticSearch進行深度混合應用,ElasticSearch作為數據源,Hadoop/Spark作為執行引擎,通過實現Hadoop和ElasticSearch之間的輸入/輸出,可以在Hadoop/Spark里面對ElasticSearch集群的數據進行讀取和寫入,充分發揮Hadoop/Spark并行處理的優勢,為Hadoop/Spark數據帶來實時全文搜索能力。
2.數據采集
針對數據中心機器數據來源的多樣性,IT大數據實現了多種數據采集方式,對網絡、安全、服務器、存儲等日志數據,通過配置和監聽UDP端口采集;對主機性能、應用性能、數據庫日志等數據,通過在客戶端安裝探針進行采集。
機器數據是基于時間序列生成的非結構化數據,無標準格式,不同廠家的設備/系統格式都不一樣,IT大數據支持自定義解析規則,可以兼容任意廠家的機器數據格式。
利用Kafaka+Storm/Stream組件對數據進行接收、解析和加載等進行分布式處理,可以大幅提升數據采集性能,支持多達數十萬個數據源并行采集。
3.應用適配
通過IT大數據提供的應用適配功能,用戶可以快速生成所需的場景化應用。
全文檢索功能能夠幫助用戶快速查詢所需要全文信息,用于問題查找、定位和回溯等,用戶可以自定義檢索條件,包括模糊查詢、優先級、操作符(AND、OR、NOT、+、-),可定義查詢索引表組合和范圍,可自定義報表字段以及時間序列等。
可視化圖表對檢索或分析結果進行可視化展示,圖表類型豐富,包括:折線圖、面積圖、餅圖、地圖、區域圖、表格、曲線圖、柱狀圖、雷達圖、標簽云、桑基圖、時間軸、熱力圖、雷達圖、雷達掃描圖等,多個圖表可以組成主題儀表盤。
使用監控告警功能,可以對異常分析結果進行告警,并通過email、聲音提醒、web通知等方式通知用戶。
4.IT大數據應用
IT大數據應用可以分以下幾種類型,包括:
主題統計/分析類型。基于某個主題,對相關機器數據進行統計、分析,生成可視化報告。例如:IT態勢感知,對IT系統中整體信息進行分析、統計,實時監控IT系統的整體健康狀況;網絡安全態勢主題,對IT系統中所有安全相關的信息進行分析和統計,監控整個網絡的安全動態;無線軌跡態勢主題,對智能終端軌跡數據進行分析和統計,監控整個熱點區域軌跡態勢,并對重點軌跡行為進行分析。
異常查找/定位類型。通過全文檢索功能,根據異常的特征,從整個IT系統機器數據中查找/定位所有相關信息,描繪異常發生的路徑,回溯異常發生的源頭。例如:故障快速定位/異常行為追蹤,按故障/異常的特征進行全文檢索,能夠檢索出故障/異常發生的所有相關設備、時間、路徑和源頭,并通過可視化圖表進行展示。
趨勢研判/預測類型。對系統內相關樣本數據采用機器學習算法訓練出相關模型,能夠對特征行為進行預測和趨勢分析。例如:網絡流量預測,通過采集大量的樣本數據,通過時間序列和流量等關鍵特征訓練建模,能夠預測未來實際網絡流量的流向、大小等趨勢。
5. 運維管理
運維管理部分實行對IT大數據集群的安裝部署、運維監控、單點登錄、用戶管理、權限管理和安全審計等系統功能,為用戶使用IT大數據系統提供基本管理。
四、結束語
移動互聯網、物聯網、大數據、云計算、SaaS等新技術的快速發展,驅動IT運營由過去的支撐系統向價值創造的生產系統轉變。IT大數據能夠最大程度地解決了現代數據中心的管理矛盾問題,滿足了云計算、大數據時代對數據中心環境整體監控、運維管理、分析預測等要求,幫助用戶極大地提高數據中心的可用性、可維護性和工作效率,同時大幅降低運維管理成本,為數據中心的運營分析帶來巨大的應用價值。
(審核編輯: 智匯小新)
分享