如今,幾乎所有的企業組織都在采用某種形式的云計算。包括將應用程序或工作負載首次轉移到云計算平臺,將云和本地活動融合到混合云平臺,或基于微服務和API的云原生應用架構。
在所有這些變體中,幫助企業組織確保其服務和應用的性能和可用性的傳統工具都失敗了。越來越多的人需要更現代化的工具來提供更好的可觀察性和對正在發生的事情的洞察力,以及基于人工智能的輔助來幫助確保持續可用性和一流的性能。
當前有幾個問題推動了對現代工具的需求。首先,組織在云環境上部署應用程序和運行工作負載的復雜性增加。
即使是一個簡單的應用程序,比如為用戶帳戶提供移動前端,也會涉及到企業維護的后端元素、公共云上的數據庫、通過用戶提供商的連接,以及任何一個主要的移動操作系統。各種元素之間存在許多相互依賴關系,業務部門對大多數可能影響性能或可用性的元素幾乎沒有控制權。當出現問題時,可能需要花費大量時間來確定中斷的來源。使用AIOps的現代可觀察性工具可以幫助自動化根本原因分析,加速停機或其他問題的修復(MTTR)。這可以顯著減少修復/恢復的時間。
第二,企業不能再被動,在問題發生后采取行動。傳統的IT管理方法是等待來自客戶或內部用戶的的關于服務中斷或服務質量差的投訴電話。AIOps提供了一種更具有預測性的操作模式。其支持一種主動的方法,可以發現丟棄或重發數據包的增加,以及其他性能不佳的指標,并實時采取糾正措施。
第三,當應用程序和服務使用多個云元素交付時,安全性將更具挑戰性,其中一些云元素不受企業的控制。有了現代的可觀察性工具,安全團隊可以使用AIOps來發現異常,這些異常是攻擊或預示數據泄露的活動的前兆。例如,AIOps可以用來提醒安全團隊,有大量的數據正在通過一個通常很少使用的端口從組織中發送出去。
持續可用性對于滿足最終用戶的期望至關重要
應用程序性能和可用性對于任何組織都非常重要。員工有一定的期望,即他們完成工作所需的應用程序和服務能在他們需要的時候隨時可用,并且表現良好。
同樣,如今任何面向客戶的應用程序或服務都面臨著更苛刻的用戶期望。由于人們習慣于在需要的時候立即獲得任何東西,所以對于那些無法獲得或性能較差的產品,幾乎沒什么容忍度。
許多研究已經量化了任何問題對底線的影響。40%的用戶會放棄加載時間超過3秒的網站,53%的用戶會放棄無法在3秒內加載的手機應用。
如果某個網站或手機應用無法使用或表現不佳,用戶就會放棄該網站或應用。這就會導致收入損失。例如,在線購物的客戶只需跳轉到另一個商家的網站下一次性訂單。如果客戶在該網站上有良好的體驗,那么他們可能永遠不會再回來了。所以,這不僅僅是一次購買的損失。這可能意味著失去一個終身客戶。
相比之下,緩慢的性能推動著業務的發展。Google對該問題的一項經典分析發現,53%的用戶放棄了加載時間超過3秒的站點。事實上,網站和移動應用的性能非常重要,Google現在把這兩個因素都納入了SEO排名。這同樣會對財政收入產生嚴重影響。想象一下,從頁面上的Google排名第二下降到搜索結果的第一頁,那么當客戶尋找其產品或服務時,永遠不會看到這家公司。
現代商業所需要的工具
如今,持續可用性和優化性能至關重要。確保兩者兼顧的一種方法是使用可觀察性與AIOps相輔相成,AIOps是任何數字組織在云環境中運行時都需要全天候運行的基本層。
AIOps是部署機器學習來跟蹤來自傳感器、軌跡、日志和其他來源的數據,以防止內部和外部中斷,無論是通過事件關聯還是異常檢測。其還可以通過確定傷亡人數來更好地分析事件發生的原因。
高級AIOps平臺匯集所有數據——指標、跟蹤、日志、更改和事件——以實現快速、準確的報告和分析。與過去的、基于規則的技術不同,這種方法可以對部分證據進行操作,并在問題變得嚴重之前發現問題。AIOps還使用機器學習來分析事件,了解如何在事件生命周期的早期發現問題,并確定推動持續可用性的模式。
考慮到2022年基于云計算的數字組織的復雜性,以及多層微服務和臨時架構,AIOps對于尋求確保應用和服務可用且性能良好的努力至關重要。