描述
內容簡介
☆ ★☆ IT系統監控分層解析完全攻略 ☆ ★☆
現代社會已完全依賴 IT 架構的運作,從商業機構、研究機構一直到政府機關等;將整個架構分層一直是處理這類問題的基本原則,如果能監控每一層元件的運作狀況,在出問題時才能快速解決讓服務恢復正常。 各類基礎設施發生異常時即時探測異常、迅速定位問題原因、快速解決異常,以及總結經驗、避免再次發生類似問題,取決於監控系統的支援程度。 本書最大的特色,就是將「系統分層說明」。從底層基礎的硬體監控開始向上建築。監視了最基本的網路、CPU、記憶體、儲存設備,目前雲端運算的基礎運算單元為虛擬機,本書也有說明虛擬機平台(以 VMware ESXi 為主)的監控。再上一層為 OS 的監控,包括 UNIX 類及 Windows 類。在 IAAS 之上的就是 PAAS 了,包括了資料庫(SQL 及 NOSQL)的監控。 本書另外一大特色就是介紹了「中介軟體的監控」,目前市面上極少有書涉及。近來服務都運行在容器中,因此自然少不了容器及 K8S 的監控。最後一層就是應用程式本身的監控了。 本書也有提及多種指標來觀察,此外在系統執行每一層所產生的記錄檔,也可以對其進行監控及分析。近年來 AI 盛行,利用 AI 進行系統監控成為主流,本書也有詳細說明。
【本書重點與特色】 ★ IT 系統監控分層解析完全攻略
★ 金融系統監控大師親著
★ 系統運行維護必備 |
作者簡介
姜才康
現任中匯信息技術(上海)有限公司總經理、中國計算機用戶協會金融信息分會理事、上海計算機學會理事、上海信息化理事。在金融數位化建設方面貢獻突出,長期從事金融行業應用軟體設計開發、技術標準制定和技術管理工作,不斷落實國家級金融基礎設施,建構全方位的銀行間市場風險管理和安全運維體系,先後獲得數十項銀行發展科技獎。主持開發且完成新一代外匯交易系統、新一代本幣交易系統、匯率中間價系統、上海同業拆放利率(Shibor)、基於雙邊授信撮合系統、報價引擎、數據發佈、交易後系統、增值服務系統、匯率指數、定盤收益率曲線等數十個金融系統的開發建設任務。主要著作有《大數據系統運維》(2018)、《數據挖掘基礎》(2018),另有《外匯交易中心集中統一監控平台建設實踐》、《銀行間市場金融標準化建設的實踐之道》、《中國貨幣網的建設及發展》等多篇論文發表。 |
目錄
CH01 監控系統規劃及原理
1.1 IT 監控運行維護管理的發展歷程 1.2 監控系統整體規劃 1.3 監控系統的分類 1.4 監控系統工作原理 1.5 監控系統運行模式分類 1.6 監控事件匯流排 1.7 本章小結
CH02 電腦硬體裝置監控 2.1 電腦的分類 2.2 資料中心常見的電腦種類 2.3 電腦硬體裝置監控 2.4 本章小結
CH03 虛擬機器監控 3.1 虛擬化分類 3.2 ESXi 虛擬化監控 3.3 KVM 虛擬化監控 3.4 本章小結
CH04 作業系統監控 4.1 作業系統的種類 4.2 作業系統功能模組 4.3 CPU 監控 4.4 記憶體監控 4.5 處理程式監控 4.6 檔案屬性監控 4.7 檔案系統監控 4.8 網路模組監控 4.9 監控系統如何監控作業系統 4.10 本章小結
CH05 資料庫監控 5.1 資料庫分類 5.2 資料庫狀態指標分類 5.3 當前連接數與最大允許連接數 5.4 QPS/TPS 5.5 慢查詢 5.6 磁碟 I/O 監控 5.7 其他針對性指標 5.8 本章小結
CH06 中介軟體監控 6.1 Nginx 監控 6.2 Tomcat 監控 6.3 ActiveMQ 監控 6.4 本章小結
CH07 Docker 容器監控 7.1 Docker 容器運行狀態 7.2 Docker 容器性能指標 7.3 cAdvisor 對容器監控 7.4 Docker 容器內的應用記錄檔監控 7.5 本章小結
CH08 Kubernetes 監控 8.1 Kubernetes 簡介 8.2 Prometheus 簡介 8.3 Prometheus 部署 8.4 Kubernetes 叢集監控 8.5 本章小結
CH09 應用監控 9.1 應用性能管理概述 9.2 呼叫鏈路追蹤 9.3 APM 系統的設計與實現 9.4 本章小結
CH10 記錄檔監控 10.1 記錄檔的基本概念 10.2 記錄檔的作用 10.3 常見記錄檔類型及格式 10.4 記錄檔規範 10.5 記錄檔監控基本原理 10.6 記錄檔監控的常見場景 10.7 記錄檔擷取與傳輸 10.8 記錄檔解析與記錄檔監控策略 10.9 常見記錄檔監控系統 10.10 本章小結
CH11 智慧監控 11.1 智慧監控概述 11.2 監控資料治理 11.3 監控動態基準線 11.4 監控自癒 11.5 本章小結
附錄 A 參考文獻 |
序
在 IT 建設工作中,監控一直扮演著重要角色。我們能否在應用系統及其所依賴的各類基礎設施發生異常時即時探測異常、迅速定位問題原因、快速解決異常,以及總結經驗、避免再次發生類似問題,在很大程度上取決於監控系統的支援程度。可以說,在資料中心的建設過程中,監控貫穿了各個環節,從最上層的應用系統到底層的基礎設施,都需要透過不間斷的、近乎即時的監控檢測措施來保障業務的連續性。監控系統的建設工作是各企業內部一項最基礎,同時也是最重要的工作,尤其是在對業務連續性要求非常高的金融機構內,建構一套成熟完備的監控系統更是重中之重。
在業務系統結構不複雜、業務規模不大的情況下,監控系統的建設相對沒有那麼複雜,我們透過架設一套主流的監控系統,就可以實現大部分的監控需求了。但是,隨著 IT 技術的快速迭代和發展,雲端運算、容器、分散式架構等技術在企業內部的應用、落地及推廣程度逐漸加深,以及對應配套基礎設施的規模呈幾何級數增加,建構一個能夠第一時間發現問題、精準定位問題,甚至可以透過巨量資料分析、人工智慧等手段進行異常預警及事後分析且避免同類問題再次發生的監控系統就並非易事了。這對監控系統的功能、監控資訊的準確性和即時性、監控範圍的覆蓋程度,以及監控系統自身的高可用性等方面都提出了更高的要求,涉及從底層基礎設施到頂層應用系統的各個領域的監控實施工作。我們幾乎很難找到一套可以滿足所有監控需求的監控系統,所以監控系統的建設工作通常包括把對各類監控細分領域實施精細化監控的監控系統或工具進行整合、訂製開發及自研等工作。 本書試圖以理論結合實踐的方式,介紹如何從 0 到 1 打造一個一體化企業級監控系統,全書共 11 章,第 1 章「監控系統規劃及原理」詳細介紹了監控運行維護管理的發展歷程、監控系統整體規劃、監控系統的分類、監控系統工作原理、監控系統運行模式分類,以及監控事件匯流排等內容;從第2章開始至第 10 章自底向上依次對電腦硬體裝置、虛擬機器、作業系統、資料庫、中介軟體、Docker 容器、Kubernetes、應用,以及記錄檔等領域實施監控的技術原理、常用監控指標及實現方式等內容做了介紹。第 11 章「智慧監控」作為全書複習,對監控系統下一個階段的發展趨勢,即智慧監控涉及的相關技術原理及常用智慧監控功能做了介紹。本書第 1 章由姜才康編著;第 2 章、第 4 章、第 11 章由何瑋編著;第 3 章、第 5 章、第 6 章、第 7 章由邢世友編著;第 8 章、第 9 章由蔣德良編著;第 10 章由杜旭東編著;全書由姜才康和蔣德良統稿。 監控系統的成功建設離不開運行維護和研發工程師的互相配合及共同努力,所以本書對運行維護和研發工作具有同樣重要的意義。運行維護工程師透過對本書的系統學習,可以對監控系統的基本原理、設計思想、實現方式等內容有全面理解及深入掌握,從而將這些內容運用到監控系統的建設或完善工作中。研發工程師透過對本書的系統學習,可以更進一步地了解監控系統對應用系統進行監控的工作原理及可能產生的影響,從而在系統研發過程中更全面地考慮與監控系統的整合方式,建構能更加穩定運行的業務系統。 本書的出版離不開中國人民銀行科技司、中國外匯交易中心及中匯資訊技術(上海)有限公司各位領導的指導和同事們的大力支持,離不開電子工業出版社徐薔薇和朱雨萌編輯的認真態度和辛勤工作,編著者都是利用業餘時間完成本書的撰寫工作的,其間更是離不開家人的體諒與支持,在此一併表示由衷的感謝!同時,特別感謝中國人民銀行科技司李偉司長、跨境銀行間支付清算有限責任公司許再越總裁、北京青雲科技股份有限公司沈鷗副總裁為本書傾情作序。 最後,因監控技術的迭代和新技術的湧現速度非常快,受限於水準和經驗,書中內容的撰寫難免有欠妥和不足之處,熱忱歡迎讀者批評指正。
姜才康 |