運維相關:監控, 運維思想, 高容錯設計. Bring the Noise_ Making Effective Use of a Quarter Million Metrics Presentation.pdf http://t.cn/zHe6VNH Etsy員工Abe Stanway 介紹他們最近做的Skyline與Oculus,1. 他們通過StatsD為系統收集了大量的Metrics信
運維相關:監控, 運維思想, 高容錯設計.
Bring the Noise_ Making Effective Use of a Quarter Million Metrics Presentation.pdf” http://t.cn/zHe6VNH Etsy員工Abe Stanway 介紹他們最近做的Skyline與Oculus,1. 他們通過StatsD為系統收集了大量的Metrics信息,2.苦于如何找到metrics的異常以及相關關系,3.簡要介紹這個實時異常監測系統。
http://t.cn/zH8CD03 Etsy對監控系統的改進,1. Skyline,一個異常監測模塊,根據一定的算法,為各個metrics設置一個動態調整的閾值上下限,方便Graph的查看與比較,2. Oculus,一個metrics的模式識別組件,將有同等變化趨勢的Graph組合到一起進行展示,方便對系統進行診斷。
http://t.cn/zH8csbt 杜絕指責的故障事后分析。通常,在遇到一個故障后,我們都會指責(責備)具體某個具體操作的人,認為是他不夠認真,是他不夠小心,是他能力不足…。John Allspaw在本文中詳細了說明了Etsy 是更加關注他是在什么情況下,看到什么現象,做出了哪種判斷,何種假設,執行了哪些操作
應用容錯設計與運維: http://t.cn/zHeiEHk , Netflix 在Velocity會議上介紹其Hystrix(http://t.cn/zHeiEHD的ppt, 其中涉及多種經典的故障隔離方法, 如Bulkhead/Circuit breaker/Fail Fast/Fail Silent (具體概念請參考《Release IT》),相關的Wiki文檔在:http://t.cn/zHeiEHe 容錯設計的典范。
http://t.cn/zH8fmSt 關于運維的85條基本規則,1. 容量第一,2. Keep it simple,3.Cache僅僅應該被用來提升用戶體驗,而不是緩解容量問題,4. 不要一切工具/內容都自己寫,5. 丟數據是最不可容忍的事情,6.了解系統的瓶頸,并知道該如何解決,7.要有有效的容量管理程序。……
系統設計相關:
http://t.cn/zHkbxuO Jonathan Ellis 討論Cassandra遭遇的幾個大的誤解,1. Cassandra is a map of maps,這是我最初的理解,現在可以以表/字段的含義來理解了,2.對讀支持較差,經過幾年的優化,目前表現已經不錯,3.難以利用,4.難以基于它進行開發,5.還不夠成熟. 總的來講,其實這幾個問題已經得到很大緩解
http://t.cn/zjgGjwY http://t.cn/zHe6ZVQ 兩個Ebay使用Cassandra,深度介紹他們為什么選擇Cassandra(多機房支持、高可用、可擴展,卓越寫性能),在哪些場景使用(社交相關、用戶習慣信息、時間虛列信息),以及如何設計這幾類系統的。
http://t.cn/zHdEXxN Jeff Darcy針對James Hughes(http://t.cn/zHdEXxp 的一個PPT做的評論,James認為傳統的分布式文件系統,由于元信息系統的管理開銷,導致其擴展性受到限制. 從Jeff的角度看, 這是因為James看到了一個分布式并不那么文件系統的HDFS的角度, 而整體上冤枉了傳統的分布式文件系統.
http://t.cn/zHdQdC2 Facebook使用高級糾錯碼(erasure codes)來解決數據的冗余成本問題. 使用 Locally Repairable Codes(LRC,局部可修復碼)來替代傳統的Reed-Solomon碼,在多犧牲14%空間的情況下,獲得一倍的磁盤IO能力以及快一倍的恢復效率,并顯著減少網絡開銷. Windows Azure也在使用類似的技術.
相關論文與代碼, Facebook的論文: http://t.cn/zHdQFVU facebook的代碼: http://t.cn/zHdQFV4 windows Azure的論文地址: http://t.cn/zHdQFVL
http://t.cn/zHEBgRu (謝謝 @zolker ) Facebook的數據總線Wormhole , 幾點理解:1. 基于數據庫Redo的消息流, 2. 按照業務分片做消息分片,3. 會保留一定的消息歷史,保留數據庫的txid(原子性),做基于時間點的【可靠有序】消息處理,4.處理效率有待進一步發布的論文確認,5.秒峰值千萬DML(10m/s)。
http://t.cn/zHERaBj (@何_登成 已經轉過), 我的一點總結:1. CPU不是速度/效率不能提升,而是散熱/頻率不能提升,2. 內存/磁盤/硬盤 對于順序讀寫的支持能力都更好,3. 內存對順序/隨機的處理能力差別有2-3倍,如果Cache友好,可以到幾十倍,4. 磁盤差別有100倍(1-2MB,100MB),5.軟件要圍繞硬件特征去設計.
http://t.cn/zHRkw6L 從5個角度來理解Scalability的含義,1. 從算法角度看,如果能將O(n)的算法改進成O(1)或O(Logn)的算法, 2. 應用架構角度看, c10k問題的解決以及其思路,3.無狀態的設計,4. 層次化設計,類似于內存層次結構,5.系統架構,利用不同的硬件.
http://t.cn/zH8e9kA Jonas Bonér (Typesafe的CTO,AKKA背后的公司),介紹如何實現事件驅動的、可擴展的、能容錯的系統,其中關于Performance Vs Scalability,阻塞、異步、鎖機制的解析,關于消息系統的ACK的說法,容錯機制的設計(Bulkheads?)都很不錯。
Oracle技術相關:
http://t.cn/zTUHTum 如何切換到普通的監聽日志格式. 在使用Oracle 11g的時候,會在Diag下產生大量XML格式的listener日志文件, 雖然很不錯, 但是由于有基于普通listener.log日志文件的分析工具,這些xml的文件實際上沒有啥價值了, 可以通過diag_adr_enabled_listener = off來關閉此日志.
http://t.cn/zHBB6XU Oracle數據庫相關的壓力測試工具概覽. 1. IO壓測工具(orion/iometer ). 2. 數據庫級別的測試工具(SLOB ,DBMS_RESOURCE_MANAGER.CALIBRATE_IO),3. 應用級的測試工具(Hammerora ,Swingbench,simora),4. 基于應用的測試工具(LoadRunner).
其它:非技術問題
http://t.cn/zHQesew 周其仁江南論壇發言 戶籍制度改革時間表. 最后,周其仁說,改革不論有多難,現在都要跟腐敗和社會的潰敗賽跑,要和社會主體人群的期望值賽跑,要把不損害他人利益的法外活動吸納到體制中來,變成合法制度化的運作過程。
觀念的水位,劉瑜認為,社會的變革需要大眾的觀念作為前奏,之所以沒有發生根本的變化,很多時候只是因為目前的水位還不夠,她對中國的未來充滿希望,只是因為現在,大家的觀念的水位由于新的信息傳播機制的變化,已經有了明顯的提高。良治社會的到來有賴于觀念水位的進一步上漲。
迷人的謊言, 崔衛平在《經濟觀察報》的影評專欄合集,崔衛平的文字一如既往的細膩,對于電影、人性的深度解析,本書中介紹了大量的經典的電影,以及這些電影導演(伯格曼、波蘭斯基、基耶斯洛夫斯基)在拍攝這些電影時的狀態,追求,心路歷程。
舊山河,作者刀爾登,刀爾登的文筆非常的犀利,對于歷史的掌故每每都是手到擒來,不過,總體上講,他的文字更多是通過這些歷史掌故剖析現時的社會。每篇文字都有很多逗人發笑的地方,以至于我幾乎是一口氣將這本書讀完的。刀爾登早期混跡江湖的筆名為三七,我是從2005年開始喜歡這哥們的文字的.
Related posts:
原文地址:Jame’s Reading 06-28, 感謝原作者分享。
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com