尊敬的客戶,

 

這是一個非常壞的消息,很抱歉,用於雲服務器的CEPH事件池故障;我司技術與支持友商技術人員2天努力,這已確認不可恢復,表示您無法從雲服務器獲取任何曾存儲的數據。

在此我們提出以下協商方案:

1:您提交服務單申請退款,可在您幾時購買,我司將提供全額退款服務至本月15日。

2:您的VM當前更新,並免費續費周期2個月(如果沒有申請退款,這將是默認方案並於24小時內完成設置)。

再次非常抱歉此事故給您帶來的損失。

 

------

 

2021.07.10 08:00 所有VM已完成重建,您可登入客戶中心查看新的Root密碼。

我們收到了關於本次事故的很多意見,關於以下相對重要的我們向所有客戶通知:

1. 故障沒有立即通知?

我們還有結果,所以未及時通知故障情況,我們會在馬上發出通知,當然,我們不希望有任何問題。

2.現在是否已經穩定?

是的,我們在恢復之前的很多壓力測試和可能的事故模擬,CEPH 網絡工作的良好狀態。我們會在 2 個地區內部署一個新的 CEPH 數據庫,用於一個新的定期數據備份,以保證任何意外發生的數據安全,將您損失的降低到最低點。

 

------

 

2021.07.11 19:00 由於接警報 CEPH 發現了嚴重的硬件故障,為保障數據安全,我們已緊急停止 CEPH,更換正在硬件和等待 CEPH 平衡,因為數據很大了,這個可能會比較長,同時我們將調整 CEPH 緩存的架構以徹底解決問題。

2021.07.13 06:00 尊敬的客戶,

使用CEPH遇到的問題遠比我們想象的多,連續2次遇到不可逆的故障時,我們在12日一度想放棄基於CEPH作為VM的存儲,更換為傳統的NVME RAID1或SSD RAID10。但這與我們成立的初衷相駁,我們希望新的技術、特性可以帶來更低的成本以降低VM的價格、提高穩定性為客戶帶來更好的體驗,而利潤目前並不是我們的首要考慮,我們有充足的資金來確保項目正常運行,從我們的價格可以發現我們幾乎沒有利潤。

第一次故障時我們無法通過日誌確定問題,之後聯絡了專業的技術公司支援,依然得到了不好的消息。確定不可逆後,我們決定刪除存儲重建。之後進行了一些測試,儘管依然出現短暫的錯誤,但它很快被CEPH自動修復,我們認為它達到了重建VM的要求。計劃在週一準備更換硬件來嘗試解決,但還沒到週一再次出現同樣的故障,嘗試修復無果不得不再次放棄數據修復,是的,這很讓人難堪,因為我們曾確定它不會出現嚴重的問題。

我們認為我們無法逃避該問題,克隆整個環境在實驗室確認了更換硬件也無法解決。在與技術公司深入調查後我們鎖定了一個問題,並確定這是一個升級bug。我們曾經通過集群管理工具升級CEPH,雖然顯示一切順利,且查詢沒有任何問題,但實際它並沒有完成,這是造成故障的實際原因,而它並不會在日誌顯示。

在做了一些調整後,我們已經真正解決了該問題,我們測試寫入了超過50TB的數據,幾乎是現在客戶存儲數量的50倍,以及創建了5000個VM,並在高負荷並發寫入的同時進行批量刪除,CEPH的狀態非常好!我們還嘗試停止多個OSD、部分MON、斷電一個節點或全部節點來模擬意外情況,CEPH在很短的時間自動完成了修復。

於是我們在13日07:00 AM重裝了所有VM開始恢復,是的,現在你不需要再擔心發生同樣事故,我們有非常好的經驗可以在很短的時間內修復很多的事故,同時我們會在1-2個季度內增加一個新的CEPH集群來存儲備份,會是每3天一次替換的冷備份,為您提供一個災難可退回的選項防止出現不可逆的存儲事故。

基於成本限製,我們無法在上次的賠償上做出更多,但我們依然提供全額的退款截止15日,您可以告訴我您的想法,給您帶來的損失非常抱歉。

 

LiCloud

2021.07.9



Friday, July 9, 2021

« 返回