Backblaze 硬碟耐用度測試報告背後不願面對的真相

Backblaze 硬碟耐用度測試報告背後不願面對的真相

還記得所引用的Backblaze 硬碟測試報告一文嗎?這篇文章不僅僅在台灣有不少討論,在國外更是引起極大迴響。但Backblaze的硬碟測試報告是不是很OK?所測試的環境是不是有問題?這些少有被提及。本文摘譯自 "Dispelling Backblaze's HDD Reliability Myth - The Real Story Covered",由 Paul Alcorn 發表於 TweakTown。他認為這測試報告雖然內容很具體呈現,圖表也非常豐富,但問題很多,不具參考價值。至於原因為何,就來看看本文吧(當然,要採信哪一方的言論,就看讀者本身了)。

前言

很多公司為了搏版面,總是會有些荒誕滑稽的行為。

身為一個儲存裝置相關產業新聞工作者,挑燈夜戰以隨時獲得最新消息,是再正常不過的事情,也因此我在工作期間,幾乎每天都看到些公司出盡奇招來搶鏡頭,有些讓人會心一笑,有些叫人眉頭深鎖,有些手段則極端到讓人直搖頭,而前些日子搶占各大科技媒體頭條的 Backblaze 可以說是最典型的例子。

Backblaze 家的官方部落格可以說是自家公司的小歷史,他們最為人津津樂道的,就是五美元驚人低價的儲存服務;然而過去 Backblaze 發表有關硬碟的分析消息,從傳統硬碟可以活多久到提倡企業級硬碟比消費型硬碟不耐用等文章,都存在有相當大的謬誤(編按:原作者說謬誤的洞之大,連卡車都可以開過去www)。然而卻少有人提出質疑,反而持續希望 Backblaze 發布更詳細的硬碟損壞率測試報告,也因此 Backblaze 才會發了這篇廣為大家引用的「我該買哪款硬碟?」(”Which Hard Drive Should I Buy?”),儼然成為這方面的權威。

Backblaze 硬碟耐用度測試報告背後不願面對的真相

雖然 Backblaze 提出的報告內容看上去相當清楚,但是他們卻從未公開測試的環境等相關資料,一旦深入探究,就可以發現當中其實有相當多問題,尤其是硬碟耐用這個主題。Backblaze 秉持開放精神,跟大家分享他們家伺服器機殼的細節,詳盡到使用者可以 DIY 打造自己的 Backblaze 伺服器,也因此讓我們有機會深入探究他們耐用報告背後存在的問題。

他們家在 2011 年泰國水患後硬碟供應荒期間的部落格文章,可以說是越看越有趣,因為他們可以說是無所不用其極來想辦法用最有效的方式維持低成本的經營。不幸的是,這樣的作法對於決定哪個品牌硬碟最耐用完全沒有幫助,甚至因此讓測試結果令人懷疑。不過大部分媒體不但沒有警覺到背後的問題,反而將他們家的耐用報告當作聖經一般引用。

總之,雖然 Backblaze 用了精美的圖表來支持論述,也選出了 Hitachi 跟 Western Digital 為大贏家,最後的輸家 Seagate 更是讓大家拍手叫好,表示「不意外」,然而若仔細檢視其內容,就會發現根本沒有贏家,因為大家都是輸家。

接下來就讓我們分別從硬碟的來源、伺服器機殼、硬碟使用 / 測試環境、硬碟工作量等四大方向,來戳破 Backblaze 報告當中的迷思,並證明該報告完全不能作為一般消費者購買硬碟的參考。

硬碟來源

Backblaze 向來不遺餘力尋找便宜硬碟來儲存客戶資料,目的就是用盡可能便宜的價格來提供服務。不過就算如此,也不至於從垃圾堆撿,所取得的硬碟都會經過一個短時間的測試,確保該硬碟符合需求。隨後以各種不同 RAID 或是複製方式,來確保這些便宜硬碟能提供資料保存足夠的安全性。

Backblaze 硬碟耐用度測試報告背後不願面對的真相

浴缸曲線雖然跟一般硬碟狀況吻合,但若了解 Backblaze 採購的流程,不難推斷當中存在有瑕疵的硬碟

而在2011年十月泰國水患期間,Backblaze 更是無所不用其極來取得足夠數量的硬碟來支持他們的營運;在硬碟供貨短缺、價格水漲船高的情形下,他們更是直接到街上掃貨,還管這招叫做「種硬碟」;首先他們捨棄傳統的內建硬碟,改購買較經濟實惠的外接式硬碟,將外殼拆除後,拿裏頭的硬碟出來給伺服器用,這過程也有名稱,就叫做「去殼」,就好像幫穀類農作物去殼一般。

而收成這些穀物的地方,則是 Fry’s 與 Costco 一類的大賣場,也因為掃貨的情況太誇張,他們家員工還被禁買過多數量的硬碟,不過他們沒打算放棄,之後出動家人跟朋友用複雜的策略來想辦法大量購買便宜的硬碟。搞到最後當地的賣場幾乎都快被掃光,於是他們訴諸於群眾的力量,用群眾外包的方式來進行。透過提供讀者五美元的回饋,請讀者來幫他們在賣場大特價時掃硬碟,這樣的方法確實能夠維持他們低價的服務,但也因此顯示他們所用來測試的硬碟樣本,其品質的一致性不足以用來作為硬碟使用耐用度的測試,因為當中甚至還包括整新品或是維修品。

Backblaze 硬碟耐用度測試報告背後不願面對的真相

根據測試報告,硬碟最容易掛點的時間落在服役後的幾周內,如果了解他們購買硬碟的來源跟方式,或許就不難理解。另外硬碟炸裂時間點圖表上所呈現到的浴缸曲線,也就是在該硬碟壽命週期開始與後期最容易觀察到硬碟損壞的現象,也許是符合大部分硬碟的狀況,但是根據上面蒐羅硬碟的方式,他們買到次級硬碟甚至瑕疵硬碟的可能性確實存在,甚至被列入測試樣本中。

伺服器機殼

Backblaze 除了將智慧用在掃貨上,同時也對自家伺服器機殼動了相當多腦筋;他們喜歡在部落格上分享自家伺服器機殼 Storage Pod 的細節,也讓機殼在測試中可能造成的問題浮現。

Backblaze 硬碟耐用度測試報告背後不願面對的真相

Storage Pod 目前已經進入第三代,但前兩代均存在有對伺服器硬碟有危害的問題,特別是無法有效減震的部分。震動可以說是硬碟的最大敵人,常常造成硬碟內部元件相當大的傷害,同時也會影響硬碟效能、耐用度。一般來說,桌機所使用的硬碟在正常使用下,多半可以在較少受震動影響的穩定環境工作,因此在設計方面也比較沒有特別嚴格的防震措施。

而專為企業用戶設計的企業級硬碟在這方面則是相當審慎,針對伺服器內、間相互影響的震動環境特別加強;而同一個伺服器機殼中放置越多硬碟,越容易相互影響,更別提若放到伺服器機架上,受到周圍伺服器的加成影響更是顯著;也因次若在伺服器當中使用消費級的硬碟,一如 Backblaze 的省錢策略,所造成的硬碟損壞情況也必定比正常狀況更為嚴重,這也是 Backblaze 所提出報告中隱而不顯的一部分。

Backblaze 硬碟耐用度測試報告背後不願面對的真相

這也是為何 Backblaze 不斷在改善自家伺服器機殼的原因,希望可以盡量減低震動的影響;不過最早期的 Storage Pod 在這方面可以說是非常薄弱,這也可以從測試數據中反映出來,越早期部屬的硬碟,其損壞率也越高,因此合理推測這樣的觀察跟舊式伺服器殼對於減低振動影響效果不彰的狀況有關;而更有趣的是,在安裝在舊機殼裡面的硬碟,多半是 Seagate 家的產品,若數據真能反映真實情況,25.4% 的損害率也早該讓 Seagate 關門大吉了。

簡而言之,從這就可以看出 Backblaze 的數據有很多隱性資料沒有公開,不同的硬碟在不同種伺服器機殼中的問題即是一例,光是對震動的減輕程度的因應,就可以對硬碟的耐用度有相當的影響,因此在數據分析時,理當根據不同機殼來分類,較舊的硬碟也必定沒有被放在耐震能力較好的三代機殼中運作,因為該機殼是在 2013 年二月才正式採用。

硬碟工作環境

另一個對硬碟使用壽命有相當影響的因為,就是工作的環境溫度。

不同的環境溫度、濕度,都對硬碟壽命有影響,而在爬 Backblaze 部落格的過程中,卻發現 Backblaze 曾經這樣表示:「…根據過去三年間的觀察發現:一、在硬伺服器機架上層的硬碟環境溫度,約比下層高了三度;二、在靠近中心的硬碟比周圍的硬碟高上五度;三、不需要六組風扇全運轉,僅需兩組就可以讓硬碟在正常的工作環境溫度中執行;四、熱的影響似乎與硬碟損壞沒有直接的關聯性(至少在伺服器機架當中的工作正常溫度範圍內。)」

Backblaze 硬碟耐用度測試報告背後不願面對的真相

Backblaze 宣稱硬碟的作業環境溫度並不會對硬碟使用壽命有影響,但這跟一般人的直覺似乎對不上,硬碟的製造商也不會這樣對外標榜,故所有硬碟產品才會標上最適合的正常工作溫度範圍,個別差異也確實存在,故在沒有對正常工作溫度區別的狀況下,若要以Backblaze 的觀測數據做為判斷的標準,顯然是有問題的。

硬碟工作量

每一顆硬碟都有具體標有各自可承受的工作量,這些工作強度指示不僅是因為個別設計差異,也跟所使用元件有關。一些相對廉價的硬碟,所能夠承受的工作強度較低,以因此不需要太高檔的元件。這樣的設計思維,也表示部分硬碟在過度使用的狀況下,本來就比較容易影響其使用壽命。

Backblaze 所購買的硬碟多半是便宜的消費型硬碟,同時在測試報告中也沒有對硬碟的最高承受工作量進行分類,因此將這些比較次等的硬碟投入高強度的工作環境,自然會讓它們的使用壽命更短,這也讓觀察到的數據比一般依照建議使用的情形要來的差;故 Backblaze 將這些硬碟放在一起做比較,不免會有些問題,因為就算是將同種、同型號的硬碟放在一起比,也會受到所乘載的工作強度影響,對硬碟有不同程度的耗損,更別提將不同品牌的硬碟放在一起,基本上是無法進行比較;若沒有依照硬碟等級、品牌等進行精確的工作環境分類,就無法得到客觀的結論。

結論

根據上述幾項 Backblaze 所犯下的謬誤,從眾多沒有控制的變因到提供資訊不完整,顯現他們家的報告無法作為消費者購買硬碟的參考依據;報告中的損壞數據相對於一般使用狀況下,顯然是太高了,就算在報告中獲得較佳數據的硬碟廠,若消費者都依照保固約定退回硬碟,那大家都不用做生意了。

而除了上述點出的問題外,報告中報告中每款硬碟的樣本數量都不一致,更容易讓一些可能本來就存在缺陷的硬碟混到樣本中,一如 Backblaze 發表的一篇文章「企業用硬碟之現實與虛構」(Enterprise Drives: Facts or Fiction?),當中用了應該是同一批購買的 368 顆企業用硬碟與另外 14,719 顆消費用硬碟比較,除了可能有些有問題的硬碟外,每一顆硬碟的作業狀況,一如先前所說是否處在同樣的伺服器機架、機殼,工作溫度跟工作量等等因素都不相同,也讓裏頭得到的比較結論全然沒有參考的價值,說穿了也只是標題比較聳動一點而已。

簡而言之,盡管 Backblaze 以提供低成本方式提供經濟實惠的服務這一點相當令人佩服,但是他們手上硬碟的測試環境所觀察到的數據,並不能真實且公平的反應這些產品的實際使用狀況,而縱使這樣誤導消費者的結果並非 Backblaze 的本意,他們也許就跟其他公司一樣,只是想藉此得到些曝光率,但透過媒體的推波助瀾,在沒有仔細查證的狀況下,讓這項結果廣為流傳甚至被奉為圭臬,難免不會損及消費者及硬碟廠商的利益。

今日排行榜