【WIRED特刊】Google Dremel資料再多也不怕

【WIRED特刊】Google Dremel資料再多也不怕
http://feedly.com/k/12reJ4K

Photo: Chapendra/ Flickr

 

如果全球巨量資料(Big Data)相關處理技術的研發是一場競賽,Google精益求精,持續保持領先。一如業內人士所熟知,臉書(facebook)與雅虎(Yahoo)能夠攜手成功開發分析大量網路資料的「Hadoop」軟體平台,必需歸功Google先後在2003年末、2004年發表的「Google File System」、「MapReduce」兩份技術研究報告。

Dremel首度現身

8年後,當眾人仍熱衷使用Hadoop於各式資料分析工作,Google又以新技術自我超越,取代不夠完美的「Google File System」與「MapReduce」,並於2009年針對大型網路營運基礎架構發表三份研究報告,分別有關Google網路搜尋引擎的索引製作軟體平台「Caffeine」、可繪製大量網路資訊彼此對應關係的圖表資料庫「Pregel」,以及備受矚目的「Dremel」。

矽谷新創公司Cloudera執行長歐森(Mike Olson),便在不久前的一場座談會中指出,Google再度揭示巨量資料處理的未來走向,「想知道大型、高效能資料處理基礎架構的新面貌,不妨閱讀Google發表的研究報告。」

專精資料中心規模軟體平台的加州大學柏克萊分校資訊工程教授福克斯(Armando Fox),也十分驚豔於Dremel的優越,「以前若有人向我描述Dremel的功能,我絕對會認為那只能存在於想像。」

兼顧資料處理「量」與「速度」,功能空前 

Dremel是一種資訊分析的方式,可以橫跨數千部伺服器,查詢大量資料,例如查詢網路文件、一批電子書的個別作者、某個特定主題的作者列表,甚至是記錄無數垃圾訊息的資料,類似數十年來運用於分析傳統資料庫的「結構式查詢語言」(SQL)技術。

Hadoop也有類似SQL的工具「Pig and Hive」,但耗時較長;向平台提出查詢需求後,需要幾分鐘至幾小時,才會得到結果。

同類的工具已經不少,Google必然同中求異,否則就不必大費周章研發Dremel了;以極短時間處理極龐大的資料量,即是Dremel最空前的突破。

Google在報告中明確指出,「過去MapReduce需要分多次查詢的資料,Dremel可同時處理,並大幅縮短運算時間」,Google基礎架構資深副總裁霍澤說,查詢一拍位元組(Petabyte,PB)、也就是相當十億位元組(Gigabyte,GB)百萬倍的資料量,大概只需要3秒鐘,Dremel完全是為立即查詢設計,「Dremel操作容易,適合處理臨時或定期查詢,直接在指令列輸入查詢項目就行了,不需要任何程式設計技巧。」

福克斯說,這是前所未有見的功能,他說,包括Hadoop在內的現行巨量資料處理工具,都有速度與準確度不及傳統資料分析或「商業智慧」工具的缺點,但Dremel卻成功克服障礙。

「許多人都曾使用巨量資料系統,但規模、速度都無法與Dremel相提並論;一直以來,『資料量』與『速度』總是顧此失彼,Dremel終於找到兼顧兩者的方法。」

承接Google成果,軟體人員還要加把勁

自2006年起,Google的數千名員工已經開始使用Dremel來分析橫跨數十部至數千部不等的伺服器巨量資料,包括服務軟體的故障報告、資料中心的表現等。

面對巨量資料的大趨勢,Cloudera執行長歐森認為,程式人員還需要加快後續開發的速度。

儘管Hadoop已經是相當成功的軟體,它讓打造平台科技基礎的Google稱霸網路世界,也帶來龐大商機,預估至2016年將可創造8.13億美元的軟體收益,以Hadoop運用為主要業務的公司如Cloudea,直接蒙受其利。

不過,歐森還是認為,自家公司與業界程式設計人員的開發速度實在太慢,現在面對新的Dremel,又出現類似現象。

2010年,Google發表Dremel研究報告,但軟體業界幾乎毫無反應。一群以色列工程師目前正著手建置叫做「OpenDremel」的複製品,其中一位開發人員古茲曼(David Gruzman)就說,程式編寫的時程先前停滯了一陣子,最近才又重新開始。

華盛頓大學粒子物理學特聘教授、Cloudant公司首席科學家米勒(Mike Miller),對於創投竟然尚未投資新創公司著手研究Dremel逆向工程,也大感意外。Cloudant已自發投入處理Google多年來面臨的資料問題。

無論業界反應如何,Google的開放態度倒是很一致,提供的Dremel相關雲端服務不勝枚舉。即使非Google工程師,也能透過「Google應用程式引擎」使用Google的基礎架構,來製作、經營、儲存整套應用程式;或透過Dremel,使用應用程式「BigQuery」,將資料上傳至Google,即時存取虛擬伺服器,進行查詢。

世界或許落後Google,但Google正迎向世界。

 

延伸閱讀:

shared via http://feedly.com

留言

這個網誌中的熱門文章

買車記

怎麼在兩台linux server間用scp而不需打密碼?

Costco退貨真爽快