四層面擴展PB級數據倉庫
隨著PB級大小的數據庫即將來臨,企業(yè)的CIO也許會問自己:“要如何應用1024TB或者1PB 的數據?PB級的數據倉庫真的具有投資的價值嗎?”數據倉庫的成功設計與部署關鍵在于其可擴展性,可擴展性是企業(yè)運用詳細且實時的商業(yè)智能制定有效決策并創(chuàng)造價值的關鍵指標。
今天,企業(yè)競爭優(yōu)勢并不在于價格或產品的差異,而在于企業(yè)必須比競爭對手掌握更詳細的客戶與潛在客戶的信息。要讓潛在客戶變成忠實顧客,關鍵在于必須在適當的時間,向客戶提供適當的產品、服務與信息。要做到這點,企業(yè)必須先收集足夠且詳細的客戶信息,找出重要的模式,并且有適當的系統(tǒng)將信息統(tǒng)一存儲,以供日后實時運用。
數據倉庫讓企業(yè)有能力收集大量且詳細的資料(目前已經是數百個TB,PB也指日可待),并讓企業(yè)能在幾秒內就完成部署。要能快速搜尋并部署如此大量的數據,系統(tǒng)的可擴展性是重要的條件。
可擴展性是在硬件配置上增加額外的處理能力,并在性能上呈線性的提升。換個角度來看,就是在不影響性能的前提下,提升硬件存儲與處理大量數據的能力(或是處理日漸復雜的查詢及日漸增加的多筆并發(fā)查詢)。不良的設計或產品部署只會導致相反的結果,造成性能降低的速度快于數據量增加速度。
像SBC電信等公司的數據倉庫系統(tǒng)運用了數百個頂級的英特爾處理器,數百個GB容量的可尋址內存以及數百個TB磁盤空間,來支持一個單一的數據庫。像這樣系統(tǒng)的設計與部署應該包含哪些成功因素呢?真正的可擴展性應該包含以下四個層面:
第一層面:處理大量的數據
企業(yè)每日運營會產生大量的數據,而這些數據可用來支持重要的商業(yè)應用與決策制定。除此之外,數據庫每MB的成本也不斷降低。然而,問題依然存在:這么多的數據真的能增加企業(yè)價值,證明數據存儲真的值得投資嗎?
答案是肯定的!但前提是企業(yè)必須能有效地應用所存儲的詳細數據,從中找到策略與戰(zhàn)術商務查詢的答案?,F在假設有家跨國銀行要評定特定重要客戶的終生價值,如果這家銀行的數據庫仍然是用串行的數據處理方式,執(zhí)行這樣的查詢會拖垮整個系統(tǒng)。相反的,如果使用分治法(divide and conquer approach)來處理大量數據,通過并行技術的部署以及非共享架構,則能夠快速且更可靠地找到重要商務問題的答案。這就是可量化商業(yè)價值的第一步。
第二層面 :多筆并發(fā)查詢的挑戰(zhàn)
大企業(yè)需要同時處理數千筆來自企業(yè)內部不同地點的查詢,查詢的范圍包含長期與短期的需求。以前面的跨國銀行為例,它可能需要在無數筆信用卡交易中偵測出欺詐行為,銀行經理也許需要每月銷售數字的分析。像這樣的查詢不僅限于一處,而可能來自于不同區(qū)域數百個部門,因此可清楚看出系統(tǒng)需要有處理多筆并發(fā)查詢的能力。要能同時處理多筆查詢,數據庫首先必須具有精密的資源管理功能,在執(zhí)行查詢的時候,并行的數據庫必須能響應不同的要求,并且掃描多個表格。
第三層面:維持復雜數據之間的商業(yè)關系
如何處理復雜度日漸提高的數據,是大型數據庫將查詢最佳化的另一項挑戰(zhàn)。舉例來說,過去要建立一個簡單的客戶視圖,可能牽涉到存儲于分散在數據集市中的三或四個相關聯(lián)的數據點,現在則可能涉及到存儲于一個企業(yè)級數據倉庫中的三、四十個相關的數據點。如果這個數據倉庫只能產生龐大的表格,容納數十億筆分類排列的交易數據,全世界計算機的數據處理能力也無法建立一個有效的客戶視圖。即使數據倉庫能將數據分成不同的表格,卻無法保存表格數據之間的商業(yè)關系,整個數據分析的功能都要打折扣,進而影響系統(tǒng)的商業(yè)價值。因此,在數據倉庫提升容量的同時,必須要對分析型查詢創(chuàng)造具有超高效率的“檔案系統(tǒng)”,這個系統(tǒng)應該要能包含多個表格,且保存各主題區(qū)域內數據的商業(yè)關系,能輕松做到數據的相互關聯(lián)和擴充。
第四層面:支持復雜的數據查詢與數據挖掘
最后,新一代的超級數據倉庫所要面對的不僅是上個月鞋子銷售量有多少的查詢,而是更加復雜的數據查詢與數據挖掘,例如客戶的終生價值,像這個問題就牽涉了許多重要層面。數據倉庫必須要能將各層面加以分析,然后決定一個高效收集所需信息的途徑。未來真正能提供PB價值的數據倉庫應該具備一個優(yōu)化器,以處理復雜的數據查詢與數據挖掘而不需要人力介入。