在主題為“科技賦能—金融業(yè)數(shù)字化轉(zhuǎn)型與發(fā)展”的中國金融科技論壇上,神州信息上地大數(shù)據(jù)研究院數(shù)據(jù)科學家卜仁海做了題為《關于湖倉一體數(shù)據(jù)平臺的思考》的演講。
以下為演講實錄:
首先,我們來看一下數(shù)據(jù)平臺的發(fā)展歷程。
大約20多年前,信息化程度較高的行業(yè)的頭部企業(yè),開始建設數(shù)據(jù)倉庫。當時的數(shù)據(jù)主要是企業(yè)內(nèi)部系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)應用主要是BI分析及報表。隨著業(yè)務需求及數(shù)據(jù)形態(tài)的變化,開始建設數(shù)據(jù)湖。原因是參與分析的非結(jié)構(gòu)化數(shù)據(jù)逐漸增多,數(shù)據(jù)應用也有了新的擴展,實時計算、人工智能、機器學習等場景逐漸增多。
最近幾年,開始流行起了湖倉一體的數(shù)據(jù)平臺概念。
需要說明的是,這張圖來自國外,圖里沒有出現(xiàn)數(shù)據(jù)倉庫,這并不是說數(shù)據(jù)倉庫消失了。當我們說數(shù)據(jù)倉庫、數(shù)據(jù)湖的時候,其實有兩種說法,一種說法是指硬件平臺,一種說法是指數(shù)據(jù)的組織結(jié)構(gòu)。這張圖里說的是硬件平臺,指的是用一個硬件平臺來實現(xiàn)湖和倉的建設,也被認為是真正的湖倉一體。
國內(nèi)在規(guī)劃建設湖倉一體的時候,在方式上會相對靈活些。
國內(nèi)建設湖倉一體的方式
接下來,我們來看一下國內(nèi)建設湖倉一體的幾種方式。方式一和方式二我們可以認為是邏輯上的一體,方式三是平臺級的一體。
方式一采用融合的方式,數(shù)倉平臺和數(shù)據(jù)湖平臺間存在實際上的數(shù)據(jù)復制,如果數(shù)據(jù)的管理、調(diào)度等自動化程度較低,流程不完善,則不僅僅是數(shù)據(jù)冗余的問題,還涉及到應用效率等方面的問題
方式二采用編織的方式,數(shù)倉平臺和數(shù)據(jù)湖平臺間可以不用數(shù)據(jù)復制,業(yè)務人員的訪問接口是Fabric組件,由此組件解析優(yōu)化訪問語句,計算處可以是倉、湖以及Fabric組件,具體要看Fabric組件的優(yōu)化策略和能力。需要說明的是,F(xiàn)abric的訪問語句通常不會完全覆蓋倉、湖數(shù)據(jù)庫的所有語句。
方式三是真正物理平臺上的一體,或者說其上的各個數(shù)據(jù)庫可以直接訪問彼此的文件系統(tǒng)和存儲結(jié)構(gòu),這也是最理想的情況。
湖倉一體數(shù)據(jù)平臺的優(yōu)勢
為什么說湖倉一體大概率是數(shù)據(jù)平臺的趨勢呢,它有什么好處呢?
首先,它可以容納多模態(tài)的數(shù)據(jù),比如音頻、視頻、圖片、文檔等。其次,豐富的計算引擎,簡單的說,就是無論什么樣的數(shù)據(jù),都可以相對容易的找到其對應的計算引擎并部署。并且是存算分離的,也就是說,存儲部件和計算部件是分離的,可以各自彈性擴展。流批計算一體。支持人工智能、機器學習。
數(shù)據(jù)平臺經(jīng)歷了分的過程,目的是為了滿足不同數(shù)據(jù)的不同計算需求,現(xiàn)如今正逐漸走向合的階段,目的是為了易管易用、簡單高效。技術總是在不斷進步的,湖倉一體尚在逐步發(fā)展階段。通過我們對不同湖倉產(chǎn)品平臺的了解,以及對未來湖倉一體的期待,這里簡單提出一點想法,請大家批評指正。
對未來湖倉一體的期待
比如,我們是否可以將存算分離分地再徹底一些?
企業(yè)的數(shù)據(jù)是越來越多的,計算基于數(shù)據(jù),同樣也不會是局限的。拿數(shù)據(jù)庫來說,關系型數(shù)據(jù)庫、圖數(shù)據(jù)庫、KV數(shù)據(jù)庫、時序數(shù)據(jù)庫、向量數(shù)據(jù)庫等等。另外,大模型又為我們提供了一個新的數(shù)據(jù)計算場景。也就是從邏輯上看,數(shù)據(jù)的存儲和數(shù)據(jù)的計算,天然的是可以分離的。只是因為一些非技術壁壘及其它原因,導致不同數(shù)據(jù)庫間難以實現(xiàn)直接的數(shù)據(jù)訪問。
這里我們只從存技術角度,考慮將企業(yè)對數(shù)據(jù)的存和算建設成兩個分離的中心,也就是湖倉一體的兩個重要組件。
存儲中心需要考慮的是如何建設一個高效的存儲架構(gòu)和網(wǎng)絡架構(gòu),如何實現(xiàn)一個高效的數(shù)據(jù)訪問機制和接口,它應該有自己的文件系統(tǒng)、尋址機制、緩存機制等等。
計算中心需要考慮的是如何設計一個高效靈活的資源管理和調(diào)度策略,如何靈活配置接入其它計算引擎組件,如何實現(xiàn)一個高效的緩存機制減少與存儲中心的數(shù)據(jù)吞吐等等。對于像大模型這類計算應用,我們當然也希望湖倉一體有這個能力承接。
當然,這些僅是對湖倉一體未來能力的暢想,未必就是各家企業(yè)的場景應用需求。各企業(yè)基于自身數(shù)據(jù)基礎、當前數(shù)據(jù)應用的痛點和需求以及未來數(shù)據(jù)架構(gòu)布局及規(guī)劃,對湖倉一體的期待各有不同。
湖倉一體體系架構(gòu)
我們先從湖倉一體體系架構(gòu)的角度簡單看下體系建設內(nèi)容。
這里的體系架構(gòu)是從功能層面闡述框架內(nèi)容的。體系架構(gòu)的意義不僅可以用來定義各框架的規(guī)范、邊界、接口、制度、流程等內(nèi)容,還可以用來評估當前數(shù)據(jù)體系建設及運營情況,指引接下來的建設內(nèi)容等。
此圖僅作參考,各企業(yè)可按自身實際情況做相應改動,但需要注意的是不要把產(chǎn)品平臺當成框架本身。比如神州信息的數(shù)據(jù)開發(fā)平臺“六合上甲”,平臺本身包含了需求管理、數(shù)據(jù)建模、數(shù)據(jù)開發(fā)、采集交換、數(shù)據(jù)服務、數(shù)據(jù)治理等內(nèi)容,它跨接了體系框架的多個組成部分,需要通過規(guī)范接口對接各框架組件,“六合上甲”產(chǎn)品本身不是體系框架。圖中的探索、標簽、指標其實是數(shù)據(jù)產(chǎn)品管理框架的實際組成產(chǎn)品,這里用產(chǎn)品平臺來說明其為框架與產(chǎn)品的區(qū)別。
湖倉一體數(shù)據(jù)架構(gòu)
接下來再看一下湖倉一體的數(shù)據(jù)架構(gòu)情況
這里是采用方式三物理一體的實現(xiàn)方式設計的簡單數(shù)據(jù)架構(gòu),僅供參考。對于數(shù)據(jù)量、業(yè)務量、復雜度不高的企業(yè)而言,數(shù)據(jù)倉庫可以基于應用建設,即數(shù)倉只要滿足企業(yè)級報表和部分數(shù)據(jù)分析的需求即可,需求相對固定且穩(wěn)定。對于業(yè)務部門敏捷靈活的分析應用而言,其數(shù)據(jù)源可以來自標準化數(shù)據(jù)區(qū)。
標準化數(shù)據(jù)區(qū)對于那些對數(shù)據(jù)流向管控嚴格,要求凡是數(shù)據(jù)需求可由數(shù)倉提供的,不允許從湖區(qū)直接取數(shù)的企業(yè)而言,可以不建設。但同時會對數(shù)倉的建設及其數(shù)據(jù)產(chǎn)品運維推廣工作要求較高。
數(shù)據(jù)架構(gòu)中定義的數(shù)據(jù)區(qū)不是簡單的數(shù)據(jù)容器,它同時也定義了規(guī)范、邊界、制度、流程、接口等等,數(shù)據(jù)產(chǎn)品的開發(fā)運維及相應的資源配置是其運營的關鍵。部分企業(yè)在數(shù)據(jù)運營中的痛點多多少少與此相關,這不是有了湖倉一體就能解決的問題,但卻可以通過湖倉一體建設為契機,通過咨詢及服務的方式,幫助企業(yè)及其各部門建設相配套的數(shù)據(jù)團隊,來實現(xiàn)企業(yè)的數(shù)字化轉(zhuǎn)型。