5月6日,由國家金融與發(fā)展實(shí)驗(yàn)室金融科技研究中心學(xué)術(shù)指導(dǎo),北京立言金融與發(fā)展研究院、神州控股、神州信息、神州數(shù)碼集團(tuán)共同主辦的2023數(shù)云原力大會(huì)“數(shù)據(jù)資產(chǎn)•金融核心競爭力”主題論壇在京盛大舉辦。
作為全球金融科技大會(huì)系列論壇之一,本次活動(dòng)大咖云集。數(shù)據(jù)倉庫之父、Databricks獨(dú)立董事Bill Inmon線上帶來主旨演講:《Lakehouse技術(shù)展望》。
公司的數(shù)據(jù)一般有三種類型:結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)和模擬/物聯(lián)網(wǎng)數(shù)據(jù)。這些都是可用于做出商業(yè)決策的數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù)大多數(shù)是業(yè)務(wù)運(yùn)營的基礎(chǔ)數(shù)據(jù)。文本數(shù)據(jù)則貫穿于公司的方方面面,可惜的是,幾乎沒人會(huì)利用它們。首先,文本數(shù)據(jù)可能以多種語言的書面或口頭形式存在,像英語、西班牙語、中文、葡萄牙語等等。其次,文本數(shù)據(jù)有不同的形式:有正式用語,還有俚語、縮略詞以及其他形式的語言。此外,文本數(shù)據(jù)可能出現(xiàn)在很多場景,例如錄音中,書本上,還可以在互聯(lián)網(wǎng)和視頻中。各種地方都可以找到文本數(shù)據(jù)。文本 ETL技術(shù)能夠讀取文本數(shù)據(jù)后轉(zhuǎn)化為數(shù)據(jù)庫可識(shí)別的格式。不利用文本 ETL 技術(shù),就沒法對文本數(shù)據(jù)進(jìn)行分析。第三種類型的數(shù)據(jù)就是機(jī)器生成的數(shù)據(jù)。
你會(huì)發(fā)現(xiàn),只有一部分?jǐn)?shù)據(jù)有意義。過去,把數(shù)據(jù)扔進(jìn)數(shù)據(jù)湖就好,結(jié)果它變成了沼澤。怎樣把沼澤變成有用的東西呢?我們首先需要具備分析型的基礎(chǔ)架構(gòu),其次需要給數(shù)據(jù)湖加載集成整合后的數(shù)據(jù)。為了幫助數(shù)據(jù)科學(xué)家產(chǎn)出效益,我們需要將數(shù)據(jù)湖轉(zhuǎn)換成數(shù)據(jù)湖倉。
分析型基礎(chǔ)架構(gòu)有很多組件,比如元數(shù)據(jù),對結(jié)構(gòu)化數(shù)據(jù)很有用;對于文本數(shù)據(jù),有本體論和分類法;對于模擬/物聯(lián)網(wǎng)數(shù)據(jù),有提煉算法等等。這些組件會(huì)使數(shù)據(jù)湖倉的管理運(yùn)營工作更加高效。
文本 ETL 能夠?qū)⑽谋巨D(zhuǎn)換成能夠分析的格式,然后放入數(shù)據(jù)湖倉;模擬/物聯(lián)網(wǎng)數(shù)據(jù)通過提煉,從中挑出有用的也放進(jìn)數(shù)據(jù)湖倉;原始格式的文本無法進(jìn)行分析,必須將文本轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)庫的格式;再把機(jī)器生成的數(shù)據(jù)分離成訪問概率高的數(shù)據(jù)和訪問概率低的數(shù)據(jù),這樣整個(gè)分析過程就不會(huì)被沒必要的數(shù)據(jù)所淹沒。
一般來說,文本數(shù)據(jù)的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)多于結(jié)構(gòu)化數(shù)據(jù),而機(jī)器生成的數(shù)據(jù)又遠(yuǎn)遠(yuǎn)多過文本數(shù)據(jù)。它們的商業(yè)價(jià)值也不相同,結(jié)構(gòu)化數(shù)據(jù)大多有較高的商業(yè)價(jià)值,文本數(shù)據(jù)有一部分會(huì)有較高商業(yè)價(jià)值,而機(jī)器生成的數(shù)據(jù)只有極少數(shù)有商業(yè)價(jià)值。
將具有高可用性和訪問概率高的數(shù)據(jù)存放到高性能存儲(chǔ),而將訪問概率不高的數(shù)據(jù)存放到大容量存儲(chǔ)。當(dāng)發(fā)現(xiàn)大容量存儲(chǔ)中有想要用于分析處理的數(shù)據(jù),只需要從大容量存儲(chǔ)中把數(shù)據(jù)取出存放到高性能存儲(chǔ),以便分析。歸檔信息也是一樣,將這些數(shù)據(jù)從高性能系統(tǒng)環(huán)境中移出,存放到大容量存儲(chǔ)系統(tǒng)以便于歸檔。這樣也方便數(shù)據(jù)科學(xué)家訪問、使用高性能存儲(chǔ)中的數(shù)據(jù)。
數(shù)據(jù)倉庫和數(shù)據(jù)湖倉不是一回事,就基礎(chǔ)架構(gòu)而言,數(shù)據(jù)倉庫和數(shù)據(jù)湖倉有關(guān)系,但并非同一種東西。而有了數(shù)據(jù)湖倉,就能更好地開展業(yè)務(wù),讓客戶更加滿意。
5月11日
“2023數(shù)云原力大會(huì)
——數(shù)字金融新征程論壇”
掃碼預(yù)約注冊