隨著大數(shù)據(jù)技術(shù)的不斷更新和迭代,數(shù)據(jù)管理工具得到了飛速的發(fā)展,相關(guān)概念如雨后春筍一般應(yīng)運(yùn)而生,如從最初決策支持系統(tǒng)(DSS)到商業(yè)智能(BI)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)等,這些概念特別容易混淆,下面我們將圍繞BI、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖和數(shù)據(jù)中臺(tái)的區(qū)別進(jìn)行介紹。
商業(yè)智能(BI)
商業(yè)BI是一套完整的解決方案,用來(lái)將企業(yè)中現(xiàn)有的數(shù)據(jù)進(jìn)行有效的整合,快速準(zhǔn)確的提供報(bào)表并提出決策依據(jù),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策。一般包括數(shù)據(jù)倉(cāng)庫(kù)、報(bào)表查詢(xún)、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等部分。
首先從業(yè)務(wù)系統(tǒng)數(shù)據(jù)中提取有用的數(shù)據(jù)并進(jìn)行清理,以保證數(shù)據(jù)的正確性,然后經(jīng)過(guò)抽取、轉(zhuǎn)換和裝載,合并到數(shù)據(jù)倉(cāng)庫(kù),得到企業(yè)數(shù)據(jù)全局視圖,再利用合適工具等對(duì)其進(jìn)行分析和處理,最后將知識(shí)呈現(xiàn)給管理者,為管理者的決策過(guò)程提供支持。
數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse),也稱(chēng)為企業(yè)數(shù)據(jù)倉(cāng)庫(kù),它是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的包含多種數(shù)據(jù)的存儲(chǔ)庫(kù),并且是高度建模的數(shù)據(jù)集合存儲(chǔ)系統(tǒng)。它將來(lái)自不同業(yè)務(wù)、系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)聚合起來(lái),幫助公司把運(yùn)營(yíng)數(shù)據(jù)轉(zhuǎn)化成為高價(jià)值的可以獲取的信息,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持,幫助建構(gòu)商業(yè)智能(BI)。
數(shù)據(jù)湖
數(shù)據(jù)湖(Data Lake)是一個(gè)存儲(chǔ)企業(yè)的各種各樣原始數(shù)據(jù)的大型倉(cāng)庫(kù),其中的數(shù)據(jù)可供存取、處理、分析及傳輸。數(shù)據(jù)湖是以其自然格式存儲(chǔ)的數(shù)據(jù)的系統(tǒng)或存儲(chǔ)庫(kù),通常是對(duì)象Blob或文件。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲(chǔ),包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報(bào)告、可視化、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖可以包括來(lái)自關(guān)系數(shù)據(jù)庫(kù)(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)(CSV,日志,XML,JSON),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔,PDF)和二進(jìn)制數(shù)據(jù)(圖像,音頻,視頻)。
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖差異
1、在儲(chǔ)存方面上,數(shù)據(jù)湖中數(shù)據(jù)為非結(jié)構(gòu)化的,所有數(shù)據(jù)都保持原始形式。存儲(chǔ)所有數(shù)據(jù),并且僅在分析時(shí)再進(jìn)行轉(zhuǎn)換。數(shù)據(jù)倉(cāng)庫(kù)就是數(shù)據(jù)通常從事務(wù)系統(tǒng)中提取。
2、在將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)之前,會(huì)對(duì)數(shù)據(jù)進(jìn)行清理與轉(zhuǎn)換。在數(shù)據(jù)抓取中數(shù)據(jù)湖就是捕獲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)倉(cāng)庫(kù)則是捕獲結(jié)構(gòu)化數(shù)據(jù)并將其按模式組織。
3、數(shù)據(jù)湖的目的就是數(shù)據(jù)湖非常適合深入分析的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)科學(xué)家可能會(huì)用具有預(yù)測(cè)建模和統(tǒng)計(jì)分析等功能的高級(jí)分析工具。而數(shù)據(jù)倉(cāng)庫(kù)就是數(shù)據(jù)倉(cāng)庫(kù)非常適用于月度報(bào)告等操作用途,因?yàn)樗哂懈叨冉Y(jié)構(gòu)化。
4、在架構(gòu)中數(shù)據(jù)湖通常,在存儲(chǔ)數(shù)據(jù)之后定義架構(gòu)。使用較少的初始工作并提供更大的靈活性。在數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)數(shù)據(jù)之前定義架構(gòu)。
數(shù)據(jù)中臺(tái)
數(shù)據(jù)中臺(tái)是指通過(guò)企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、治理、建模、分析,應(yīng)用,使數(shù)據(jù)對(duì)內(nèi)優(yōu)化管理提高業(yè)務(wù),對(duì)外可以數(shù)據(jù)合作價(jià)值釋放,成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺(tái)建立后,會(huì)形成數(shù)據(jù)API,為企業(yè)和客戶(hù)提供高效各種數(shù)據(jù)服務(wù)。
數(shù)據(jù)中臺(tái)整體技術(shù)架構(gòu)上采用云計(jì)算架構(gòu)模式,將數(shù)據(jù)資源、計(jì)算資源、存儲(chǔ)資源充分云化,并通過(guò)多租戶(hù)技術(shù)進(jìn)行資源打包整合,并進(jìn)行開(kāi)放,為用戶(hù)提供“一站式”數(shù)據(jù)服務(wù)。利用大數(shù)據(jù)技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行統(tǒng)一采集、計(jì)算、存儲(chǔ),并使用統(tǒng)一的數(shù)據(jù)規(guī)范進(jìn)行管理,將企業(yè)內(nèi)部所有數(shù)據(jù)統(tǒng)一處理形成標(biāo)準(zhǔn)化數(shù)據(jù),挖掘出對(duì)企業(yè)最有價(jià)值的數(shù)據(jù),構(gòu)建企業(yè)數(shù)據(jù)資產(chǎn)庫(kù),提供一致的、高質(zhì)量的大數(shù)據(jù)服務(wù)。
數(shù)據(jù)中臺(tái)不是一套軟件,也不是一個(gè)信息系統(tǒng),而是一系列數(shù)據(jù)組件的集合,企業(yè)基于自身的信息化建設(shè)基礎(chǔ)、數(shù)據(jù)基礎(chǔ)以及業(yè)務(wù)特點(diǎn)對(duì)數(shù)據(jù)中臺(tái)的能力進(jìn)行定義,基于能力定義利用數(shù)據(jù)組件搭建自己的數(shù)據(jù)中臺(tái)。
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)的差異
計(jì)算存儲(chǔ)上
傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)基于OLAP類(lèi)型的數(shù)據(jù)庫(kù),后續(xù)發(fā)展為MPP、Hadoop、GreenPlum混合架構(gòu)。數(shù)據(jù)中臺(tái)從一誕生起,就使用Hadoop、MPP、RDS、Flink等混合架構(gòu),隨需搭配,滿(mǎn)足各類(lèi)數(shù)據(jù)計(jì)算的要求。
應(yīng)用場(chǎng)景和價(jià)值體系
數(shù)據(jù)中臺(tái)的應(yīng)用場(chǎng)景比傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用場(chǎng)景廣泛得多。傳統(tǒng)的數(shù)倉(cāng)只是滿(mǎn)足領(lǐng)導(dǎo)和業(yè)務(wù)人員數(shù)據(jù)決策的需要,因此更多的體現(xiàn)在報(bào)表輸出,使用者以小部分的業(yè)務(wù)人員和決策層為主,新需求的開(kāi)發(fā)周期以月甚至到年為計(jì)。而數(shù)據(jù)中臺(tái)由于起家于互聯(lián)網(wǎng)企業(yè),其使用對(duì)象擴(kuò)大到一線(xiàn)服務(wù)人員和商家企業(yè),其業(yè)務(wù)需求更繁雜,包含商品推薦、精準(zhǔn)廣告展示、客戶(hù)滿(mǎn)意度評(píng)價(jià)等等諸多不確定性的應(yīng)用場(chǎng)景,很難用傳統(tǒng)的報(bào)表系統(tǒng)滿(mǎn)足需求,因此必須要使用隨需應(yīng)變的數(shù)據(jù)服務(wù)來(lái)快速滿(mǎn)足不斷變化的業(yè)務(wù)需求。
體系架構(gòu)
數(shù)據(jù)中臺(tái)是由多個(gè)組件構(gòu)成,除了計(jì)算平臺(tái)外,其方案由多個(gè)分布式服務(wù)系統(tǒng)提供,滿(mǎn)足不同業(yè)務(wù)需求和高并發(fā)和系統(tǒng)自動(dòng)擴(kuò)容需求,除了大數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)外,還包含數(shù)倉(cāng)建設(shè)、數(shù)據(jù)開(kāi)發(fā)IDE、任務(wù)調(diào)度、數(shù)據(jù)同步服務(wù)、數(shù)據(jù)治理、對(duì)外統(tǒng)一數(shù)據(jù)服務(wù)、資產(chǎn)管理系統(tǒng)、實(shí)時(shí)流計(jì)算平臺(tái)和開(kāi)發(fā)平臺(tái),敏捷BI報(bào)表開(kāi)發(fā)等多個(gè)組件,通過(guò)多個(gè)組件組成一整套方案。這一點(diǎn)傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)是遠(yuǎn)遠(yuǎn)達(dá)不到的。
數(shù)據(jù)倉(cāng)庫(kù)與BI差異
商業(yè)智能BI相比于數(shù)據(jù)倉(cāng)庫(kù),它是一個(gè)更大的概念。商業(yè)智能可以說(shuō)是基于數(shù)據(jù)倉(cāng)庫(kù),經(jīng)過(guò)了數(shù)據(jù)挖掘后,得到了商業(yè)價(jià)值的過(guò)程。所以說(shuō)數(shù)據(jù)倉(cāng)庫(kù)是個(gè)金礦,數(shù)據(jù)挖掘是煉金術(shù),而商業(yè)報(bào)告則是黃金。數(shù)據(jù)倉(cāng)庫(kù)就像是 BI 這個(gè)房子的地基,搭建好 DW 這個(gè)地基之后,才能進(jìn)行分析使用,最后產(chǎn)生價(jià)值。
BI工具推薦
億信華辰作為中國(guó)專(zhuān)業(yè)的商業(yè)智能BI和數(shù)據(jù)治理軟件提供商,一直致力于為政企用戶(hù)提供從數(shù)據(jù)采集、存儲(chǔ)、治理、分析到智能應(yīng)用的智能數(shù)據(jù)全生命周期管理方案,幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)、數(shù)據(jù)智能,已積累了8000多家用戶(hù)的服務(wù)和客戶(hù)成功經(jīng)驗(yàn),為客戶(hù)提供數(shù)據(jù)分析平臺(tái)、數(shù)據(jù)治理系統(tǒng)搭建等專(zhuān)業(yè)的產(chǎn)品咨詢(xún)、實(shí)施和技術(shù)支持服務(wù)。其在2021中國(guó)數(shù)據(jù)智能/ 數(shù)據(jù)中臺(tái)生態(tài)圖譜的商業(yè)智能領(lǐng)域榜上有名。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)