時間:2021-06-18來源:億信ABI知識庫瀏覽數:202次
ETL代表“提取、轉換和加載”。ETL 過程在數據集成策略中起著關鍵作用。ETL允許企業從多個來源收集數據并將其整合到一個集中的位置。ETL還使不同類型的數據可以協同工作。
典型的ETL過程會收集和優化不同類型的數據,然后將數據傳送到數據倉庫。
ETL 還使在各種來源、目的地和分析工具之間遷移數據成為可能。因此,ETL流程在生成商業智能和執行更廣泛的數據管理策略方面發揮著關鍵作用。
ETL 過程由三個步驟組成,并使數據能夠從源頭集成到目的地,這三個步驟分別是數據提取、數據轉換和數據加載。
很少有企業依賴單一的數據類型或系統。大多數企業擁有來自各種來源的數據,并使用多種數據分析工具來生成商業智能。要制定這樣的復雜數據策略,數據必須能夠在系統和應用程序之間自由傳輸。
在將數據移動到新目標之前,必須首先從其源中提取數據。在ETL過程的第一步中,結構化和非結構化數據被導入并整合到一個存儲庫中。可以從廣泛的來源中提取原始數據,包括:
· 現有數據庫和遺留系統
· 云、混合和本地環境
· 銷售和營銷應用
· 移動設備和應用程序
· 客戶關系管理系統
· 數據存儲平臺
· 數據倉庫
· 分析工具
雖然可以手動完成,但手工編碼的數據提取可能需要大量時間并且容易出錯。ETL工具可自動執行提取過程并創建更高效、更可靠的工作流程。
在 ETL 過程的這個階段,可以應用規則和法規來確保數據質量和可訪問性。您還可以應用規則來幫助您的公司滿足報告要求。數據轉換的過程由幾個子過程組成:
· 清理——解決數據中的不一致和缺失值。
· 標準化——格式化規則應用于數據集。
· 重復數據刪除— 排除或丟棄冗余數據。
· 驗證— 刪除不可用的數據并標記異常。
· 排序— 根據類型組織數據。
· 其他任務——可以應用任何附加/可選規則來提高數據質量。
轉換通常被認為是 ETL 過程中最重要的部分。數據轉換可提高數據完整性,并有助于確保數據到達新目的地時完全兼容并可供使用。
ETL 過程的最后一步是將新轉換的數據加載到新目的地。數據可以一次加載(滿載)或按預定時間間隔(增量加載)加載。
滿載— 在 ETL 滿載場景中,來自轉換裝配線的所有內容都會進入數據倉庫中新的、唯一的記錄。雖然有時這對研究目的很有用,但完全加載產生的數據集會呈指數增長,并且很快就會變得難以維護。
增量加載——一種不太全面但更易于管理的方法是增量加載。增量加載將傳入數據與現有數據進行比較,并且只有在找到新的唯一信息時才會生成額外的記錄。這種架構允許使用更小的數據倉庫來維護和管理商業智能。
數據戰略比以往任何時候都更加復雜,公司可以從更多來源訪問更多數據。ETL 可以將大量數據轉化為可操作的商業智能。
所有這些數據都必須被提取、轉換并加載到新的目的地進行分析。在這種情況下,ETL 通過以下方式幫助創建商業智能:
管理多個數據集需要時間和協調,并可能導致效率低下和延遲。ETL 將數據庫和各種形式的數據組合成一個單一的、統一的視圖。這使得分析、可視化和理解大型數據集變得更加容易。
ETL 允許企業將遺留數據與從新平臺和應用程序收集的數據相結合。這會生成數據的長期視圖,以便可以查看較舊的數據集以及更新的信息。
ETL 軟件使手工編碼的數據遷移過程自動化。因此,開發人員及其團隊可以將更多時間花在創新上,而減少管理編寫代碼以移動和格式化數據的時間。
ETL 可以通過兩種方式完成。在某些情況下,企業可能會要求開發人員構建自己的 ETL。然而,這個過程可能是時間密集型,容易出現延遲。
如今,大多數公司都依賴 ETL 工具作為其數據集成過程的一部分。ETL 工具以其速度、可靠性和成本效益以及與更廣泛的數據管理策略的兼容性而聞名。ETL 工具還包含廣泛的數據質量和數據治理功能。
在評估 ETL 工具時,您需要考慮所需連接器的數量和種類,以及它的便攜性和易用性。
發布時間:2023-09-26瀏覽量:79次
發布時間:2022-06-28瀏覽量:971次
發布時間:2022-06-15瀏覽量:263次
發布時間:2022-06-14瀏覽量:544次
發布時間:2022-06-14瀏覽量:755次