简介
信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础,于是企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而 ETL 则是一个主要的技术手段。ETL(数据的提取、转换和加载)过程的设计和实现是数据仓库解决方案中极其重要的一部分。由于传统的 ETL 过程中数据抽取是需要加载所有源数据库中的数据,这样对于需要经常进行数据集中的案例,将带来无可忍受的低效率。例如一个有 50G 数据量的数据库, 如果只有 0.01%(也就是大约 50M)的数据较上次加载有更新,但是为了抽取这部分数据,仍然需要抽取所有 50G 的数据,这将是非常低效的。在这篇文章中,我们将介绍通过结合 InfoSphere Replication Server 和 InfoSphere DataStage, 实现数据仓库的实时更新,并且仅仅需要抽取更新了的数据。
ETL 过程简介
ETL 过程就是数据流动的过程,从不同的数据源流向不同的目标数据集中地。它是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗 , 最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中。它包涵三个阶段:E(Extract),T(Transform)和 L(Load)。
提取(Extract):从不同的数据库(DB2,oracle,flat file 等)中读取源数据。通过接口提取源数据,例如 ODBC、专用数据库接口和平面文件提取器,并参照元数据来决定数据的提取及其提取方式。
转换(Transform):开发者将提取的数据,按照业务需要转换为目标数据结构,并实现汇总。
装载(Load):加载经转换和汇总的数据到目标数据仓库中,可实现 SQL 或批量加载。
2 3 4 5 6 下一页</div> </div> </div> </div> </div>您可能想查找下面的文章:
- 为 InfoSphere Warehouse 提供实时数据的高效解决方案
- 结合使用 IBM InfoSphere Warehouse Design Studio 和 pureXML 数据,第 2 部分: 为涉及 XML 的多个 ETL 作业设计控制流
- IBM InfoSphere Federation Server V9.7 中 DECFLOAT 数据类型及相关语义支持
- 将 InfoSphere Warehouse 数据挖掘与 IBM Cognos 报告集成,第 3 部分 : 使用市场购物篮分析的例子从 Cognos 动态调用挖掘
- 将 InfoSphere Warehouse 数据挖掘与 IBM Cognos 报告集成,第 2 部分: 使用 InfoSphere Warehouse 和 Cognos 检测偏差
- 将 InfoSphere Warehouse 数据挖掘与 IBM Cognos 报告集成,第 1 部分: InfoSphere Warehouse 与 Cognos 集成架构概述
- IBM InfoSphere Federation Server V9.7 中的新增功能
- 使用 IBM InfoSphere Warehouse 9.7 Administration Console,第 1 部分: 入门与设置
- 高性能数据挖掘:在 InfoSphere Balanced Warehouse 中使用 SAS PMML 模型的并行计分性能
- 理解 IBM InfoSphere MDM Server 安全性 3