粤磊 informatica powercenter学习笔记(十)
时间:2011-01-17
来源:互联网
INFORMATICA 的调优之一 源数据的优化
5W1H法来实现源数据的优化
做数据仓库项目的朋友都能感到数据质量和数据抽取展现的性能是整个数据仓库项目的重点。下面谈谈我在DW项目中处理源数据质量问题的5W1H方法。
5W : WHO ,WHAT,WHY,WHEN,WHERE
WHO:(谁来对源数据负责)
ETL抽取的数据各种各样,有些是按业务,有些是按区域,针对源数据的管理一定要在一开始就对源数据按规则分出对应的责任人,一般刚开始与业务负责人,DM确定好具体的数据项后,就可以按数据类别比如RMDB,FLATFILE等来确定具体的联系人,联系方式。
WHAT:(源数据的业务含义)
源数据的具体业务含义由对应的业务负责人来确定,这点对DM的设计很重要。
WHY: (为什么要抽取这个数据到DW)
WHEN: (数据的生命周期多久,多久需要更新,有无抽取时间限制)
WHERE:(源数据放在什么地方来抽取,是RMDB还是指定路径下的 FLATFILE,还是URL WEBSITE) 一般为了保证源数据的抽取质量能先预处理到DB中的尽量先到DB中,这样的数据的处理信息会存到元数据知识库,便于确保数据质量。)
HOW: (如何抽到DW) 这里面主要考虑源数据存储的是否有序,如果前面5W做好了,这里面的源数据质量应该没问题,这一步主要考虑能否在缓冲区建立有效索引,对文件类型的源数据做基本清洗工作等。
5W1H法来实现源数据的优化
做数据仓库项目的朋友都能感到数据质量和数据抽取展现的性能是整个数据仓库项目的重点。下面谈谈我在DW项目中处理源数据质量问题的5W1H方法。
5W : WHO ,WHAT,WHY,WHEN,WHERE
WHO:(谁来对源数据负责)
ETL抽取的数据各种各样,有些是按业务,有些是按区域,针对源数据的管理一定要在一开始就对源数据按规则分出对应的责任人,一般刚开始与业务负责人,DM确定好具体的数据项后,就可以按数据类别比如RMDB,FLATFILE等来确定具体的联系人,联系方式。
WHAT:(源数据的业务含义)
源数据的具体业务含义由对应的业务负责人来确定,这点对DM的设计很重要。
WHY: (为什么要抽取这个数据到DW)
WHEN: (数据的生命周期多久,多久需要更新,有无抽取时间限制)
WHERE:(源数据放在什么地方来抽取,是RMDB还是指定路径下的 FLATFILE,还是URL WEBSITE) 一般为了保证源数据的抽取质量能先预处理到DB中的尽量先到DB中,这样的数据的处理信息会存到元数据知识库,便于确保数据质量。)
HOW: (如何抽到DW) 这里面主要考虑源数据存储的是否有序,如果前面5W做好了,这里面的源数据质量应该没问题,这一步主要考虑能否在缓冲区建立有效索引,对文件类型的源数据做基本清洗工作等。
作者: vzyuelei9 发布时间: 2011-01-17
Jackson, 实际的操作中真的可以做到这五点吗?
作者: KantCheng 发布时间: 2011-02-01
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28