ETL反attern:未能将ETL逻辑视为源代码

在大多数数据项目中,构建提取 - 变换负载(ETL)逻辑需要大量的时间。 Enterprise ETL进程必须妥善处理多件事:检索足够的数据以满足业务需求,将任何所需的转换应用于该数据,并将其加载到目的地,而不会中断任何其他业务流程。进入建设和验证ETL逻辑的工作可能是很大的,使结果代码成为企业的非常有价值的资产。

但是,在我的旅行中我’发现那里’很多ETL代码’得到它应该得到的照顾。未能将ETL逻辑视为源代码可能是昂贵且耗时的错误。

Etl.反attern:未能将ETL逻辑视为源代码

这里’S来自此的关键外卖:ETL代码是源代码。源代码应该是版本的,备份,并附加到正式的变更过程。因此,ETL代码应始终被版本化,备份和由正式更改流程约束。

这里的全常见的反attern是当ETL代码被视为一种可在飞行中可以改变的一次性实用程序时,如有必要,可以轻松重建。我公司已经从潜在客户那里得到了超过一些电话,其中对ETL看似小而无害的变化导致下游系统的巨大麻烦。在少数情况下,由于系统升级或无意中删除代码,ETL逻辑的某些部分丢失。

Etl.代码通常比它所居住的硬件更有价值,因此应该被视为商业资产。 ETL代码是源代码,应该如此处理,包括:

  • 使用适当的源控制系统来存储和版本的代码
  • 维护单独的开发和/或测试环境(不是生产环境!)用于测试更改
  • 改变ETL代码控制的正式程序,包括提前通知此类变更
  • 在将源代码移动到生产之前,回归测试和数据验证任何更改

是的,这些步骤需要时间和成本。如果您的企业用于处理ETL开发作为ad-hoc操作,则保证将ETL逻辑视为源代码,以减缓您的开发过程。但是,这些是保护贵公司的必要步骤’■对其数据的投资和支持数据的流程。

 

 

 

关于作者

Tim Mitchell
Tim Mitchell is a 数据架构师和顾问 谁专注于摆脱数据疼痛点。 需要帮助数据仓库,ETL,报告或 训练?如果是这样的话, 联系Tim. 没有义务30分钟聊天。

是第一个评论 在“ETL反典:未能将ETL逻辑视为源代码”

发表评论

本网站使用AkisMet减少垃圾邮件。 了解如何处理评论数据.