ETL反attern:忽略日志记录

在我最后的Etl Antipatterns帖子中,我写了关于未激的但非常有必要的工作 记录ETL流程。 ETL操作的日志记录与文件一样(UN)作为文档,但在数据移动和转换过程的支持中同样重要。

在这篇文章中,我’LL在ETL过程管理中讨论常见的错误:忽略日志。

什么是ETL测井?

Etl. Process Logging是在数据移动和转换期间生成的日志数据的配置和管理。更简单,ETL记录捕获 数据加载历史统计.

以下是在ETL流程日志中收集的一些类型的详细信息:

  • 当负载过程开始并完成时
  • 过程的结果(成功或失败)
  • 每个步骤中处理的行数
  • 任何错误或警告消息

Etl. Logging为几种有价值的目的服务:

  • 它使得更容易监视流程持续时间
  • 它允许您随时间测量数据量增长
  • 它在发生故障或异常时提供证据的迹线

一个好的ETL日志记录设计需要两件事:记录每个调用ETL进程,并且对这些日志的定期审查寻找用于查找可能需要更改的异常,增长模式和其他提示。

Etl.反attern:忽略日志记录

因为伐木没有’t向ETL进程添加任何功能,通常忽略ETL架构的这种必要部分。如果没有良好的日志记录信息,则没有简单的方法来确定流程运行的时间,该过程的哪些部分更容易出现故障,或者在发生故障时第一个步骤是什么。

虽然确实如此,但在没有有效的测井策略的情况下,etl流程可以完全运行,但这肯定是一个良好的ETL设计的反典。未能设置并监控ETL日志数据意味着您将处理任何反应而不是主动性的任何问题。未解说的ETL流程在最不方便的时期发生问题(您好,新的一年唤醒电话’s Day!), so you’最好通过在任何潜在的问题的前面突出来更好地服务。

创建一个有效的ETL日志记录策略

每个组织都不同,所以在那里’没有一套单一的策略,将到处都有。但是,您可以使用一些通用指导原则来构建ETL日志记录策略。

确保使用正确的日志记录配置每个ETL进程

什么是 适当的日志记录?与一切一样,这取决于。某些过程只需要在每个加载开始时记录并以其最终状态结束。和别人一样,你’LL希望收集行计数信息以跟踪数据卷。其他人可能需要详细的信息和进度消息进行适当的审计。

某些ETL工具将要求您为每个进程设置日志记录。其他,包括SQL Server Integration Services, 默认记录一定量的信息,并允许您 根据需要定制。注意ETL软件如何处理日志记录,并相应地配置。

监控日志数据

如果你不捕获日志数据是什么好的’看看吗?确保定期为编程方式或手动查看日志中的信息。大学教师’T只需寻找负载故障;审查数据增长的详细信息,负载运行时增加,以及任何警告,以便在它们成为问题之前主动地解决变化。

发送关键事件的通知

对于某些已记录的事件,您’LL希望立即通知支持人员。负载失败肯定会在这里想到,但唐’忘记在单个负载中查看其他非故障异常,例如不匹配的行计数或高百分比的错误行。使用日志中捕获的信息发送要快速解决的事件的通知。

关于作者

Tim Mitchell
Tim Mitchell is a 数据架构师和顾问 谁专注于摆脱数据疼痛点。 需要帮助数据仓库,ETL,报告或 训练?如果是这样的话, 联系Tim. 没有义务30分钟聊天。

是第一个评论 在“ETL反attern:忽略日志记录”

发表评论

本网站使用AkisMet减少垃圾邮件。 了解如何处理评论数据.