在使医疗保健数据对决策的下游分析有用方面存在许多障碍。从不同的医疗保健EMR系统中获取数据,并将其清理并规范化为统一的数据以供消费,这可能是最大的挑战。这是EMR系统中数据捕获方式的结果。
重要的是要理解为什么数据可以是非标准的,以确定如何处理它。
- 源代码允许输入自由格式的文本,例如病人的地址
- Source允许可选地填充字段
- Source捕获工作流中不同粒度的数据,例如订购的药物、给予的药物、患者医疗列表中的药物
- 不同的来源会有不同的内部价值编码,比如性别
- Sources的注释或评论字段本质上是非标准的
每个不同的挑战可能需要不同的方法来确定如何最好地解决它们。
但在开始寻找解决问题的工具之前,提出一种方法来理解范围和优先级是至关重要的。
- 确定用于驱动业务决策的关键数据字段,并根据业务价值对它们进行排序
- 分析这些关键数据字段,以了解所填充的不同数据的特征。%什么是不标准?什么可以很容易地标准化?
- 确定标准化每个关键数据字段的复杂性和工作量。
- 根据数据的业务价值和标准化工作来确定待办事项的优先级。
关键是要接受这样一个事实:数据标准化是一个持续的过程,你希望一次性解决一部分问题。并非所有数据都具有同等的业务价值,需要确定在何处最好地使用您的资源。有一些工具可以使解决这些挑战变得更容易,但您需要了解问题所在,并清醒地认识到将具有挑战性的领域。目标应该是改善实用性和不追求完美。