Process Mining 流程挖掘/过程挖掘

过程挖掘的起点是日志数据。过程挖掘技术假定系统能够连续地记录事件,每个事件代表一个活动(对应过程模型的某个任务),同时每个事件都和一个特定的案例(即一个过程实例)相关。事件日志还包括其它信息,如资源(即人或设备)的执行或初始化活动、事件的时间戳或者在事件涉及的数据元素(如订货数量等)。

1概述

XES是一种基于XML的事件日志标准。它旨在定义一种不同工具和应用领域下交换日志文件的格式。XES主要用于过程挖掘,但同时也可以用于广义数据挖掘、文本挖掘和静态分析。

2元模型

XES使用Log、Trace和Event三级结构来表示日志。其中Log为顶级节点,表示日志,包含多个Trace,即某些具体路径的集合。Trace是二级节点,表示一个具体的路径,包含多个Event,即具体事件的集合。Event为三级节点,表示一个具体的事件。例如,在一个访问网站的日志中,Log表示访问网站,Trace表示某个具体的用户的某次访问网站的过程,Event可以表示诸如“浏览器下载一张图片”的事件。
XES本身不具有对任何特定工具和应用领域的预定义。它们需要通过定义扩展,即Extension以及属性Attribute来进行表达。XES支持的属性类型包括字符串、日期、整型、浮点型、布尔、ID(即唯一值)等,同时它支持属性的嵌套。
XES使用Classifier标签对事件分类。

3 格式说明

3.1 基础结构

XES基础结构标签如表3-1所示,基础结构属性如表3-2所示。

表3-1 XES基础结构标签表

标签名 含义 父标签 举例
og 日志,包含多个具体路径
trace 路径,包含多个具体的事件 log
event 事件,原子类型,对应时间点而不是时间段 trace