准备一个用于流程挖掘的 csv 文件

希望你做得很好！我正在遵循使用"PM4PY"进行流程挖掘的教程，但我在csv文件中发现了困难，在我的csv文件中，我有以下列："id"，"状态"，"邮件ID"，"日期"....("状态"与包含某些特定选择的"活动"相同(

我的CSV文件包含大量数据。

要遵循流程挖掘教程，我必须在我的专栏中包含类似"案例：概念：名称"的内容......但我不知道我该怎么做

在您的情况下，我假设"id"与正常流程挖掘术语中的案例 ID 相同。同样，"状态"对应于活动 ID，"日期"对应于时间戳。

最好的选择是在输入PM4Py之前先读取熊猫数据帧。

要详细了解如何执行此操作，下面是以下示例。由于您没有提到csv文件中的所有列，因此我们假设目前您只有['id'，'status'，'date']作为列列表。以下代码可以适应您拥有的任意数量的列(通过将它们添加到名为 cols 的列表中(：

import pandas as pd
from pm4py.objects.conversion.log import converter as log_converter
path = '' # Enter path to the csv file
data = pd.read_csv(path)
cols = ['case:concept:name','concept:name','time:timestamp']
data.columns = cols
data['time:timestamp'] = pd.to_datetime(data['time:timestamp'])
data['concept:name'] = data['concept:name'].astype(str)
log = log_converter.apply(data, variant=log_converter.Variants.TO_EVENT_LOG)

在这里，我们根据 PM4Py 包的要求更改了列名及其数据类型。使用 log_converter 函数将此数据帧转换为事件日志。现在，您可以对此事件日志对象执行常规进程挖掘任务。例如，如果您希望从事件日志创建直接跟随图，则可以使用以下代码行：

from pm4py.algo.discovery.dfg import algorithm as dfg_algorithm
dfg = dfg_algorithm.apply(log)

首先你需要使用pandas导入你的csv文件，然后转换为事件日志对象，最后你可以在pm4py中使用。

参考： https://pm4py.fit.fraunhofer.de/documentation

相关内容

最新更新

热门标签：