准备一个用于流程挖掘的 csv 文件



希望你做得很好! 我正在遵循使用"PM4PY"进行流程挖掘的教程,但我在csv文件中发现了困难, 在我的csv文件中,我有以下列:"id","状态","邮件ID","日期"....("状态"与包含某些特定选择的"活动"相同(

我的CSV文件包含大量数据。

要遵循流程挖掘教程,我必须在我的专栏中包含类似"案例:概念:名称"的内容......但我不知道我该怎么做

在您的情况下,我假设"id"与正常流程挖掘术语中的案例 ID 相同。同样,"状态"对应于活动 ID,"日期"对应于时间戳。

最好的选择是在输入PM4Py之前先读取熊猫数据帧。

要详细了解如何执行此操作,下面是以下示例。由于您没有提到csv文件中的所有列,因此我们假设目前您只有['id','status','date']作为列列表。以下代码可以适应您拥有的任意数量的列(通过将它们添加到名为 cols 的列表中(:

import pandas as pd
from pm4py.objects.conversion.log import converter as log_converter
path = '' # Enter path to the csv file
data = pd.read_csv(path)
cols = ['case:concept:name','concept:name','time:timestamp']
data.columns = cols
data['time:timestamp'] = pd.to_datetime(data['time:timestamp'])
data['concept:name'] = data['concept:name'].astype(str)
log = log_converter.apply(data, variant=log_converter.Variants.TO_EVENT_LOG)

在这里,我们根据 PM4Py 包的要求更改了列名及其数据类型。使用 log_converter 函数将此数据帧转换为事件日志。现在,您可以对此事件日志对象执行常规进程挖掘任务。例如,如果您希望从事件日志创建直接跟随图,则可以使用以下代码行:

from pm4py.algo.discovery.dfg import algorithm as dfg_algorithm
dfg = dfg_algorithm.apply(log)

首先你需要使用pandas导入你的csv文件,然后转换为事件日志对象,最后你可以在pm4py中使用。

参考: https://pm4py.fit.fraunhofer.de/documentation

最新更新