机器学习-互联网流量分类



最近,我一直在阅读一些关于互联网流量分类的论文,特别是使用机器学习算法。

我打算研究它,我想在这学期的机器学习课上提出一个关于互联网流量分类的项目想法。

我的第一步是收集由3-4个客户机组成的本地网络上的数据。我正在使用wireshark工具对数据包进行嗅探。

我的下一步是从wireshark数据包中提取TCP流。在这一步中,我尝试在Linux上使用tcpflow。Tcpflow为每个流创建不同的文件。这里,文件的内容大多是二进制的,我不知道如何从这些文件中提取鉴别符。

有人能给我一个想法或分享他/她的经验,我怎么能解释tcpflow文件?我会非常高兴听到你的推荐。

提前感谢。

下面是一些可以从TCP通信中提取的特性的想法:

  • 端口/协议(大多数协议通常使用服务器上的相同端口)
  • 包的频率和大小(短命令包或长数据流)
  • TCP连接阶段
  • 流错误/重传
  • 流量控制消息和速率限制

为了更好地提取特征,你可能需要查看一些协议(HTTP, DNS等)本身的细节,而不仅仅是TCP流。我认为wireshark已经做到了这一点,那么为什么不重用他们的库功能呢?

您可能还想看看入侵检测系统(ids)的设计,因为它们对流量做同样的事情,并试图将其分类为良性或恶意。

最新更新