《ProWord An Unsupervised Approach to Protocol FeatureWord Extraction》论文阅读报告

论文介绍

我阅读的论文的题目是《ProWord: An Unsupervised Approach to Protocol Feature Word Extraction》中文译名为：《ProWord：一种提取协议特证词的自动化方式》，故名思议，该论文介绍了一种能够自动化提取协议特证词的方式，并将其取名为ProWord，研究的领域是协议****领域。

论文正文内容

摘要

Protocol feature words：协议特证词。这是一种能够区分不同应用程序协议的字节序列，并且它们能够构成很多深度报文分析规则的框架，在网络管理、网络评估和安全系统方面运用广泛。打个比方，如果我们说每一门协议都是一种语言的话，那么协议特征词就是构成这个语言的词库，同时这样的协议特征词也能够成为分析协议的工具。

该论文主要解决的问题是如何系统又高效地从网络流量中提取协议特征词。现已经有一种名为“n-gram”的方法能够将协议载荷自动分成相同长度的几段，但是对于提取协议特征词来说基本上是毫无用处的。对于协议****来说，因为只是将协议载荷自动分成相同长度的几段，仅仅针对那些协议内字段固定长度的协议，这样的工作价值比较低。

于是论文提出了一种解决方法：ProWord，这是一种建立在两个算法的基础上的一种方式，能够从网络流量中自动化提取协议特征词。这里简单地介绍一下这两个算法。

第一个算法是改进的专家表决算法。这种算法能够根据信息熵将协议载荷分段，这样的分段比“n-gram”的分段方式更加精准有效。不是仅仅以长度为单位对报文载荷进行分段，而是通过信息量对其进行分段，这样能够保证一些相关的信息不会被分为两半。

第二个算法是一个排序算法。论文提出了一种检索启发式方法，能够对候选词进行排序，并选择排序最高位作为协议特征词。

最后在真实环境中检验ProWord方法和n-gram方法，最后得出ProWord方法提取协议特征词要远比n-gram方法提取协议特征词有效、精准和迅速。

引言

1、分别从三个例子说明协议特征词的运用场景。

（1）L7-filter是一种Linux上的外挂插件，是一种能够针对协议内容进行过滤的软件，常被用来过滤QQ、迅雷等协议通信的内容，达到流量认证识别的目的。

（2）Snort和Bro这种入侵检测系统也需要特征词去建立规则，以达到引导引擎和应用层协议的过程。

（3）Wireshark和NetDude这种流量分析工具要求第三方开发的额外插件对新协议提供特征词支持。

相比于报文长度这种很容易改变的东西，协议特征词就更显得稳定，且更加容易在区分应用协议的过程中变得有效。

2、目前已经存在协议特征词提取的工作

这种工作在机器学习领域叫做特征工程。在协议特征还没有明确定义的时候，其严重依赖于手工劳动。当来到协议****领域时，我们需要前任的经验来发现特征词界线并选择候选词。

基于文本的协议如SMTP和FTP都有人类可阅读的部分，所以我们可以很清晰地看到这些词的界线在哪里。对于没有学习过协议的人来说，从一些二进制协议中提取特征词是一项很大的挑战。而且，我们不能简单地就把一个流量轨迹进行经验化或者手工判断。

3、相关工作和他们的局限性

（1）现在已有一些研究能够将连续的载荷分解成为小单元并建立词袋模型。但是对于二进制协议来说，使用空格符制定特征词的界线是没有用的。

（2）n-gram已经能够广义上地从二进制协议中提取特征词了，它使用滑动窗口大小n，以n字节将载荷分解成相同长度的小单元。然而这种方式也有可能将整个特征词分解成好几个部分，或者将不相关的特征词部分揉到一个分组中来。近期有研究表明n-gram在适当变化的协议中提取特征词的行为已经用处不大。

（3）需要人工监管的机器学习在流量分类领域已经广泛应用了。很多研究聚焦于设计一种基于高新科技的有效分类算法学习工具，像support vector machines和Naïve Bayesian分类器一样。人工监管的机器学习要求一个训练集才能对流量进行精确分类，但是如果将协议逆向分析用于分析未知协议时，由于没有训练集，所以其基本给不了我们任何有效的建议。

4、本文贡献

本文的贡献主要在三个方面：载荷分割、候选词排序和结果评估。

作者设计了ProWord，一种轻量级的自动机制，其能自动并准确地从流量痕迹中提取最有可能是特征词的一系列字节序列。ProWord强调了两个方面的挑战：一方面是如何从流量痕迹中确定词界线以提取特征词，另一方面是如何对字节序列以特征词可能性的大小进行排序。

（1）针对第一个方面，解决方法主要是来源于自然语言的处理分类——使用改进的专家投票算法（modified voting experts）。举个例子，如果有这样一个报文：

“MAIL FROM:<[email protected]>\r\n”

那么专家投票算法会将其分割成

“MAIL FROM:<”, “[email protected]”,“gmail”, “.com”,“>\r\n”

而如果使用n-gram算法，例如3-gram算法，则会将其分割成为

{MAI, AIL,IL_, L_F, _FR, FRO, ROM, OM:, M:<, ...}

显然这样的分割方法不切实际，明显专家投票算法在分解这个报文要优于n-gram算法。但是专家投票算法存在内存限制，如果数据量过大的话会导致内存爆炸，所以作者通过过滤低频率字节序列的方法改进了专家投票算法，似的改进后的专家投票算法能够应用到一定规模的流量载荷中去。

（2）针对第二个方面，解决的方法主要来源于TF-IDF权重的信息检索算法，作者将这种想法应用到流量分析的过程中。ProWord根据不同规模的协议特征词打分，并且使用这些分数来将候选词进行排序，为了获取简洁的结果，ProWord会将多余的候选词过滤掉。

（3）使用了六种不同类型的协议对ProWord和n-gram算法进行了评估，结果显示ProWord提供了更加精确的特征词提取结果。

分割算法
1. 专家投票算法（Voting Experts）背景

这种算法是一种针对自然语言的自动化分割方法，通过操作滑动窗口大小，在一段连续的输入流中选择最有可能的界线位置进行词分割。我们利用这一点来验证该词是否为潜在的特征词。

专家投票算法将两个专家作为输入。第一个专家输入是单词内部信息熵，用HI来表示，且定义为：

HI (w) = −log P(w)

其中w指的是某个候选特征词，P(w)是w作为特征词的概率。那么一个数值低的HI则表明w很有可能是一个特征词。

第二个专家输入指单词界线信息熵，用HB来表示。HB定义为：