比特流协议分析与特征识别技术研究
概括:
随着互联网信息技术的不断更新和快速发展,大量僵尸网络和恶意通信的出现,严重威胁网络安全。尽管目前协议分析技术的发展已经相当成熟,但在没有先验知识的情况下分析纯比特流仍然很困难。使用现有的协议解析工具无法识别和分析未知协议。提出一种基于零先验知识的比特流协议分析与特征识别方法。该研究源于国家自然科学基金项目。本文研究了比特流协议数据分帧和多协议识别模型。在此设计的基础上,分离出的比特流单协议数据帧作为本文研究的基础。原始输入数据。本文引入特征序列位置信息作为协议特征提取的约束,形成特征序列及其位置信息的二维复合特征,解决了特征串重复性问题。通过设计特征选择算法,我们过滤掉能够识别协议中不同类型消息的特征字段的特征。特点是选择算法提取的维数最小的复合特征作为聚类属性,对协议数据进行聚类分析,将格式相似的消息聚类到一起。通过设计消息数据帧向量化算法,简化了聚类过程,避免了繁琐的计算。目前,将多方通信的数据流分离成点对点对存在问题。对于当事人通信的数据流几乎没有研究。本文以大量的通信协议数据为研究对象,提出了基于统计理论的协议特征识别方法和基于零知识的协议消息地址检测方法。通过该方法,检测协议的通信模式,添加多方通信的协议数量,根据点对点分离的消息数据,该方案在国外核心会议上发表。最后,在前期研究的基础上,推断出协议消息数据帧的模式。本文设计并实现了一种基于零知识的比特流协议识别系统,利用比特流协议数据集进行实验验证,并设计了实验评价指标。结果表明,本文提出的比特流协议数据识别方案通过引入特征域的偏移位置,约束了特征集的维数,减少了冗余数据,提高了协议识别的准确性。以ARP协议和ICMP协议为例,识别ARP报文类型的准确率和召回率可以达到100%,而对于ICMP协议可以达到98%。系统还可以检测协议报文中的主要特征,包括固定字段、协议报文类型识别字段和地址交叉字段,以及每个字段的边界长度。 ,有利于未知协议消息的分析和研究。
展开