作者 张东红 我国科学院软件研讨所 (北京 100864)
张东红,硕士生,曾取得“2012世界青年立异大赛”特等奖,以及“第十三届‘五四杯’大学生创业方案比赛”二等奖。
摘要:恶意代码对人们的作业和日子带来了严峻的要挟,对恶意代码进行检测也变得越来越重要。一种有用的恶意代码检测办法是学习机器学习技能,练习检测模型并运用其检测新样本中是否含有恶意代码。为到达此意图,运用操作码特征的检测办法近年来深受欢迎。用于高效、可装备地反汇编多种渠道多种格局类型的可执行样本,防止依据递归下降反汇编算法的 IDA Pro 遇到的各种问题;本文还从头规划和完结了 “飞鼠”恶意代码检测体系,自动化地收集、符号、处理样本,进步反汇编成功率。
1 “飞鼠”恶意代码检测体系
针对此问题,论文依据线性扫描反汇编算法完结了低精度的反汇编东西D-light,用于高效、可装备地反汇编多种渠道多种格局类型的可执行样本,防止依据递归下降反汇编算法的 IDA Pro 遇到的各种问题;论文还从头规划和完结了“飞鼠”恶意代码检测体系,自动化地收集、符号、处理样本,在兼容 IDA Pro的基础上,一起支撑线性扫描反汇编东西 D-light,并能够依据装备挑选相应算法完结恶意代码检测。论文经过试验剖析指出,运用线性扫描反汇编算法提取操作码特征,能够在答应必定程度的反汇编代码不精确的情况下,进步反汇编成功率,添加可利用的样本数目;练习数据集样本量的大幅添加能够补偿样本反汇编质量小幅度下降的丢失,终究逾越,或坚持,依据 IDA Pro 的检测模型的检测作用。试验中还发现,运用多项式核函数的支撑向量机分类算法在实践中有着更好的功能和运用价值。如图1和图2所示。
2 互联网与病毒开展现状
跟着计算机技能的高速开展和计算机网络的不断遍及,计算机和互联网现已深化到人们日常日子和作业的方方面面。依据我国互联网信息中心在2018年1月发布的《第41次我国互联网络开展情况计算陈述》,到2017 年12 月,我国网民规划达7.72亿,全年合计新增网民4074 万人,互联网遍及率达55.8%,比较较于2016年末提升了2.6%。一起我国在线政务服务用户规划到达4.85 亿,占整体网民的62.9%,经过支付宝或微信城市服务渠道取得政务服务的运用率为44.0% 。
日益快捷的网络互联环境和成熟的计算机技能,也为网络进犯的发生与传达供给了极大的便当条件,每年新增的软件数量呈现出持续性增加的趋势。在赛门铁克(Symantec)公司2010 年发布的安全陈述中指出,赛门铁克公司比较于2008 年捕获到169323 个新式软件,2009 年共捕获到了2895802个新式软件。依据我国互联网应急呼应中心(CNCERT/CC )在2017年5月发布的《2016 年我国互联网网络安全陈述》,CNCERT/CC 经过自主捕获以及与厂商交流取得的移动互联网恶意程序数量约205万个。
3 “飞鼠”的规划
依据特征码的静态恶意代码检测流程能够分为三部分,首要需求获取恶意代码,然后对现有已知的恶意代码进行特征剖析,提取相应的特征码;然后汇总收拾,将提取的特征码存入特征库;终究,在对不知道的可执行样本进行检测时,依据特征库中的特征码逐项进行匹配。假如待检测样本中包括特征库中的特征信息,则以为该样本是恶意代码,反之,则以为对错恶意代码。如图3。
4 “飞鼠”体系特征练习检测模型
在获取到包括恶意代码样本和非恶意代码样本的原始试验数据集,并进行预处理和数据集区分之后,对练习集数据首要运用线性扫描反汇编东西进行反汇编处理。然后从反汇编代码中提取操作码特征。在完结操作码特征提取之后,会首要依据练习会集操作码特征的数据特征挑选必定的操作码特征对样本进行向量化表明。终究将描绘样本的特征向量输入分类模型中进行练习,得到用于恶意代码检测的恶意代码检测模型。测验阶段,运用相同的线性扫描反汇编办法对不知道样本进行反汇编提取其操作码特征。依据练习阶段挑选出来的操作码特征子集对不知道样本进行向量化描绘。终究将该描绘向量输入到练习阶段得到的恶意代码检测模型进行检测,得到终究的恶意代码检测成果,恶意代码或许非恶意代码。
在恶意代码检测作业中,能够界说混杂矩阵(confusion matrix)来记载相应的检测成果数据。如表 1所示,TP 表明将恶意代码检测成为恶意代码的样本数,FP 表明非恶意代码检测成为恶意代码的样本数,FN 表明恶意代码检测成为非恶意代码的样本数,TN 表明非恶意代码检测成为非恶意代码的样本数。
5 定论
论文提出的解决方案,首要思维是经过练习样本数量的大幅增加来补偿操作码特征略微不精确的问题,所以在该解决方案中经过 D-light 反汇编东西获取很多略微有些不精确的反汇编代码提取操作码特征来练习恶意代码检测模型。在对反汇编代码的质量和数量对恶意代码检测功能影响的试验研讨中,经过运用D-light反汇编提取操作码特征练习得到的恶意代码检测模型与运用IDA Pro反汇编提取操作码特征练习得到的恶意代码检测模型进行比照剖析,发现运用 D-light反汇编提取操作码特征练习得到的恶意代码检测模型的检测功能更好一些,验证了本文提出的运用线性扫描反汇编算法提取操作码特征练习恶意代码检测模型的解决方案是有用和可行的。此外,在比照剖析试验中,本文还发现运用多项式核函数支撑向量机分类算法的恶意代码检测模型在实践中检测功能体现最好。
参考文献:
[1] 我国互联网信息中心.第 41 次我国互联网络开展情况计算陈述[J]. 我国经济陈述, 2017(4).
[2] Nataraj L,Karthikeyan S,Jacob G,et al.Malware images: visualization and automatic classification[C]//Proceedings of the 8th international symposium on visualization for cyber security. ACM, 2011: 4.Fossi M, Egan G, Haley K, et al. Symantec global internet security threat report[J]. Volume 1, 2010.
[3] Fossi M,Egan G,Haley K,et al.Symantec global internet security threat report [J]. Volume XVI, 2011.
[4] 国家计算机网络应急技能处理和谐中心.2016 年我国互联网网络安全陈述[M/OL].北京: 人民邮电出版社,(2017).http://www.cert.org.cn/publish/main/upload/File/2016_cncert_rep -ort.pdf.
本文来源于《电子产品世界》2018年第9期第75页,欢迎您写论文时引证,并注明出处。