这篇文章主要介绍如何利用深度学习检测恶意PowerShell,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
创新互联"三网合一"的企业建站思路。企业可建设拥有电脑版、微信版、手机版的企业网站。实现跨屏营销,产品发布一步更新,电脑网络+移动网络一网打尽,满足企业的营销需求!创新互联具备承接各种类型的网站设计制作、网站建设项目的能力。经过10余年的努力的开拓,为不同行业的企事业单位提供了优质的服务,并获得了客户的一致好评。
深度学习(deep learning)是机器学习大框架下的一类算法,在图像和文本分类等任务上,深度学习方法明显优于传统方法。随着发展,利用深度学习建立新的威胁检测方法具有很大的潜力。
机器学习算法使用数字模型,因此图像、文档或电子邮件等对象通过特征工程的步骤转换为数字形式,在传统的机器学习方法中,这需要大量的人力。通过深度学习,算法可以在相对原始的数据上进行操作,无需人工干预即可提取特征。
在本文中,我们提供了一个深度学习技术的示例,该技术最初是为自然语言处理(NLP)开发的,现在被采用并应用于检测恶意powershell脚本。
我们的目标是对powershell脚本进行分类,我们简要介绍在自然语言处理领域中如何处理文本分类。
一个重要的步骤是将单词转换成机器学习算法可以使用的向量(数字元组)。首先为词汇表中的每个单词指定一个唯一的整数,然后将每个单词表示为0的向量,其中1位于对应于该单词的整数索引处。尽管在许多情况下都很有用,但有明显的缺陷。所有的词之间都是等距的,词与词之间的语义关系并没有反映在对应向量之间的几何关系中。
上下文嵌入模型是一种较新的方法,它通过从数据中学习单词的上下文关系来克服这些限制。上下文嵌入模型是在像维基百科这样的大型文本数据集上训练的。word2vec算法是该技术的一个实现,它不仅能将词的语义相似度转化为向量的几何相似度,而且能保持词之间的极性关系。例如,在word2vec表示中:
由于训练一个好的模型需要大量的数据,我们使用了一个由386k个不同的未标记powershell脚本组成的大型多样的语料库。word2vec算法通常与人类语言一起使用,当应用于powershell语言时,它提供了类似的结果。我们将powershell脚本拆分为令牌,然后使用word2vec算法为每个令牌分配一个矢量表示。
图1显示了5000个随机选择的令牌的矢量表示的二维可视化,其中一些重要令牌高亮显示。注意语义相似的标记是放置在彼此附近的。例如,表示-eq、-ne和-gt的向量(在powershell中分别是“equal”、“not equal”和“greater than”的别名)聚集在一起。类似地,表示allsigned、remotesigned、bypass和unrestricted令牌的向量(它们都是powershell中执行策略设置的有效值)被聚集在一起。
通过检查标记的向量,我们发现了一些其他关系。
令牌相似性:使用令牌的word2vec表示,我们可以识别powershell中具有别名的命令。在许多情况下,最接近给定命令的标记是其别名。例如,令牌调用表达式Invoke-Expression及其别名IEX的表示形式彼此最接近。这种现象的另外两个例子是invoke webrequest及其别名iwr,以及get childitem命令及其别名gci。
我们还测量了几组标记之间的距离。例如,考虑四个标记$i、$j、$k和$true(请参见图2的右侧)。前三个通常用于表示数值变量,最后一个表示布尔常量。正如预期的那样,$ true令牌与其他令牌不匹配 ,它是距离群组中心最远的(使用欧几里德距离)。
更具体地说,对于网络安全中powershell的语义,我们检查了令牌的表示:绕过、正常、最小化、最大化和隐藏(参见图2的左侧)。虽然第一个标记是powershell中executionpolicy标志的合法值,但其余是windowstyle标志的合法值。正如预期的那样,bypass矢量表示距离相比其他四个标记的矢量的距离更远。
线性关系:由于word2vec保留线性关系,所以计算向量表示的线性组合会得到语义上有意义的结果。以下是我们发现的一些关系:
在上述每个表达式中,符号≈表示右侧的矢量与作为左侧计算结果的矢量最接近(在表示词汇表令牌的所有矢量中)。
我们使用前一节介绍的powershell语言的word2vec嵌入模型来训练能够检测恶意powershell脚本的深入学习模型。
分类模型使用标记为“clean”或“malicious”的powershell脚本数据集进行训练和验证,而嵌入模型则使用未标记的数据进行训练。流程如图3所示。
在Microsoft Azure中使用GPU计算,我们尝试了各种深度学习和传统ML模型。 与传统ML模型相比,性能最佳的深度学习模型将覆盖范围提高了22个百分点。 该模型如图4所示,结合了几个深度学习构建模块,如卷积神经网络(CNN)和长短期记忆递归神经网络(LSTM-RNN)。
自首次部署以来,深度学习模型高精度地检测到许多恶意和红色团队PowerShell活动。 通过PowerShell获得的信号与各种ML模型和Microsoft Defender ATP信号相结合,可以检测网络攻击。
以下是深度学习可以检测但对其他检测方法具有一定困难的恶意PowerShell脚本的示例:
以上是“如何利用深度学习检测恶意PowerShell”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注创新互联行业资讯频道!