【人工智能安全实践】基于KNN算法检测WebShell

大家好！又见面了。想必很多朋友都参加过护网，很多刚入行的小白都是整天哭着喊着要当红队，对蓝队技术嗤之以鼻。装个Kali用几个所谓的黑客工具当个脚本小子，一点原理都不懂，虚拟机里YY一下就觉得流弊了。。。。就当黑客了？对不起，请尊重黑客二字，也请广大培训机构不要贬低黑客。你不行就说你不行，但是不要忽悠韭菜，人家的钱也不是大风刮来的

今天我们聊聊蓝队，蓝队在很多人眼里就是看监控，看场子的稻草人，实在不行拔网线。98%都是厂商抓壮丁学个Linux命令就上前线去了。偶尔蓝队也有那么一两个大神，看场子要不真镇不住。今天我们就说说如何成为蓝队大神的开挂姿势。跟大家分享一下案例，不会人工智能的安全人员不是一个好司机。今天我们就用人工智能技术检测红队的异常操作。

0x1 WebShell介绍

1.1 什么是WebShell?

WebShell，顾名思义：Web指的是在Web服务器上，而Shell是用脚本语言编写的脚本程序，WebShell就是就是Web的一个管理工具，可以对Web服务器进行操作的权限，也叫WebAdmin。WebShell一般是被网站管理员用于网站管理、服务器管理等等一些用途，但是由于WebShell的功能比较强大，可以上传下载文件，查看数据库，甚至可以调用一些服务器上系统的相关命令（比如创建用户，修改删除文件之类的），通常被黑客利用，黑客通过一些上传方式，将自己编写的WebShell上传到Web服务器的页面的目录下，然后通过页面访问的形式进行入侵，或者通过插入一句话连接本地的一些相关工具直接对服务器进行入侵操作。

1.2 WebShell如何上传

1.解析漏洞上传

现在对于不同的web服务器系统对应的有不同的web服务端程序，windows端主流的有iis，linux端主流的有nginx。这些服务对搭建web服务器提供了很大的帮助，同样也对服务器带来隐患，这些服务器上都存在一些漏洞，很容易被黑客利用。

(1)iis目录解析漏洞

比如：/xx.asp/xx.jpg

虽然上传的是JPG文件，但是如果该文件在xx.asp文件夹下，那个iis会把这个图片文件当成xx.asp解析，这个漏洞存在于iis5.x/6.0版本。

(2)文件解析漏洞

比如：xx.asp;.jpg。在网页上传的时候识别的是jpg文件，但是上传之后iis不会解析;之后的字符，同样会把该文件解析成asp文件，这个漏洞存在于iis5.x/6.0版本。

(3)文件名解析

比如：xx.cer/xx.cdx/xx.asa。在iis6.0下，cer文件，cdx文件，asa文件都会被当成可执行文件，里面的asp代码也同样会执行。（其中asa文件是asp特有的配置文件，cer为证书文件）。

(4)fast-CGI解析漏洞

在web服务器开启fast-CGI的时候，上传图片xx.jpg。内容为：

<?php fputs(fopen('shell.php','w'),'<?php eval($_POST[shell])?>');?>

这里使用的fput创建一个shell.php文件，并写入一句话。访问路径xx.jpg/.php，就会在该路径下生成一个一句话木马shell.php。这个漏洞在IIS 7.0/7.5，Nginx 8.03以下版本存在。语言环境：PHP，prel，Bourne Shell，C等语言。

*注：fast-CGI是CGI的升级版，CGI指的是在服务器上提供人机交互的接口，fast-CGI是一种常驻型的CGI。因为CGI每次执行时候，都需要用fork启用一个进程，但是fast-CGI属于激活后就一直执行，不需要每次请求都fork一个进程。比普通的CGI占的内存少。

(5)apache解析漏洞

apache解析的方式是从右向左解析，如果不能解析成功，就会想左移动一个，但是后台上传通常是看上传文件的最右的一个后缀，所以根据这个，可以将马命名为xx.php.rar，因为apache解析不了rar，所以将其解析为php，但是后台上传点就将其解析为rar，这样就绕过了上传文件后缀限制

2.截断上传

在上传图片的时候，比如命名1.asp .jpg(asp后面有个空格)，在上传的时候，用NC或者burpsuite抓到表单，将上传名asp后面加上%00（在burpsuite里面可以直接编辑HEX值，空格的HEX值为20，将20改为00），如果HEX为00的时候表示截断，20表示空格，如果表示截断的时候就为无视脚本中的JPG验证语句，直接上传ASP。

3.后台数据库备份

在一些企业的后台管理系统中，里面有一项功能是备份数据库（比如南方cms里面就有备份数据库的功能）。可以上传一张图片，图片里面含有一句话木马，或者将大马改成jpg格式，然后用数据库备份功能，将这张图片备份为asp等其他内容可以被解析为脚本语句的格式，然后再通过web访问就可以执行木马了，但是这种方法很老了，现在大多数的cms已经把这种备份的功能取消了，或者禁用了。

4.利用数据库语句上传

(1) mysql数据库into outfile

这种方式的前提必须是该网站有相应的注入点，而且当前用户必须要有上传的权限，而且必须有当前网页在服务器下的绝对路径。方法是用联合查询，将一句话木马导入到网站下边的一个php文件中去，然后使用服务端连接该网站。但是上述方法条件过于苛刻，一般遇到的情况很少。

(2)建立新表写入木马

一些开源cms或者自制的webshell会有数据库管理功能，在数据库管理功能里面有sql查询功能，先使用create table shell(codetext);创建一个名字叫做shell的表，表里面有列明叫做code，类型为text。然后使用insert into shell(code) values(‘一句话马’)，这里讲shell表中的code列赋值为一句话的马，然后通过自定义备份，将该表备份为x.php;x然后就被解析成为php然后执行了，这里不是x.php;x就一定能够解析为php，不同的web服务器上面的服务程序不同，然后过滤规则也不同，可能会使用其他的方式。

(3)phpMyadmin设置错误

phpMyadmin用来管理网站数据库的一个工具，其中config.inc.php为其配置文件，在查看的该文件的时候，如果$cfg[‘Servers’][$i][‘auth_type’]参数的值设置没有设置（默认为config）说明在登陆数据库的时候没有做相应的验证，可以直接连入数据库，而且在Mysql在一些版本下面默认登陆都是以root用户进行登陆（即管理员），所以登陆进去为最大权限。但是root一般只能本地登陆，所以必须创建一个远程登陆用户。用远程登陆用户登陆之后，创建一个表，然后再将一句话木马写入。

0x2 KNN算法介绍

2.1 KNN算法概述

KNN可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一，注意KNN算法是有监督学习中的分类算法，它看起来和另一个机器学习算法Kmeans有点像（Kmeans是无监督学习算法），但却是有本质区别的。那么什么是KNN算法呢，接下来我们就来介绍介绍吧。

2.2 KNN算法原理

KNN的全称是K Nearest Neighbors，意思是K个最近的邻居，从这个名字我们就能看出一些KNN算法的蛛丝马迹了。K个最近邻居，毫无疑问，K的取值肯定是至关重要的。那么最近的邻居又是怎么回事呢？其实啊，KNN的原理就是当预测一个新的值x的时候，根据它距离最近的K个点是什么类别来判断x属于哪个类别。听起来有点绕，还是看看图吧。

图中绿色的点就是我们要预测的那个点，假设K=3。那么KNN算法就会找到与它距离最近的三个点（这里用圆圈把它圈起来了），看看哪种类别多一些，比如这个例子中是蓝色三角形多一些，新来的绿色点就归类到蓝三角了。

但是，当K=5的时候，判定就变成不一样了。这次变成红圆多一些，所以新来的绿点被归类成红圆。从这个例子中，我们就能看得出K的取值是很重要的。

明白了大概原理后，我们就来说一说细节的东西吧，主要有两个，K值的选取和点距离的计算。

2.3 KNN特点

KNN是一种非参的，惰性的算法模型。什么是非参，什么是惰性呢？

非参的意思并不是说这个算法不需要参数，而是意味着这个模型不会对数据做出任何的假设，与之相对的是线性回归（我们总会假设线性回归是一条直线）。也就是说KNN建立的模型结构是根据数据来决定的，这也比较符合现实的情况，毕竟在现实中的情况往往与理论上的假设是不相符的。

惰性又是什么意思呢？想想看，同样是分类算法，逻辑回归需要先对数据进行大量训练（tranning），最后才会得到一个算法模型。而KNN算法却不需要，它没有明确的训练数据的过程，或者说这个过程很快。

0x3 实战案例分析

黑客WebShell攻击流程

3.1 ADFA数据集介绍

系统调用序列被广泛认为是基于异常的系统在检测入侵的时候的最准确的方式。
ADFA数据集是澳大利亚国防学院（缩写为ADFA）对外发布的一套主机级入侵检测系统的数据集合，被广泛应用于入侵检测类产品的测试。数据集内已经将各类系统调用完成了特征化，并针对攻击类型进行了标注。

1. Hydra-FTP：FTP暴力破解攻击
2. Hydra-SSH：SSH暴力破解攻击
3. Adduser
4. Meterpreter：the uploads of Java and Linux executable Meterpreter payloads for the remote compromise of a target host
5. Webshell：privilege escalation using C100 webshell

3.2 数据集特征分析

在进行特征工程之前，我们先尝试对训练数据集进行一个简要的分析，尝试从中发现一些规律辅助我们进行后续的特征工程

1. syscall序列长度

序列长度体现了该进程从开始运行到最后完成攻击/被攻击总共调用的syscall次数，通过可视化不同类别label数据集的Trace length的概率密度曲线（PDF）

可以看到，Trace length大致分布在【100：500】区间，但是我们并没有找到明显的分界线/面来区分这些不同的label样本，这说明Trace length可能不会是一个好的特征

2. 从词模型角度看样本集中不同类别label的数据中是否存在公共模式

这一步本质上是在考虑样本数据集是否线性可分，即样本中包含的规律真值是否足够明显，只有数据集本身是线性可分的，才有可能通过算法建模分析

样本集中的syacall本质上就是一个词序列，我们将其2-gram处理，统计词频直方图

我们发现，在Adduser类别中，“168 168”、“168 265”这2个2-gram序列出现的频次最高，而在Webshell类别中，“5 5”、“5 3”这2个2-gram出现的频次最高。这从一定程度上表明两类数据集在2-gram词频这个层面上是线性可分的。

0x4代码分析

4.1 加载ADFA-LD中的正常样本数据

def load_adfa_training_files(rootdir):    x=[]    y=[]    list = os.listdir(rootdir)    for i in range(0, len(list)):        path = os.path.join(rootdir, list[i])        if os.path.isfile(path):            x.append(load_one_flle(path))            y.append(0)    return x,y

定义遍历目录下文件的函数

def dirlist(path, allfile):    filelist = os.listdir(path)    for filename in filelist:        filepath = os.path.join(path, filename)        if os.path.isdir(filepath):            dirlist(filepath, allfile)        else:            allfile.append(filepath)    return allfile

从攻击数据集中筛选和WebShell相关的数据

def load_adfa_webshell_files(rootdir):    x=[]    y=[]    allfile=dirlist(rootdir,[])    for file in allfile:        if re.match(r" ./data/ADFA-LD/Attack_Data_Master/Web_Shell_d+/UAD-W*",file):            x.append(load_one_flle(file))            y.append(1)    return x,y