瑞数信息AI冠军团队:加速人工智能在网络安全技
在刚刚结束的“第三届中国人工智能大赛”上,冲出了一支“黑马”冠军战队——来自瑞数信息的AI团队,从164支参赛战队中突出重围,勇夺网络安全方向A级冠军。
作为一场含金量非常高的公开技术赛事,“中国人工智能大赛”由国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局、厦门市人民政府联合主办,至今已成功举办两届,累计一千余支团队参赛报名,囊括了海内外顶尖的技术企业、高校科研院所同台竞技。
本届大赛亦是高手如云,竞争异常激烈。“网络安全”作为三大赛题方向之一,吸引了国内大部分的头部安全公司和安全创新企业参赛,代表了业内的领先水平。
令人意外的是,作为冠军战队,瑞数信息AI团队竟然是第一次参与公开赛事。这支神秘的冠军战队是如何诞生的?他们采用了哪些技术和策略成功破题?又是如何看待AI技术在网络安全领域的应用?接下来就让我们为大家大赛背后的故事。
赛事回顾以AI技术检测识别Webshell攻击
本届大赛网络安全方向的比赛任务是“检测文件数据是否为可用于网络攻击的Webshell文件”。主办方会提供不少于10万条的文件样本数据集,以供参赛战队比拼对样本数据集中Webshell文件的检测能力,通过检出评价+误报评价两大评判标准数值相加,按总分高低排序决定最终名次。
熟悉网络安全领域的人都知道,Webshell是威胁Web应用安全的一大顽疾。基于隐秘性、基于脚本、灵活便捷、功能强大等特点,Webshell被网络攻击者当作网站后门工具使用,以实现维持对攻陷服务器的长期远程接入能力。,及时检测和发现Webshell能有效阻断很多潜在攻击,大大提升网络安全,Webshell检测识别能力也由此成为企业安全防御的重点。
正因如此,本届大赛将“Webshell的检测能力”作为赛题,具有非常强的现实意义。而这样的赛题,对于活跃在网络安全领域的各大厂商而言,也是一个常规题。目前几乎所有的安全厂商都已跟进了以AI检测Webshell的技术,但如何答好这道题,则显示了厂商背后的AI实力。
据瑞数信息AI团队介绍,AI检测技术主要涉及到三个方面特征提取、模型构建和训练调参。
特征提取包括数据清洗和特征工程,主要难点在于从已知样本数据中提取合适的数据特征作为模型输入,特征工程是影响模型效果最关键的因素。
模型构建需要根据实践经历了解不同模型的使用场景和优劣特征,难点在于针对不同特点的数据构建合适的模型,更有效地学习数据内在特征,发挥模型优势。
训练调参针对模型构建结束后,训练过程中设定合适的模型超参数,难点在于需要通过不断的经验积累,设定的超参数使模型在特定数据集下达到最优效果。
游刃有余瑞数AI融合深度学习模型
在本次比赛中,由于主办方提供的检测目标为PHP和JSP脚本混合数据,不同语言脚本特征不一样,需要设计不同算法进行检测,,瑞数信息AI团队在构建Webshell检测模型时,结合不同的数据类型,采用了将不同模型相结合的融合深度学习模型。在检测前会对脚本进行区分,再通过合适的模型进行检测。
事实上,瑞数信息AI团队日常研究的Webshell脚本远不止PHP和JSP两种,这也成为AI团队在比赛中游刃有余的底气。
,主办方提供的测试集数据量远大于本地训练集,容易出现过拟合情况,导致检测效果较差。,在实际比赛中,主办方只提供了少量黑白样本,这使得各大战队构建的模型几乎没有调优空间,只能根据主办方黑白样本的大致比例做相应的判断调整。在模型调优上也需要足够的实战经验。
对此,瑞数信息AI团队的方案是在训练数据集上通过增加模拟数据集,对数据集进行增强处理;在模型上,尽量简化模型结构,在网络结构中不设计过深的层级,加入dropout层并调整合适比例,加入正则化等提升模型泛化效果。
在瑞数信息AI团队看来,这次大赛比拼的是综合能力,模型效果的呈现是多方面结合的成果
,在数据量上,通过在实践中不断积累,收集更多更完备的训练数据集,使模型学习的数据更具代表性,具备更强的泛化效果;,在经验上,通过对Webshell脚本更深入的理解和实践,对样本数据进行更有效的特征工程,强化模型效果;,在算法模型上,构建合适的模型结构,调整合适的模型超参数,使模型在训练集上有最优的效果。
实战价值进阶的瑞数AI检测技术
考虑到赛事提供的样本可能有一定局限性,那么瑞数信息在本次比赛中展现的AI检测能力,是否具备实战价值,能否在实际攻防中得以应用?
据瑞数信息AI团队介绍,本次赛事主办方提供的PHP和JSP两种类型的Webshell脚本,在实际攻击中都是常见且具有代表性的脚本。,本次大赛各大战队展现的AI检测能力,完全能够应用到网络攻防实战中。
事实上,通过AI算法对Webshell进行检测,是近年来网络安全领域一种领先的技术应用,通过大量的训练样本,针对提取的特征自动发现其内在联系,自动学习Webshell和正常样本的分布差异。
AI检测方法的诞生,很大程度源于网络威胁不断升级,传统Webshell检测方法已捉襟见肘。常见的Webshell检测方法有两种静态检测和动态检测。其中,静态检测是先建立一个恶意字符串特征库,通过与特征库的比对检索出高危脚本文件。但这种方法容易误报,无法对加密或者经过特殊处理的Webshell文件进行检测。动态检测则是通过行为模式深度检测脚本文件的安全性,对于新型变种脚本有一定的检测能力,但针对特定用途的后门较难检测。
瑞数信息AI团队表示,静态检测和动态检测大部分是建立在安全专家对Webshell脚本深入理解的情况下提炼的关键特征,这项工作非常耗时,维护起来也是一项极其繁琐的工作。即便如此,依然有检测不到的时候。
基于AI检测Webshell能克服传统Webshell检测方式的单一性和滞后性,对未知数据具备一定的识别效果,能很好处理通过加密编码等绕过静态检测的Webshell,作为现有检测方式的有力补充,可以有效提升实际检测效果。
实至名归的AI冠军团队
网络推广
- 5g网络有多快:5g网络网速有多快
- dota2无法连接至steam网络 为什么无法连接dota2网络
- 无线网络信号接收器 无线网络信号接收器怎么用
- 网络延时是什么意思 网络延时是什么原因
- 无线网络不可用:无线网络不可用是什么原因
- 网络广告销售技巧 网络广告销售技巧有哪些
- 智能手机网络设置 智能手机网络设置在哪里
- 为什么找不到无线网络 为什么找不到无线网络信
- 网络这么赚钱:网络怎么能赚到钱
- 为什么无线网络连接不上 为什么无线网连不起来
- 网络上的人际交往 网络上人际交往的优势
- 支付宝网络系统异常 支付宝显示网络异常什么时
- 营销软件:营销软件有哪些
- 无法访问您要使用的功能所在的网络位置
- 网络安全基本知识 网络安全基本知识有哪些
- 什么网络电话最好用 什么网络电话最好用最便宜