日前,数据安全领域的人工智能算法顶级赛事“CCF大数据与计算智能大赛·数字安全公开赛”圆满落幕。
奇点云数据安全团队DataBlack在“大数据平台安全事件检测与分类识别”赛题夺得冠军!
奇点云算法工程师:阿铮、步方
评委:清华大学计算机系研究员 陈康(右一)
CCF BDCI数字安全公开赛由中国计算机学会主办,大数据协同安全技术国家工程研究中心和CCF BDCI组委会联合承办。(CCF Big Data & Computing Intelligence Contest,即中国计算机学会大数据与计算智能大赛,简称CCF BDCI。)
赛聚焦数字安全领域的算法需求,提出“真问题”,给出“真数据”。自启动以来,共吸引了1582支战队报名参赛,四道赛题提交成果模型总数达5333次。决赛答辩现场,来自中科院、国家信息中心、清华大学等产学研各界的20多位专家评委,与来自海内外高校、企业、研究院的极客选手们齐聚,群雄逐鹿,共享这场“最强算法”盛宴。
北京科技大学计算机与通信工程学院教授、博导、中国计算机学会高级会员、中国计算机学会计算机安全专委会执行委员、颁奖致辞嘉宾陈红松这样评价奇点云DataBlack参赛队伍:“巧妙运用transformer技术,取得了很不错的效果,同时对业务场景也有很好的总结,落地性强。”
*“DataBlack”队名取自奇点云数据安全引擎DataBlack,下文代指本次参赛队伍。
赛题拆解:“行为基线”与“事件识别”双任务
面对大数据平台数据泄露、滥用或不可用等风险,基于大数据平台日志、平台网络流量等多源异构数据进行分析,可有效实现攻击行为的发现或预测,帮助保护企业数据安全。
在上述背景下,赛方针对“大数据平台安全事件检测与分类识别”一题提出如下要求:
根据赛方提供的无标签大数据平台日志数据,参赛队利用机器学习、深度学习、UEBA(User Entity Behavior Analytics,用户实体行为分析)等人工智能方法,构建系统用户使用大数据平台的行为基线和数据安全事件识别及分类模型。
可见,本赛题应拆解为两大子任务:
行为基线:捕捉用户在平台的正常行为模式形成基线,平台方可将实时操作分布与基线进行对比,直观识别偏离程度,以便分析判断。对于本赛题,也就是以日志数据为训练样本,推理出行为基线,绘制出行为模式的概率密度分布曲线,其本质上是一个时序预测的子任务。
事件识别:针对大数据平台(数据中台、数据云平台、数据仓库等),有六类常见的异常攻击事件,包括SQL注入攻击、差分攻击、重标识攻击、数据删除攻击、数据泄露攻击、加密勒索攻击。参赛模型应能快速地从日常事件中发现(识别)并分类异常。
成果速览:“异常攻击事件检测模型”,他们这样做
奇点云DataBlack团队将本次赛事的成果简称为“异常攻击事件检测模型”,它是一种兼顾攻击事件分类识别和基线行为预测的多任务深度学习模型,不仅能检测攻击事件发生的时间段、攻击事件类型,还能通过对比基线预测的正常行为与实际异常攻击行为,解析攻击事件的独特表现,增强模型的可解释性,为进一步的攻击反制策略做前置准备。
以SQL注入攻击为例:
SQL注入攻击一般指异常用户在事先定义好的查询语句结尾添加额外的SQL语句,以欺骗数据库服务器执行非授权的任意查询(把用户输入的数据误视为代码来执行,而未作校验)。具体而言,异常用户可能通过SQL注入攻击来请求获取数据库函数,并在获取函数后的短时间内开始获取大量的库表结构及具体的表内容。
这种异常的时序段行为从单个时间点来看,操作是正常的,但模型能够发现时序段的上下文关联性异常,在时序编码特征空间中,异常时序点的编码明显偏离了正常时序簇,从而完成异常事件的分析及识别。
谈及异常攻击事件检测模型的设计思路,队长步方介绍:“通过数据分析,我们探查到了赛方提供行为日志的强周期性,于是很快敲定了采用长时预测模型Autoformer(这是当时对周期信号拟合效果的SOTA model)作为时序信号的编码器和解码器。”
“为了同时完成识别分类、基线预测双任务,共享时序编码相关参数,我们在编码器后加入分类器做分类,解码器做回归。进一步,注意到基线预测的强上下文关联性、时序性,我们对异常指令做离群检测,创新性地采用DTW-F1的指标来衡量基线预测的准确性。”
最终,奇点云异常攻击事件检测模型在安全事件识别分类、行为基线预测两大任务中都有优异表现,准确度及效率均满足期望:
事件识别分类:基于赛方提供的评估方法Macro-F1(一种综合准确率、召回率的指标,把注意力集中在数据集而非仅在单个类别上,能有效衡量分类器性能),取得0.8756的分数,处于各参赛团队中的第一位。
行为基线:因赛方未提供基线的评估要求,DataBlack团队采用了Macro-DTW-F1指标自评。该指标更注重上下文关联性事件的准确性(而非着重关心单个指令发生在此时间节点的合理性),更匹配行为基线预测场景,最终评分为0.9467。
难点攻关:懂实践的工程师,更能把算法用好
回顾本次赛题的难点,子任务一(通过大数据平台日志数据,对数据安全事件识别分类)因匹配信息相对较少,分析过程更为复杂,对工程师们提出了数据安全业务理解及数据分析能力的要求。
“赛方提供的数据是无标签的,这可能是识别分类这题最大的难点。而实际上,在企业实践场景中(也就是我们服务客户时),企业的日志数据通常就是没有标签的。”步方谈到,“这要求我们不仅了解企业大数据平台常见异常事件的特征,还要对数据有敏感度,有简明有效的数据分析方法,能结合赛方提供的异常时间段的先验知识,方才能确定异常事件分类。”
子任务二(构建系统用户使用大数据平台的行为基线)则相对容易被忽略。在多轮激烈的比赛中,赛方其实并未针对基线做出评分考核,看似不影响评审结果。而在实际的企业场景里,生成安全行为基线对异常行为的解释分析及处理策略的制定极为重要。
“举个简单的例子,当新的行为发生,通过与正常行为基线的对比,我们就能快速判断情况。”步方解释到,“因此,我们采用多任务学习的架构,在算法设计上既考虑了共享时序特征,又考虑了一个模型中完成异常分类和基线预测两种任务。同时,我们采用的深度学习模型能进行增量学习和在线学习,更匹配实际场景中应用的需要。”
大赛落幕同期,“异常攻击事件检测模型”也已完成产品化改造,嵌入奇点云数据安全引擎DataBlack。
基于“异常攻击事件检测模型”,DataBlack能实时比对用户行为现状与正常基线,帮助大数据平台(例如数据云平台DataSimba)识别异常,标注出异常时间及问题所在,并按配置进行告警,进一步强化数据全生命周期安全管控能力。
站在技术与商业的交叉点上,奇点云极客们对大数据与人工智能领域的探索仍将继续。
关于奇点云
StartDT奇点云是独立第三方数据科技集团,旗下拥有“奇点云”、“GrowingIO”两大品牌,专注为客户构建统一开放、中立安全的数据云和全域全场景、智能易用的分析云,协同客户全场景赋能商业决策,实现降本增效。至今,已服务1500+客户,覆盖泛零售、制造、金融、政企等领域,陪伴客户成功实践数字化转型。
自创立以来,奇点云始终践行数据安全准则,从数据采集、数据存储计算、数据加工到数据应用,帮助客户完成全链路、全场景、全智能的数据全生命周期安全管控。
奇点云的数据产品曾入选中国信通院发布的《数据安全产品与服务图谱2.0》数据安全通用类产品、数据安全综合类产品双领域。其中,数据安全引擎DataBlack能覆盖98%以上的企业安全场景,达到接入零信任环境的标准,为企业创造可靠、可信、可控的数据流动空间。