第三届THUCTF颁奖暨网络空间安全学术论坛纪要 20191103

标签:无 3305人阅读 评论(0)

第三届THUCTF颁奖暨网络空间安全学术论坛纪要 20191103 [邹羽婷、李白杨、黄彩云]

update:添加三位同学的分享slides.

11月3日参加了清华大学第三届THUCTF颁奖暨网络空间安全学术论坛,主要议题内容整理如下:

14:50-15:25 汪嘉来  清华大学网络安全实验室19级硕士研究生 欺骗AI:从定向到实际 [李白杨]

演讲人简介

汪嘉来,清华大学网络安全实验室19级硕士生,主要研究兴趣为AI安全,系统安全等。曾多次参与与网络空间安全相关的比赛、会议等。

内容摘要

随着人工智能的广泛应用,其安全性问题正在被给予越来越多的关注。对抗样本的出现,则进一步揭示了神经网络的脆弱性。我们致力于研究定向对抗样本生成技术。在我们的研究工作中,借鉴了传统软件中的定向模糊测试技术的思路,并提出了一套针对神经网络的定向模糊测试技术,能够在不借助模型内部知识的前提下,有效地生成定向对抗样本。进一步地,我们又在真实场景下展开了探索,从对抗样本的普适性与实际性出发,成功攻击了当下流行的目标检测系统。

主要内容分为两部分:
Part I:基于黑盒的定向攻击
背景:DNNs 被广泛应用,但容易受到对抗样本的攻击
  • 白盒攻击:已知模型内部的各项信息,参数等,模型完全透明。

  • 黑盒攻击:攻击者无法获取模型信息。

  • 定向攻击:采用能够定向攻击神经网络的样本,生成攻击者想要的判定结果。

传统程序漏洞挖掘
  • 基于定向的模糊测试(利用定向模块,向定向目标不断靠拢),将能够缩短与定向目标距离的样例送入种子池。

  • 想法:传统步骤中,添加神经网络模块,挖掘方式类似。

定向模块:不断靠近定向目标
  • 目标模块确定当前最近距离及种子等信息,由调度模块选择最优

  • 调度模块的调度策略有以下几种:

    • 1. 选择趋向于定向目标更近的种子;

    • 2. 新加入的种子,被选择的概率更高;

    • 3. 较少被挑选的,选择概率高;

    • 4. 随机抽样法,等等。

变异模块(改动原始的输入数据)
  • 加噪声,模糊化,平移等方式粒度较粗,效率低。毫无规律的变异类似于暴力破解,可能会改动原有最优种子的优势,离目标反而边远。

  • 解决方案:构建变异方向矩阵,在变异过程中接受控制而非随机。

    • 如何控制变异比例?必须接受距离值反馈的指导,由当前的距离值控制大小。

    • 动态调节比例陷入停滞怎么办?(陷入局部最优)强制性调整,越过该区域。发现并保留矩阵中的关键位置,实现再利用。

      • 构建变异大小矩阵,控制变异数值。

    • 通过以上方法,精细化控制变化,而非随机过程。

Part II:欺骗 YOLOv3
背景:目标检测系统,检测物体是什么,在什么位置
目标:希望对检测系统攻击具有普适性和通用性
问题1:如何产生恶意的Patch?
  • 系统开源,考虑针对白盒的算法优化过程。

  • 考虑优化目标:制定损失函数(loss)

  • 系统输出 = 置信度(是否存在物体)+ 预测类别概率分布(是什么物体?)+位置信息

    • 直观方法:改变置信度。 loss=置信度

    • 能否运用于实际场景?

      • 实际损失函数(考虑到可打印,非所有颜色都能 print):loss = 置信度 + 颜色损失项 + 平滑项

      • 优化函数确定,转化为传统的优化问题

问题2:如何训练?
  1. 处理 patch:增强鲁棒性(加噪声,旋转,改变亮度,对比度)在训练中适应。设计底图很重要(需要大量的经验和尝试)。

  2. 为目标添加 patch:非单 patch 训练,而是混合在目标中,添加到合适的位置上。

    由于实际情况下图片千奇百怪,取贴放位置是一个需要解决的问题,考虑照顾大多数情况,取 trade-off。

  3. 基于损失函数进行训练。

    1. 训练是否能够持续进行?

    • loss 难以降低,像素域值域为 [0,1],受限,转换优化对象到另一值域。

    • 选择新的优化对象,优化扰动。

  4. 通过一系列训练,调整参数,达到预期人物消失的目的。

个人体会

演讲者的思路非常清晰。从待解决的实际问题出发,考虑解决方案和思路,到每一步实施解决方案的时候又遇到哪些问题,是如何解决的。一步步娓娓道来,对整套解决问题的过程做了复现。对听众很友好,即使对他所介绍领域缺乏了解也能明白其中的处理流程。整体上来说,演讲者解决问题的方法以及介绍工作的方式都很值得借鉴。


15:25-16:00 郑晓峰  奇安信技术研究院研究员 最熟悉的陌生人:一种新型的HTTPS劫持技术 [邹羽婷]

演讲人简介

奇安信技术研究院研究员,羲和网络安全实验室负责人。从事网络基础设施、基础协议安全相关研究,研究成果发表在网络安全国际顶级学术会议USENIX Security、NDSS,获得NDSS 2016杰出论文奖。曾获Google浏览器安全计划奖励、GeekPwn(2015)46万元奖励、GeekPwn(2018)25万元奖励、TSRC通用软件漏洞10万元奖励等荣誉。研究成果帮助许多世界知名的互联网企业修复了安全漏洞,如Bank of America、Google、Facebook、Mozilla、Apple、Amazon、中国建行、中国银联、支付宝等,推动了Google公司修正Chrome,促进了IETF修改相关国际标准。

内容摘要

HTTPS是为保护“端到端”安全通信而设计的协议,保护数据的隐私性、完整性和可靠性。近年来,HTTPS已越来越多地部署于各类网站,例如银行、电子商务平台等,是当前互联网安全通信的基石。我们的最新研究发现,利用Web PKI的生态缺陷,攻击者可以绕过HTTPS相关的安全防护,破坏通信过程的安全性。针对这种新型攻击方法,我们对主流网站进行了测量,发现很多流行应用可被劫持,包括在线支付、第三方登录、应用和文件下载等,其中涉及的知名厂商包括微软、阿里巴巴、京东、百度和搜狐等。

主要内容

首先表示他们团队发现了一个新的HTTPS劫持漏洞,但这漏洞还在披露过程中,待修复,所以这次分享不包含具体技术细节,只是讲讲一讲研究背后的故事。

一开始展示了支付劫持、二维码劫持,展现了HTTPS下浏览器允许加载Mixed Passive Content 导致二维码的脆弱性,即虽然网站是HTTPS的,但是二维码图片是HTTP的。然后介绍了目前集中劫持HTTPS的方法,第一个是SSLstrip,劫持第一个 HTTP 请求,但是局限性很大,后来HSTS 强制浏览器访问 HTTPS,这个方法就失效了。第二个SSLStrip2号称可绕过 HSTS,假设浏览器不存在 HSTS 缓存并且第一个请求为 HTTP,但是在HSTS缓存周期内就没有攻击条件。第三个SSLstrip++任意时刻将HTTPS替换为HTTP,且无需HTTP等辅助条件。

最后他们发现的漏洞可以导致HTTPS 下的账号密码泄露:国内受影响的 HTTPS 域名由100w个FQDN和50w个SLD

因为没有提到具体技术细节,熊老师根据他的猜测问他们HTTPS的是否由于HTTP&HTTPS混用,但是主讲人说本质上和 cookie 有关,但不是 HTTP & HTTPS 混合的原因,在“手机干净,网站安全,链路加密”的情况下都可以实现劫持。

个人体会

演讲者对这个劫持没有分享具体的技术点,但我对他们是如何做到HTTPS的劫持非常好奇,希望后续能看到他们的相关工作。演讲者说他做这个工作还是源于一个课程作业,当你涉猎一个新的方向的时候或许不是预备开始,而是厚积薄发或广种薄收。我觉得可以多听听别人在做什么,他们是怎么做的,说不定会有新思路。


16:00-16:35 沈凯文 清华大学网络安全实验室 欲速则不达:CDN DDOS大炮 [邹羽婷]

演讲人简介

沈凯文,清华大学网络安全实验室硕士生,蓝莲花、Tea-Deliverers战队队员,主要研究兴趣为协议漏洞挖掘、APT攻防对抗、机器学习流量分析,具备丰富的安全研究及攻防渗透经验,曾多次在DEFCON等知名CTF竞赛中获奖,并曾在ISC、XCTF Final等知名会议分享相关安全技术议题与研究。

内容摘要

攻击者可利用CDN通用实现缺陷对任意部署Web服务的站点进行DDOS攻击。攻击者无需控制僵尸网络,仅通过较低配置的个人电脑、低带宽网络就可以发起大规模DDOS攻击,使对应的网站拒绝服务。

主要内容

这个工作通过协议漏洞挖掘来进行分享。

首先介绍这是一种新型DDOS攻击,攻击者可利用 CDN 通用实现缺陷对任意部署 web 服务站点进行 DDoS 攻击,并且无需控制僵尸网络,仅通过较低配置 PC和低带宽网络就可以发起大规模 DDoS攻击。利用 CDN 节点分布式回源,传统 DDoS 防御方案几乎失效,因为攻击受害者的都是他们自己的CDN节点,不能通过简单的IP黑名单进行过滤,且攻击者难以被溯源。与传统 DDoS 攻击的是入口带宽不同,该攻击主要攻击受害者的出口带宽(主)和连接数(辅),出口带宽在商业网络中是很贵的。还有一点是攻击危害大,影响范围很广,攻击者可以攻击CDN内部节点,若一个CDN崩溃了,所有部署在这CDN上的节点都将拒绝服务。

他们参加比赛,用这个攻击在二十几秒打出一万多个链接,业务带宽达到了3.2Gbps,出包率在26.3万个。

这个攻击方式的独特点在于CDN和目标攻击网站的以非常大的峰值流量在回流(回源),但是攻击者和CDN之间的流量很小,意思就是可以通过较少资源(低带宽速率)达到很好的攻击效果。个人觉得就是CDN就类似于放大器的效果,但没有伪造源IP,这是一个正常的通过CDN访问网页的过程。

接下来阐述了他们是如何发现此类攻击。首先从协议不一致性进行考虑,因为自然语言的歧义性,RFC存在模糊性和歧异,定义比较宽泛,现实生活中各有各的实现,比如存在畸形的HTTP头部有两个host的情况,而在收到两个host的畸形头部的情况下,apache 与 nginx 的解析结果是不同的。CDN想更快的加速网络,想更快地把客户端想要的资源放在CDN里,而HTTP在设计的时候并不是这样子的,只是为了点对点通信,CDN 为了急迫给客户端回源,做了过度优化,这个过度优化导致了这个漏洞。

如今的WEB网络环境非常复杂,包括浏览器,CDN,防火墙,负载均衡,IPS,流量分析,每一个软件都需要做HTTP解析,这里就存在两种问题,第一个是虽然RFC设计完善,但是大家实现的时候理解错了,导致出现问题,第二个是RFC本身有歧义,导致大家理解不一致,当这些理解不一致的实现级联之后会出现漏洞。

最后他讲了他们发现漏洞的大概流程,但是没有包含细节。他们做了一个相对自动化的测试框架,抽取了现实生活中的网络流量做去重,自己构造歧义的流量,在这个上面做了一些的欺骗,然后基于RFC 生成一些规则,再基于RFC做一些断言,然后整个喂入到现实的网络中,现实网络可能是通过CDN, 可能是他们自己搭建的系统,然后最终去做匹配,同样一个数据包在不同环境出现的结果是不一样的,这里就出现了理解的不一致,基于这些理解的不一致,就会发现新的问题。

在回答问题阶段,主讲人补充说他们发现的这个漏洞不是因为两个host头部造成的,是另外一个HTTP头造成的安全性的隐患,是由于RFC定义的很模糊,大家理解的不透彻导致的。他们这个漏洞主要打得是HTTP回流过来的大的流量。比如CDN在现实生活中存在大的图片和文件,主要靠回源,多个CDN级联之后造成很大的流量。

个人体会

他们实验室上一届一个学生发了一篇关于利用CDN做拒绝服务攻击的论文在NDSS上,拿了best paper。这个工作应该和上一个工作有延续和扩展,有空可以找一下这篇论文看一下。觉得一个团队都在做一件事情还是一件很让人向往的状态,出了问题可以有人商量,大家也可以一起讨论idea。这个分享的分享者思路很清晰,讲得也相对清楚,虽然不知道最重要的利用了什么漏洞,但是大概原理是知道了,堵塞上行带宽这一点让我觉得是最有趣的一个点,希望这个点对我有所启发。


16:35-17:10 杨皓 清华大学网络安全实验室 揭秘非法在线博彩那些不为人知的故事 [黄彩云]

演讲人简介

杨皓,清华大学网络安全实验室博士生,主要研究兴趣为互联网地下经济、网络犯罪、网络基础设施安全等,曾在IEEE S&P、USENIX Security、ACSAC等网络安全会议上发表论文。

发表论文

  1. Hao Yang, Xiulin Ma, Kun Du, Zhou Li, Hai-Xin Duan, XiaoDong Su, Guang Liu, Zhifeng Geng, Jianping Wu: How to Learn Klingon without a Dictionary: Detection and Measurement of Black Keywords Used by the Underground Economy. IEEE Symposium on Security and Privacy 2017: 751-769

  2. Xiaojing Liao, Kan Yuan, XiaoFeng Wang, Zhongyu Pei, Hao Yang, Jianjun Chen, Hai-Xin Duan, Kun Du, Eihal Alowaisheq, Sumayah A. Alrwais, Luyi Xing, Raheem A. Beyah: Seeking Nonsense, Looking for Trouble: Efficient Promotional-Infection Detection through Semantic Inconsistency Search. IEEE Symposium on Security and Privacy 2016: 707-723

  3. Kun Du, Hao Yang, Zhou Li, Hai-Xin Duan, Kehuan Zhang: The Ever-Changing Labyrinth: A Large-Scale Analysis of Wildcard DNS Powered Blackhat SEO. USENIX Security Symposium 2016: 245-262

内容摘要

非法在线博彩的泛滥对社会带来巨大的负面影响,很多国家均颁布了相关法律进行禁止。尽管如此,由于其所带来的巨大利润,非法在线博彩网站仍然蓬勃发展。本演讲将对中国的非法在线博彩产业链进行调研分析和追踪,揭秘那些隐藏在这些非法行业背后的故事。

主要内容

首先对非法在线博彩的背景进行了简要介绍,举了一些在线博彩网站的例子,从博彩的参与成员,到博彩网站的推广,到博彩网站本身,到存储,到人工客服,到第三方支付,完整介绍了非法在线博彩的黑产流程。

其次介绍提出的基于文本语义的非法博彩检测系统,能够通过给定一个域名,判断其是否是在线博彩网站。这里思路还是比较简单,就是利用机器学习监督学习分类器,对网页进行分类。在训练阶段,首先提取网页中的文本(titile、meta、body等标签),进行自然语言处理的基本处理过程(过滤非常用词,使用jieba分词,去除停用词、词性过滤等)提取出关键词之后,统计每个文档的词频;然后利用文档词频、信息增益等统计特征,提取特征,进行特征计算,在训练集(正常:博彩:色情 = 20:5:5)中进行训练;最终在SVM上达到检测准确率最高99.93%。

然后介绍利用上述实现的博彩网站分类器检测系统,对识别出来的大量博彩网站,进行测量分析。包括博彩域名(IP地址主要位于美国)、推广渠道(主要有博彩、色情、BlackhatSEO)、博彩项目类型(彩票类游戏在各类博彩网站中出现频次最高,分析是因为彩票类的时间短反馈快)、博彩游戏变化跟踪(在世界杯期间跟踪发现,70%+博彩站点出现了和世界杯相关的内容)、博彩站点中图片等资源的存储位置以及存储站点(本地、第三方图床、公共服务器、CDN)、基于新浪图床的博彩团伙识别(基于图床URL反查微博用户,定位犯罪团伙,而且有很多不仅做博彩,还薅羊毛,牵扯出一系列的地下黑产链条;利用公共的客服、支付链接、识别出6581个不同的博彩站点群)、博彩客服系统(第三方、社交论坛、社交工具、邮箱、电话等,基于客服联系方式提取,识别了1721个从业者QQ号)、支付工具(多种支付工具,支付宝占大头,不过比较小众的支付接口如京东金融也都支持)、收款账户跟踪(对100个网站监控一个月发现,一半左右更换了账户和支付工具,猜测可能是为了逃避审查)。

最终的系统检测成果,部署的168天来,检测域名2kw+个,检测出来包含博彩内容的13w-个,包含色情的8w+个。

个人感想

这里说一下对这个参会的整体感想吧。

整个会议其实是分两块,前面是他们清华内部的THUCTF竞赛颁奖仪式。本来以为没啥意思,就发奖状+照相。结果后面两个参赛选手说自己的参赛感想的时候,还是有点震惊了——第一名是一个大一新生。只能说,不愧是清华,能进清华的学生也都不简单。另外,让我这种CTF小白对CTF都有点感兴趣了,好像比赛很有趣的样子。

后面主要的学术会议报告,一共四个。

第一个讲得非常非常好,我这里就不说他讲的内容层面了,主要说一下他演讲的方式。首先他讲得非常的清晰易懂,即使是对他做的领域完全不了解的小白,也能够清楚的知道他做了一件什么事情,但如果仅仅是这个程度,可能还不算是讲得 "非常非常好" 。最重要的是,他讲述的过程,是他怎么产生这个 idea ,以及怎么思考这个方法的创新,以及思考方法过程中自然而然的遇到了哪些问题,以及自然而然的想到的哪些解决方案;提出的指标是什么,为什么会想到这个指标,为什么会提出这个指标,为什么这个指标不好使需要加上别的指标。他的讲述过程完整的还原了他的解决问题的思路,可以让听众非常自然的顺着他的思路听下来,他不仅是告诉听众这东西最后的结果是什么(如果直接去读论文的话,绝大多数论文都是只告诉你指标是什么,而不会有为什么选择这个指标的思路,以及中间走的哪些弯路,哪些指标失效了,只会告诉你最后选择的指标是什么),而是把为什么得到这个结果的思路过程都详细的描述了出来,非常非常不错。

第二个和第三个因为发现的问题影响范围广泛,还在和厂商各种协商处理中,所以没有怎么讲具体的技术细节,只能从他讲述的内容中猜测他们的方向。第二个HTTPS的的确信息量太少,并且对HTTPS不是很熟,不了解。第三个CDN的猜测方向倒是对了,不过私下问说关键不在于同时发起请求,关键在于放大,可能这个是他们发现的协议RFC实现不一致的关键问题导致的。

第四个说实话,从技术层面上说,整个思路很简单,也没有太多 trick 的地方,基本就是用了机器学习的那一套系统流程而其中提取的网页分类的特征,其实大多也是之前网页or网站分类中用到的,虽然有结合一点 NLP 分词的概念,不过其实也比较简单,感觉只是有现成的直接拿过来用了。后面的测量结果倒是有一些不错的成果,至少发现在线博彩团伙的这个,感觉是能够和现实联系起来,有一定社会价值的。


查看评论

暂无评论

发表评论
  • 评论内容:
      
首页
团队介绍
发展历史
组织结构
MESA大事记
新闻中心
通知
组内动态
科研成果
专利
论文
项目
获奖
软著
人才培养
MESA毕业生
MESA在读生
MESA员工
招贤纳士
走进MESA
学长分享
招聘通知
招生宣传
知识库
文章
地址:北京市朝阳区华严北里甲22号楼五层 | 邮编:100029
邮箱:nelist@iie.ac.cn
京ICP备15019404号-1