|
|
|
目前,恶意网站通过不断变化域名以及IP地址的方式躲避追踪,以维持有害信息扩散。为此本文提出利用主被动结合的方式,对域名或IP时常会变化的恶意网站进行特征提取和识别。主动方式使用爬虫获取网站特征,包括标题、关键字、logo图片等信息,并记录作为网站的特征信息集。被动方式运用了众包的概念,通过接入某运营商流量获取不同人产生的多样化流量与特征信息集中的信息进行匹配并提取cookie、用户信息等额外的特征信息,后将所得结果补充进网站的特征信息集中。实验表明,在真实流量下,该方法对恶意网站的识别的真正类率为95.43%,负正类率为3.90%。
|