2016年度Web漏洞统计之Exploit-db

2016年我们耳边经常想起“大数据”、“物联网”、“云”、“工控系统”等关键词，很多个厂家、行业都在热火朝天的做着“大数据”，随着2016年的过去，新的一年到来，让我们也针对web漏洞进行一次“大数据”分析。

众所周知的 https://www.exploit-db.com 是面向全世界黑客的一个漏洞提交平台，那么我们分析下2016年度web漏洞情况。

打开 https://www.exploit-db.com/webapps 后发现Web Application Exploits是一行行的漏洞列表。

每个漏洞都占有一行，显示漏洞的Date、Title、Platform、Author，可以点击Title查看详细的漏洞。

在查看了多个漏洞页面后可以看出，每个漏洞的页面可以由编号来区分的，而且编号是增量的。

于是，针对web漏洞的“大数据”分析思路如下：

1.编写python爬虫，把2016年的web漏洞进行数据爬取（目前来说网页爬虫主流一直是python，开发效率高，代码编写简单）

2.将python爬虫爬取的数据输出到excle

3.使用excle进行二次数据梳理，统计漏洞排行、开发语言、漏洞数量

4.图表展示，使用office任何工具均可

中间过程省略，文章末尾会发放python爬虫的部分代码。

以下便是2016年度根据 https://www.exploit-db.com 的数据统一出全球黑客的web漏洞“大数据”分析。

0X001各漏洞占有率

看来还是SQL注入漏洞最多，CSRF、CSS分别列第二、第三位。

0X002各漏洞对应的开发语言

还是开源的PHP问题最多，ASPX、Python的最少。

0X003每个月度的漏洞数量分布

2016年6月、10月漏洞提交数量最多，是因为黑客们放假在家无聊吗？

0X004世界黑客漏洞提交排行Top10

2016年度提交web漏洞的黑客有235人，其中有几位是中国人，以上是漏洞提交的黑客前10名，第11名与第10名并列。

0X005结尾

在文章结尾发放python爬虫源码：

#-*-coding:utf-8-*-
#爬取ebay网站页面，设置个数，并保存源码文件
#适用于URL后面有固定字符+数字的网站
import urllib 
import urllib2 
def getPage(url):    
   request = urllib2.Request(url) 
   response = urllib2.urlopen(request) 
   return response.read()     
url='http://www.ebay.com/sch/TShirts-/15687/i.html?Style=Basic%2520Tee&_dcat=15687&Color=Black' 
p=0 
#设置爬取的页面个数为5个
while p<5: 
   print ' =='+str(p+1)+'==start==' 
   result=getPage(url+'&_pgn='+str(p+1)) 
   txt='D:\\result'+str(p+1)+'.html' 
    f= open(txt,"w+") 
   f.write(result) 
   print ' =='+str(p+1)+'====end==' 
   p=p+1 
f.close()

另外，数据整理可以有很多方法，给各位读者留下一个小作业，如何在爬取数据后如何进行数据整理。

文章就到这里，各位再见！2017年到了，祝各位新年快乐！

*本文作者：youyou0635，转载请注明来自FreeBuf.COM

欢迎大家继续关注慧邮件邮件营销平台，也可以在我们的慧邮件官网了解更多邮件营销技巧，大数据知识，也可以通过电话：400-666-5494联系到我们，更多精彩知识、活动等着你。

首页>> 正文