2016年我们耳边经常想起“大数据”、“物联网”、“云”、“工控系统”等关键词,很多个厂家、行业都在热火朝天的做着“大数据”,随着2016年的过去,新的一年到来,让我们也针对web漏洞进行一次“大数据”分析。
众所周知的 https://www.exploit-db.com 是面向全世界黑客的一个漏洞提交平台,那么我们分析下2016年度web漏洞情况。
打开 https://www.exploit-db.com/webapps 后发现Web Application Exploits是一行行的漏洞列表。
每个漏洞都占有一行,显示漏洞的Date、Title、Platform、Author,可以点击Title查看详细的漏洞。
在查看了多个漏洞页面后可以看出,每个漏洞的页面可以由编号来区分的,而且编号是增量的。
于是,针对web漏洞的“大数据”分析思路如下:
1.编写python爬虫,把2016年的web漏洞进行数据爬取(目前来说网页爬虫主流一直是python,开发效率高,代码编写简单)
2.将python爬虫爬取的数据输出到excle
3.使用excle进行二次数据梳理,统计漏洞排行、开发语言、漏洞数量
4.图表展示,使用office任何工具均可
中间过程省略,文章末尾会发放python爬虫的部分代码。
以下便是2016年度根据 https://www.exploit-db.com 的数据统一出全球黑客的web漏洞“大数据”分析。
0X001各漏洞占有率
看来还是SQL注入漏洞最多,CSRF、CSS分别列第二、第三位。
0X002各漏洞对应的开发语言
还是开源的PHP问题最多,ASPX、Python的最少。
0X003每个月度的漏洞数量分布
2016年6月、10月漏洞提交数量最多,是因为黑客们放假在家无聊吗?
0X004世界黑客漏洞提交排行Top10
2016年度提交web漏洞的黑客有235人,其中有几位是中国人,以上是漏洞提交的黑客前10名,第11名与第10名并列。
0X005结尾
在文章结尾发放python爬虫源码:
#-*-coding:utf-8-*- #爬取ebay网站页面,设置个数,并保存源码文件 #适用于URL后面有固定字符+数字的网站 import urllib import urllib2 def getPage(url): request = urllib2.Request(url) response = urllib2.urlopen(request) return response.read() url='http://www.ebay.com/sch/TShirts-/15687/i.html?Style=Basic%2520Tee&_dcat=15687&Color=Black' p=0 #设置爬取的页面个数为5个 while p<5: print ' =='+str(p+1)+'==start==' result=getPage(url+'&_pgn='+str(p+1)) txt='D:\\result'+str(p+1)+'.html' f= open(txt,"w+") f.write(result) print ' =='+str(p+1)+'====end==' p=p+1 f.close()
另外,数据整理可以有很多方法,给各位读者留下一个小作业,如何在爬取数据后如何进行数据整理。
文章就到这里,各位再见!2017年到了,祝各位新年快乐!
*本文作者:youyou0635,转载请注明来自FreeBuf.COM
欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。