公務員期刊網 論文中心 正文

爬蟲網絡安全問題探討分析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了爬蟲網絡安全問題探討分析范文,希望能給你帶來靈感和參考,敬請閱讀。

爬蟲網絡安全問題探討分析

摘要:隨著新一代網絡信息技術的應用和服務越來越多,網絡信息安全事件頻繁爆發,網絡攻擊、病毒入侵、信息泄密等事件層出不窮。目前,大部分小型網站對于網絡安全重視不足,網絡安全風險意識比較薄弱,易引發一系列問題。通過一個簡單的網絡爬蟲案例測試某小型網站的安全性,通過網絡爬蟲技術分析、查找網絡安全問題的原因,并就防范網絡爬蟲提出了一系列安全策略,提高網絡風險意識。

關鍵詞:網絡爬蟲;網絡安全;安全策略

1關于網絡爬蟲概念與“爬取”過程

網絡爬蟲(WebSpider)又稱“網絡蜘蛛”,它能模擬正常用戶的一些行為,按照一定的規則自動抓取網絡中的各種信息。搜索引擎也是網絡爬蟲的一種,但是不影響網站的正常運行,也沒有任何惡意行為。而一些惡意的網絡爬蟲常常通過短時間內大量訪問等手段來消耗網絡資源,使網站的正常運轉出現問題,導致服務器崩潰等。大部分爬蟲程序通過預先設定一個隊列存放URL,在進行網頁爬取時,先從某一個或若干個URL開始,記錄該URL,再從該網頁上查找鏈接的其他URL放入隊列,不斷地從當前頁面查找新的URL,如此循環往復,直到滿足設定的停止條件。

2網絡爬蟲爬取某網站的案例與簡單分析

2.1預判某網站安全技術措施

現在很多網站在一定程度上做了一些安全防護,但是由于成本以及技術原因等,大部分小型網站的網絡安全策略比較薄弱,以一個爬蟲案例來測試一下某網站網絡安全問題。首先找到一個某詩詞網站上的內容,查看PC網站請求地址,https://xxx.cn/mingju/xx.aspx?p=2&t=&c=發現不同的頁面只是p=xx不同,xx=當前頁面值,當p<=30時,頁面顯示正常,但是當翻頁超過30頁時,系統返回了錯誤頁面,提示“因服務器開支對本站造成巨大壓力,請下載客戶端進行訪問”。說明系統還是針對大量數據做了一些安全策略性的限制,當請求超過30頁時提示使用手機APP來訪問。于是嘗試從APP上找破解方法,通過抓包工具PacketCapture成功找到了數據請求接口。

2.2進行爬蟲源碼編寫

2.3爬蟲源碼運行結果與安全分析

運行程序,包括朝代、作者、詩詞名稱、內容等都成功抓取,將結果保存成Excel文件。文件內容示例:桃李春風一杯酒,江湖夜雨十年燈。<--->黃庭堅《寄黃幾復》一生大笑能幾回,斗酒相逢須醉倒。<--->岑參《涼州館中與諸判官夜集》在本案例中,網站只做了客戶端的攔截,翻頁超過30頁就提示錯誤頁面,但是對于服務端接口沒有做流量訪問控制、身份(如Ip、瀏覽器特征)驗證,所以當通過抓包拿到請求接口后可以隨意請求獲得想要的數據。對于隱私性不強的網站可能并沒有特別重要的信息泄露,但對于涉及個人隱私等安全信息的網站,如果能隨意抓取數據,將會有很大的安全隱患。用不同的方式又測試了其他幾個網站,發現大部分網站雖然都做了一些網絡安全防護,但都做的比較簡單,對于信息安全的保護遠遠不夠。

3基于爬蟲的網絡安全風險及防范

3.1網絡安全風險

網絡安全做的不到位會有很多風險,例如,某個網站上有一個10MB的文件,使用爬蟲抓取該文件1000次,就會使網站產生大量出站流量,可能會使服務器癱瘓無法正常訪問。惡意爬蟲入侵的幾種方式:(1)通過測試網站或后門調試程序入侵。目前,大多數基于網頁服務的系統都附帶了測試頁面及調試用后門程序等,有些可以通過這些頁面或程序不經過正常的認證直接訪問服務器端的敏感數據,一旦這些敏感數據被有心人利用,可能會成為進行網絡分析與攻擊的源頭,出現各種安全問題。(2)通過管理接口入侵。為了方便管理,很多網絡平臺及系統都提供了基于網頁的管理接口,允許管理員對其進行遠程管理與控制。網絡惡意爬蟲程序通過搜索管理員登錄頁面獲得URL,而進行一系列的網絡爬取或攻擊,網絡安全得不到保護。(3)通過網頁直接搜索入侵。惡意網絡爬蟲程序直接通過互聯網搜索用戶的個人資料,例如用戶的姓名、電話、微信號、身份證號等個人隱私,惡意用戶獲取后有可能實施攻擊或詐騙。惡意網絡爬蟲極易對網絡造成攻擊,所以必須采取一定的手段來限制網絡爬蟲的訪問權限,一方面開放需要搜索引擎收錄的頁面,同時又對一些敏感頁面進行保護。

3.2限制網絡爬蟲的基本技巧

3.2.1對于程序本身的反爬策略大部分的爬蟲程序是對網站頁面的源文件進行爬取,如爬取靜態頁面的html代碼,對于動態的很難爬取。了解了爬蟲的原理,可以通過仿寫html,讓網站程序本身穿上“防爬外衣”進行偽裝。比如可以用其他技術去模仿寫html,這樣爬蟲就很難抓取到信息。類似這樣的技術還很多,就不一一舉例。

3.2.2對于數據包字段的反爬策略HTTP請求中的UserAgent字段能夠識別客戶使用的瀏覽器、引擎、操作系統、設備信息等。而爬蟲的UserAgent字段有它自己的特征,如百度搜索引擎爬蟲會有類似Baiduspider的字符串,Mozilla/5.0(compati-ble;Baiduspider/2.0;+www.baidu.com/search/spider.html))。通過對UserAgent特定字符的限制可以阻止此類爬蟲對網站的過度抓取。

3.2.3對于用戶行為的反爬策略爬蟲畢竟是機器人,和人的行為再像也會有區別。普通用戶很少會短時間內多次訪問同一頁面或者同一賬戶短時間內多次進行相同操作,這種行為基本可以判定為爬蟲。一般通過網站分析軟件可以過濾出爬蟲的IP和訪問頻率等,針對這種情況,可以采取適當的措施限制網絡爬蟲的訪問權限,例如可采用限制IP或訪問頻率的方式來阻止此類爬蟲,從而進行用戶行為的隱私保護,以保持網站的安全運行。

4結語

隨著全球信息化步伐的加快,安全問題刻不容緩,不僅涉及個人利益、企業生存、金融風險等問題,還直接關系到社會穩定和等諸多方面,了解網絡面臨的各種威脅,防范和消除這些威脅,已經成為網絡發展中最重要的事情之一。

參考文獻

[1]吳翰清.白帽子講Web安全.北京:電子工業出版社,2012.

[2]孫衛琴.Tomcat與JavaWeb開發技術詳解.北京:電子工業出版社,2009.

[3]劉馳,胡柏青,謝一.大數據治理與安全:從理論到開源實踐.北京:機械工業出版社,2009.

作者:畢艷華 高曉艷 張揚 單位:衡水市信息產業中心

主站蜘蛛池模板: 特黄特色大片免费播放路01| 99爱在线观看免费完整版| 韩国伦理s级在线| 日韩精品一区二区三区老鸦窝 | 香蕉视频在线观看免费| 最近免费中文字幕大全高清片| 国产精品jizz视频| 亚洲人成在线中文字幕| 亚洲资源最新版在线观看| 欧美三级蜜桃2在线观看| 国产精品三级av及在线观看| 亚洲人成人网站在线观看| 亚洲五月综合网色九月色| 最新国产乱人伦偷精品免费网站| 国产欧美在线一区二区三区| 亚洲AV无码国产精品麻豆天美| 国产香蕉一区二区精品视频| 日韩欧美综合在线| 国产亚洲真人做受在线观看| 中文字幕电影资源网站大全| 经典三级在线播放线观看| 小小视频最新免费观看| 亚洲视频在线观看不卡| 91精品国产高清久久久久| 欧美成人免费tv在线播放| 国产成人麻豆精品午夜福利在线| 久久国产精品偷| 精精国产xxxx视频在线播放| 奇米777视频国产| 亚洲日本一区二区三区在线不卡| 亚洲色图综合在线| 日本电影里的玛丽的生活| 国产人成在线视频| 丁香六月在线观看| 污污视频在线免费看| 国产激情久久久久影| 久久久久免费精品国产小说| 精品国产欧美另类一区| 在线观看免费av网站| 亚洲av日韩av不卡在线观看| 青青青青青国产免费手机看视频|