国产成人一区二区三区免费看,欧美亚洲,影音先锋青青AV日韩,试看120秒做受小视频免费,久久综合成人精品亚洲另类欧美,男女啪啪免费观看的AV,日韩精品一区二区三区在线视频,国产一级久久久久毛片精品,日本精品成人一区二区三,尤物AV网址在线观看

Loading
Tenet Researchs
天衡研究 | 數據安全合規之爬蟲篇(一):什么是網絡爬蟲技術

2021-08-09 17:47:41



隨著“大數據時代”的來臨,數據資源的價值日益凸顯,很多互聯網公司利用網絡爬蟲技術獲取數據資源,開展商業模式創新,其中取得成功的案例不在少數。例如,今日頭條利用數據算法開啟新聞精準推送;Facebook運用數據精準推送廣告等。然而,隨著網絡爬蟲技術的普及應用,潛藏其中的法律風險不斷爆發。2019年被稱為“爬蟲入刑”元年,這一年,摩羯科技、新顏科技、公信寶、同盾科技等諸多大數據公司因“爬蟲業務”被查,公司高管紛紛被警方拘走;大量以爬蟲為主營業務的公司倒閉,互聯網企業聞“爬蟲”色變,噤若寒蟬!
 
到底什么是網絡爬蟲技術?網絡爬蟲技術能不能使用?爬蟲協議是否有法律效力?網絡爬蟲技術和數據安全的法律邊界在哪里?使用網絡爬蟲技術會不會觸發不正當競爭?如何做好網絡爬蟲技術的合規運營?為討論上述問題,筆者將于近期推出系列文章,旨在回應社會關切,為讀者解疑釋惑,助力互聯網企業合規運營。
 
本篇為系列文章第一篇:什么是網絡爬蟲技術?
 
一、爬蟲技術的概念和基本原理
 
網絡爬蟲技術(Web Crawler),也被稱為網絡蜘蛛,蜘蛛爬蟲(Web Spider),其本質是一段編程程序,通過該段編程程序,可以將某個網站的信息,按照編程指定的規則提取對應的網頁數據,并下載到本地形成互聯網網頁鏡像備份的程序。網絡爬蟲技術最早運用于搜索引擎,百度搜索、谷歌搜索的技術本質都是網絡爬蟲技術。
 
網絡爬蟲技術的基本原理是,首先設定需要爬取的目的,根據目的尋找對應爬蟲網站的統一資源定位符(簡稱為“URL”),訪問URL的對應網頁并進行頁面解析,提取該URL上所有的URL,進行二次訪問和二次頁面解析;如二次訪問的URL網頁還存在URL,再次提取所有的URL,并進行三次訪問和三次頁面解析。如此循環爬取,直至所有的URL隊列全部爬取完畢或滿足爬取目的為止。詳見下圖爬蟲編程示例:
 
*注:統一資源定位符(URL)是Internet上標準資源的地址。URL指示資源的位置以及用于訪問它的協議。互聯網上的每個文件都有一個唯一的URL,它包含的信息指出文件的具體位置。


示例:爬取貓眼電影網上top100的電影
 
雖然網絡爬蟲技術起先運用于搜索引擎,但隨著互聯網生態的發展變化,搜索引擎爬蟲技術無法滿足人民多樣化的檢索需求,因此聚焦網絡爬蟲技術(Focused Web Crawler)、增量式網絡爬蟲技術(Incremental Web Crawler)和深層網絡爬蟲技術(Deep Web Crawler)應運而生。
 
聚焦網絡爬蟲技術(Focused Web Crawler)是在搜索引擎爬蟲技術的基礎上改進的技術。它主要在搜索引擎爬蟲技術的基礎上通過增加一段網頁分析算法程序,過濾掉冗余無關的網頁數據,只留存與爬取目的密切相關的數據,從而提高爬取數據的效率和質量。增量式網絡爬蟲技術(Incremental Web Crawler)是對已爬取的網頁數據定期做增量更新的技術;深層網絡爬蟲技術(Deep Web Crawler)是能夠對隱藏在搜索表單后網絡頁面進行深度爬取數據的技術。
 
二、反爬蟲技術的使用
 
網絡爬蟲技術的廣泛應用使得互聯網流量劇增,互聯網世界盛傳“互聯網流量中有50%的流量是爬蟲流量,而非真實流量”。不可否認,雖然網絡爬蟲技術有利于減少互聯網企業的人工成本,為互聯網發展提供了極大的幫助,但海量的爬蟲流量占用大量網絡帶寬,加劇被爬網站的服務器負擔,網絡爬蟲技術甚至會變相對服務器發動Dos攻擊。為此,被爬網站紛紛采取反制措施,利用robots協議,網絡爬蟲檢測等手段,反向制止網絡爬蟲肆意爬取網站數據。
 
所謂的robots協議,是指網站在根目錄下設置編程文本,規定外部爬蟲爬取時,網站哪些內容可以爬取,哪些不行。由于外部爬蟲訪問網站首先需要訪問根目錄文件,因此外部爬蟲都要經過網站的robots協議。如果外部爬蟲遵守網站的robots協議,此類爬蟲被稱為善意爬蟲(Good Spider),如果外部爬蟲不遵守網站的robots協議,此類爬蟲被稱為惡意爬蟲(Bad Spider)。下圖為百度robots協議示例:
 
 
示例:百度robots協議(這里的圖片變形了
 
所謂的網絡爬蟲檢測手段,是指通過檢測訪問對象的身份是否是智能化的,以判斷訪客身份。最常見的檢測手段主要有:訪客訪問網站時需要進行加減乘除計算、向右拖動滑塊填充拼圖、選中指定物品或驗證字段等等。例如下圖示例:
 
 
示例一:12306購票前需要選中指定物品
 
 
示例二:i廈門登陸需要向右拖動滑塊填充拼圖
 
三、爬蟲技術的法律規定
 
經筆者檢索,規范爬蟲技術相關的法律法規主要分為:法律、司法解釋、部門規章及行業自律公約。
 
(一)法律
 

(二)司法解釋
 
 
(三)部門規章
 
 
 
(四)行業自律公約
 
 
 
參考文獻:
(1)李慧敏,孫佳亮.論爬蟲抓取數據行為的法律邊界[J].電子知識產權,2018(12):58-67.
(2)于娟、劉強,主題網絡爬蟲研究綜述[J]. 計算機工程與科學,2015(2):231-237.