爬蟲

爬蟲
原圖鏈接來自知乎

中文名: 網絡爬蟲外文名： web crawler 別稱：網絡蜘蛛目的：按要求獲取萬維網信息作用：抓取網站上的信息算法：網絡拓撲、基於網頁內容和基於用戶訪問行為三種算法

爬蟲：（又稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。^[1]

爬蟲的概念

爬蟲更官方點的名字叫數據採集，英文一般稱作spider，就是通過編程來全自動的從互聯網上採集數據。

比如說搜索引擎就是一種爬蟲。爬蟲需要做的就是模擬正常的網絡請求，比如你在網站上點擊一個網址，就是一次網絡請求。

現如今大數據時代已經到來，網絡爬蟲技術成為這個時代不可或缺的一部分，企業需要數據來分析用戶行為，來分析自己產品的不足之處，來分析競爭對手的信息等等，但是這些的首要條件就是數據的採集。這其中使用爬蟲較為有名的有今日頭條等公司。^[2]

根據被爬網站的數量的不同，我們把爬蟲分為：

聚焦爬蟲：針對特定網站的爬蟲

爬蟲的工作流程(重點)

總結: 搜索引擎流程與聚焦爬蟲流程的區別: 搜索引擎流程:

爬取範圍: 整個網絡, 見到URL就爬保存的數據: 保存的是原始的HTML預處理: 主要是分詞, 排名

聚焦爬蟲流程

爬取範圍: 特定的URL, 只有有需要的數據的URL,才爬取保存的數據: 保存的是需要的數據.^[3]

爬蟲的本質就是自動化的去模擬正常人類發起的網絡請求，然後獲取網絡請求所返回的數據。跟我們人手動去點擊一個連接，訪問一個網頁獲取數據，並沒有什麼本質的區別。

爬蟲的難點主要為兩個方向：

數據的獲取

一般來說我們想要抓取的網站是不希望我們去抓取他的數據的，那麼這些網站就會做一些反爬蟲的措施，來讓我們無法去他的網站上抓取數據。所以我們也要做相應的措施去繞過這些反爬蟲措施。

抓取數據的速度

我們抓取的目標的數據量，有時是非常龐大的，甚至幾千萬上億的數據量，而有些甚至會要求實時的更新，所以抓取的速度也非常重要。我們一般會使用並發和分布式來解決速度的問題。

Python基礎教程：零基礎入門爬蟲

六分鐘了解爬蟲項目的大概過程