爬蟲
爬蟲 |
中文名: 網絡爬蟲 外文名: web crawler 別 稱: 網絡蜘蛛 目 的: 按要求獲取萬維網信息 作 用 :抓取網站上的信息 算 法:網絡拓撲、基於網頁內容和基於 |
爬蟲:(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。[1]
目錄
爬蟲的概念
爬蟲更官方點的名字叫數據採集,英文一般稱作spider,就是通過編程來全自動的從互聯網上採集數據。
比如說搜索引擎就是一種爬蟲。 爬蟲需要做的就是模擬正常的網絡請求,比如你在網站上點擊一個網址,就是一次網絡請求。
爬蟲的作用
現如今大數據時代已經到來,網絡爬蟲技術成為這個時代不可或缺的一部分,企業需要數據來分析用戶行為,來分析自己產品的不足之處,來分析競爭對手的信息等等,但是這些的首要條件就是數據的採集。 這其中使用爬蟲較為有名的有今日頭條等公司。[2]
爬蟲的分類
爬蟲的流程
爬蟲的工作流程(重點)
總結: 搜索引擎流程 與 聚焦爬蟲流程的區別: 搜索引擎流程:
爬取範圍: 整個網絡, 見到URL就爬保存的數據: 保存的是原始的HTML預處理: 主要是 分詞, 排名
聚焦爬蟲流程
爬取範圍: 特定的URL, 只有有需要的數據的URL,才爬取保存的數據: 保存的是需要的數據.[3]
爬蟲的本質
爬蟲的本質就是自動化的去模擬正常人類發起的網絡請求,然後獲取網絡請求所返回的數據。 跟我們人手動去點擊一個連接,訪問一個網頁獲取數據,並沒有什麼本質的區別。
爬蟲的難點
爬蟲的難點主要為兩個方向:
數據的獲取
一般來說我們想要抓取的網站是不希望我們去抓取他的數據的,那麼這些網站就會做一些反爬蟲的措施,來讓我們無法去他的網站上抓取數據。所以我們也要做相應的措施去繞過這些反爬蟲措施。
抓取數據的速度
我們抓取的目標的數據量,有時是非常龐大的,甚至幾千萬上億的數據量,而有些甚至會要求實時的更新,所以抓取的速度也非常重要。我們一般會使用並發和分布式來解決速度的問題。
視頻
Python基礎教程:零基礎入門爬蟲
六分鐘了解爬蟲項目的大概過程
參考資料
- ↑ 讓你從零開始學會寫爬蟲的5個教程(Python),實驗樓 - 博客園
- ↑ 爬蟲學習之一個簡單的網絡爬蟲,Chenkun - 博客園
- ↑ 網絡爬蟲基本原理(一),wawlian - 博客園