14,616
次編輯
變更
爬虫
,無編輯摘要
{| class="wikitable" align="right"
|-
作 用 :抓取网站上的信息
算 法:网络拓扑、基于网页内容和基于 <br> 用户访问行为三种算法
|}
'''爬虫''':(又称为[[网页蜘蛛]],[[网络机器人]],在FOAF社区中间,更经常的称为[[网页追逐者]]),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。<ref>[httphttps://entwww.sina cnblogs.com/shiyanlou/p/6022974.html SM公司 让你从零开始学会写爬虫的5个教程(Python)], 百度文库,2017实验楼 -12-19博客园</ref>
==爬虫的概念==
==爬虫的作用==
现如今大数据时代已经到来,网络爬虫技术成为这个时代不可或缺的一部分,企业需要数据来分析用户行为,来分析自己产品的不足之处,来分析竞争对手的信息等等,但是这些的首要条件就是数据的采集。 这其中使用爬虫较为有名的有[[今日头条]]等公司。<ref>[https://www.cnblogs.com/chenkun/p/5653459.html 爬虫学习之一个简单的网络爬虫],Chenkun - 博客园</ref>
==爬虫的分类==
根据被爬网站的数量的不同,我们把爬虫分为:
'''聚焦爬虫流程'''
爬取范围: 特定的URL, 只有有需要的数据的URL,才爬取保存的数据: 保存的是需要的数据.<ref>[https://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html 网络爬虫基本原理(一)],wawlian - 博客园</ref>
==爬虫的本质==