變更

← 較舊編輯

爬虫

增加 331 位元組, 4 年前

無編輯摘要

|}

{| class="wikitable" align="right"

|-

作用：抓取网站上的信息

算法：网络拓扑、基于网页内容和基于 <br> 用户访问行为三种算法

|}

'''爬虫'''：（又称为[[网页蜘蛛]]，[[网络机器人]]，在FOAF社区中间，更经常的称为[[网页追逐者]]），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。<ref>[~~http~~https://~~ent~~www.~~sina~~ cnblogs.com/shiyanlou/p/6022974.html ~~SM公司~~ 让你从零开始学会写爬虫的5个教程（Python）], ~~百度文库，2017~~实验楼 -~~12-19~~博客园</ref>

==爬虫的概念==

==爬虫的作用==

现如今大数据时代已经到来，网络爬虫技术成为这个时代不可或缺的一部分，企业需要数据来分析用户行为，来分析自己产品的不足之处，来分析竞争对手的信息等等，但是这些的首要条件就是数据的采集。这其中使用爬虫较为有名的有[[今日头条]]等公司。<ref>[https://www.cnblogs.com/chenkun/p/5653459.html 爬虫学习之一个简单的网络爬虫],Chenkun - 博客园</ref>

==爬虫的分类==

根据被爬网站的数量的不同，我们把爬虫分为：

'''聚焦爬虫流程'''

爬取范围: 特定的URL, 只有有需要的数据的URL,才爬取保存的数据: 保存的是需要的数据.<ref>[https://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html 网络爬虫基本原理(一)],wawlian - 博客园</ref>

==爬虫的本质==

千叶莲花

14,616

次編輯