
文章插图
爬虫是什么?
相信大家对爬虫都不陌生,特别是做过网站的站长,这里也简单跟大家解释一下:
如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,
它会沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;
从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的html代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用 。
举个栗子:
比如我的工作是新媒体小编,现在要学写作取标题,最简单的方式就是去目标公众号/网站等复制他们的标题到Excel来进行分析 。
这样的傻瓜式操作很简单,但是效率很低,也很慢,而最高效的方式是什么呢?就是通过爬虫直接爬取我需要的标题,而这个过程仅仅需要1分钟 。
废话不多说,跟我一起来操作吧 。
01
准备工作
在你的浏览器安装:“webscraper”扩展,直接在浏览器应用市场下载即可,推荐使用chrome浏览器 。

文章插图
安装好之后,启用它 。
进入你要爬取数据的页面,以下我将以知乎来为大家举例 。比如我要爬取知乎小管家的所有文章标题,那么就先进入到知乎小管家的文章页面 。

文章插图
然后,按下键盘的F12,进入开发者工具 。
当然有些浏览器不同,可能F12进入不了,你可以使用以下快捷键:
win:Ctrl+Shift+I
mac:Cmd+Opt+I, 或者 Tools / Developer tools
或者直接在页面按鼠标右键选择审查元素,或者是检查 。比如我的是chrome浏览器,就是检查 。
然后调出浏览器开发者工具 。

文章插图
默认是在浏览器的右侧,点击右上角三个点,选择第三个把他放到浏览器下方 。

文章插图
02
正式开始
第一步:创建sitemap
在开发者工具的菜单当中选择最后一个,也就是你刚刚安装的那个扩展:

文章插图
然后在第二行里选择第三个,也就是:Create new sitemap
然后选择Create Sitemap

文章插图
创建好之后会出现两个选项让你填写:

文章插图
sitemap name:这个可自定义,比如我要抓取的是文章标题,那么我就填写biaoti就可以了 。
start url:这个是你要爬取页面的URL,也就是我要把知乎小管家文章页面的链接复制到这里 。
以下是我填好后的:

文章插图
然后点击Create Sitemap,第一步就完成了 。

文章插图
第二步:添加 selector
点击add new selector

文章插图
然后又出来一些选框:

文章插图
id:因为我们要爬取的是标题,所以就填:“title” 。type:这是个选项,一样,因为我们要爬取的是标题,也就是文本,所以这里我们就选默认的Text 。Selector:最重要的一步,待会演示 。Multiple:打上勾Regex:不用管Parent Selectors:不用管以下是我填好的:

文章插图
刚刚还有Selector这个最重要的一步我们没有做,现在我们来说说它,这里有3个选项,分别是:
1、Select = 选择器
2、Elementt preview = 预览
3、Data preview = 数据预览
其实大家如果看得懂英文就知道它的意思了 。
推荐阅读
- 一段代码去除360浏览器广告
- 不用茶叶的简单茶叶蛋的做法 茶叶蛋的做法及配料用什么茶叶
- 倒茶时,对方敲桌子三下是啥意思?谨记不懂别乱敲!很容易闹笑话
- iOS设备完全禁止拍照声方法,不用开静音键哦
- 周公解梦梦到被敲诈勒索 梦见被勒索敲诈
- Android代码混淆到底是什么?它的好处有哪些?具体效果如何?
- 打印机久了不用墨盒干了怎么办 打印机墨盒干了还能用吗
- 10个 javascript精简代码集合
- 城府深才懂得的4个道理,不用巴结领导,一样升职加薪
- 怎么把电脑文件无线批量传输到iphone,不压缩不用插线,很方便
