现在我们开始操作,首先点击Select选择器,然后你会发现多出来一个窗口:

文章插图
这个时候你会发现当你的鼠标移动到页面内容的时候会发生变化,我们把它移动到标题,然后点击一下标题,点击完成之后在点击下一个就OK了 。
也就是我们一共要点击两下标题,第一个和第二个 。点完之后是这样的:

文章插图
你看,虽然我只点了第一个和第二个,但是它下面的所有标题都被选中了 。
这里还要跟大家说明一下:
点第一个标题也可以说是定位,也就是说爬虫要从哪里开始抓取,比如上图,我也可以从第二个标题开始选择,然后点一下第三个标题,然后底下的标题就全部被选择,只有第一个不会被选中 。
但它不能选择从哪里结束,只能定位开始 。
标题全部被选中后,然后我们点击窗口的 Done selecting!

文章插图
然后这一步我们就完成了,但是别忘了刚刚我们说到的Selector这里还个预览,也就是:
Elementt preview
Data preview
我们点击Elementt preview你会发现页面中的标题又全变红了,也就是选中了,再次点击就是取消预览;然后点击Data preview你会发现:

文章插图
当然这个只是窗口预览,但其实如果只是标题的话,我们可以直接在这个窗口全部复制然后粘贴到电脑里 。
但是还是建议大家下载下来哈 。预览没问题之后,点击Save selector保存:

文章插图
第三步:开始抓取
我们再次点击第二行菜单里的Sitemap biaoti,然后选择Scrape 。

文章插图
然后又会跳出来最后两个数据让你填写;

文章插图
但是这个我们不用管它,默认的2000就好,直接点击Start scraping开始抓取 。
也解释一下它的意思:
它意思是抓取的间隔时间以及页面加载延迟时间 。
比如我要抓取知乎的多个页面,那就要设置间隔时间,这样可以避免被知乎的反爬虫监测到 。
但如果你不设置间隔时间的话,一秒钟访问一个网站几十次甚至上百次,这很明显不是人为的,所以很容易触发该网站的反爬虫机制,后果就是会封掉你IP地址,你就再也别想在你的电脑上访问知乎这个网站了,更别提继续抓取了~
还有一点也要跟大家说明一下,你在抓取该网站数据的时候,你也会占用该网站的带宽,如果这个网站的带宽允许同时100个人访问,但你一秒钟就给它访问了几十上百次,可能会导致该网站其他用户无法打开页面,或者加载延迟等问题 。
这会大大对该网站造成非常不好的影响,所以,各位可不要用这个去攻击别人的网站啊 。虽然也没什么卵用~
设置好时间之后我们点击Start scraping开始正式抓取 。
这个时候它会弹出一个窗口,我们不用管它,然后大概几秒钟后就抓取完了 。

文章插图
第四步:导出至本地
我们再次点击 Sitemap biaoti 选择 Export data as CSV

文章插图
然后点击 Download now!下载 。

文章插图
然后我们用Excel打开:

文章插图
怎么样,是不是很简单,如果你会英语,就更好理解了 。
【不用敲代码,5分钟教会你爬虫】
推荐阅读
- 一段代码去除360浏览器广告
- 不用茶叶的简单茶叶蛋的做法 茶叶蛋的做法及配料用什么茶叶
- 倒茶时,对方敲桌子三下是啥意思?谨记不懂别乱敲!很容易闹笑话
- iOS设备完全禁止拍照声方法,不用开静音键哦
- 周公解梦梦到被敲诈勒索 梦见被勒索敲诈
- Android代码混淆到底是什么?它的好处有哪些?具体效果如何?
- 打印机久了不用墨盒干了怎么办 打印机墨盒干了还能用吗
- 10个 javascript精简代码集合
- 城府深才懂得的4个道理,不用巴结领导,一样升职加薪
- 怎么把电脑文件无线批量传输到iphone,不压缩不用插线,很方便
