不用敲代码，5分钟教会你爬虫( 二 ) _爬虫

现在我们开始操作，首先点击Select选择器，然后你会发现多出来一个窗口：

文章插图

这个时候你会发现当你的鼠标移动到页面内容的时候会发生变化，我们把它移动到标题，然后点击一下标题，点击完成之后在点击下一个就OK了。
也就是我们一共要点击两下标题，第一个和第二个。点完之后是这样的：

文章插图

你看，虽然我只点了第一个和第二个，但是它下面的所有标题都被选中了。
这里还要跟大家说明一下：
点第一个标题也可以说是定位，也就是说爬虫要从哪里开始抓取，比如上图，我也可以从第二个标题开始选择，然后点一下第三个标题，然后底下的标题就全部被选择，只有第一个不会被选中。
但它不能选择从哪里结束，只能定位开始。
标题全部被选中后，然后我们点击窗口的 Done selecting！

文章插图

然后这一步我们就完成了，但是别忘了刚刚我们说到的Selector这里还个预览，也就是：
Elementt preview
Data preview
我们点击Elementt preview你会发现页面中的标题又全变红了，也就是选中了，再次点击就是取消预览；然后点击Data preview你会发现：

文章插图

当然这个只是窗口预览，但其实如果只是标题的话，我们可以直接在这个窗口全部复制然后粘贴到电脑里。
但是还是建议大家下载下来哈。预览没问题之后，点击Save selector保存：

文章插图

第三步：开始抓取
我们再次点击第二行菜单里的Sitemap biaoti，然后选择Scrape 。

文章插图

然后又会跳出来最后两个数据让你填写;

文章插图

但是这个我们不用管它，默认的2000就好，直接点击Start scraping开始抓取。
也解释一下它的意思：
它意思是抓取的间隔时间以及页面加载延迟时间。
比如我要抓取知乎的多个页面，那就要设置间隔时间，这样可以避免被知乎的反爬虫监测到。
但如果你不设置间隔时间的话，一秒钟访问一个网站几十次甚至上百次，这很明显不是人为的，所以很容易触发该网站的反爬虫机制，后果就是会封掉你IP地址，你就再也别想在你的电脑上访问知乎这个网站了，更别提继续抓取了~
还有一点也要跟大家说明一下，你在抓取该网站数据的时候，你也会占用该网站的带宽，如果这个网站的带宽允许同时100个人访问，但你一秒钟就给它访问了几十上百次，可能会导致该网站其他用户无法打开页面，或者加载延迟等问题。
这会大大对该网站造成非常不好的影响，所以，各位可不要用这个去攻击别人的网站啊。虽然也没什么卵用~
设置好时间之后我们点击Start scraping开始正式抓取。
这个时候它会弹出一个窗口，我们不用管它，然后大概几秒钟后就抓取完了。