【Power Query 网络抓取概括性总结】这一段时间写了很多篇网络抓取方面的文章 , 很多网友可能对网络抓取还有疑虑 , 是不是游走法律边缘 , 担心跨省 。其实我们用Power Query进行的网络抓取行为 , 大部分都是正常的数据收集工作 , 我们并没有突破防御从后台下载数据 , 那些都是黑客做的事情 。Power Query网络抓取 , 都是通过正常的网页访问来获取数据 , 只是比起手工翻页稍微自动化了一些 。
数据类型如果从抓取的数据类型的角度来区分 , 我们分为两大类:

文章插图
- 网页:文本格式的页面内容 , 从中提取表格或文本
- 数据:主要是json格式的数据 , 如果你有数据库的账户和密码 , Power Query也有对应的数据库接口 , 获取数据也是很方便的 。

文章插图
为什么不是我们经常说的四步变成两步了?
这里所说的步骤单指我们M函数在网络抓取中的步骤 。
第一步:抓取网页内容 , 都是Contents , 结尾的M函数
第二步:分析网页内容 , 对第一步抓取过来的网页内容进行解析 , 文本、json、xml、csv、表格等等 。
我们在之前的网络抓取文章中很少提到具体的函数 , 因为大部分的网络抓取函数应用 , 都是Power Query自动给我们生成 , 回过头来看看 , 就是我们现在看到的这个样子 。
所以说 , 网络抓取两大核心工作:
- 内容抓取是建立在网站分析的基础之上;
- 内容呈现是选择合适的方式对网页内容解析 , 并作适当的格式处理 。

文章插图
这里简单说一下:
- Web.BrowserContents返回的是文本格式 , 可以直接用Text类函数来处理 , 也可以用其他几种数据格式来解析 。
- Web.Contents返回的是二进制格式 , 用数据格式解析
- AzureStorage.BlobContents返回的也是二进制格式 ,
推荐阅读
- 网络安全初入茅庐 --- 简易 sqlmap 制作
- 连交换机的攻击、防御都不懂,还做什么网络工程师
- 网络营销推广的渠道有哪些?
- IPTV网络安全分析
- 容器视角下的网络性能监控
- LTE知识架构思维导图
- 使用 PowerDNS 轻松配置 DNS 名称服务器
- 网络性能debug参数整理
- 2020网络安全创新排行
- JQuery实现瀑布流
