镜像网站指的是和你的网站基本一样、并且实时同步的其它网站 。就像照镜子一样,所以名为镜像 。
有的镜像网站是没有恶意的,很可能是你自己设置的,为了方便用户能从多个域名访问网站,被封了一个,还有其它的域名 。比如著名的草榴社区,好像就有很多镜像可以访问 。
有的镜像,也就是这里讨论的镜像,是不怀好意的,通常是别人设置的,要么为了负面seo你的网站,要么为了利用你的内容获得排名,然后把用户转向到敏感、非法内容网站上去 。
网上有的文章把采集和镜像混在一起 。虽然表现形式差不多,但严格来说,采集和镜像实现方法、表现形式是有区别的 。
采集的网站一般是提前抓取别人网站的内容,放入自己数据库,再用程序调用到页面上 。被采集网站有新内容时,采集网站并不能实时同步更新,要再采集之后才能出现 。一旦被采集,内容已经在对方数据库里了,从技术上是无法阻止采集网站显示这些内容的 。这篇帖子说的不是这种 。
镜像网站并不事先抓取内容,而是有人访问网站时,实时从被镜像的网站调取内容,做些处理(替换URL、文字,加文字、加JS等),然后实时显示 。被镜像的网站有任何更新,镜像网站是实时同步的 。

文章插图
【网站被镜像了怎么办?】网上有卖用于镜像网站的小偷程序的 。小偷程序通常也可以用来做采集 。为了不给他们做宣传,就不提名字了 。从他们的官网摘取几条程序功能,有助于理解后面的内容:
- 全自动分析,内外链接自动转换、图片地址、css、js,自动分析CSS内的图片
- 内置强大替换和过滤功能,标签过滤、站内外过滤、字符串替换、等等
- 伪原创,近义词替换有利于seo
- 增加URL路由,实现全站URL变换,个性化本站URL地址
- 超级模板增加移动模板、自定义栏目功能
- 增加自动获取301、302重定向的采集,解决跳WWW,跳https采集
- 代理IP、伪造IP、随机IP、伪造user-agent、伪造referer来路、自定义cookie,以便应对防采集措施
对有一定历史、权重的网站,镜像网站取代原版网站的可能性微乎其微 。但从心情角度考虑,被别人镜像,内容被别人偷走,即使没有其它明显后果,也还是挺烦人的一件事 。
另一个烦人的事是,镜像网站一般来说并不是要和你提供同样的产品或服务,而是把用户转到赌博、色情等服务上去 。有的是通过JS把赌博、色情内容显示给用户,有的直接把用户转向到另外的网站上去 。
有时候注意到被镜像了是因为自己网站排名下降,怀疑有人负面SEO 。有时候是搜索品牌名称,看到镜像网站 。已经知道自己被镜像了好办,直接看下面怎么处理部分 。
一是百度统计后台:

文章插图
受访域名部分列出了使用相同百度统计代码的域名 。其中出现快照、百度/谷歌翻译等是正常的,但出现一些奇奇怪怪的域名就要查看一下了,比如上图里的第5、7、8个,访问一下就知道都是镜像SEO每天一帖,引诱用户赌博的网站,然后站长把SEO每天一帖的统计代码也照抄过去了 。
看看上面列出的小偷出现功能就知道,其实统计代码很容易替换或删除的 。所以在受访域名只能看到一小部分镜像网站 。
第二是搜索网站的特征句子 。最容易想到的是网站品牌名称、首页标题等,确实可以发现一些镜像网站 。但如前所述,品牌名绝大多数是会被替换的,所以我更喜欢搜索一些页面上的特征句子,比如本博客最上面的副标题:Zac的SEO博客,坚持12年,优化成为生活 。搜索一下就会看到:

文章插图
把对方主机IP先屏蔽了 。不过镜像网站来实时抓取用的IP大部分情况下不是域名主机IP,可能是CDN,可能是伪造IP,也可能是多IP的服务器 。要发现必须屏蔽的IP,需要查看网站原始日志 。我的一个小窍门是,访问镜像网站上一个很少人会访问的页面,比如翻页第70页,然后马上查看日志,这个页面被访问的IP就是应该屏蔽的IP,等等 。
推荐阅读
- 【Google优化】SEO优化稳定关键词网站排名
- 淘宝单被降权了怎么办 淘宝号刷不了单降权处置是咋回事
- 记一次Linux被入侵,服务器变“矿机”的全过程
- 张柏芝再次被传婚变 张柏芝离婚了吗
- 梦见家里东西被偷是什么预兆 做梦梦见家里东西被偷是什么意思
- 考研|“黑魔仙”刘美含考研落选,报名浪姐被刷,像极了职场失意的你
- 戚继光晚年被妻子抛弃 戚继光老婆
- 如果微信被封号了,那里面的钱该怎么取出来?
- 2个可以下谷歌商店软件的网站
- 二维码到底是什么?专家提醒:谨防个人信息被套取
