|
Post by account_disabled on Jan 9, 2024 3:39:43 GMT
提供更少的过滤选项 使用 robots.txt 阻止过滤器过多或过少的页面 在 Javascript 中实现混合匹配过滤 会话 ID 抓取陷阱 这是电子商务平台容易出现的另一个蜘蛛爬行陷阱。搜索机器人最终会抓取具有不同会话 ID 的相似页面。 会话 ID 抓取陷阱检 手机号码数据 测和修复 您在检查网站抓取时是否看到会话 ID?其中喜欢的包括: 会话ID 席德 阿菲德 或者 URL 字符串中是否有任何类似的内容,并且相同的 ID 一次又一次出现? 这可能表明会话 ID 抓取陷阱正在抓取您的网站。 子域重定向陷阱 当您的网站在安全连接上运行,但不安全网站上的每个页面都指向您的安全主页时,您就陷入了陷阱。这个陷阱使得谷歌机器人很难重新路由过时的、易受攻击的页面。您可以通过仔细检查并确保您的站点在每次服务器、维护或 CMS 升级后都有正确的重定向来避免陷入此陷阱。 子域重定向陷阱以及如何摆脱它 蜘蛛陷阱 CMS 或 Web 服务器配置错误会导致 SEO。编辑您的网络服务器配置来修复它。您还可以更改 CMS 并在其中添加请求 URL 重定向字符串。 关键词搜索抓取陷阱 搜索功能不应被搜索引擎抓取或索引。不幸的是,许多网站设计者忽视了这一事实。当您的网站发生这种情况时,任何不怀好意的人都可以轻松地将可索引信息上传到该网站,即使他们没有登录。 如何发现关键字搜索抓取陷阱并修复它 进行搜索审核,查看搜索功能是否创建唯一的 URL,或者 URL 是否包含常见字母或短语。 通过向搜索结果添加无索引无跟随元数据来重新抓取网站,以从搜索引擎中删除部分搜索结果 然后使用robots.txt来阻止已删除的页面。 日历陷阱 当您的日历插件将来创建大量 URL 时,就会发生日历陷阱。这个陷阱的问题在于,当搜索引擎浏览您的网站时,它会生成大量空白页面供搜索引擎抓取。 检测和纠正时间陷阱 尽管 Google 最终会识别并删除您网站上无用的日历,但您可以手动检测陷阱。转到该网站的日历页面并连续单击“明年”(或“下个月”)按钮。如果您可以访问几个月或几年,该网站会提供日历陷阱。 要访问日历的索引页面,请键入 (site:www.example.com/calendar)。检查日历插件的设置,看看是否有任何选项可以限制未来显示的月份数。如果没有任何保护,您需要通过转到 robots.txt 文件并设置未来的合理月份数来阻止日历页面。 蜘蛛陷阱如何影响 SEO? 蜘蛛陷阱对您的网站有典型的影响,阻止爬虫探索它。它们可能是由您的网站的各种技术和非技术困难引起的。因此,您的搜索引擎可见性会受到影响,您的排名也会受到影响。其他不良后果包括: Google 算法会降低您的排名质量 当蜘蛛陷阱导致接近重复的页面时,会影响原始页面的排名。 搜索机器人浪费时间加载不相关的近乎重复的页面,浪费抓取资金。 结论 一个“好的”蜘蛛不太可能被困在爬虫中,因为它只每隔几秒从站点寻找一次文档并在主机之间交替。网站还可以使用 robots.txt 告诉爬虫在发现陷阱后避开陷阱,但这并不能保证爬虫不会受到伤害。花时间检测和消除爬虫陷阱可以补充其他提高 SEO 相关性和网站排名的努力。 备份并保留原始 Web 服务器日志。 经常进行技术 SEO 审核。 此外,由于搜索引擎爬虫会忽略 URL 片段,因此请使用片段来添加参数。
|
|