AJAX 抓取方案是 Google 和其他搜索引擎抓取提供动态生

Access ready-to-use Telemarketing Data to expand outreach, generate quality leads, and maximize your marketing ROI.
Post Reply
mostakimvip06
Posts: 380
Joined: Mon Dec 23, 2024 5:54 am

AJAX 抓取方案是 Google 和其他搜索引擎抓取提供动态生

Post by mostakimvip06 »

Google 自 2009 年以来一直使用此程序。然而,2015 年 10 月 15 日,Google 宣布不再推荐此抓取方案,并将其视为过时(弃用)。相反,旨在利用渐进式增强和 HTML5(历史 API)的可能性来确保某些内容对抓取工具的可访问性。



内容
1 一般信息
2 工作原理
3 搜索引擎优化的重要性
4 参考文献
5 个 网页链接
一般信息
基于AJAX的 Web 应用程序通过浏览器和服务器之间的异步数据传输生成要显示的内容。这样就可以在浏览会话期间使用 JavaScript 和 XML(HTTP 请求)执行 HTTP 请求,以便从服务器或数据库加载内容,但无需再次加载 HTML 站点。这意味着部分内容和用户界面可以由浏览器加载,而无需服务器和浏览器之间进行进一步的 HTTP 通信,就像静态 HTML 网页一样。因此,浏览器可以获取已在表单中输入的数据,或者如果需要更新数据(例如日期),则可以更改数据。

客户端和服务器之间的连接不会中断。相反,用户通过单击网站上的对象来启 白俄罗斯whatsapp数据 动动态内容创建过程。此操作会导致执行插入在服务器和客户端的 HTTP 通信之间的脚本并加载先前选择的内容。AJAX 引擎检测到脚本的调用(异步请求)并向服务器或数据库发送 XML 请求以查找内容。然后,所选项目由网站上的脚本动态加载或执行。

工作原理
AJAX 抓取方案确保动态生成的内容可被抓取程序、机器人或蜘蛛读取。由于这些不断分析全球互联网的程序无法解释动态生成的网页内容或脚本,因此该方案会尝试在服务器上存储当前内容的 HTML 快照。带有 HTML 标记的内容甚至对于基于文本的抓取程序也是可读的,因为它基本上存在两个不同的版本。为抓取方案准备网站需要几个步骤:[1]

第一步是在网站上注明支持 AJAX 抓取方案。常规网站可能有以下 URL:

。此外,服务器知道爬虫必须返回 HTML 快照。原始 URL 格式将保持不变,并且不会发送任何可抓取的内容。
第三步是创建 HTML 快照。为每个动态生成的 URL 创建 HTML 快照并将其存储在服务器上。它是动态生成内容的一种爬虫可读副本,由 JavaScript 的执行提供。根据所使用的技术或脚本语言,存在各种选项。可以使用没有用户界面的浏览器(如 HtmlUnit)。甚至像 crawl ajax 或 这样的工具也有助于创建 HTML 快照。当大量内容由 JavaScript 生成时,这些选项特别有用。如果使用 PHP 或 等技术,则可以应用现有源代码在服务器端生成 HTML 或用静态代码替换 JavaScript 元素。然而,最广泛使用的方法是为每个 AJAX URL 提供一个离线静态 HTML 页面。
搜索引擎会索引每个 URL 的 HTML 快照,但不会索引无法读取的动态内容。AJAX URL 会显示在 SERP 中。这些 URL 带有哈希片段,例如“key = value”。
搜索引擎优化的重要性
众所周知,谷歌多年来一直在努力让 Googlebot 能够识别 JavaScript 元素。宣布不再推荐使用 AJAX 抓取方案,这应该被视为抓取工具在脚本解释方面的进步。在越来越多的内容具有响应性和设备依赖性的背景下,这项新建议尤其重要。

但许多网站管理员仍在使用基于 AJAX 的应用程序。最常见问题的要点总结如下:[2]

使用 AJAX 抓取方案的旧网站将来也将继续被 Google 编入索引。不过,抓取工具通常会使用带有哈希片段 #! 的 URL 格式。
不再使用 AJAX 抓取方案的网站将不被视为网站转移(隐藏)。但在实施新的网站项目或重新启动时,应避免使用包含“_escaped_fragments_”的 URL 格式。
如果具有 JavaScript 框架的网站针对 Googlebot 进行了预渲染,那么用户的内容也应该进行预渲染,以避免隐藏。
Post Reply