Python爬虫Ajax动态加载知识点讲解

发布时间: 2022-05-27 00:10:01

Python爬虫Ajax动态加载知识点讲解，Ajax动态加载从网页的url加载网页的源代码之后，会在浏览器里执行Javascript程序。这些程序会加载出更多的内容，并把这些内容传输到网页中。

网页的不希望被爬虫拿到的数据使用Ajax动态加载，这样就为爬虫造成了绝大的麻烦，如果一个爬虫不具备js引擎，或者具备js引擎，但是没有处理js返回的方案，或者是具备了js引擎，但是没办法让站点显示启用脚本设置。基于这些情况，ajax动态加载反制爬虫还是相当有效的。

Ajax动态加载的工作原理是：从网页的url加载网页的源代码之后，会在浏览器里执行Javascript程序。这些程序会加载出更多的内容，并把这些内容传输到网页中。这就是为什么有些网页直接爬它的URL时却没有数据的原因。

处理方法：若使用审查元素分析”请求“对应的链接(方法：右键→审查元素→Network→清空，点击”加载更多“，出现对应的GET链接寻找Type为text/html的，点击，查看get参数或者复制RequestURL)，循环过程。如果“请求”之前有页面，依据上一步的网址进行分析推导第1页。以此类推，抓取抓Ajax地址的数据。对返回的json使用requests中的json进行解析，使用eval（）转成字典处理（上一讲中的fiddler可以格式化输出json数据。

温馨提示：