python爬虫反爬 | 对方是如何丧心病狂的通过 css 加密让你爬不到数据的



这次我们来说点爬虫稍微进阶一点的

关于如何破解 css 加密后的数据



别急

我们先站在对方的角度



想一想

假如我们现在有一个网站



这个网站有些关键的数据信息

不想给别人那么轻易的爬取到

你会怎么做呢?





一个可执行的方法

就是将关键数据通过 css 加密


这样的话

当别人通过 requests 来

请求我们的网站的时候



返回的 HTML 里面就

得不到关键的数据了




举个例子

简单写一个帅b的页面




这时候我们通过 requests 去请求





在这里请求的是本地的网页

所以需要挂载一下 FileAdapter


接着会得到这样的源代码



(应该这样写:<p></p>)



问题来了

怎么把帅b的个人信息搞一下

让返回的 HTML 里面拿不到呢



可以通过添加 css 来打乱顺序

就以「姓名」为例



来定义一个 css 的类元素





这里定义了两个属性

一个是用来将它移除屏幕

一个就是不要占了行高

反正就是用来隐藏我们的干扰信息


接着 HTML 就可以这样写




再来定义一个 css 属性





意思就是说

在 EFG 选择器的这个标签后追加内容



所以我们真正的代码就是这样




那么这时候普通用户看到的网页

是可以看到关键信息的



而这个时候

你来爬取得到的却是这样的






得到的结果是不是

可以让你懵逼一会了?


一些没耐心的人

看到这里应该就不打算爬下去了

哈哈哈






当然了

这只是 css 一种反爬的思路

实际运用到项目中

还是有点复杂的

比如大众点评的网站…



那么接下来就是


学习 python 的正确姿势

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×