爬虫-字体反爬-1 No Attempt


字体文件本质上是从字符到图像的一个映射。比如字符0,浏览器会从字体文件当中找到0这个字符对应的图像,然后展示出来。

如果字符0展示并不是0的图像是1的图像呢?这也就意味着爬虫拿到的是字符0,但是人看到的却是图像1。

而我们知道,一切从字符到图像的映射,都可以用来反爬

这里有一个网站,分了1000页,求所有数字的和。注意,是人看到的数字,不是网页源码中的数字哦~

由于之前的字体服务不太稳定,我们重新开发了一个字体混淆工具。因此,字体文件从woff改成了ttf;以及采用了网页内嵌base64的方式存储字体。之前的爬虫代码需要根据新的网页重新更改下哦~