大众点评评论的抓取(最新)
网页分析
大众点评爬取最主要的反爬在于SVG字体反爬,抓 了几周基本上可以批量抓取店铺基本信息和评论内容
1.店铺的信息很好抓取
基本没什么难点 店铺信息基本都可以抓下来 先把所有需要的店铺URL抓取下来 存起来
2.通过抓取的店铺URL对店铺的详情页进行抓取
看到部分评论被标签替代
分析可以发现这个标签是在SVG属性的链接中 然后找到这个链接存放的位置
在head下面发现一个css属性的链接 打开链接后发现有很多SVG属性的链接 如下图
然后要试出来被隐藏的字体标签在那个svg链接里面(正确的svg链接位置会周期性变化)找到SVG标签以后 找到被隐藏字体标签CSS样式的坐标和SVG链接中的字体对应关系就可以了
把评论中的标签用SVG中对应的字体替换掉就可以了 数字类的也是同样的道理
替换后的 店铺信息和评论信息效果如下
具体代码太长了只是说下大概思路 截止到2019.04代码还是可以运行的 如有问题欢迎讨论