大众点评店铺信息和评论内容的抓取

大众点评评论的抓取(最新)

网页分析

大众点评爬取最主要的反爬在于SVG字体反爬,抓 了几周基本上可以批量抓取店铺基本信息和评论内容

1.店铺的信息很好抓取
《大众点评店铺信息和评论内容的抓取》
基本没什么难点 店铺信息基本都可以抓下来 先把所有需要的店铺URL抓取下来 存起来
2.通过抓取的店铺URL对店铺的详情页进行抓取
《大众点评店铺信息和评论内容的抓取》
看到部分评论被标签替代
《大众点评店铺信息和评论内容的抓取》
分析可以发现这个标签是在SVG属性的链接中 然后找到这个链接存放的位置
《大众点评店铺信息和评论内容的抓取》
在head下面发现一个css属性的链接 打开链接后发现有很多SVG属性的链接 如下图
《大众点评店铺信息和评论内容的抓取》
然后要试出来被隐藏的字体标签在那个svg链接里面(正确的svg链接位置会周期性变化)找到SVG标签以后 找到被隐藏字体标签CSS样式的坐标和SVG链接中的字体对应关系就可以了
《大众点评店铺信息和评论内容的抓取》
把评论中的标签用SVG中对应的字体替换掉就可以了 数字类的也是同样的道理
替换后的 店铺信息和评论信息效果如下
《大众点评店铺信息和评论内容的抓取》
《大众点评店铺信息和评论内容的抓取》
具体代码太长了只是说下大概思路 截止到2019.04代码还是可以运行的 如有问题欢迎讨论

    原文作者:汤姆克鲁斯斯基
    原文地址: https://blog.csdn.net/weixin_42332075/article/details/89334634
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞