热门搜索


主页 > 格力 > 格力空调re >

爬取JD格力空调的各种信息

四川格力客服|格力手机价格|费县格力空调 来源: https://www.greeworld.com 2020/06/06/00:17:04 格力 711℃
格力空调re

weixin_37082984:

etree.HTML、bs 实际上不需要重复解析吧?就算一次也比 re 快!

weixin_44521703:

您好 网页链接能给一下嘛

weixin_44521703:

qq_22155627:

我想说我找到的json文件和在scrapy实际爬取的json文件里面的图片地址居然不一样,前者在浏览器可以直接访问到图片,后者,把地址复制到浏览器,直接403,博主能给点意见吗,我实在想不出招了,这是手动从浏览器获取的data":[{ "adType":"0", "hasAspData":"0","thumbURL":"https://ss2.bdstatic.com/70cFvnSh_Q1YnxGkpoWK1HF6hhy/it/u=3235842602,136157406&fm=26&gp=0.jpg","middleURL":"https://ss2.bdstatic.com/70cFvnSh_Q1YnxGkpoWK1HF6hhy/it/u=3235842602,136157406&fm=26&gp=0.jpg", (json文件里面的data);而在scrapy爬取时里面的网址就变成了:"data":[{ "adType":"0", "hasAspData":"0","thumbURL":"http://img4.imgtn.bdimg.com/it/u=1433337678,1016728618&fm=15&gp=0.jpg","middleURL":"http://img4.imgtn.bdimg.com/it/u=1433337678,1016728618&fm=15&gp=0.jpg", [/code][code=plain] [/code][code=plain] [/code][code=plain] [/code]

又做了一回爬JD信息的爬虫,但是这次爬取的内容更多更全,其实写代码本身不难,主要费时间的就是找相关信息的url,详细代码如下:

防水处理了一下url,base64加密的,解密可用如下函数:

代码写得越来越好看了有木有~~嘿嘿

写入的txt如下图所示,信息应该相当全了:

Sound_of_ Silence

“你的鼓励将是我创作的最大动力”

dotNet全栈开发

qq_15076569的博客

weixin_44521703的博客

qq_41631952的博客

weixin_44521703的博客

weixin_44521703的博客

weixin_41978322的博客

weixin_44521703的博客

weixin_44521703的博客

weixin_44521703的博客

weixin_44521703的博客

格力空调re

Tags: 格力空调re

本文来自网友上传,不代表本网站立场,转载请注明出处: https://www.greeworld.com/article_2311946.html
热门关键词