首页

Python教程

Python例子

Scrapy教程

其他

Python例子

requests.get(url,headers = headers).text解码为中文

今天在使用python3爬虫时，遇到一个关于字符编码的问题，经过网上查找，终于解决了问题，下面记录下来。
1,用requests.get(url)爬取的到数据，中文显示则是乱码，如：æä¾çåå®¹ä»ç¨äºå¦ä¹ ï¼æµè¯åå¹è®ãå®ä¾å¯è½ä¸ºäºæ´å®¹æçè§£èç®åãæä»¬ä¸ç´å¯¹æç¨ï¼åèæåï¼å¨çº¿å®ä¾ä¿æä¿®è®¢ï¼ä½æ¯æä»¬ä¸è½ä¿è¯ææåå®¹å¨é¨æ£ç¡®ãéè¿ä½¿ç¨æ¬ç«è¿è¡å¦ä¹ éä¹èæ¥çé£é©ä¸æ¬ç«æ å³ãå½ä½¿ç¨æ¬ç«æ¶ï¼ä»£è¡¨æ¨å·²æ¥åäºæ¬ç«çä½¿ç¨æ¡æ¬¾åé，那么，使用content.encode(‘raw_unicode_escape’).decode()就可以用print查看汉字了。
```
import requests
url = 'http://www.python-china.com/'
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
    }
contents = requests.get(url,headers = headers).text
cn_contents = contents.encode('raw_unicode_escape').decode()
print(cn_contents) # 输出了正常的中文文字
```
2,爬到的数据通常是bytes类型，如requests.get的content属性。这时候，我们使用str(content, ‘utf8’)就可以把\xb7\xaf\xe5\xb8\xa6\xe9\xa3\x8e这样的内容转化成汉字了。

最后修改:2020年9月26日 21:01

Python中文网为提供的内容仅用于学习，测试和培训。实例可能为了更容易理解而简化。我们一直对教程，参考手册，在线实例保持修订，但是我们不能保证所有内容全部正确。通过使用本站进行学习随之而来的风险与本站无关。当使用本站时，代表您已接受了本站的使用条款和隐私条款。Python中文网是以学习和分享知识为目的，对任何法律问题及风险不承担任何责任。版权所有，保留一切权利。Python中文网是用 Django技术开发的站点，托管在阿里云ECS