Python例子
- Python获取用户IP地址
- requests.get(url,headers = headers).text解码为中文
- Python例子-Python结合正则去除所有html标签
- Python例子-图片验证码
- Python例子-将一个list的值加入字典,然后再插入到一个空列表
- Python例子-爬取糗事百科首页内容
- Python例子-urllib模拟游览器
- Python例子-读取远程页面并写入本地页面
- Python例子-通过装饰器实现已有函数执行时间的统计
- Python例子-使用闭包函数输出不同人的对话
- Python例子-面向对象(烤地瓜)
- Python例子-复制文件
- Python例子-计算阶乘 n! = 1 * 2 * 3 * ... * n
- Python例子-8个老师分配到3个办公室
- Python例子-求1~100中平方根是整数的数
- Python例子-求100-999之间所有的"水仙花数"
- Python例子-1、2、3、4组成互不相同不重复的三位数
- Python例子-年份是否是闰年
- Python例子-设计“过7游戏”
- Python例子-九九乘法表
- Python例子-统计字符串中,各个字符的个数
- Python例子-测试身材是否标准
- Python例子-计算1~100的累加和
- Python例子-猜拳游戏
- Python例子上公交车有座位可以坐下
requests.get(url,headers = headers).text解码为中文
今天在使用python3爬虫时,遇到一个关于字符编码的问题,经过网上查找,终于解决了问题,下面记录下来。
1,用requests.get(url)爬取的到数据,中文显示则是乱码,如:æä¾çå å®¹ä» ç¨äºå¦ä¹ ï¼æµè¯åå¹è®ãå®ä¾å¯è½ä¸ºäºæ´å®¹æç解èç®åãæ们ä¸ç´å¯¹æç¨ï¼åèæåï¼å¨çº¿å®ä¾ä¿æ修订ï¼ä½æ¯æ们ä¸è½ä¿è¯ææå å®¹å ¨é¨æ£ç¡®ãéè¿ä½¿ç¨æ¬ç«è¿è¡å¦ä¹ éä¹èæ¥çé£é©ä¸æ¬ç«æ å ³ãå½ä½¿ç¨æ¬ç«æ¶ï¼ä»£è¡¨æ¨å·²æ¥åäºæ¬ç«ç使ç¨æ¡æ¬¾åé,那么,使用content.encode(‘raw_unicode_escape’).decode()就可以用print查看汉字了。
import requests url = 'http://www.python-china.com/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36' } contents = requests.get(url,headers = headers).text cn_contents = contents.encode('raw_unicode_escape').decode() print(cn_contents) # 输出了正常的中文文字
2,爬到的数据通常是bytes类型,如requests.get的content属性。这时候,我们使用str(content, ‘utf8’)就可以把\xb7\xaf\xe5\xb8\xa6\xe9\xa3\x8e这样的内容转化成汉字了。
最后修改:2020年9月26日 21:01