Python例子
- 检测含有某个关键字的页面url和链接
- Python复制文件到另外一个文件夹
- requests POST请求发送文件和数据
- Python设置函数最大执行时间
- Python例子-图片转成base64格式
- Python获取用户IP地址
- requests.get(url,headers = headers).text解码为中文
- Python例子-Python结合正则去除所有html标签
- Python例子-图片验证码
- Python例子-将一个list的值加入字典,然后再插入到一个空列表
- Python例子-爬取糗事百科首页内容
- Python例子-urllib模拟游览器
- Python例子-读取远程页面并写入本地页面
- Python例子-通过装饰器实现已有函数执行时间的统计
- Python例子-使用闭包函数输出不同人的对话
- Python例子-面向对象(烤地瓜)
- Python例子-复制文件
- Python例子-计算阶乘 n! = 1 * 2 * 3 * ... * n
- Python例子-8个老师分配到3个办公室
- Python例子-求1~100中平方根是整数的数
- Python例子-求100-999之间所有的"水仙花数"
- Python例子-1、2、3、4组成互不相同不重复的三位数
- Python例子-年份是否是闰年
- Python例子-设计“过7游戏”
- Python例子-九九乘法表
- Python例子-统计字符串中,各个字符的个数
- Python例子-测试身材是否标准
- Python例子-计算1~100的累加和
- Python例子-猜拳游戏
- Python例子上公交车有座位可以坐下
检测含有某个关键字的页面url和链接
检测含有某个关键字的页面url和链接,直接上代码:
import requests import re import html headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36", } keyword = input('请输入关键字:') # print(keyword) with open('urls.txt','r',encoding='utf-8') as f: url_list = f.readlines() new_urllist = [] for url_str in list(set(url_list)): if 'http' not in url_str: url_str = 'http://'+ url_str url = url_str.replace('\n','') if len(url) > 10: new_urllist.append(url) # print(new_urllist) for url in new_urllist: try: content = requests.get(url,headers=headers,timeout=3).text if ('å' or 'Ê') in content: content = requests.get(url, headers=headers, timeout=3).text.encode('raw_unicode_escape').decode() if keyword in content: title = re.compile(r'<title>(.*?)</title>', re.I).findall(content)[0] if '&#' in title: title = html.unescape(title) url_title = url + '\t\t\t' + title + '\n' with open('new_urls.txt','a',encoding='utf-8') as f: f.write(url_title) else: title = '网页没有关键字' except Exception as e: title = '链接打不开' print('{} ===》{}'.format(url,title))
最后修改:2021-08-03 14:39:32