本文详解为何 beautifulsoup 抓取网页时返回空文本,并指出关键原因:未正确处理重定向(http 301/302),导致获取到的是跳转响应而非目标页面 html 内容。
本文详解为何 beautifulsoup 抓取网页时返回空文本,并指出关键原因:未正确处理重定向(http 301/302),导致获取到的是跳转响应而非目标页面 html 内容。
在使用 requests + BeautifulSoup 进行网页抓取时,看似相同的代码在不同网站上表现不一致,往往源于一个被忽视的底层 HTTP 行为——重定向(Redirect)。你提供的代码中设置了 allow_redirects=False,这会导致 requests.get() 在遇到 301 或 302 响应时立即停止并返回跳转响应本身(通常不含 HTML 主体内容),而非自动跟进至最终目标页面。因此,response.content 实际是空或仅含重定向头信息,BeautifulSoup 解析后自然无法提取有效文本。
以目标网址 https://www.diabete.qc.ca/en/... 为例,该站点实际会将请求重定向至带尾部斜杠的规范 URL(如 .../female-sexuality-and-diabetes/ → .../female-sexuality-and-diabetes/ 可能触发内部路径标准化或 CDN 路由),若禁用重定向,response.status_code 很可能为 301 或 302,而 response.content 几乎为空——这正是 soup.get_text() 返回空字符串的根本原因。
✅ 正确做法是启用重定向(默认即为 True),并优化基础代码:
import requestsfrom bs4 import BeautifulSoupcurrent_url = "https://www.diabete.qc.ca/en/understand-diabetes/all-about-diabetes/complications/female-sexuality-and-diabetes/"try: # ✅ 允许重定向(关键修复),移除不必要的 verify=False(生产环境应验证证书) response = requests.get( current_url, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'} ) response.raise_for_status() # 检查 HTTP 错误状态码(如 404、500) soup = BeautifulSoup(response.content, 'html.parser') # 直接传 bytes,避免手动 decode/encode text = soup.get_text(" ", strip=True) print(f"成功提取 {len(text)} 字符文本") print(text[:200] + "...") # 预览前 200 字符except requests.exceptions.RequestException as e: print(f"请求失败:{e}")
? 关键注意事项:
总结:当 BeautifulSoup 返回空结果时,首要排查 response.status_code 是否为 200,并确认 response.content 是否包含有效 HTML —— 这比调试解析逻辑更能快速定位问题根源。重定向配置,是新手最容易忽略却影响最大的基础设置。