怎样解决 BeautifulSoup 网页抓取返回空文本的问题？

作者：袖梨 2026-07-02

本文详解为何 beautifulsoup 抓取网页时返回空文本，并指出关键原因：未正确处理重定向（http 301/302），导致获取到的是跳转响应而非目标页面 html 内容。

本文详解为何 beautifulsoup 抓取网页时返回空文本，并指出关键原因：未正确处理重定向（http 301/302），导致获取到的是跳转响应而非目标页面 html 内容。

在使用 requests + BeautifulSoup 进行网页抓取时，看似相同的代码在不同网站上表现不一致，往往源于一个被忽视的底层 HTTP 行为——重定向（Redirect）。你提供的代码中设置了 allow_redirects=False，这会导致 requests.get() 在遇到 301 或 302 响应时立即停止并返回跳转响应本身（通常不含 HTML 主体内容），而非自动跟进至最终目标页面。因此，response.content 实际是空或仅含重定向头信息，BeautifulSoup 解析后自然无法提取有效文本。

以目标网址 https://www.diabete.qc.ca/en/... 为例，该站点实际会将请求重定向至带尾部斜杠的规范 URL（如 .../female-sexuality-and-diabetes/ → .../female-sexuality-and-diabetes/ 可能触发内部路径标准化或 CDN 路由），若禁用重定向，response.status_code 很可能为 301 或 302，而 response.content 几乎为空——这正是 soup.get_text() 返回空字符串的根本原因。

✅ 正确做法是启用重定向（默认即为 True），并优化基础代码：

import requestsfrom bs4 import BeautifulSoupcurrent_url = "https://www.diabete.qc.ca/en/understand-diabetes/all-about-diabetes/complications/female-sexuality-and-diabetes/"try:    # ✅ 允许重定向（关键修复），移除不必要的 verify=False（生产环境应验证证书）    response = requests.get(        current_url,        headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}    )    response.raise_for_status()  # 检查 HTTP 错误状态码（如 404、500）    soup = BeautifulSoup(response.content, 'html.parser')  # 直接传 bytes，避免手动 decode/encode    text = soup.get_text(" ", strip=True)    print(f"成功提取 {len(text)} 字符文本")    print(text[:200] + "...")  # 预览前 200 字符except requests.exceptions.RequestException as e:    print(f"请求失败：{e}")

? 关键注意事项：

allow_redirects=True 是默认行为，显式写出更清晰；禁用它仅适用于需手动控制跳转逻辑的特殊场景。
response.content 是原始字节流，直接传给 BeautifulSoup（配合 html.parser）比先 decode() 再 strip_accents() 更安全可靠——后者易引发编码异常，且现代网页多为 UTF-8，无需额外去重音处理。
始终调用 response.raise_for_status() 检查网络错误或服务端异常，避免静默失败。
verify=False 会禁用 SSL 证书验证，存在安全风险，仅限调试；生产环境请确保系统证书可信或指定 cert= 参数。

总结：当 BeautifulSoup 返回空结果时，首要排查 response.status_code 是否为 200，并确认 response.content 是否包含有效 HTML —— 这比调试解析逻辑更能快速定位问题根源。重定向配置，是新手最容易忽略却影响最大的基础设置。