百川智能开发者隐私风险：数据采集范围与用户授权说明

作者：袖梨 2026-06-08

百川智能作为大模型初创公司，近期完成50亿元A轮融资，其产品生态正在快速扩展，开发者接入其API或平台时，隐私风险的核心在于数据采集范围是否明确、用户授权是否充分。开发者需要重点关注：百川智能究竟采集哪些数据、这些数据如何用于模型训练、以及用户是否有权选择退出。根据公开信息，百川智能在医疗大模型领域与北京儿童医院、中国医学科学院肿瘤医院等机构合作，这类合作涉及患者数据等高度敏感信息，开发者必须确保自身应用层的用户授权机制与百川智能的隐私策略对齐。

数据采集范围：从基础信息到交互内容

百川智能的开发者服务，无论是用于文本生成还是医疗诊断场景，都会采集开发者账户的基础信息，如注册邮箱、API调用记录。更关键的是，当开发者将用户提问（如医疗症状咨询）通过API传给百川智能时，这些对话内容可能被用于模型训练，以降低通用模型事实性幻觉率。根据百川智能在“AI医疗新范式”论坛上的展示，其新一代医疗大模型Baichuan-M4的事实性幻觉率已降至3.3%，这背后离不开大量真实数据的训练。因此，开发者在集成百川智能服务时，需明确自己传输的数据是否属于可被用于训练的“匿名化”数据。

用户授权说明：开发者如何履行告知义务

用户授权是开发者规避隐私风险的关键。百川智能的隐私政策通常要求开发者向最终用户明确告知数据用途，例如：用户输入的内容会被用于改进模型、医疗场景下的AI回答仅供参考等。开发者应在自己的应用界面嵌入隐私授权弹窗，清晰列出数据使用范围，并提供“仅用于本次请求，不用于训练”的选项。特别是涉及敏感领域（如医疗诊断），百川智能CEO王小川曾强调，医疗容不得编造，一个错误判断可能危及生命，因此数据授权的合规性直接关系到产品能否在严肃医疗场景下落地。

风险案例：数据边界模糊带来的法律隐患

实际案例中，开发者最常见的问题是将用户数据直接送入百川智能API，而未做脱敏或授权。例如，某医疗咨询应用将患者影像与症状描述未经处理就传入模型，若百川智能将这些数据纳入训练集，就可能在未获患者完全知情同意的情况下使用了敏感信息。百川智能坚持To C产品路线，计划在2026年发布独立C端产品，这意味着未来其数据采集策略将更直接面对终端用户。开发者若未在其自身隐私协议中覆盖到百川智能的后续数据处理，就会形成授权漏洞。

落实步骤：开发者自查清单