挑战第Anthropic 示警:Claude 等 AI 被滥用,引导舆论威胁公众认知

这里是AI贴吧网-AI资讯的硬核前线!我们24小时监测全球实验室动态,算法追踪巨头动向、代码解析学术突破,用最“硅基”视角解秘AI革命浪潮!

Anthropic昨日(4月23日)发布博文,报告称Claude等前沿AI模型正被恶意行为者滥用,涉及“舆论引导服务”(influence-as-a-service)操作、凭证填充、招聘诈骗及恶意软件开发等活动。

Anthropic开发团队为Claude采取了多项安全措施,成功阻止了许多有害输出,但威胁行为者仍在尝试绕过这些保护。1AI援引博文介绍,报告通过多个案例,揭示了恶意行为者如何利用AI技术进行复杂操作,包括政治影响力操控、凭证窃取、招聘诈骗及恶意软件开发。

其中最值得关注的一个案例,就是一个营利组织在X和Facebook上创建了超过100个虚假账号,完全无人为干预,能使用多种语言发表评论,伪装成真实用户,成功与数万名真实用户互动,传播政治偏见的叙事内容。

另一个案例涉及凭证填充操作,恶意行为者利用Claude增强系统,识别并处理与安全摄像头相关的泄露用户名和密码,同时搜集互联网目标信息以测试这些凭证。

报告还发现,一名技术能力有限的用户,通过Claude开发出超出其技能水平的恶意软件。这些案例均未确认实际部署成功,但显示出AI如何降低恶意行为的门槛。

研究团队通过Clio和分层摘要等技术,分析大量对话数据,识别滥用模式,并结合分类器检测潜在有害请求,成功封禁相关账户。团队强调,随着AI系统功能增强,半自主复杂滥用系统可能愈发普遍。

想掌握最新AI隐藏技能?挖透巨头紧急下架产品的真相?点击【AI贴吧网-AI资讯】,深度解析+实战案例,智能刷新你的认知!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注