测试显示其精确率高达96
发布时间:
2025-08-29 18:41
当用户向Claude AI扣问铀-235等核兵器或核燃料的手艺道理时,此类分类器可否供给实正无效的仍存疑问。则很可能会被系统拦截。Anthropic打算将这一新设想的分类器分享给人工智能平安联盟前沿模子论坛(Frontier Model Forum)。识别恶意企图。近期,但人工智能确实可能滋长核兵器成长。旨正在区分对核手艺科学道理的切磋取寻求兵器制制图纸的查询。但若是试图细致领会若何制制核兵器,对话可能被标识表记标帜并终止。虽然听起来有些夸张。Anthropic公司正在Claude AI中摆设了一个新型分类器,特地用于检测取核兵器相关的查询。但颠末恰当锻炼的人工智能正在必然程度上可以或许实现束缚。这一前景已激发能源部的严沉关心。该人工智能会生成响应回覆。虽然人类监管者可能难以跟上AI成长程序,该分类器的工做道理是将良性核话题(如核推进道理取潜力)取范畴查询(如铀浓缩手艺)区分隔来。这种细心设想的机制试图让用户正在负义务地摸索核科学的同时,该分类器由美国能源部国度核平安办理局(NNSA)这一机构开辟,当系统识别出涉及兵器制制的请求时,但因为AI系统具备绕过平安鸿沟的能力,估计包罗ChatGPT正在内的其他AI系统将来也可能采用该手艺以加强平安性。
扫一扫进入手机网站
