已确认：ChatGPT 已修复导致禁止回复的最大安全漏洞

709 阅读 0 评论 0 点赞

记得关注·飞咕咕出海～

几天前，OpenAI试图通过发布其新模型（称为GPT-4o mini）来抢占所有头条新闻，该模型将进一步增强其人工智能的功能，甚至免费用户也可以使用。但直到现在，我们才通过更好的审查发现了此更新的真正范围，修复了平台中的严重缺陷。

尽管我们宣布了这一消息，并广泛解释了这一变化包括哪些内容，但事实是，由于遭受了全球性故障，这一消息完全被掩盖并被置于背景中。微软与 CrowdStrike 合作，连续几天让世界天翻地覆。

这也许是OpenAI发布新模型时没有发现一个小但重要的细节的主要原因：实施的改变不仅使平台更智能、更轻量，还修复了一个关键的 AI 错误。

语言模型的开发竞相日趋复杂，这也引发了人们对这些平台安全性的担忧，因为这些模型可能被操纵，从而产生不适当、有害或恶意的反应。

几个月来，那些知道如何在正确的地方寻找漏洞的人能够利用安全漏洞或漏洞，这使得 ChatGPT 能够通过一系列提示来解锁一些安全锁。但现在这已经成为过去了。

ChatGPT 不再被愚弄：GPT-4o 微型指令层次结构的工作方式如下

据The Verge友商报道，OpenAI 又向前迈进了一步，推出了最新模型 GPT-4o Mini，采用了一种名为“指令层次结构”的新颖安全技术，旨在保护语言模型免受这些通过网络上流传的提示进行“欺骗”的企图。

广义上讲，指令层次结构包括建立一种命令阶梯，赋予开发人员的原始指令更高的优先级，并淡化后续用户试图修改模型行为的请求。

GPT-4o Mini这款新模型代表着人工智能朝着民主化迈出了重要一步，提供了一种更经济、更强大的模型，使开发人员能够进行创新，而不受以前模型所施加的财务限制。（OpenAI）

这样，如果用户试图“欺骗”聊天机器人忽略其初始指令并执行完全不同的任务，指令层次结构将阻止这种情况发生并阻止操纵提示。

“基本上，我们教模型始终优先考虑开发人员的指示，”他解释道。OpenAI的 API 平台产品经理Olivier Godement。“这样，我们就可以防止用户操纵模型产生非预期的响应。”

因此，指令层次结构代表了 OpenAI 语言模型在安全领域的重大进步。然而，需要注意的是，这种技术并不是一个明确的解决方案，找到绕过阻止过滤器的方法可能只是时间问题。

ChatGPT 变得越来越智能，但 OpenAI 仍受到严厉批评

随着新 GPT-4o 迷你模型的集成，ChatGPT 掩盖了一个导致其安全过滤器被突破的漏洞。图片来源：Fast Company。

近几个月来，OpenAI 因专注于产品开发而牺牲了人工智能本身的安全而受到批评。负责将语言模型与人类利益相结合的团队解散，以及员工和前员工发表公开信要求提高安全保障，凸显了解决这些问题的迫切需要。

随着 GPT-4o mini 的推出和指令层次结构的实施，该公司似乎正在展示对其模型安全性的承诺。

然而，为确保这些系统得到负责任且合乎道德的使用，仍有许多工作要做。

微博：飞咕咕出海

微信号：dgsuuu

扫描二维码，关注更多咨询

点个【在看】，你最好看

文章为作者独立观点，不代表DLZ123立场。如有侵权,请联系我们。( 版权为作者所有，如需转载，请联系作者 )

网站运营至今，离不开小伙伴们的支持。为了给小伙伴们提供一个互相交流的平台和资源的对接，特地开通了独立站交流群。群里有不少运营大神，不时会分享一些运营技巧，更有一些资源收藏爱好者不时分享一些优质的学习资料。

现在可以扫码进群，备注【加群】。 ( 群完全免费，不广告不卖课！)