为了防止有害输出，AI研究团队开发了监控大型语言模型的工具

摘要：据Cointelegraph报道，来自人工智能公司AutoGPT、东北大学和微软研究院的研究团队开发了一种监控大型语言模型（LLMs）的工具，以防止潜在的有害输出并阻止其执行。研究表明，该代理足够灵活，可以监控现有的LLMs，并在有害输出（如代码攻击）发生之前将其阻止。...

据 Cointelegraph 报告来自人工智能AutoGPT、东北大学和微软研究所的研究团队开发了一种监控大型语言模型的研究团队（LLMs）工具，以避免潜在的有害导出，并防止其执行。本代理在一篇题为《野外安全测试语言模型代理》的预印研究论文中进行了描述。研究发现，该代理充分灵活，可以监控现有的LLMS，并在有害导出（如代码攻击）之前阻止它。研究小组表示，目前监控LLM导出以避免有害互动的工具在实验室环境中表现良好，但在开放互联网上投入生产的测试模型中，它们“往往无法捕捉到现实世界的动态复杂性”。为了培训监控代理，研究人员建立了近2000个安全人工智能交互数据集，涵盖了从简单的文本检索目标和编码调整到从零开始开发整个网页的29个不同任务。他们还创建了一个竞争性测试数据集，包括手动对抗导出，其中数十个被故意设计为不安全的。随后，这些数据被用来训练基于OpenAI的GPT 3.5 turbo代理，这是最先进的系统，能够准确区分无害和潜在有害的导出。

相关推荐