nlp 领域的最新研究通过使用偏好数据能使用基于 rl 的奖励优化来解决 llm 的安全问题。然而,这些方法在代码领域非常昂贵,需要具有网络安全经验的编程专家来创建大规模和高质量的数据集。在本博客中,我们介绍了 indict,这是一种通过生成更安全、更有用的输出代码来有效改进 llm 的新方法。请参阅下面的示例。
indict:代码生成批评的内部对话
indict 本质上是一个多智能体框架,包括一个用于代码生成的参与者 llm 和两个用于向参与者提供反馈的评论者 llm。该框架的目标是改进代码生成任务中的 llm,使生成输出具有更好的安全性和实用性。indict 有三个重要 telegram马来西亚 特性:
帮助性和安全性批评
首先,我们考虑以有用性为导向的批评者和以安全为导向的批评者,并将它们置于自主代理系统中。我们建议让代理在对话设置中相互交互,以协作和同时优化生成的响应,而不是单独激活这些批评者。我们的实验表明,这种交互方案可以为参与者创建更有用、更复杂的批评反馈,同时兼顾安全性和有用性。这种反馈随后会带来更安全、更有用的生成输出。