进行微调以及可

MasudIbne756 · Post by **MasudIbne756** » Sat Mar 22, 2025 4:26 am

nlp 领域的最新研究通过使用偏好数据能使用基于 rl 的奖励优化来解决 llm 的安全问题。然而，这些方法在代码领域非常昂贵，需要具有网络安全经验的编程专家来创建大规模和高质量的数据集。在本博客中，我们介绍了 indict，这是一种通过生成更安全、更有用的输出代码来有效改进 llm 的新方法。请参阅下面的示例。

indict：代码生成批评的内部对话
indict 本质上是一个多智能体框架，包括一个用于代码生成的参与者 llm 和两个用于向参与者提供反馈的评论者 llm。该框架的目标是改进代码生成任务中的 llm，使生成输出具有更好的安全性和实用性。indict 有三个重要 telegram马来西亚特性：

帮助性和安全性批评

首先，我们考虑以有用性为导向的批评者和以安全为导向的批评者，并将它们置于自主代理系统中。我们建议让代理在对话设置中相互交互，以协作和同时优化生成的响应，而不是单独激活这些批评者。我们的实验表明，这种交互方案可以为参与者创建更有用、更复杂的批评反馈，同时兼顾安全性和有用性。这种反馈随后会带来更安全、更有用的生成输出。