接下来,我们希望通过授予对将要嵌入的数据块的更多可见性和控制来改善构建者的 RAG 体验。在准备配方中,新的“将列拆分为块”处理器为您提供了许多块大小、重叠和使用的文本分隔符选项。自动步骤预览允许您在继续工作流程之前查看文本块的外观,并根据需要调整设置或添加更多清理步骤。例如,您可以选择过滤掉太小而无用的块,或者在嵌入之前应用假名来掩盖源数据中的敏感信息。
一旦您的文档或文档块被矢量化(得益于嵌入配方),信息就会有效地存储在矢量存储中,并由 Dataiku Flow 中称为“知识库”的对象表示。知识库现在可以在项目之间共享,以简化 波斯尼亚和黑塞哥维那 Whatsapp 数据 源材料在多个用例中的重用。例如,内部员工政策文件可能是人力资源和法律部门聊天应用程序的有用参考资料。
最后但同样重要的是,我们对Dataiku Answers进行了许多更新和增强,这是一个打包的可扩展聊天界面,可将 LLM 支持的问答普及到企业中的每个人。例如,您现在可以询问有关企业数据的问题,从而大大减少向其他同事或团队提交数据洞察请求所花费的时间。银行的业务分析师可能会问聊天机器人,“最常用的奖励计划是什么?”,应用程序会在后台识别相关的已批准数据集,构建并执行 SQL 查询,并以自然语言返回答案(如果需要,还会返回生成的 SQL 代码)。