了解数据集和工具
Posted: Sun Mar 02, 2025 8:19 am
此用例的灵感来自一篇有关如何使用 Amazon Bedrock 自定义 LLM 的AWS 博客。但为什么要自定义模型呢?
使用通用模型,在处理来自高度专业领域的文本数据时,生成高质量、相关的响应可能是一项挑战。例如,钻井记录中充满了石油行业的术语和缩写,非专业人士很难理解。流行或开源的基础模型不太可能在训练过程中接触过这种特定类型的数据或任务,因此它们可能无法生成符合可接受标准的摘要。
这使得该用例成为适合使用上下文学习和/或微调 柬埔寨 WhatsApp 号码列表 来生成更有用的特定于域的输出的完美示例(注意:这两种方法并不相互排斥!)。我们将使用与 AWS 相同的数据集和 LLM,但使用 Dataiku 的无代码和低代码可视化界面应用这些 LLM 自定义方法,以简化和加速解决方案构建过程。
挪威跨国能源公司 Equinor 制作了一套钻井报告,称为Volve 数据集,供研究、学习和开发之用。该标记数据集包含来自北海 Volve 油田的 1,759 份每日钻井报告,每份报告都包含每小时评论和每日产出摘要。
为了构建该项目,我们使用了两种技术:Dataiku 和 Amazon Bedrock。
使用通用模型,在处理来自高度专业领域的文本数据时,生成高质量、相关的响应可能是一项挑战。例如,钻井记录中充满了石油行业的术语和缩写,非专业人士很难理解。流行或开源的基础模型不太可能在训练过程中接触过这种特定类型的数据或任务,因此它们可能无法生成符合可接受标准的摘要。
这使得该用例成为适合使用上下文学习和/或微调 柬埔寨 WhatsApp 号码列表 来生成更有用的特定于域的输出的完美示例(注意:这两种方法并不相互排斥!)。我们将使用与 AWS 相同的数据集和 LLM,但使用 Dataiku 的无代码和低代码可视化界面应用这些 LLM 自定义方法,以简化和加速解决方案构建过程。
挪威跨国能源公司 Equinor 制作了一套钻井报告,称为Volve 数据集,供研究、学习和开发之用。该标记数据集包含来自北海 Volve 油田的 1,759 份每日钻井报告,每份报告都包含每小时评论和每日产出摘要。
为了构建该项目,我们使用了两种技术:Dataiku 和 Amazon Bedrock。