分类: 论文阅读

0

MoDS

[TOC] MoDS: Model-oriented Data Selection for Instruction TuningPaper: https://arxiv.org/abs/2311.15653 核心思想作者提出了一种针对模型做数据选择的框架,从质量、覆盖范围、必要性三个角度评估指令微调数据对于 LLM 指令微调的增益。 质量:指令本身的质量和相应回复/反馈的质量 覆盖范围:数据集内

0

强化学习基础

强化学习入门(一)学习资料整理 强化学习基础学习 李宏毅老师强化学习课程 Reinforce Learning Book 2020 强化学习论文学习 GAE论文(优势函数估计) InstructGPT论文 强化学习实践学习 Trlx代码仓库 PlayGround 其他相关文章(简单介绍) https://spinningup.openai.com/en/latest/spinningu