主页

0

MoDS

[TOC] MoDS: Model-oriented Data Selection for Instruction TuningPaper: https://arxiv.org/abs/2311.15653 核心思想作者提出了一种针对模型做数据选择的框架,从质量、覆盖范围、必要性三个角度评估指令微调数据对于 LLM 指令微调的增益。 质量:指令本身的质量和相应回复/反馈的质量 覆盖范围:数据集内

0

强化学习基础

强化学习入门(一)学习资料整理 强化学习基础学习 李宏毅老师强化学习课程 Reinforce Learning Book 2020 强化学习论文学习 GAE论文(优势函数估计) InstructGPT论文 强化学习实践学习 Trlx代码仓库 PlayGround 其他相关文章(简单介绍) https://spinningup.openai.com/en/latest/spinningu

0

PyTorch-SGD-求函数最优值

面试遇到的一个基础问题:使用PyTorch求一个函数的最优值代码如下: import torch.optim as optim import torch # 参数为x,(1,1) x = torch.randn([1],requires_grad=True) def function(x): return x**2 - 2*x + 1 optimizer = optim.SGD([x

0

About Me

About Me 学习经历 学习阶段 学校 专业 研究方向 研究生 北京邮电大学 计算机技术 自然语言处理 本科 北京信息科技大学 计算机科学与技术 自然语言处理 工作经历 科大讯飞,初级算法研究工程师(2023.07 - 至今) 实习经历 滴滴 - 用户画像(2021.05 - 2021.08) 度小满 - AI Lab(2021.09 - 2022.07) 澜舟科技