avatar

何洋的个人空间

  • Previous
  • Next
  • post_img

    使用TRL对LLM进行SFT微调

    实验目标 利用现有的语料数据,构造问答数据对(例如:提问:苹果是什么颜色?回答:是红色的。让模型补全“回答”后面的内容) 数据加载 对于许多的训练步骤,包

    m-avatar