- 01:08
www.
- 02:10
W-gyEilHfdaRweSiqDe923g
- 07:11
【Chat-glm的RLHF数据集制作工具】人工排序平台_哔哩哔哩_bilibili
- 51:01
全程wl'l'l
- 03:35
大型语言模型与生成式AI——人类反馈强化学习6——RLHF - 通过强化学习进行微调_哔哩哔哩_bilibili
- 29:49
HUWC-Yorsef
- 01:49
WN7119-RcaXfloVWKw8XDhcAm02Hd6
- 01:19
如果要在大模型上进行RLHF的话,有什么数据集可以训练一个reward 吗?_哔哩哔哩_bilibili