Dongwei
/

DeepSeek-R1-Distill-Qwen-7B-GRPO_Math_lowlr

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

DeepSeek-R1-Distill-Qwen-7B-GRPO_Math_lowlr

Commit History

End of training

af4426c
verified

Dongwei commited on Feb 4, 2025

Model save

5cc553e
verified

Dongwei commited on Feb 4, 2025

initial commit

e17a4d1
verified

Dongwei commited on Feb 4, 2025