DeepSeek系列模型的Safety测试

讲者3: 郑静楠

DeepSeek系列模型凭借其低训练成本和卓越的推理能力令人印象深刻。通过强化学习获得的推理能力被普遍认为使模型真正掌握了思考的能力，但这种思考能力是否泛化到模型安全性能的提升上仍然有待验证。我们在9个数据集上对DeepSeek全系列模型进行了全面测试（包括harmful benchmark、jailbreak benchmark和over-refusal benchmark），并与OpenAI的GPT-4进行对比。