DeepSeek R1
deepseek-ai/DeepSeek-R1
DeepSeek-R1 یک مدل استنتاجی مبتنی بر یادگیری تقویتی (RL) است که به مشکلات تکرار و خوانایی در مدل پرداخته است. قبل از RL، DeepSeek-R1 دادههای شروع سرد را معرفی کرد و عملکرد استنتاج را بهینهتر کرد. این مدل در وظایف ریاضی، کدنویسی و استنتاج با OpenAI-o1 عملکرد مشابهی دارد و با استفاده از روشهای آموزشی به دقت طراحی شده، کیفیت کلی را بهبود بخشیده است.
64K