DeepSeek: DeepSeek V3 (community)
deepseek/deepseek-v3/community
DeepSeek-V3 در سرعت استدلال به یک پیشرفت عمده نسبت به مدلهای قبلی دست یافته است. این مدل در بین مدلهای متن باز رتبه اول را دارد و میتواند با پیشرفتهترین مدلهای بسته جهانی رقابت کند. DeepSeek-V3 از معماری توجه چندسر (MLA) و DeepSeekMoE استفاده میکند که این معماریها در DeepSeek-V2 به طور کامل تأیید شدهاند. علاوه بر این، DeepSeek-V3 یک استراتژی کمکی بدون ضرر برای تعادل بار معرفی کرده و اهداف آموزشی پیشبینی چند برچسبی را برای بهبود عملکرد تعیین کرده است.
62K