SiliconCloud · مدل‌های AI · AIQ

Ctrl K

صفحه اصلی

دستیارها

افزونه‌ها

فهرست مدل‌ها

53

DeepSeek R1

deepseek-ai/DeepSeek-R1

DeepSeek-R1 یک مدل استنتاجی مبتنی بر یادگیری تقویتی (RL) است که به مشکلات تکرار و خوانایی در مدل پرداخته است. قبل از RL، DeepSeek-R1 داده‌های شروع سرد را معرفی کرد و عملکرد استنتاج را بهینه‌تر کرد. این مدل در وظایف ریاضی، کدنویسی و استنتاج با OpenAI-o1 عملکرد مشابهی دارد و با استفاده از روش‌های آموزشی به دقت طراحی شده، کیفیت کلی را بهبود بخشیده است.

DeepSeek V3

deepseek-ai/DeepSeek-V3

DeepSeek-V3 یک مدل زبانی ترکیبی از متخصصان (MoE) با 671 میلیارد پارامتر است که از توجه چندسر (MLA) و معماری DeepSeekMoE استفاده می‌کند و با ترکیب استراتژی تعادل بار بدون ضرر کمکی، کارایی استنتاج و آموزش را بهینه می‌کند. با پیش‌آموزش بر روی 14.8 تریلیون توکن با کیفیت بالا و انجام تنظیم دقیق نظارتی و یادگیری تقویتی، DeepSeek-V3 در عملکرد از سایر مدل‌های متن‌باز پیشی می‌گیرد و به مدل‌های بسته پیشرو نزدیک می‌شود.

DeepSeek R1 (Pro)

Pro/deepseek-ai/DeepSeek-R1

DeepSeek-R1 یک مدل استنتاجی مبتنی بر یادگیری تقویتی (RL) است که مشکلات تکرار و خوانایی را در مدل حل می‌کند. قبل از RL، DeepSeek-R1 داده‌های شروع سرد را معرفی کرده و عملکرد استنتاج را بهینه‌سازی کرده است. این مدل در وظایف ریاضی، کد و استنتاج با OpenAI-o1 عملکرد مشابهی دارد و از طریق روش‌های آموزشی به دقت طراحی شده، عملکرد کلی را بهبود می‌بخشد.

DeepSeek V3 (Pro)

Pro/deepseek-ai/DeepSeek-V3

DeepSeek-V3 یک مدل زبان با 671 میلیارد پارامتر است که از معماری متخصصان ترکیبی (MoE) و توجه چندسر (MLA) استفاده می‌کند و با استراتژی تعادل بار بدون ضرر کمکی بهینه‌سازی کارایی استنتاج و آموزش را انجام می‌دهد. این مدل با پیش‌آموزش بر روی 14.8 تریلیون توکن با کیفیت بالا و انجام تنظیم دقیق نظارتی و یادگیری تقویتی، در عملکرد از سایر مدل‌های متن‌باز پیشی می‌گیرد و به مدل‌های بسته پیشرو نزدیک می‌شود.

DeepSeek R1 Distill Llama 70B

deepseek-ai/DeepSeek-R1-Distill-Llama-70B

مدل تقطیر DeepSeek-R1 که با استفاده از یادگیری تقویتی و داده‌های شروع سرد عملکرد استدلال را بهینه‌سازی کرده و مدل‌های متن‌باز را به روز کرده است.

DeepSeek R1 Distill Qwen 32B

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Qwen-32B مدلی است که از تقطیر دانش بر اساس Qwen2.5-32B به دست آمده است. این مدل با استفاده از 800000 نمونه منتخب تولید شده توسط DeepSeek-R1 برای تنظیم دقیق، در زمینه‌های مختلفی از جمله ریاضیات، برنامه‌نویسی و استدلال عملکرد برجسته‌ای را نشان می‌دهد. در چندین آزمون معیار از جمله AIME 2024، MATH-500 و GPQA Diamond نتایج عالی کسب کرده است، به طوری که در MATH-500 به دقت 94.3% دست یافته و توانایی استدلال ریاضی قوی را نشان می‌دهد.

DeepSeek R1 Distill Qwen 14B

deepseek-ai/DeepSeek-R1-Distill-Qwen-14B

مدل تقطیر DeepSeek-R1 که با استفاده از یادگیری تقویتی و داده‌های شروع سرد عملکرد استدلال را بهینه‌سازی کرده و مدل‌های متن‌باز را به روز کرده است.

DeepSeek R1 Distill Llama 8B (Free)

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

deepseek-ai/DeepSeek-R1-Distill-Llama-8B.description

DeepSeek R1 Distill Qwen 7B (Free)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1-Distill-Qwen-7B مدلی است که از تقطیر دانش بر اساس Qwen2.5-Math-7B به دست آمده است. این مدل با استفاده از 800000 نمونه منتخب تولید شده توسط DeepSeek-R1 برای تنظیم دقیق، توانایی استدلال عالی را نشان می‌دهد. در چندین آزمون معیار عملکرد برجسته‌ای داشته است، به طوری که در MATH-500 به دقت 92.8% و در AIME 2024 به نرخ قبولی 55.5% دست یافته و در CodeForces امتیاز 1189 را کسب کرده است و به عنوان مدلی با مقیاس 7B توانایی‌های ریاضی و برنامه‌نویسی قوی را نشان می‌دهد.

DeepSeek-R1-Distill-Qwen-1.5B (Free)

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

مدل تقطیر DeepSeek-R1 که با استفاده از یادگیری تقویتی و داده‌های شروع سرد عملکرد استدلال را بهینه‌سازی کرده و مدل‌های متن‌باز را به روز کرده است.

DeepSeek V2.5

deepseek-ai/DeepSeek-V2.5

DeepSeek V2.5 ویژگی‌های برجسته نسخه‌های قبلی را گرد هم آورده و توانایی‌های عمومی و کدنویسی را تقویت کرده است.

DeepSeek VL2

deepseek-ai/deepseek-vl2

DeepSeek-VL2 یک مدل زبانی بصری مبتنی بر DeepSeekMoE-27B است که از معماری MoE با فعال‌سازی پراکنده استفاده می‌کند و در حالی که تنها 4.5 میلیارد پارامتر فعال است، عملکرد فوق‌العاده‌ای را ارائه می‌دهد. این مدل در چندین وظیفه از جمله پرسش و پاسخ بصری، شناسایی کاراکتر نوری، درک اسناد/جدول‌ها/نمودارها و مکان‌یابی بصری عملکرد عالی دارد.

QVQ 72B Preview

Qwen/QVQ-72B-Preview

QVQ-72B-Preview یک مدل تحقیقاتی است که توسط تیم Qwen توسعه یافته و بر روی توانایی‌های استنتاج بصری تمرکز دارد و در درک صحنه‌های پیچیده و حل مسائل ریاضی مرتبط با بصری دارای مزیت‌های منحصر به فردی است.

QwQ 32B Preview

Qwen/QwQ-32B-Preview

QwQ-32B-Preview جدیدترین مدل تحقیقاتی تجربی Qwen است که بر بهبود توانایی استدلال AI تمرکز دارد. با کاوش در مکانیزم‌های پیچیده‌ای مانند ترکیب زبان و استدلال بازگشتی، مزایای اصلی شامل توانایی تحلیل استدلال قوی، توانایی ریاضی و برنامه‌نویسی است. در عین حال، مشکلاتی مانند تغییر زبان، حلقه‌های استدلال، ملاحظات ایمنی و تفاوت‌های دیگر در توانایی‌ها وجود دارد.

Qwen2.5 7B Instruct (Free)

Qwen/Qwen2.5-7B-Instruct

Qwen2.5 یک سری جدید از مدل‌های زبان بزرگ است که با هدف بهینه‌سازی پردازش وظایف دستوری طراحی شده است.

Qwen2.5 7B Instruct (LoRA)

LoRA/Qwen/Qwen2.5-7B-Instruct

LoRA/Qwen/Qwen2.5-7B-Instruct.description

Qwen2.5 7B Instruct (Pro)

Pro/Qwen/Qwen2.5-7B-Instruct

Qwen2.5-7B-Instruct یکی از جدیدترین سری مدل‌های زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 7B در زمینه‌های کدنویسی و ریاضی دارای توانایی‌های بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش می‌دهد. این مدل در پیروی از دستورات، درک داده‌های ساختاری و تولید خروجی‌های ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است.

Qwen2.5 14B Instruct

Qwen/Qwen2.5-14B-Instruct

Qwen2.5 یک سری جدید از مدل‌های زبانی بزرگ است که با هدف بهینه‌سازی پردازش وظایف دستوری طراحی شده است.

Qwen2.5 32B Instruct

Qwen/Qwen2.5-32B-Instruct

Qwen2.5 یک سری جدید از مدل‌های زبانی بزرگ است که با هدف بهینه‌سازی پردازش وظایف دستوری طراحی شده است.

Qwen2.5 72B Instruct

Qwen/Qwen2.5-72B-Instruct

مدل زبانی بزرگ توسعه یافته توسط تیم علی‌بابا، تونگ‌yi چن‌وِن.

Qwen2.5 72B Instruct (LoRA)

LoRA/Qwen/Qwen2.5-72B-Instruct

LoRA/Qwen/Qwen2.5-72B-Instruct.description

Qwen2.5 72B Instruct (Vendor-A)

Vendor-A/Qwen/Qwen2.5-72B-Instruct

Qwen2.5-72B-Instruct یکی از جدیدترین سری مدل‌های زبانی بزرگ منتشر شده توسط Alibaba Cloud است. این مدل 72B در زمینه‌های کدنویسی و ریاضی دارای توانایی‌های بهبود یافته قابل توجهی است. این مدل همچنین از پشتیبانی چند زبانه برخوردار است و بیش از 29 زبان از جمله چینی و انگلیسی را پوشش می‌دهد. این مدل در پیروی از دستورات، درک داده‌های ساختاری و تولید خروجی‌های ساختاری (به ویژه JSON) به طور قابل توجهی بهبود یافته است.

Qwen2.5 72B Instruct 128K

Qwen/Qwen2.5-72B-Instruct-128K

Qwen2.5 یک سری جدید از مدل‌های زبان بزرگ است که دارای توانایی‌های قوی‌تر در درک و تولید می‌باشد.

Qwen2.5 Coder 7B Instruct (Free)

Qwen/Qwen2.5-Coder-7B-Instruct

Qwen2.5-Coder-7B-Instruct جدیدترین نسخه از سری مدل‌های زبانی بزرگ خاص کد است که توسط Alibaba Cloud منتشر شده است. این مدل بر اساس Qwen2.5 و با آموزش 5.5 تریلیون توکن، توانایی تولید کد، استدلال و اصلاح را به طور قابل توجهی افزایش داده است. این مدل نه تنها توانایی کدنویسی را تقویت کرده بلکه مزایای ریاضی و عمومی را نیز حفظ کرده است. این مدل پایه‌ای جامع‌تر برای کاربردهای عملی مانند عامل‌های کد فراهم می‌کند.