امروز، مایکروسافت از Phi-4-reasoning، یک مدل استدلال کوچک با 14 میلیارد پارامتر رونمایی کرد که گفته می‌شود عملکرد قوی در وظایف استدلالی پیچیده ارائه می‌دهد. مایکروسافت این مدل جدید را از طریق تنظیم دقیق نظارت‌شده Phi-4 روی مجموعه‌ای گزینش‌شده از پرامپت‌های “قابل آموزش” که با استفاده از o3-mini تولید شده، آموزش داده است. مایکروسافت همچنین Phi-4-reasoning-plus را معرفی کرد، نسخه‌ای 14 میلیارد پارامتری از Phi-4-reasoning که با تولید دنباله‌های استدلالی طولانی‌تر، عملکرد حتی بهتری ارائه می‌دهد.

 

تحول هوش مصنوعی مایکروسافت: مدل Phi-4 با قدرت استدلال بالاتر از کلود و جمینای

 

طبق مقاله سفید مایکروسافت، این مدل‌های جدید Phi-4-reasoning از چندین مدل بزرگتر با وزن‌های باز، مانند DeepSeek-R1-Distill-Llama-70B عملکرد بهتری دارند و حتی در برخی معیارها با سطح عملکرد مدل کامل DeepSeek-R1 برابری می‌کنند. همچنین گفته می‌شود که این مدل‌ها از Claude 3.7 Sonnet شرکت Anthropic و مدل‌های Gemini 2 Flash Thinking گوگل در تمام وظایف به جز GPQA و برنامه‌ریزی تقویم عملکرد بهتری دارند.

عملکرد ادعا شده چشمگیر Phi-4-reasoning نشان می‌دهد که گزینش دقیق داده‌ها برای تنظیم دقیق نظارت‌شده (SFT) برای مدل‌های زبانی استدلال‌گر موثر است، و عملکرد ممکن است با استفاده از یادگیری تقویتی (RL) بیشتر بهبود یابد.

Phi-4-reasoning محدودیت‌هایی نیز دارد. اول، مدل Phi-4 عمدتاً با متن انگلیسی کار می‌کند. دوم، عمدتاً روی پایتون با استفاده از بسته‌های کدنویسی رایج آموزش دیده است. سوم، طول متن ورودی آن فقط 32 هزار توکن است. محدودیت‌های بیشتر را می‌توان در مقاله سفید یافت.

 

این مدل با استفاده از تنظیم دقیق نظارت‌شده (با استفاده از مجموعه داده دقیق گزینش‌شده از نمایش استدلال) و یادگیری تقویتی آموزش دیده است.

 

مایکروسافت اعلام کرد که این مدل‌های جدید Phi-4-reasoning برای تسریع تحقیقات در مورد مدل‌های زبانی طراحی شده‌اند. انتظار می‌رود این مدل‌ها برای توسعه کاربردهای هوش مصنوعی در محیط‌های با محدودیت حافظه یا محاسبات، سناریوهای محدود به تأخیر، و وظایف با تمرکز بر استدلال مفید باشند.

source

توسط wikiche.com