گوگل مدل هوش مصنوعی Gemma 3n را با پشتیبانی از تصویر، صدا و ویدیو معرفی کرد

گوگل مدل جدید Gemma 3n را معرفی کرده است؛ این نسل جدید مدل‌های هوش مصنوعی باز گوگل است و نسبت به قبل یک پیشرفت بزرگ محسوب می‌شود. پس از پیش‌نمایشی که ماه گذشته در رویداد Google I/O داشتیم، حالا نسخه کامل این مدل آماده شده و می‌تواند مستقیماً روی سخت‌افزار شما اجرا شود.

اگر با Gemma آشنا نیستید، باید بدانید که Gemma یک خانواده از مدل‌های هوش مصنوعی باز است. تفاوت آن با Gemini در این است که Gemma برای توسعه‌ دهندگان طراحی شده تا بتوانند آن را دانلود و تغییر دهند، در حالی که Gemini یک مدل بسته و اختصاصی قدرتمند متعلق به گوگل است.

مدل Gemma 3n اکنون می‌تواند ورودی‌هایی مانند تصویر، صدا و ویدیو را به طور مستقیم دریافت کند و خروجی متنی تولید کند؛ این یک جهش بزرگ نسبت به مدل‌های صرفاً متنی قبلی است. همچنین این مدل روی سخت‌ افزارهایی با حداقل ۲ گیگابایت رم هم قابل اجراست و گفته می‌شود در کارهایی مثل کدنویسی و استدلال نیز بهتر عمل می‌کند.

در اینجا فهرست کامل بهبودها از زبان گوگل آمده است:

چند رسانه‌ای بودن به صورت ذاتی: Gemma 3n به طور بومی از ورودی تصویر، صدا، ویدیو و متن و خروجی متنی پشتیبانی می‌کند.

بهینه‌سازی برای اجرا روی دستگاه: این مدل‌ها با تمرکز بر بهره‌وری ساخته شده‌اند و در دو اندازه E2B و E4B عرضه می‌شوند. تعداد پارامتر خام آن‌ها به ترتیب ۵ میلیارد و ۸ میلیارد است، اما نوآوری‌های معماری باعث شده با میزان رم مشابه مدل‌های سنتی ۲ و ۴ میلیارد پارامتری اجرا شوند و فقط به ۲ گیگابایت (E2B) و ۳ گیگابایت (E4B) رم نیاز داشته باشند.

معماری نوآورانه: در هسته Gemma 3n اجزای جدیدی مثل معماری MatFormer برای انعطاف در پردازش، Per Layer Embeddings (PLE) برای بهره‌وری حافظه، و رمزگذارهای صوتی و بینایی مبتنی بر MobileNet-v5 برای کاربردهای روی دستگاه وجود دارد.

کیفیت بهبود یافته: Gemma 3n کیفیت بالاتری در پشتیبانی چند زبانه (پشتیبانی از ۱۴۰ زبان برای متن و درک چند رسانه‌ای ۳۵ زبان)، ریاضیات، برنامه‌نویسی و استدلال ارائه می‌دهد.

هسته اصلی بهره‌وری این مدل معماری جدیدی است که گوگل آن را MatFormer می‌نامد. گوگل برای توضیح آن از مثال عروسک روسی ماتروشکا استفاده می‌کند: یک مدل بزرگ‌تر، یک نسخه کوچک‌تر و کاملاً کاربردی را درون خود دارد.

این معماری باعث می‌شود یک مدل بتواند با اندازه‌های مختلف و برای وظایف مختلف اجرا شود. در مورد بنچمارک‌ها هم باید گفت مدل بزرگ‌تر E4B اولین مدلی است که با کمتر از ۱۰ میلیارد پارامتر موفق شده امتیاز ۱۳۰۰ را در LMArena کسب کند.

عملکرد Gemma 3n در LMArena

قابلیت‌های صوتی مدل اکنون از تبدیل گفتار به متن (Speech-to-Text) و ترجمه روی دستگاه پشتیبانی می‌کند و از رمزگذاری استفاده می‌کند که می‌تواند صدا را با جزئیات بالا پردازش کند. در بخش بینایی هم رمزگذار جدید MobileNet-V5 به کار رفته که نسبت به نسخه قبلی خود بسیار سریع‌تر و کارآمدتر است و می‌تواند ویدیو را تا سرعت ۶۰ فریم بر ثانیه روی گوشی‌های Google Pixel پردازش کند.

اگر علاقه‌مند هستید، می‌توانید همین حالا با این مدل‌ها کار کنید؛ چون از طریق پلتفرم‌هایی مثل Hugging Face و Kaggle در دسترس هستند و حتی می‌توانید مستقیماً در Google AI Studio با آن‌ها آزمایش انجام دهید.

source

توسطwikiche.com

توسط wikiche.com

پست های مرتبط

مدل هوش مصنوعی Ernie X1.1 بایدو رونمایی شد؛ قدرتمندتر از دیپ‌سیک

دوربین تله فوتو گلکسی S26 اولترا پسرفت می‌کند؟ خبر نگران‌کننده برای طرفداران سامسونگ

آیفون ۱۷ از قابلیت غیرفعال کردن PWM بهره می‌برد؛ پایانی بر سردردهای ناشی از نمایشگر OLED؟

You missed

مدل هوش مصنوعی Ernie X1.1 بایدو رونمایی شد؛ قدرتمندتر از دیپ‌سیک

دوربین تله فوتو گلکسی S26 اولترا پسرفت می‌کند؟ خبر نگران‌کننده برای طرفداران سامسونگ

آیفون ۱۷ از قابلیت غیرفعال کردن PWM بهره می‌برد؛ پایانی بر سردردهای ناشی از نمایشگر OLED؟

تأثیر راحتی و عادت بر ترجیحات اجتماعی: چرا افراد محیط‌های مشابه خود را انتخاب می‌کنند؟