ارتباط با دلفین‌ها: هوش مصنوعی گوگل زبان دلفین‌ها را کشف می‌کند

چند روز پس از راه‌اندازی Deep Research که توسط Gemini 2.5 Pro Experimental پشتیبانی می‌شد، گوگل دوباره با یک مدل جدید به نام DolphinGemma بازگشته است. این مدل زبانی بزرگ برای کمک به دانشمندان در “مطالعه نحوه ارتباط دلفین‌ها” و “امیدواریم بفهمیم آن‌ها چه می‌گویند” طراحی شده است.

این شرکت با محققان دانشگاه جورجیا تک و پروژه دلفین‌های وحشی (WDP) به رهبری بنیانگذار آن، دکتر دنیس هرزینگ همکاری می‌کند. همانطور که احتمالاً می‌توانید حدس بزنید، ماموریت اصلی WDP مشاهده، مستندسازی و گزارش رفتارهای طبیعی، ساختارهای اجتماعی، الگوهای ارتباطی و زیستگاه‌های دلفین‌های وحشی، به‌ویژه دلفین خال‌دار اطلس (Stenella frontalis)، از طریق “تحقیقات میدانی طولانی‌مدت غیرتهاجمی” است.

در طول سال‌ها، WDP داده‌هایی جمع‌آوری کرده که به آن‌ها اجازه می‌دهد صداهای خاص دلفین‌ها را با رفتارهایشان مرتبط کنند. برای مثال:

• سوت‌های مشخصه (نام‌های منحصر به فرد) که توسط مادران و نوزادان برای پیوستن مجدد به هم استفاده می‌شود

• صداهای “جیغ‌مانند” پالسی که اغلب در طول درگیری‌ها دیده می‌شود

• صدای “وزوز” کلیک‌ مانند که اغلب در زمان جفت‌گیری یا تعقیب کوسه‌ها استفاده می‌شود

به گفته گوگل، “تحلیل ارتباطات طبیعی و پیچیده دلفین‌ها کاری عظیم است، و مجموعه داده‌های برچسب‌گذاری شده گسترده WDP فرصتی منحصر به فرد برای هوش مصنوعی پیشرفته فراهم می‌کند.”

اینجاست که DolphinGemma وارد می‌شود. به زبان ساده، این یک مدل هوش مصنوعی است که توسط گوگل بر روی مجموعه داده‌های WDP توسعه یافته و از توکنایزر SoundStream گوگل برای تجزیه آواهای دلفین به واحدهای صوتی قابل مدیریت‌تر استفاده می‌کند.

این داده‌ها سپس از طریق یک معماری مدل تخصصی که برای درک توالی‌های پیچیده طراحی شده، پردازش می‌شوند. کل سیستم حدود 400 میلیون پارامتر دارد که آن را به اندازه کافی سبک می‌کند تا بتواند به طور مستقیم روی گوشی‌های پیکسل اجرا شود، که محققان WDP آن‌ها را در میدان با خود حمل می‌کنند.

برخلاف مدل‌های یادگیری ماشینی سنتی، DolphinGemma با کلمات یا تصاویر سروکار ندارد؛ فقط ورودی و خروجی صوتی دارد. این مدل توالی‌های طبیعی آواهای دلفین را دریافت می‌کند، آن‌ها را با استفاده از رویکردی که از نحوه درک مدل‌های زبانی بزرگ از گفتار انسان الهام گرفته شده پردازش می‌کند، و محتمل‌ترین صدای بعدی را در یک توالی پیش‌بینی می‌کند.

دکتر دنیس هرزینگ آن را با تکمیل خودکار مقایسه می‌کند، اما برای سوت‌ها، پالس‌های انفجاری و قطارهای کلیک دلفین‌ها. این مدل برای شناسایی الگوها، ساختار و پیشرفت در این صداها آموزش دیده است، درست مانند نحوه پیش‌بینی کلمه بعدی در یک جمله توسط یک مدل متنی بر اساس متن.

قبل از اینکه گوگل با DolphinGemma وارد شود، تیم محققان WDP از CHAT (Cetacean Hearing Augmentation Telemetry) برای بررسی امکان ارتباط دوطرفه با دلفین‌ها استفاده می‌کردند. هدف CHAT شکستن پیچیدگی کامل زبان دلفین نبود، بلکه ساخت یک واژگان ساده‌تر و مشترک برای تعامل بود.

این سیستم با مرتبط کردن سوت‌های مصنوعی جدید، که توسط CHAT ایجاد شده، با اشیاء خاصی که دلفین‌ها به نظر می‌رسد از آن‌ها لذت می‌برند، کار می‌کند. چیزهایی مثل جلبک سارگاسوم، علف دریایی، یا حتی روسری‌هایی که محققان استفاده می‌کنند.

امید این بود که با مرتبط کردن مکرر این سوت‌های مصنوعی با اشیاء، دلفین‌ها شروع به تقلید صداها برای “درخواست” آن اقلام کنند.

CHAT روی گوشی Google Pixel 6 اجرا می‌شد که تحلیل صوتی با کیفیت بالا را در زمان واقعی انجام می‌داد. استفاده از گوشی‌های آماده به این معنی بود که تیم به تجهیزات سفارشی نیاز نداشت. این کار همه چیز را کوچک‌تر، ارزان‌تر، کارآمدتر و نگهداری آن را در اقیانوس باز آسان‌تر می‌کرد.

برای فصل آینده، آن‌ها به پیکسل 9 ارتقا می‌دهند که قابلیت‌های بلندگو و میکروفون بهتری اضافه می‌کند و قدرت کافی برای اجرای همزمان مدل‌های یادگیری عمیق و تطبیق الگو را دارد.

درست مانند سایر مدل‌های Gemma، گوگل می‌گوید که DolphinGemma را در تابستان به عنوان یک مدل باز عرضه می‌کند با این امید که “به محققان سراسر جهان ابزارهایی برای کاوش در مجموعه داده‌های صوتی خود بدهد، جستجو برای الگوها را تسریع کند و به طور جمعی درک ما را از این پستانداران دریایی هوشمند عمیق‌تر کند.”

Gemma یک خانواده از مدل‌های زبانی بزرگ سبک‌ وزن است که توسط گوگل توسعه یافته است. آخرین افزوده به این خانواده Gemma 3 است که در چهار اندازه موجود است:

1 میلیارد،

4 میلیارد،

12 میلیارد

و 27 میلیارد پارامتر.

source

توسطwikiche.com

توسط wikiche.com

پست های مرتبط

چه می‌شود اگر کل بمب‌های هسته‌ای جهان همزمان منفجر شوند؟

ویرانه‌های باستانی در مریخ؛ تصاویر ماهواره‌ای ساختارهایی هندسی و مصنوعی را نشان می‌دهند

GTA 6 با نرخ 60fps روی PS5 Pro اجرا خواهد شد؛ کمک مهندسان سونی به راکستار

You missed

چه می‌شود اگر کل بمب‌های هسته‌ای جهان همزمان منفجر شوند؟

ویرانه‌های باستانی در مریخ؛ تصاویر ماهواره‌ای ساختارهایی هندسی و مصنوعی را نشان می‌دهند

GTA 6 با نرخ 60fps روی PS5 Pro اجرا خواهد شد؛ کمک مهندسان سونی به راکستار

مانیتور گیمینگ ایسوس VG249QM5A با قابلیت‌های هوش مصنوعی معرفی شد