نوآوری هوش مصنوعی آمازون: مدل صوتی Nova Sonic برتر از گوگل و OpenAI

آمازون امروز Nova Sonic را معرفی کرد، یک مدل پیشرفته گفتار به گفتار که به توسعه‌دهندگان امکان می‌دهد برنامه‌هایی با قابلیت مکالمه صوتی شبیه انسان و در زمان واقعی بسازند. آمازون ادعا می‌کند این مدل صوتی جدید، بهترین عملکرد صنعت را از نظر قیمت و تأخیر کم ارائه می‌دهد.

معمولاً، برای توسعه یک برنامه صوتی، توسعه‌دهندگان باید با چندین مدل مختلف کار کنند – مانند مدل تشخیص گفتار برای تبدیل گفتار به متن، مدل‌های زبانی بزرگ برای درک و تولید پاسخ‌ها، و مدل تبدیل متن به گفتار برای تبدیل مجدد متن به صدا. این رویکرد نه تنها پیچیده است، بلکه اغلب در ثبت بافت‌های مهم صوتی و ظرافت‌هایی مانند لحن، آهنگ کلام و سبک صحبت کردن ناموفق است.

Nova Sonic این چالش را با یکپارچه‌سازی قابلیت‌های درک و تولید صدا در یک مدل واحد برطرف می‌کند. این رویکرد یکپارچه به مدل اجازه می‌دهد لحن، سبک و ورودی گفتاری را درک کند که منجر به مکالمه‌ای طبیعی‌تر می‌شود. همچنین می‌تواند زمان مناسب برای پاسخ را تشخیص دهد و وقفه‌ها (قطع کلام) را بهتر مدیریت کند.

Nova Sonic از صداهای مردانه و زنانه در لهجه‌های مختلف انگلیسی، از جمله آمریکایی و بریتانیایی پشتیبانی می‌کند. توسعه‌دهندگان می‌توانند از طریق Amazon Bedrock و با استفاده از API جریان دوطرفه، با پشتیبانی از فراخوانی توابع به این مدل دسترسی داشته باشند. همچنین شامل محافظت‌های داخلی مانند نظارت بر محتوا و واترمارک است.

جزئیات مدل در زیر آمده است:

Amazon Nova Sonic

شناسه مدل: amazon.nova-sonic-v1:0

ورودی‌ها: گفتار

خروجی‌ها: گفتار همراه با رونویسی و پاسخ‌های متنی

پنجره متن: ۳۰۰ هزار بافت

حداکثر مدت اتصال: ۸ دقیقه مهلت اتصال، با حداکثر ۲۰ اتصال همزمان برای هر مشتری

زبان‌های پشتیبانی شده: انگلیسی

مناطق: شرق ایالات متحده (ویرجینیای شمالی)

پشتیبانی API جریان دوطرفه: بله

پایگاه‌های دانش Bedrock: از طریق استفاده از ابزار (فراخوانی توابع) پشتیبانی می‌شود

نکته مرتبط اینکه، ماه گذشته OpenAI مدل‌های نسل بعدی گفتار به متن، gpt-4o-transcribe و gpt-4o-mini-transcribe را معرفی کرد که بهبودهای قابل توجهی در نرخ خطای کلمات، تشخیص زبان و دقت در مقایسه با مدل‌های Whisper موجود خود ارائه می‌دهند.

source

توسطwikiche.com

توسط wikiche.com

پست های مرتبط

باران آپدیت‌های تازه ویندوز 11؛ کشف قابلیت‌های مخفی و تغییرات سنگین در هر گوشه سیستم!

کشف نوع جدیدی از غرش شیرها توسط دانشمندان

گوگل مدل هوش مصنوعی Nano Banana Pro را رونمایی کرد

You missed

باران آپدیت‌های تازه ویندوز 11؛ کشف قابلیت‌های مخفی و تغییرات سنگین در هر گوشه سیستم!

کشف نوع جدیدی از غرش شیرها توسط دانشمندان

گوگل مدل هوش مصنوعی Nano Banana Pro را رونمایی کرد

هیوندای CRATER معرفی شد؛ پادشاه جدید آفرودرهای برقی با 482 اسب بخار قدرت