آمازون امروز Nova Sonic را معرفی کرد، یک مدل پیشرفته گفتار به گفتار که به توسعه‌دهندگان امکان می‌دهد برنامه‌هایی با قابلیت مکالمه صوتی شبیه انسان و در زمان واقعی بسازند. آمازون ادعا می‌کند این مدل صوتی جدید، بهترین عملکرد صنعت را از نظر قیمت و تأخیر کم ارائه می‌دهد.

معمولاً، برای توسعه یک برنامه صوتی، توسعه‌دهندگان باید با چندین مدل مختلف کار کنند – مانند مدل تشخیص گفتار برای تبدیل گفتار به متن، مدل‌های زبانی بزرگ برای درک و تولید پاسخ‌ها، و مدل تبدیل متن به گفتار برای تبدیل مجدد متن به صدا. این رویکرد نه تنها پیچیده است، بلکه اغلب در ثبت بافت‌های مهم صوتی و ظرافت‌هایی مانند لحن، آهنگ کلام و سبک صحبت کردن ناموفق است.

 

نوآوری هوش مصنوعی آمازون: مدل صوتی Nova Sonic برتر از گوگل و OpenAI

 

Nova Sonic این چالش را با یکپارچه‌سازی قابلیت‌های درک و تولید صدا در یک مدل واحد برطرف می‌کند. این رویکرد یکپارچه به مدل اجازه می‌دهد لحن، سبک و ورودی گفتاری را درک کند که منجر به مکالمه‌ای طبیعی‌تر می‌شود. همچنین می‌تواند زمان مناسب برای پاسخ را تشخیص دهد و وقفه‌ها (قطع کلام) را بهتر مدیریت کند.

Nova Sonic از صداهای مردانه و زنانه در لهجه‌های مختلف انگلیسی، از جمله آمریکایی و بریتانیایی پشتیبانی می‌کند. توسعه‌دهندگان می‌توانند از طریق Amazon Bedrock و با استفاده از API جریان دوطرفه، با پشتیبانی از فراخوانی توابع به این مدل دسترسی داشته باشند. همچنین شامل محافظت‌های داخلی مانند نظارت بر محتوا و واترمارک است.

 

جزئیات مدل در زیر آمده است:

Amazon Nova Sonic

شناسه مدل: amazon.nova-sonic-v1:0

ورودی‌ها: گفتار

خروجی‌ها: گفتار همراه با رونویسی و پاسخ‌های متنی

پنجره متن: ۳۰۰ هزار بافت

حداکثر مدت اتصال: ۸ دقیقه مهلت اتصال، با حداکثر ۲۰ اتصال همزمان برای هر مشتری

زبان‌های پشتیبانی شده: انگلیسی

مناطق: شرق ایالات متحده (ویرجینیای شمالی)

پشتیبانی API جریان دوطرفه: بله

پایگاه‌های دانش Bedrock: از طریق استفاده از ابزار (فراخوانی توابع) پشتیبانی می‌شود

 

نکته مرتبط اینکه، ماه گذشته OpenAI مدل‌های نسل بعدی گفتار به متن، gpt-4o-transcribe و gpt-4o-mini-transcribe را معرفی کرد که بهبودهای قابل توجهی در نرخ خطای کلمات، تشخیص زبان و دقت در مقایسه با مدل‌های Whisper موجود خود ارائه می‌دهند.

source

توسط wikiche.com