مدل هوش مصنوعی Veo 3 گوگل قادر است ویدئوهایی همراه با صدا تولید کند

در کنفرانس I/O امسال، گوگل جدیدترین مدل‌های هوش مصنوعی خود را برای تولید محتوای رسانه‌ای معرفی کرد. برجسته‌ترین آن‌ها احتمالاً Veo 3 است که به‌عنوان اولین مدل از این نوع، می‌تواند ویدئوهایی همراه با صدا بسازد. برای مثال، این مدل قادر است ویدئویی از پرنده‌ها با صدای آوازشان یا صحنه‌ای از خیابان شهر با صدای ترافیک پس‌زمینه تولید کند. گوگل همچنین ادعا کرده که Veo 3 در زمینه فیزیک واقع‌گرایانه و هماهنگی حرکت لب‌ها با صدا نیز بسیار پیشرفته است. در حال حاضر، این مدل فقط برای کاربران Gemini Ultra در ایالات متحده و برای مشتریان سازمانی (از طریق Vertex AI) در دسترس است. همچنین، می‌توان از آن درابزار Flow گوگل برای فیلم‌سازی مبتنی بر هوش مصنوعی، استفاده کرد.

Flow می‌تواند برای ساخت کلیپ‌ها و صحنه‌های سینمایی مدل‌های Veo، Imagen و Gemini را با هم ترکیب کند. کاربران می‌توانند با توصیف خروجی نهایی مورد نظر خود به زبان طبیعی، از Flow بخواهند تا آن را برایشان خلق کند. این ابزار جدید در حال حاضر تنها برای مشترکان Google AI Pro و Ultra در ایالات متحده عرضه شده، اما گوگل اعلام کرده که به‌زودی در کشورهای بیشتری نیز در دسترس قرار خواهد گرفت.

با اینکه گوگل یک مدل کاملاً جدید برای تولید ویدئو منتشر کرده، اما همچنان از Veo 2 پشتیبانی می‌کند. کاربران می‌توانند تصاویر افراد، صحنه‌ها، سبک‌ها و اشیاء را به‌عنوان مرجع برای خروجی مورد نظرشان در Flow به Veo 2 ارائه دهند. همچنین، ابزارهای کنترل دوربین به آن‌ها اجازه می‌دهد تا صحنه‌ها را بچرخانند و روی اشیاء خاصی در Flow زوم کنند. علاوه بر این، امکان تغییر نسبت ابعادی کادر از عمودی به افقی و اضافه یا حذف اشیاء از ویدئوها نیز فراهم شده است.

در این رویداد، گوگل از جدیدترین مدل خود برای تولید تصویر، Imagen 4، نیز پرده برداشت. این شرکت اعلام کرد که Imagen 4 جزئیات دقیق مانند بافت‌های پیچیده و خز حیوانات را با وضوحی قابل توجه به تصویر می‌کشد و هم در ساخت تصاویر فوتورئالیستی و هم انتزاعی عملکرد بی‌نظیری دارد. همچنین، این مدل در رندرینگ تایپوگرافی به‌طور چشمگیری بهتر از نسخه‌های قبلی خود عمل کرده و می‌تواند تصاویر را در نسبت‌های ابعادی مختلف با رزولوشن تا 2K تولید کند. Imagen 4 در حال حاضر از طریق برنامه جمینای، Vertex AI و در برنامه‌های Workspace قابل دسترسی است. گوگل همچنین اعلام کرده که به‌زودی نسخه‌ای از Imagen 4 را که ۱۰ برابر سریع‌تر از Imagen 3 است، منتشر خواهد کرد.

همچنین برای کمک به افراد در تشخیص محتوای تولید شده توسط هوش مصنوعی که این روزها بسیار دشوار شده، گوگل SynthID Detector را معرفی کرده است. این یک پورتال است که کاربران می‌توانند قطعه‌ای از محتوای رسانه‌ای را که گمان می‌کنند توسط هوش مصنوعی تولید شده، در آن بارگذاری کنند. سپس گوگل تشخیص می‌دهد که آیا این محتوا حاوی SynthID، ابزار واترمارکینگ و شناسایی آن برای هنر هوش مصنوعی، هست یا خیر. اگرچه گوگل ابزار واترمارکینگ خود را متن‌باز کرده بود، اما همه تولیدکنندگان تصویر از آن استفاده نمی‌کنند. بنابراین این پورتال همچنان قادر به شناسایی تمامی تصاویر تولید شده توسط هوش مصنوعی نخواهد بود.

source

توسطwikiche.com

توسط wikiche.com

پست های مرتبط

دوربین گلکسی A57 سامسونگ باید به این درخواست کاربران پاسخ بدهد

جاه‌طلبی فضایی گوگل: پروژه Suncatcher دیتاسنترهای هوش مصنوعی را به مدار زمین می‌برد

چرا نباید باتری ابزار شارژی را که دیگر شارژ نگه نمی‌دارد، احیا کنید؟

You missed

دوربین گلکسی A57 سامسونگ باید به این درخواست کاربران پاسخ بدهد

جاه‌طلبی فضایی گوگل: پروژه Suncatcher دیتاسنترهای هوش مصنوعی را به مدار زمین می‌برد

چرا نباید باتری ابزار شارژی را که دیگر شارژ نگه نمی‌دارد، احیا کنید؟

چرا یادگیری زبان دیگر به روش‌های سنتی جواب نمی‌دهد؟