در کنفرانس I/O امسال، گوگل جدیدترین مدلهای هوش مصنوعی خود را برای تولید محتوای رسانهای معرفی کرد. برجستهترین آنها احتمالاً Veo 3 است که بهعنوان اولین مدل از این نوع، میتواند ویدئوهایی همراه با صدا بسازد. برای مثال، این مدل قادر است ویدئویی از پرندهها با صدای آوازشان یا صحنهای از خیابان شهر با صدای ترافیک پسزمینه تولید کند. گوگل همچنین ادعا کرده که Veo 3 در زمینه فیزیک واقعگرایانه و هماهنگی حرکت لبها با صدا نیز بسیار پیشرفته است. در حال حاضر، این مدل فقط برای کاربران Gemini Ultra در ایالات متحده و برای مشتریان سازمانی (از طریق Vertex AI) در دسترس است. همچنین، میتوان از آن درابزار Flow گوگل برای فیلمسازی مبتنی بر هوش مصنوعی، استفاده کرد.
Flow میتواند برای ساخت کلیپها و صحنههای سینمایی مدلهای Veo، Imagen و Gemini را با هم ترکیب کند. کاربران میتوانند با توصیف خروجی نهایی مورد نظر خود به زبان طبیعی، از Flow بخواهند تا آن را برایشان خلق کند. این ابزار جدید در حال حاضر تنها برای مشترکان Google AI Pro و Ultra در ایالات متحده عرضه شده، اما گوگل اعلام کرده که بهزودی در کشورهای بیشتری نیز در دسترس قرار خواهد گرفت.

با اینکه گوگل یک مدل کاملاً جدید برای تولید ویدئو منتشر کرده، اما همچنان از Veo 2 پشتیبانی میکند. کاربران میتوانند تصاویر افراد، صحنهها، سبکها و اشیاء را بهعنوان مرجع برای خروجی مورد نظرشان در Flow به Veo 2 ارائه دهند. همچنین، ابزارهای کنترل دوربین به آنها اجازه میدهد تا صحنهها را بچرخانند و روی اشیاء خاصی در Flow زوم کنند. علاوه بر این، امکان تغییر نسبت ابعادی کادر از عمودی به افقی و اضافه یا حذف اشیاء از ویدئوها نیز فراهم شده است.
در این رویداد، گوگل از جدیدترین مدل خود برای تولید تصویر، Imagen 4، نیز پرده برداشت. این شرکت اعلام کرد که Imagen 4 جزئیات دقیق مانند بافتهای پیچیده و خز حیوانات را با وضوحی قابل توجه به تصویر میکشد و هم در ساخت تصاویر فوتورئالیستی و هم انتزاعی عملکرد بینظیری دارد. همچنین، این مدل در رندرینگ تایپوگرافی بهطور چشمگیری بهتر از نسخههای قبلی خود عمل کرده و میتواند تصاویر را در نسبتهای ابعادی مختلف با رزولوشن تا 2K تولید کند. Imagen 4 در حال حاضر از طریق برنامه جمینای، Vertex AI و در برنامههای Workspace قابل دسترسی است. گوگل همچنین اعلام کرده که بهزودی نسخهای از Imagen 4 را که ۱۰ برابر سریعتر از Imagen 3 است، منتشر خواهد کرد.
همچنین برای کمک به افراد در تشخیص محتوای تولید شده توسط هوش مصنوعی که این روزها بسیار دشوار شده، گوگل SynthID Detector را معرفی کرده است. این یک پورتال است که کاربران میتوانند قطعهای از محتوای رسانهای را که گمان میکنند توسط هوش مصنوعی تولید شده، در آن بارگذاری کنند. سپس گوگل تشخیص میدهد که آیا این محتوا حاوی SynthID، ابزار واترمارکینگ و شناسایی آن برای هنر هوش مصنوعی، هست یا خیر. اگرچه گوگل ابزار واترمارکینگ خود را متنباز کرده بود، اما همه تولیدکنندگان تصویر از آن استفاده نمیکنند. بنابراین این پورتال همچنان قادر به شناسایی تمامی تصاویر تولید شده توسط هوش مصنوعی نخواهد بود.
source