گوگل با عرضه نسخه جدید ابزار تولید تصویر جمینی اِی‌آی که با اسم رمز Nano Bananas سروصدای زیادی به پا کرد، فتوشاپ را به چالش کشیده است. این ارتقا که به صورت فنی Gemini 2.5 Flash Image نام دارد، به کاربران اجازه می‌دهد تصاویر را از طریق دستورات متنی و صوتی ایجاد کنند، از جمله جایگزینی افراد در یک عکس، تغییر لباس آن‌ها، یا ترکیب افراد از تصاویر واقعی با پس‌زمینه‌های جدید. گوگل این قابلیت را به طور رسمی روز سه‌شنبه، تنها از طریق اپلیکیشن موبایل جمینی منتشر کرد و نسخه وب هنوز به تمام ویژگی‌های جدید دسترسی ندارد. ما این موتور جدید را آزمایش کرده‌ایم و نتایج آن بسیار چشمگیر است. برای مثال، اورام پیلچ، سردبیر رج در ایالات متحده، عکسی از بالاتنه خود و یک عکس جداگانه از دو صندلی تهیه کرد. او هر دو عکس را در تلفن خود به جمینی داد و از موتور خواست او را در صندلی قرمز بنشاند.

به گزارش بخش نوآوری رسانه اخبار تکنولوژی تکنا، جمینی نه تنها پیلچ را در صندلی قرمز قرار داد، بلکه برای او دست و پاهایی که در عکس اصلی بالاتنه وجود نداشتند نیز کشید. این ابزار حتی لوگوی روی تی‌شرت او را که تنها نیمی از آن در تصویر اصلی دیده می‌شد، کامل کرد. تنها نکته غیرواقعی در عکس ادغام‌شده، شلوار او بود که مشکی بود، در حالی که در واقعیت او یک شلوار جین آبی پوشیده بود. او از جمینی خواست شلوار را به جین آبی روشن تغییر دهد، و این کار بدون هیچ مشکلی انجام شد.

گوگل در این باره اعلام کرد که کافی است یک عکس به جمینی بدهید و به آن بگویید چه چیزی را تغییر دهد تا جلوه منحصر به فرد خود را اضافه کنید. جمینی به شما امکان می‌دهد عکس‌ها را با هم ترکیب کرده تا خودتان را در عکسی با حیوان خانگی‌تان قرار دهید، پس‌زمینه یک اتاق را برای دیدن کاغذ دیواری جدید تغییر دهید یا خودتان را در هر کجای دنیا که تصور می‌کنید، جای دهید. هنگامی که کارتان تمام شد، می‌توانید تصویر ویرایش‌شده جدیدتان را دوباره به جمینی آپلود کنید تا آن را به یک ویدیوی جذاب تبدیل کنید.

در آزمایش‌های دیگر، پیلچ عکسی از دخترش گرفت و خواست دو مجسمه کنار او حذف شوند. مجسمه‌ها ناپدید شدند و سایه درختی نزدیک به جایی که قبلاً بودند، گسترش یافت. سپس او از جمینی خواست که دخترش در مقابل اهرام ظاهر شود و این ابزار به خواسته او عمل کرد. حتی حالت ایستادن دختر را تغییر داد تا صاف‌تر بایستد. یکی از بهبودهای اصلی که کاربران فوراً متوجه آن خواهند شد، سرعت بالای این ابزار است. در آزمایش‌ها، تصاویر در عرض چند ثانیه آماده می‌شدند.

تمام کار در فضای ابری صورت می‌گرفت و حتی عکس روی جلد این متن نیز با استفاده از جمینی ساخته شد. جمینی مهارت واقعی خود را در این زمینه نشان می‌دهد که به ویرایشگران تصویر اجازه می‌دهد با استفاده از هوش مصنوعی در عرض چند ثانیه کارهایی را جایگزین کنند که ممکن است ساعت‌ها یا حداقل دقایق طولانی از یک طراح گرافیک وقت بگیرد. جایی که قبلاً باید یک نفر را با فتوشاپ در یک عکس قرار می‌دادید، اکنون می‌توانید فقط از ابزار بخواهید که این کار را برای شما انجام دهد.

گوگل یک واترمارک SynthID را برای امکان شناسایی تصاویر تولید شده توسط هوش مصنوعی در این سیستم گنجانده است که کمک بزرگی به کاهش تصاویر جعلی برای هرزنامه، تحریک یا سایر اهداف مخرب خواهد بود. البته این موضوع مانع از هجوم موجی از هرزنامه‌های تولید شده توسط هوش مصنوعی به صندوق ورودی ایمیل شما نخواهد شد، اما حداقل برخی بررسی‌های ایمنی را فراهم می‌کند. جمینی ۲.۵ فلش ایمیج هنوز برخی حفاظ‌ها را دارد، هرچند که محدود هستند.

برای مثال، تولید تصاویر هیتلر دشوار است، اما غیرممکن نیست. با این حال، اگر سلبریتی‌هایی مانند تیلور سوئیفت یا دونالد ترامپ را بخواهید، مشکلی نخواهید داشت. خوشبختانه این ابزار در مقابل تولید تصاویر پورنوگرافیک، حفاظ‌های لازم را دارد. به طور کلی، با اینکه برخی تصاویر کیفیت ایده‌آل نداشتند، این ابزار همچنان رقیب شایسته‌ای برای دیگر ابزارهای طراحی تصویر LLM از اوپن‌ای‌آی یا xAI است. گوگل سیستم جدید خود را برای API جمینی، گوگل اِی‌آی استودیو برای توسعه‌دهندگان و ورتکس اِی‌آی با هزینه ۳۰ دلار به ازای هر یک میلیون نشانه‌ خروجی عرضه می‌کند که هر تصویر برابر با ۱۲۹۰ نشانه‌ خروجی است (۰.۰۳۹ دلار برای هر تصویر). گوگل اعلام کرده این نسخه یک نسخه موقت است و بهبودهای بیشتری در راه است. این شرکت همچنین با OpenRouter.ai و fal.ai برای دسترسی بیشتر به این فناوری شریک شده است و اکنون نوبت دیگر شرکت‌های هوش مصنوعی است که با قابلیت‌های بسیار جذاب جدید گوگل رقابت کنند.

source

توسط wikiche.com