گوگل با عرضه نسخه جدید ابزار تولید تصویر جمینی اِیآی که با اسم رمز Nano Bananas سروصدای زیادی به پا کرد، فتوشاپ را به چالش کشیده است. این ارتقا که به صورت فنی Gemini 2.5 Flash Image نام دارد، به کاربران اجازه میدهد تصاویر را از طریق دستورات متنی و صوتی ایجاد کنند، از جمله جایگزینی افراد در یک عکس، تغییر لباس آنها، یا ترکیب افراد از تصاویر واقعی با پسزمینههای جدید. گوگل این قابلیت را به طور رسمی روز سهشنبه، تنها از طریق اپلیکیشن موبایل جمینی منتشر کرد و نسخه وب هنوز به تمام ویژگیهای جدید دسترسی ندارد. ما این موتور جدید را آزمایش کردهایم و نتایج آن بسیار چشمگیر است. برای مثال، اورام پیلچ، سردبیر رج در ایالات متحده، عکسی از بالاتنه خود و یک عکس جداگانه از دو صندلی تهیه کرد. او هر دو عکس را در تلفن خود به جمینی داد و از موتور خواست او را در صندلی قرمز بنشاند.
به گزارش بخش نوآوری رسانه اخبار تکنولوژی تکنا، جمینی نه تنها پیلچ را در صندلی قرمز قرار داد، بلکه برای او دست و پاهایی که در عکس اصلی بالاتنه وجود نداشتند نیز کشید. این ابزار حتی لوگوی روی تیشرت او را که تنها نیمی از آن در تصویر اصلی دیده میشد، کامل کرد. تنها نکته غیرواقعی در عکس ادغامشده، شلوار او بود که مشکی بود، در حالی که در واقعیت او یک شلوار جین آبی پوشیده بود. او از جمینی خواست شلوار را به جین آبی روشن تغییر دهد، و این کار بدون هیچ مشکلی انجام شد.
گوگل در این باره اعلام کرد که کافی است یک عکس به جمینی بدهید و به آن بگویید چه چیزی را تغییر دهد تا جلوه منحصر به فرد خود را اضافه کنید. جمینی به شما امکان میدهد عکسها را با هم ترکیب کرده تا خودتان را در عکسی با حیوان خانگیتان قرار دهید، پسزمینه یک اتاق را برای دیدن کاغذ دیواری جدید تغییر دهید یا خودتان را در هر کجای دنیا که تصور میکنید، جای دهید. هنگامی که کارتان تمام شد، میتوانید تصویر ویرایششده جدیدتان را دوباره به جمینی آپلود کنید تا آن را به یک ویدیوی جذاب تبدیل کنید.
در آزمایشهای دیگر، پیلچ عکسی از دخترش گرفت و خواست دو مجسمه کنار او حذف شوند. مجسمهها ناپدید شدند و سایه درختی نزدیک به جایی که قبلاً بودند، گسترش یافت. سپس او از جمینی خواست که دخترش در مقابل اهرام ظاهر شود و این ابزار به خواسته او عمل کرد. حتی حالت ایستادن دختر را تغییر داد تا صافتر بایستد. یکی از بهبودهای اصلی که کاربران فوراً متوجه آن خواهند شد، سرعت بالای این ابزار است. در آزمایشها، تصاویر در عرض چند ثانیه آماده میشدند.
تمام کار در فضای ابری صورت میگرفت و حتی عکس روی جلد این متن نیز با استفاده از جمینی ساخته شد. جمینی مهارت واقعی خود را در این زمینه نشان میدهد که به ویرایشگران تصویر اجازه میدهد با استفاده از هوش مصنوعی در عرض چند ثانیه کارهایی را جایگزین کنند که ممکن است ساعتها یا حداقل دقایق طولانی از یک طراح گرافیک وقت بگیرد. جایی که قبلاً باید یک نفر را با فتوشاپ در یک عکس قرار میدادید، اکنون میتوانید فقط از ابزار بخواهید که این کار را برای شما انجام دهد.
گوگل یک واترمارک SynthID را برای امکان شناسایی تصاویر تولید شده توسط هوش مصنوعی در این سیستم گنجانده است که کمک بزرگی به کاهش تصاویر جعلی برای هرزنامه، تحریک یا سایر اهداف مخرب خواهد بود. البته این موضوع مانع از هجوم موجی از هرزنامههای تولید شده توسط هوش مصنوعی به صندوق ورودی ایمیل شما نخواهد شد، اما حداقل برخی بررسیهای ایمنی را فراهم میکند. جمینی ۲.۵ فلش ایمیج هنوز برخی حفاظها را دارد، هرچند که محدود هستند.
برای مثال، تولید تصاویر هیتلر دشوار است، اما غیرممکن نیست. با این حال، اگر سلبریتیهایی مانند تیلور سوئیفت یا دونالد ترامپ را بخواهید، مشکلی نخواهید داشت. خوشبختانه این ابزار در مقابل تولید تصاویر پورنوگرافیک، حفاظهای لازم را دارد. به طور کلی، با اینکه برخی تصاویر کیفیت ایدهآل نداشتند، این ابزار همچنان رقیب شایستهای برای دیگر ابزارهای طراحی تصویر LLM از اوپنایآی یا xAI است. گوگل سیستم جدید خود را برای API جمینی، گوگل اِیآی استودیو برای توسعهدهندگان و ورتکس اِیآی با هزینه ۳۰ دلار به ازای هر یک میلیون نشانه خروجی عرضه میکند که هر تصویر برابر با ۱۲۹۰ نشانه خروجی است (۰.۰۳۹ دلار برای هر تصویر). گوگل اعلام کرده این نسخه یک نسخه موقت است و بهبودهای بیشتری در راه است. این شرکت همچنین با OpenRouter.ai و fal.ai برای دسترسی بیشتر به این فناوری شریک شده است و اکنون نوبت دیگر شرکتهای هوش مصنوعی است که با قابلیتهای بسیار جذاب جدید گوگل رقابت کنند.
source