واحد خبر mobile.ir : کمپانی گوگل که در ماه می سال جاری میلادی و در جریان رویداد توسعه‌دهندگان نرم‌افزاری خود مجموعه‌ای از قابلیت‌های جدید هوش مصنوعی از جمله مدل هوش مصنوعی Gemini 2.5 را به‌نمایش گذاشته بود، به‌تازگی و در روز سه‌شنبه 26 آگوست 2025 (4 شهریور 1404) از به‌روزرسانی بزرگی در قابلیت‌های تولید تصویر مبتنی بر AI خبر داده است. Gemini 2.5 Flash Image ، که با نام Nano Banana نیز شناخته می‌شود، در حال حاضر به عنوان برترین ویرایشگر تصویر جهان در جدول امتیازات LMArena (پلتفرمی برای ارزیابی مدل‌های هوش مصنوعی بر اساس نظر کاربران) رتبه‌بندی شده و نظرات مثبتی از سوی کاربران دریافت کرده است.

ویرایش تصویر به کمک هوش مصنوعی به کاربر اجازه ‌می‌دهد تصاویر را نه با فتوشاپ، بلکه با نوشتن یک پرامپت تغییر دهند. گوگل ابتدا در اوایل سال جاری میلادی قابلیت‌های مرتبط با ویرایش عکس را به اپلیکیشن Gemini افزوده بود که از همان ابتدا بسیار کارآمد از آب درآمد. البته این ابزار مانند تمام سیستم‌های هوش مصنوعی مولد، عناصر تصویر را به روش‌های غیر قابل پیش‌بینی تغییر می‌داد؛ به این معنا که ظاهر یک شخصیت یا شیء در مراحل ویرایش حفظ نمی‌شد. حال اما گوگل مدعی است که Nano Banana (از نظر فنی همان Gemini 2.5 Flash Image) هنگام ویرایش‌ ثبات قابل توجهی را برای شخصیت‌ها و شیء‌های حاضر در تصویر ارائه می‌دهد و در واقع می‌تواند جزئیات را به خاطر بسپارد، بدون آن‌که هر بار تغییرات تصادفی در عکس ایجاد کند.

Nano Banana که توسط بخش DeepMind گوگل توسعه یافته و در اپلیکیشن Gemini و برای توسعه‌دهندگان از طریق Gemini API ،Google AI Studio و پلتفرم‌های Vertex AI در دسترس قرار گرفته است، یکی از بزرگ‌ترین مشکلات تولید تصویر هوش مصنوعی یعنی تغییر ظاهر یک شخصیت یا شیء در مراحل ویرایش را رفع می‌کند.

اگر عکس محبوبی دارید، اما می‌خواهید جزئیاتی را در آن تغییر دهید، احتمالاً هنگام کار با ChatGPT یا Grok با این مسئله روبه‌رو شده‌اید که درخواست یک ویرایش کوچک در عکس، به تغییر کل تصویر می‌انجامد. اما گوگل با افزودن امکان ویرایش‌های دقیق، تنظیمات چندمرحله‌ای (multi-turn) و ترکیب یکپارچه سبک‌ها، فقط به دنبال بهبود فنی ابزار هوش مصنوعی نیست بلکه می‌کوشد سبک فرهنگی خاص خود را پدید آورد و از این طریق به نوعی پذیرش گسترده دست یابد.

گوگل مدعی است که در آپدیت جدید کاربران می‌توانند، به‌عنوان مثال، پس از آپلود عکسی از یک شخص او را در لباس‌های مختلف قرار دهند یا مدل مو را تغییر دهند یا در شرایط محیطی دیگری به تصویر بکشند؛ بدون این‌که سوژه به شکل کامل دگرگون شود. به گفته غول آمریکایی «اکنون می‌توانید یک شخصیت را، ضمن حفظ سوژه، در محیط‌های مختلف قرار دهید و محصولی واحد را از زوایای مختلف در چیدمان‌های جدید به نمایش بگذارید.»

همچنین کاربران می‌توانند پس از بارگذاری عکسی از یک شخص و حیوان خانگی محبوب او، آن‌ها را در یک صحنه جدید با هم ترکیب کنند. همچنین ویرایش چند مرحله‌ای نیز به کاربر امکان می‌دهد بارها تصاویر را ویرایش کند. یکی دیگر از نمونه‌هایی که گوگل از آن یاد کرده، امکان اضافه کردن مبلمان و تزئینات به عکس یک اتاق است تا کاربر بتواند از تغییرات در نماهای مختلف برای ارائه دکوراسیون تازه استفاده کند. از دیگر ویژگی‌های جالبی که اضافه شدن این قابلیت ارائه می‌دهد، امکان ترکیب طرح‌هاست؛ به این معنی که می‌توان سبک یک تصویر را روی شیئی در تصویر دیگر اِعمال کرد. به طور مثال، این امکان وجود دارد که طرح لباس یکی از سوژه‌های عکس به الگوی روی بال‌های پروانه تغییر یابد.

نکته مهم در این میان آن است که هم‌زمان با پیشرفت اپلیکیشن‌های تصویری هوش مصنوعی مولد، تشخیص جعلی بودن آنها نیز دشوارتر می‌شود. از این رو نگرانی‌ها درباره استفاده از این ابزارها برای اهداف نادرست افزایش یافته است. راهکار گوگل برای رفع این مسئله ارائه خروجی تصویر Gemini 2.5 Flash همراه با یک واترمارک قابل مشاهده AI است. علاوه بر آن، به تصویر تولیدشده توسط این ابزار یک واترمارک دیجیتال و نامرئی SynthID نیز افزوده می‌شود که می‌تواند حتی پس از چند تغییر محدود نیز شناسایی شود.

Gemini 2.5 Flash Image از همان روز معرفی و از طریق Gemini API، Google AI Studio در اختیار توسعه‌دهندگان قرار گرفته است و قیمت آن به ازای هر یک میلیون توکن خروجی 30 دلار و با احتساب 1,290 توکن خروجی برای هر عکس (معادل 0.39 دلار برای هر تصویر) تعیین شده است.

در پایان گفتنی است که توانایی‌های تولید تصویر ChatGPT به افزایش تعداد کاربران این مدل هوش مصنوعی به تقریباً یک میلیارد نفر در ماه آوریل کمک کرده است؛ امری که عمدتاً به لطف تعداد عظیم تصاویری است که به سبک استودیو جیبلی (Studio Ghibli) ایجاد شده‌اند. در همین حال، Meta نیز اعلام کرده است که به‌زودی مدل‌های تصویری هوش مصنوعی را برای Midjourney ارائه خواهد کرد.

source

توسط wikiche.com