مقایسه 7 ابزار تولید تصویر با هوش مصنوعی: برنده کدام است؟ – ویکی چه

تولید تصویر یکی از پیشرفته‌ترین انواع استفاده از «هوش مصنوعی مولد» است. کلمات می‌توانند به تصاویر پیچیده و پر جزئیات تبدیل شوند. یک ایده‌ی ساده می‌تواند به عکس یا نقاشی جذابی تبدیل شود که تا پیش از این، امکان خلق آن‌ها وجود نداشت، و یا زمان و توان زیادی می‌خواست. در اینجا 7 ابزار تولید تصویر با هوش مصنوعی را با هم مقایسه کرده‌ایم تا ببینیم کدام ابزار عملکرد بهتر و دقیق‌تری دارد.

در حالی که فناوری پشت تولید تصویر با هوش مصنوعی به قدر زیادی بالغ شده، همچنان راه درازی برای رسیدن به ایده‌آل باقی مانده است. ابزارهای مختلف با یکدیگر تفاوت‌های بسیاری دارند. حتا ممکن است یک شرکت هوش مصنوعی خود را در ابزارهای مختلف تولید تصویر به شیوه‌های کاملا متفاوتی به خدمت بگیرد. در برخی موارد، به ویژه در مورد خلق تصویر چهره‌ی بسیار واقع‌گرایانه انسان‌ها، شباهت‌ها بیشتر هستند. اما همچنان در تعبیر فرمان‌ها و جزئیات دیگر، تفاوت‌های زیادی را می‌توان دید. همین موضوع باعث می‌شود که بخواهیم این ابزارها را با هم مقایسه کنیم.

برای درک بهتر تفاوت‌ها و تعبیرهای مختلف از دستورات نسبتا پیچیده‌ی تولید تصویر با هوش مصنوعی، 7 ابزار برتر را با هم مقایسه کردیم. در این مقاله نتیجه استفاده از ابزارهای زیر برای تولید تصاویر با فرمان‌های یکسان بررسی شده است:

DALL-E
Flux
Ideogram
Mystic
Phoenix
Midjourney
Haiper

البته برای این مقایسه، برخی از ابزارهای تولید تصویر با هوش مصنوعی مشهور و قدرتمند هم کنار گذاشته شده‌اند. مثل ابزار بسیار قدرتمند و دقیق Imagen 3 گوگل که به تازگی برای افراد بیشتری در دسترس قرار گرفته است. یا ابزار Meta AI که چند روزی بیشتر نیست که به این جرگه اضافه شده است.

پیدا کردن دستور متنی

برای این آزمایش سه دستور متنی نسبتا پیچیده و طولانی طراحی شده است. یکی از دستورها بر خلق صحنه‌ای پیچیده با عناصری که باید سر جای مشخصی قرار بگیرند تاکید دارد. دستور دیگر به خلق متن در تصویر و توانایی ایجاد اتمسفر تمرکز دارد. و دستور دیگر بر واقع‌گرایی و همچنین بافت پوست متمرکز است. در نهایت از میان هفت تصویر خلق شده با 7 ابزار تولید تصویر با هوش مصنوعی، برای هر دستور، یک برنده انتخاب شده است. اگر شما با برنده‌ی انتخابی ما موافق نیستید می‌توانید ابزار برنده از نظرتان را معرفی کنید. دلایل خود را هم بنویسید.

دستور اول: زن جوان (سلفی)

دستور متنی نسبتا پیچیده‌ای که برای خلق یک تصویر سلفی از زن جوان بیست و چند ساله‌ای که توسط یک گوشی پرچم‌دار در نور روز گرفته شده به شرح زیر است:

یک سلفی بسیار واقع‌گرایانه از گوشی هوشمند یک زن جوان در اواسط بیست سالگی. عکس دارای وضوح و رنگ‌های زنده مخصوص دوربین‌های گوشی هوشمند با کیفیت بالا است، با کمی تاری حرکتی در یک لبه. تصویر در نور طبیعی روز گرفته شده است، که باعث ایجاد کمی نورپردازی بیش از حد در یک طرف صورت او شده است. او موهای فر تا شانه با هایلایت‌های رشد کرده دارد و آرایش روزمره کمی با خط چشم کمی پخش شده به چشم می‌خورد. حالت چهره‌اش لبخندی صادقانه و کمی نامتقارن با نشانه‌ای از خستگی دور چشمانش است. او یک تی‌شرت گرافیکی راحت و کهنه با لوگوی یک گروه موسیقی کم‌رنگ پوشیده است.

یک گردنبند نقره‌ای باریک کمی در موهای او نزدیک یقه گره خورده است. پس‌زمینه، یک آپارتمان استودیویی است که در آن زندگی می‌کند، با یک تخت خواب نامرتب و یک قفسه کتاب کوچک قابل مشاهده است. یک گیاه خانگی با چند برگ زرد شده پشت پنجره قرار دارد. لکه‌ای کوچک از قهوه به سختی روی یقه پیراهن او قابل مشاهده است.

Midjourney

من از تمام تنظیمات پیش‌فرض برای همه این دستورالعمل‌ها استفاده کردم که متأسفانه در حق Midjourney، که قابل تنظیم‌ترین مدل‌های تصویری هوش مصنوعی است، اجحاف بزرگی است. در اینجا به دلیل رفتار پیش‌فرض آن برای کامل کردن همه چیز، برخی از نکات دستورالعمل رعایت نشده‌اند. با این حال، فکر می‌کنم تصویر زن را به شکلی درخشان خلق کرده است.

DALL-E

ابزار DALL-E با خلق تصویری که بیشتر شبیه به عروسک است تا یک چیز واقع‌گرایانه، کاملا از رقابت در این بخش حذف می‌شود.

Ideogram

ایدئوگرام در پیروی از عنصر «نقص‌ها» در این دستورالعمل خوب عمل کرد، اما کمی در اعمال تارشدگی حرکتی اغراق دارد. با این حال، به نظر من این تصویر از میان تمام تصاویر افراد، طبیعی‌تر به نظر می‌رسد.

Freepik Mystic

من نورپردازی اثر Mystic را دوست دارم و زن در آن بسیار واقع‌گرایانه به نظر می‌رسد. دستورالعمل به خوبی دنبال شده است. همچنین، مشکل «بیش از حد بی‌نقص» بودن که در Midjourney وجود دارد، در اینجا نیز به چشم می‌خورد.

Flux (using Grok)

شاید تصویر Flux به طور کلی مورد علاقه من باشد. فکر نمی‌کنم که از نظر پایبندی به دستورالعمل‌ها یا تصویر واقع‌گرایانه بهترین باشد، اما خوب است و به طور کلی باورپذیرتر به نظر می‌رسد.

Leonardo Phoenix

من واقعاً باور کرده بودم که این یکی عکس واقعی است. نقایص را به خوبی به تصویر کشیده بود، اما نورپردازی هنوز کمی مشکل دارد و قاب بندی عجیب است.

Haiper

هایپر تصویر خوبی ساخت اما نورپردازی را درست انجام نداد و پوست بیش از حد «بی‌نقص» است. با این حال، این شخصیت تولید شده از بین همه تصاویر، مورد علاقه من است.

برنده: Ideogram

دستور دوم: Penny Lane (متن در تصویر)

یک صحنه شلوغ از خیابان لندن در دهه ۱۹۶۰ در یک بعدازظهر بارانی. خیابان با اتوبوس‌های دو طبقه قرمز معروف، تاکسی‌های سیاه و مردمی که چترهای رنگارنگ به دست دارند، خط‌کشی شده است. یک گروه موسیقی الهام‌گرفته از بیتلز در گوشه خیابان اجرا می‌کند، با سازهایی که در پیاده‌روی مرطوب منعکس می‌شوند. در پس‌زمینه، بیگ بن از طریق مه‌ای سبک قابل مشاهده است. یک تابلوی نئون بالای یک کافه کوچک با حروف درخشان ‘پنی لین’ نوشته شده است. در سمت راست، یک زن با لباس شیک دهه ۱۹۶۰ منتظر اتوبوس است، در حالی که روزنامه‌ای با تیتر ‘مردی بر روی ماه قدم گذاشته است’ نگه داشته است. قطرات باران به طور محسوسی در حال افتادن هستند، ایجاد امواج در گودال‌ها، و کل صحنه ترکیبی از نوستالژی و واقع‌گرایی دارد.