تولید تصویر یکی از پیشرفتهترین انواع استفاده از «هوش مصنوعی مولد» است. کلمات میتوانند به تصاویر پیچیده و پر جزئیات تبدیل شوند. یک ایدهی ساده میتواند به عکس یا نقاشی جذابی تبدیل شود که تا پیش از این، امکان خلق آنها وجود نداشت، و یا زمان و توان زیادی میخواست. در اینجا 7 ابزار تولید تصویر با هوش مصنوعی را با هم مقایسه کردهایم تا ببینیم کدام ابزار عملکرد بهتر و دقیقتری دارد.
در حالی که فناوری پشت تولید تصویر با هوش مصنوعی به قدر زیادی بالغ شده، همچنان راه درازی برای رسیدن به ایدهآل باقی مانده است. ابزارهای مختلف با یکدیگر تفاوتهای بسیاری دارند. حتا ممکن است یک شرکت هوش مصنوعی خود را در ابزارهای مختلف تولید تصویر به شیوههای کاملا متفاوتی به خدمت بگیرد. در برخی موارد، به ویژه در مورد خلق تصویر چهرهی بسیار واقعگرایانه انسانها، شباهتها بیشتر هستند. اما همچنان در تعبیر فرمانها و جزئیات دیگر، تفاوتهای زیادی را میتوان دید. همین موضوع باعث میشود که بخواهیم این ابزارها را با هم مقایسه کنیم.
برای درک بهتر تفاوتها و تعبیرهای مختلف از دستورات نسبتا پیچیدهی تولید تصویر با هوش مصنوعی، 7 ابزار برتر را با هم مقایسه کردیم. در این مقاله نتیجه استفاده از ابزارهای زیر برای تولید تصاویر با فرمانهای یکسان بررسی شده است:
-
DALL-E
-
Flux
-
Ideogram
-
Mystic
-
Phoenix
-
Midjourney
-
Haiper
البته برای این مقایسه، برخی از ابزارهای تولید تصویر با هوش مصنوعی مشهور و قدرتمند هم کنار گذاشته شدهاند. مثل ابزار بسیار قدرتمند و دقیق Imagen 3 گوگل که به تازگی برای افراد بیشتری در دسترس قرار گرفته است. یا ابزار Meta AI که چند روزی بیشتر نیست که به این جرگه اضافه شده است.
پیدا کردن دستور متنی
برای این آزمایش سه دستور متنی نسبتا پیچیده و طولانی طراحی شده است. یکی از دستورها بر خلق صحنهای پیچیده با عناصری که باید سر جای مشخصی قرار بگیرند تاکید دارد. دستور دیگر به خلق متن در تصویر و توانایی ایجاد اتمسفر تمرکز دارد. و دستور دیگر بر واقعگرایی و همچنین بافت پوست متمرکز است. در نهایت از میان هفت تصویر خلق شده با 7 ابزار تولید تصویر با هوش مصنوعی، برای هر دستور، یک برنده انتخاب شده است. اگر شما با برندهی انتخابی ما موافق نیستید میتوانید ابزار برنده از نظرتان را معرفی کنید. دلایل خود را هم بنویسید.
دستور اول: زن جوان (سلفی)
دستور متنی نسبتا پیچیدهای که برای خلق یک تصویر سلفی از زن جوان بیست و چند سالهای که توسط یک گوشی پرچمدار در نور روز گرفته شده به شرح زیر است:
یک سلفی بسیار واقعگرایانه از گوشی هوشمند یک زن جوان در اواسط بیست سالگی. عکس دارای وضوح و رنگهای زنده مخصوص دوربینهای گوشی هوشمند با کیفیت بالا است، با کمی تاری حرکتی در یک لبه. تصویر در نور طبیعی روز گرفته شده است، که باعث ایجاد کمی نورپردازی بیش از حد در یک طرف صورت او شده است. او موهای فر تا شانه با هایلایتهای رشد کرده دارد و آرایش روزمره کمی با خط چشم کمی پخش شده به چشم میخورد. حالت چهرهاش لبخندی صادقانه و کمی نامتقارن با نشانهای از خستگی دور چشمانش است. او یک تیشرت گرافیکی راحت و کهنه با لوگوی یک گروه موسیقی کمرنگ پوشیده است.
یک گردنبند نقرهای باریک کمی در موهای او نزدیک یقه گره خورده است. پسزمینه، یک آپارتمان استودیویی است که در آن زندگی میکند، با یک تخت خواب نامرتب و یک قفسه کتاب کوچک قابل مشاهده است. یک گیاه خانگی با چند برگ زرد شده پشت پنجره قرار دارد. لکهای کوچک از قهوه به سختی روی یقه پیراهن او قابل مشاهده است.
Midjourney
من از تمام تنظیمات پیشفرض برای همه این دستورالعملها استفاده کردم که متأسفانه در حق Midjourney، که قابل تنظیمترین مدلهای تصویری هوش مصنوعی است، اجحاف بزرگی است. در اینجا به دلیل رفتار پیشفرض آن برای کامل کردن همه چیز، برخی از نکات دستورالعمل رعایت نشدهاند. با این حال، فکر میکنم تصویر زن را به شکلی درخشان خلق کرده است.
DALL-E
ابزار DALL-E با خلق تصویری که بیشتر شبیه به عروسک است تا یک چیز واقعگرایانه، کاملا از رقابت در این بخش حذف میشود.
Ideogram
ایدئوگرام در پیروی از عنصر «نقصها» در این دستورالعمل خوب عمل کرد، اما کمی در اعمال تارشدگی حرکتی اغراق دارد. با این حال، به نظر من این تصویر از میان تمام تصاویر افراد، طبیعیتر به نظر میرسد.
Freepik Mystic
من نورپردازی اثر Mystic را دوست دارم و زن در آن بسیار واقعگرایانه به نظر میرسد. دستورالعمل به خوبی دنبال شده است. همچنین، مشکل «بیش از حد بینقص» بودن که در Midjourney وجود دارد، در اینجا نیز به چشم میخورد.
Flux (using Grok)
شاید تصویر Flux به طور کلی مورد علاقه من باشد. فکر نمیکنم که از نظر پایبندی به دستورالعملها یا تصویر واقعگرایانه بهترین باشد، اما خوب است و به طور کلی باورپذیرتر به نظر میرسد.
Leonardo Phoenix
من واقعاً باور کرده بودم که این یکی عکس واقعی است. نقایص را به خوبی به تصویر کشیده بود، اما نورپردازی هنوز کمی مشکل دارد و قاب بندی عجیب است.
Haiper
هایپر تصویر خوبی ساخت اما نورپردازی را درست انجام نداد و پوست بیش از حد «بینقص» است. با این حال، این شخصیت تولید شده از بین همه تصاویر، مورد علاقه من است.
برنده: Ideogram
دستور دوم: Penny Lane (متن در تصویر)
یک صحنه شلوغ از خیابان لندن در دهه ۱۹۶۰ در یک بعدازظهر بارانی. خیابان با اتوبوسهای دو طبقه قرمز معروف، تاکسیهای سیاه و مردمی که چترهای رنگارنگ به دست دارند، خطکشی شده است. یک گروه موسیقی الهامگرفته از بیتلز در گوشه خیابان اجرا میکند، با سازهایی که در پیادهروی مرطوب منعکس میشوند. در پسزمینه، بیگ بن از طریق مهای سبک قابل مشاهده است. یک تابلوی نئون بالای یک کافه کوچک با حروف درخشان ‘پنی لین’ نوشته شده است. در سمت راست، یک زن با لباس شیک دهه ۱۹۶۰ منتظر اتوبوس است، در حالی که روزنامهای با تیتر ‘مردی بر روی ماه قدم گذاشته است’ نگه داشته است. قطرات باران به طور محسوسی در حال افتادن هستند، ایجاد امواج در گودالها، و کل صحنه ترکیبی از نوستالژی و واقعگرایی دارد.
Midjourney
ابزار تولید تصویر با هوش مصنوعی Midjourney در دنبال کردن صحنه کار خوبی انجام داد و «تلاش» کرد تا تابلو را به درستی نمایش دهد. اما دو درخواست متن را با هم اشتباه گرفت.
DALL-E
مجددا، DALL-E تلاش کرد تا متن را نمایش دهد اما نتوانست آن را به درستی رندر کند و دو متن مختلف را به شیوههای عجیبی با هم مخلوط کرد. صحنه نیز نسبت به دیگران کارتونیتر به نظر میرسید. از همه اینها گذشته، آن مرد وسط خیابان چه کار میکند؟
Ideogram
Ideogram تنها چیزی بود که تقریباً به طور دقیق دستور را درک کرد. این ابزار تولید تصویر با هوش مصنوعی تابلوی Penny Lane را به تصویر کشید. همچنین زن و روزنامهای که در دستش دارد با پیغامی که روی آن نوشته شده درست ساخته شدهاند. اگرچه مدل در دست گرفتن روزنامه عجیب است. همینطور جو ساخته شده به اندازه تصویری که Midjourney ارائه داد قوی نیست، اما ساختار صحنه آن بهتر است.
Freepik Mystic
مدل Mystic که بر پایه مدل Flux ساخته شده ولی با تنظیمات اضافی نیز بهبود یافته، بسیار چشمگیر است. این مدل به درستی متن را بازسازی کرده و زنی را با روزنامه قرار داده است. از نظر بصری از Ideogram بهتر است، اما ساختار صحنه به دلیل حضور زن در خیابان خوب نیست.
Flux (using Grok)
تصویر Flux، که با استفاده از Grok تولید شده، به طور شگفتآوری هوشمندانه است. زنی با روزنامه در دست در تصویر قرار دارد. کلمات پنی لین و بیتلز در یک بیلبورد در کنار مردی که روی ماه قدم میگذارد، دیده میشوند. با این حال، در حالی که تصویر از نظر بصری خوب است، ساختار صحنه وحشتناک است. نگاه کنید به ایجاد دو برج الیزابت (بیگ بن)، لباس زنی که پشتش به ماست (که مربوط به دههی خواسته شده نیست و بیشتر امروزی به نظر میرسد) و چهرهی مخدوش زن صورتی پوش.
Leonardo Phoenix
مدل Phoenix لئوناردو احتمالا بهترین پایبندی به دستورالعملها را در میان تمام مدلهایی که امتحان کردم داشت. همچنین در بازنمایی متن بسیار خیرهکننده عمل کرد اما ظاهر تصویر، خلق صحنهها و چهرهها واقعا افتضاح بودند.
Haiper
هایپر بهترین تصویر و فضا سازی را داشت اما حتی تلاشی برای متن نکرد و بسیاری از عناصر درخواست را نادیده گرفت. بنابراین در پایبندی به درخواست نیز شکست خورد.
برنده: Ideogram
دستور سوم: لندن ویکتوریایی
خیابان شلوغی در لندن عصر ویکتوریا در هنگام غروب، با ارابههایی که توسط اسبها کشیده میشوند و از روی سنگفرشها عبور میکنند. زنی با لباسی شیک به رنگ قرمز و کلاه بنت در زیر چراغ گازی خیابان ایستاده و روزنامهای تا شده با تیتر: ‘اختراعات جدید دنیا را تغییر میدهند!’ را میخواند. نور چراغ، گرمایی را بر چهرهاش میتاباند. بخار از چرخدستی فروشندهای در نزدیکی بلند میشود که کستانهای برشته میفروشد، در حالی که بچهها با لباسهای پاره در پسزمینه به شیطنت بازی میکنند. در دوردست، برج ساعت بیگ بن قرار دارد که نیمی از آن در مه غلیظ پنهان شده است. واقعگرایی باید بافت خیابانها، چهرههای دقیق زن و ظرافتهای مه و نورپردازی را برجسته کند.
Midjourney
میدجورنی اصول اولیه صحنه را ثبت کرد، از جمله ترسیم دقیق زنی با کلاه، اگرچه به نظر میرسد که مه را به عنوان دود ترسیم کرده است.
DALL-E
DALL-E متن را امتحان نکرد اما صحنه را به درستی به تصویر کشید. باز هم، تصویر کمی بیشتر به سمت کارتونی بودن پیش رفت تا واقعگرایی. به نظر میرسد شبیه به یک کارت پستال دوره ویکتوریایی است.
Ideogram
Ideogram کار قابل قبولی در تولید تصویر با هوش مصنوعی انجام داد. من طرفدار حس کمی کارتونی یا بچهها در خیابان نیستم، اما زن به نظر طبیعی میآید و تقریبا متن را درست نشان میدهد.
Freepik Mystic
تصویر Mystic بهترین تصویر کلی بود زیرا صحنه را به درستی نشان میداد، حس واقعگرایانهای داشت اما در نمایش متن با شکست مواجه شد.
Flux (using Grok)
Flux (در Grok) بهترین کار را در نمایش متن روی روزنامه انجام داد و حتی تصویر را به گونهای تولید کرد که حالت خواندن روزنامه توسط زن به نظر طبیعیتر میآید.
Leonardo Phoenix
لئوناردو فینیکس صحنه را با دقت بازسازی و نوشتههای روی روزنامه را به خوبی ثبت کرد، اما تصویر حسی شبیه به کارتون دارد.
Haiper
تصویر تولید شده با هوش مصنوعی Haiper بسیار واقعیتر به نظر میرسد، زیرا برای نمایش لندن با نشان دادن بیگ بن تلاش نمیکند. در عوض، صحنهای از دوران ویکتوریا را با چراغهای گازی و کالسکهها بر روی خیابانهای سنگفرش نشان میدهد.
برنده: Flux (in Grok)
source