تولید تصویر یکی از پیشرفته‌ترین انواع استفاده از «هوش مصنوعی مولد» است. کلمات می‌توانند به تصاویر پیچیده و پر جزئیات تبدیل شوند. یک ایده‌ی ساده می‌تواند به عکس یا نقاشی جذابی تبدیل شود که تا پیش از این، امکان خلق آن‌ها وجود نداشت، و یا زمان و توان زیادی می‌خواست. در اینجا 7 ابزار تولید تصویر با هوش مصنوعی را با هم مقایسه کرده‌ایم تا ببینیم کدام ابزار عملکرد بهتر و دقیق‌تری دارد.

در حالی که فناوری پشت تولید تصویر با هوش مصنوعی به قدر زیادی بالغ شده، همچنان راه درازی برای رسیدن به ایده‌آل باقی مانده است. ابزارهای مختلف با یکدیگر تفاوت‌های بسیاری دارند. حتا ممکن است یک شرکت هوش مصنوعی خود را در ابزارهای مختلف تولید تصویر به شیوه‌های کاملا متفاوتی به خدمت بگیرد. در برخی موارد، به ویژه در مورد خلق تصویر چهره‌ی بسیار واقع‌گرایانه انسان‌ها، شباهت‌ها بیشتر هستند. اما همچنان در تعبیر فرمان‌ها و جزئیات دیگر، تفاوت‌های زیادی را می‌توان دید. همین موضوع باعث می‌شود که بخواهیم این ابزارها را با هم مقایسه کنیم.

برای درک بهتر تفاوت‌ها و تعبیرهای مختلف از دستورات نسبتا پیچیده‌ی تولید تصویر با هوش مصنوعی، 7 ابزار برتر را با هم مقایسه کردیم. در این مقاله نتیجه استفاده از ابزارهای زیر برای تولید تصاویر با فرمان‌های یکسان بررسی شده است:

  1. DALL-E
  2. Flux
  3. Ideogram
  4. Mystic
  5. Phoenix
  6. Midjourney
  7. Haiper

البته برای این مقایسه، برخی از ابزارهای تولید تصویر با هوش مصنوعی مشهور و قدرتمند هم کنار گذاشته شده‌اند. مثل ابزار بسیار قدرتمند و دقیق Imagen 3 گوگل که به تازگی برای افراد بیشتری در دسترس قرار گرفته است. یا ابزار Meta AI که چند روزی بیشتر نیست که به این جرگه اضافه شده است.

پیدا کردن دستور متنی

برای این آزمایش سه دستور متنی نسبتا پیچیده و طولانی طراحی شده است. یکی از دستورها بر خلق صحنه‌ای پیچیده با عناصری که باید سر جای مشخصی قرار بگیرند تاکید دارد. دستور دیگر به خلق متن در تصویر و توانایی ایجاد اتمسفر تمرکز دارد. و دستور دیگر بر واقع‌گرایی و همچنین بافت پوست متمرکز است. در نهایت از میان هفت تصویر خلق شده با 7 ابزار تولید تصویر با هوش مصنوعی، برای هر دستور، یک برنده انتخاب شده است. اگر شما با برنده‌ی انتخابی ما موافق نیستید می‌توانید ابزار برنده از نظرتان را معرفی کنید. دلایل خود را هم بنویسید.

دستور اول: زن جوان (سلفی)

دستور متنی نسبتا پیچیده‌ای که برای خلق یک تصویر سلفی از زن جوان بیست و چند ساله‌ای که توسط یک گوشی پرچم‌دار در نور روز گرفته شده به شرح زیر است:

یک سلفی بسیار واقع‌گرایانه از گوشی هوشمند یک زن جوان در اواسط بیست سالگی. عکس دارای وضوح و رنگ‌های زنده مخصوص دوربین‌های گوشی هوشمند با کیفیت بالا است، با کمی تاری حرکتی در یک لبه. تصویر در نور طبیعی روز گرفته شده است، که باعث ایجاد کمی نورپردازی بیش از حد در یک طرف صورت او شده است. او موهای فر تا شانه با هایلایت‌های رشد کرده دارد و آرایش روزمره کمی با خط چشم کمی پخش شده به چشم می‌خورد. حالت چهره‌اش لبخندی صادقانه و کمی نامتقارن با نشانه‌ای از خستگی دور چشمانش است. او یک تی‌شرت گرافیکی راحت و کهنه با لوگوی یک گروه موسیقی کم‌رنگ پوشیده است.

یک گردنبند نقره‌ای باریک کمی در موهای او نزدیک یقه گره خورده است. پس‌زمینه، یک آپارتمان استودیویی است که در آن زندگی می‌کند، با یک تخت خواب نامرتب و یک قفسه کتاب کوچک قابل مشاهده است. یک گیاه خانگی با چند برگ زرد شده پشت پنجره قرار دارد. لکه‌ای کوچک از قهوه به سختی روی یقه پیراهن او قابل مشاهده است.

Midjourney

من از تمام تنظیمات پیش‌فرض برای همه این دستورالعمل‌ها استفاده کردم که متأسفانه در حق Midjourney، که قابل تنظیم‌ترین مدل‌های تصویری هوش مصنوعی است، اجحاف بزرگی است. در اینجا به دلیل رفتار پیش‌فرض آن برای کامل کردن همه چیز، برخی از نکات دستورالعمل رعایت نشده‌اند. با این حال، فکر می‌کنم تصویر زن را به شکلی درخشان خلق کرده است.

DALL-E

ابزار DALL-E با خلق تصویری که بیشتر شبیه به عروسک است تا یک چیز واقع‌گرایانه، کاملا از رقابت در این بخش حذف می‌شود.

Ideogram

بهترین تصویر تولید شده با هوش مصنوعی

ایدئوگرام در پیروی از عنصر «نقص‌ها» در این دستورالعمل خوب عمل کرد، اما کمی در اعمال تارشدگی حرکتی اغراق دارد. با این حال، به نظر من این تصویر از میان تمام تصاویر افراد، طبیعی‌تر به نظر می‌رسد.

Freepik Mystic

آزمون تولید تصویر با هوش مصنوعی

من نورپردازی اثر Mystic را دوست دارم و زن در آن بسیار واقع‌گرایانه به نظر می‌رسد. دستورالعمل به خوبی دنبال شده است. همچنین، مشکل «بیش از حد بی‌نقص» بودن که در Midjourney وجود دارد، در اینجا نیز به چشم می‌خورد.

Flux (using Grok)

شاید تصویر Flux به طور کلی مورد علاقه من باشد. فکر نمی‌کنم که از نظر پایبندی به دستورالعمل‌ها یا تصویر واقع‌گرایانه بهترین باشد، اما خوب است و به طور کلی باورپذیرتر به نظر می‌رسد.

Leonardo Phoenix

من واقعاً باور کرده بودم که این یکی عکس واقعی است. نقایص را به خوبی به تصویر کشیده بود، اما نورپردازی هنوز کمی مشکل دارد و قاب بندی عجیب است.

Haiper

آزمون تولید تصویر با هوش مصنوعی - Haiper تصویر سلفی زن جوان

هایپر تصویر خوبی ساخت اما نورپردازی را درست انجام نداد و پوست بیش از حد «بی‌نقص» است. با این حال، این شخصیت تولید شده از بین همه تصاویر، مورد علاقه من است.

برنده: Ideogram

دستور دوم: Penny Lane (متن در تصویر)

یک صحنه شلوغ از خیابان لندن در دهه ۱۹۶۰ در یک بعدازظهر بارانی. خیابان با اتوبوس‌های دو طبقه قرمز معروف، تاکسی‌های سیاه و مردمی که چترهای رنگارنگ به دست دارند، خط‌کشی شده است. یک گروه موسیقی الهام‌گرفته از بیتلز در گوشه خیابان اجرا می‌کند، با سازهایی که در پیاده‌روی مرطوب منعکس می‌شوند. در پس‌زمینه، بیگ بن از طریق مه‌ای سبک قابل مشاهده است. یک تابلوی نئون بالای یک کافه کوچک با حروف درخشان ‘پنی لین’ نوشته شده است. در سمت راست، یک زن با لباس شیک دهه ۱۹۶۰ منتظر اتوبوس است، در حالی که روزنامه‌ای با تیتر ‘مردی بر روی ماه قدم گذاشته است’ نگه داشته است. قطرات باران به طور محسوسی در حال افتادن هستند، ایجاد امواج در گودال‌ها، و کل صحنه ترکیبی از نوستالژی و واقع‌گرایی دارد.

Midjourney

ابزار تولید تصویر با هوش مصنوعی Midjourney در دنبال کردن صحنه کار خوبی انجام داد و «تلاش» کرد تا تابلو را به درستی نمایش دهد. اما دو درخواست متن را با هم اشتباه گرفت.

DALL-E

DALL-3 مدل تولید تصویر با هوش مصنوعی

مجددا، DALL-E تلاش کرد تا متن را نمایش دهد اما نتوانست آن را به درستی رندر کند و دو متن مختلف را به شیوه‌های عجیبی با هم مخلوط کرد. صحنه نیز نسبت به دیگران کارتونی‌تر به نظر می‌رسید. از همه این‌ها گذشته، آن مرد وسط خیابان چه کار می‌کند؟

Ideogram

Ideogram تنها چیزی بود که تقریباً به طور دقیق دستور را درک کرد. این ابزار تولید تصویر با هوش مصنوعی تابلوی Penny Lane را به تصویر کشید. همچنین زن و روزنامه‌ای که در دستش دارد با پیغامی که روی آن نوشته شده درست ساخته شده‌اند. اگرچه مدل در دست گرفتن روزنامه عجیب است. همین‌طور جو ساخته شده به اندازه تصویری که Midjourney ارائه داد قوی نیست، اما ساختار صحنه آن بهتر است.

Freepik Mystic

Mystic ابزار تولید تصویر با هوش مصنوعی

مدل Mystic که بر پایه مدل Flux ساخته شده ولی با تنظیمات اضافی نیز بهبود یافته، بسیار چشمگیر است. این مدل به درستی متن را بازسازی کرده و زنی را با روزنامه قرار داده است. از نظر بصری از Ideogram بهتر است، اما ساختار صحنه به دلیل حضور زن در خیابان خوب نیست.

Flux (using Grok)

تصویر Flux، که با استفاده از Grok تولید شده، به طور شگفت‌آوری هوشمندانه است. زنی با روزنامه در دست در تصویر قرار دارد. کلمات پنی لین و بیتلز در یک بیلبورد در کنار مردی که روی ماه قدم می‌گذارد، دیده می‌شوند. با این حال، در حالی که تصویر از نظر بصری خوب است، ساختار صحنه وحشتناک است. نگاه کنید به ایجاد دو برج الیزابت (بیگ بن)، لباس زنی که پشتش به ماست (که مربوط به دهه‌ی خواسته شده نیست و بیشتر امروزی به نظر می‌رسد) و چهره‌ی مخدوش زن صورتی پوش.

Leonardo Phoenix

Leonadro Phoenix ابزار تولید تصویر با هوش مصنوعی

مدل Phoenix لئوناردو احتمالا بهترین پایبندی به دستورالعمل‌ها را در میان تمام مدل‌هایی که امتحان کردم داشت. همچنین در بازنمایی متن بسیار خیره‌کننده عمل کرد اما ظاهر تصویر، خلق صحنه‌ها و چهره‌ها واقعا افتضاح بودند.

Haiper

هایپر بهترین تصویر و فضا سازی را داشت اما حتی تلاشی برای متن نکرد و بسیاری از عناصر درخواست را نادیده گرفت. بنابراین در پایبندی به درخواست نیز شکست خورد.

برنده: Ideogram

دستور سوم: لندن ویکتوریایی

خیابان شلوغی در لندن عصر ویکتوریا در هنگام غروب، با ارابه‌هایی که توسط اسب‌ها کشیده می‌شوند و از روی سنگفرش‌ها عبور می‌کنند. زنی با لباسی شیک به رنگ قرمز و کلاه بنت در زیر چراغ گازی خیابان ایستاده و روزنامه‌ای تا شده با تیتر: ‘اختراعات جدید دنیا را تغییر می‌دهند!’ را می‌خواند. نور چراغ، گرمایی را بر چهره‌اش می‌تاباند. بخار از چرخ‌دستی فروشنده‌ای در نزدیکی بلند می‌شود که کستان‌های برشته می‌فروشد، در حالی که بچه‌ها با لباس‌های پاره در پس‌زمینه به شیطنت بازی می‌کنند. در دوردست، برج ساعت بیگ بن قرار دارد که نیمی از آن در مه غلیظ پنهان شده است. واقع‌گرایی باید بافت خیابان‌ها، چهره‌های دقیق زن و ظرافت‌های مه و نورپردازی را برجسته کند.

Midjourney

Midjourney ابزار تولید تصویر با هوش مصنوعی

میدجورنی اصول اولیه صحنه را ثبت کرد، از جمله ترسیم دقیق زنی با کلاه، اگرچه به نظر می‌رسد که مه را به عنوان دود ترسیم کرده است.

DALL-E

DALL-E متن را امتحان نکرد اما صحنه را به درستی به تصویر کشید. باز هم، تصویر کمی بیشتر به سمت کارتونی بودن پیش رفت تا واقع‌گرایی. به نظر می‌رسد شبیه به یک کارت پستال دوره ویکتوریایی است.

Ideogram

Ideogram ابزار تولید تصویر با هوش مصنوعی

Ideogram کار قابل قبولی در تولید تصویر با هوش مصنوعی انجام داد. من طرفدار حس کمی کارتونی یا بچه‌ها در خیابان نیستم، اما زن به نظر طبیعی می‌آید و تقریبا متن را درست نشان می‌دهد.

Freepik Mystic

تصویر Mystic بهترین تصویر کلی بود زیرا صحنه را به درستی نشان می‌داد، حس واقع‌گرایانه‌ای داشت اما در نمایش متن با شکست مواجه شد.

Flux (using Grok)

Flux ابزار تولید تصویر با هوش مصنوعی

Flux (در Grok) بهترین کار را در نمایش متن روی روزنامه انجام داد و حتی تصویر را به گونه‌ای تولید کرد که حالت خواندن روزنامه توسط زن به نظر طبیعی‌تر می‌آید.

Leonardo Phoenix

لئوناردو فینیکس صحنه را با دقت بازسازی و نوشته‌های روی روزنامه را به خوبی ثبت کرد، اما تصویر حسی شبیه به کارتون دارد.

Haiper

هایپر ابزار تولید تصویر با هوش مصنوعی

تصویر تولید شده با هوش مصنوعی Haiper بسیار واقعی‌تر به نظر می‌رسد، زیرا برای نمایش لندن با نشان دادن بیگ بن تلاش نمی‌کند. در عوض، صحنه‌ای از دوران ویکتوریا را با چراغ‌های گازی و کالسکه‌ها بر روی خیابان‌های سنگفرش نشان می‌دهد.

برنده: Flux (in Grok)

source

توسط wikiche.com