این اشکالی است که اوپن ای آی، در بروزرسانی اخیر چت بات معروفش یعنی چتجیپیتی نسخه 4 او (GPT-4o) موفق به رفعش شده است و با توجه به سرعت بالای رشد ابزارها در این حوزه، احتمالا به زودی در تمامی نسخه های هوش مصنوعی برای تولید تصاویر، فراگیر خواهد شد.
به گزارش سرویس اخبار هوش مصنوعی سایت شات ایکس و به نقل از نبض فناوری GPT-4o میتواند تصاویری با متنهای دقیق و خوانا تولید کند. این ویژگی جدید به کاربران اجازه میدهد تا تصاویر با کیفیت بالا و جزئیات دقیق ایجاد کنند و در حین فرآیند، متن مورد نظر خود را بدون مشکل در تصویر بازتولید کنند.
مدلهای قبلی هوش مصنوعی معمولاً در تولید متون خوانا در تصاویر ضعف داشتند و اغلب نشانهها و نوشتهها را بهصورت حروف ناقص یا نامفهوم نمایش میدادند، اما GPT-4o این مشکل را تا حد زیادی برطرف کرده و اکنون میتواند نوشتههایی واضح و دقیق روی تابلوها، برچسبها و اشیاء مختلف تولید کند.
پیشرفت در ترکیب عناصر مختلف در یک تصویر
یکی از ویژگیهای قابل توجه این نسخه، تعامل پویا با کاربر در فرآیند تولید تصویر است. برخلاف روشهای سنتی که نیاز به اصلاح مداوم یک پرسش اولیه داشت، در این مدل کاربران میتوانند ابتدا یک دستور کلی مانند "یک گربه" بدهند و سپس در حین گفتوگو با مدل، جزئیات بیشتری مانند "یک گربه با کلاه کارآگاهی و یک مونکل" را به تصویر اضافه کنند. این شیوه باعث دقت و انعطافپذیری بیشتر در خروجی نهایی میشود.
عکس : ترکیب عناصر مختلف در یک تصویر چتجیپیتی -4 او همچنین امکان ترکیب چندین عنصر از تصاویر مختلف را فراهم کرده است. بهعنوان مثال، کاربران میتوانند چند تصویر را با هم ترکیب کرده و صحنههای پیچیدهتری بسازند.
در مقایسه با مدلهای قبلی که در مدیریت تعداد بالای اشیا در یک تصویر دچار مشکل میشدند، این مدل میتواند ۱۰ تا ۲۰ شیء مختلف را در یک صحنه پردازش کند، در حالی که بسیاری از مدلهای قبلی به ۵ تا ۸ شیء محدود بودند.
محدودیتها و چالشها
البته، این مدل همچنان چالشهایی دارد. برای مثال:
- در برخی موارد، تصویر ممکن است از پایین بهدرستی برش داده نشود.
- متنهای غیرلاتین (مانند چینی، عربی یا فارسی) همچنان ممکن است به درستی نمایش داده نشوند.
- هنگامی که تعداد اشیاء موجود در تصویر از ۲۰ مورد بیشتر شود، دقت مدل کاهش مییابد.
با این حال، پیشرفت در کیفیت متنهای تولیدی و افزایش انعطافپذیری در تعامل با تصویر این مدل را به ابزاری قدرتمند برای طراحان، هنرمندان دیجیتال و خالقان محتوا تبدیل کرده است.
یک قدم به سوی آیندهای پیشرفتهتر
با این پیشرفت، اوپن ای آی یک گام دیگر به سوی تکامل هوش مصنوعی در تولید تصاویر برداشته است. اکنون کاربران میتوانند با دقت بیشتری تصاویر را طراحی کرده و متون موردنظر خود را بهصورت خوانا و بدون اشکال در آنها قرار دهند.
این قابلیت میتواند انقلابی در طراحی گرافیک، تولید محتوای بصری و تبلیغات دیجیتال ایجاد کند و راه را برای توسعه ابزارهای پیشرفتهتر در آینده هموار سازد.