قابلیت تولید تصاویر با متن خوانا به «چت‌جی‌پی‌تی» اضافه شد

سه شنبه 19 فروردین 1404

عکس : قابلیت تولید تصاویر با متن خوانا به «چت‌جی‌پی‌تی» اضافه شد

این اشکالی است که اوپن ای آی، در بروزرسانی اخیر چت بات معروفش یعنی چت‌جی‌پی‌تی نسخه 4 او (GPT-4o) موفق به رفعش شده است و با توجه به سرعت بالای رشد ابزارها در این حوزه، احتمالا به زودی در تمامی نسخه های هوش مصنوعی برای تولید تصاویر، فراگیر خواهد شد.

به گزارش سرویس اخبار هوش مصنوعی سایت شات ایکس و به نقل از نبض فناوری GPT-4o می‌تواند تصاویری با متن‌های دقیق و خوانا تولید کند. این ویژگی جدید به کاربران اجازه می‌دهد تا تصاویر با کیفیت بالا و جزئیات دقیق ایجاد کنند و در حین فرآیند، متن مورد نظر خود را بدون مشکل در تصویر بازتولید کنند.

مدل‌های قبلی هوش مصنوعی معمولاً در تولید متون خوانا در تصاویر ضعف داشتند و اغلب نشانه‌ها و نوشته‌ها را به‌صورت حروف ناقص یا نامفهوم نمایش می‌دادند، اما GPT-4o این مشکل را تا حد زیادی برطرف کرده و اکنون می‌تواند نوشته‌هایی واضح و دقیق روی تابلوها، برچسب‌ها و اشیاء مختلف تولید کند.

پیشرفت در ترکیب عناصر مختلف در یک تصویر

یکی از ویژگی‌های قابل توجه این نسخه، تعامل پویا با کاربر در فرآیند تولید تصویر است. برخلاف روش‌های سنتی که نیاز به اصلاح مداوم یک پرسش اولیه داشت، در این مدل کاربران می‌توانند ابتدا یک دستور کلی مانند "یک گربه" بدهند و سپس در حین گفت‌وگو با مدل، جزئیات بیشتری مانند "یک گربه با کلاه کارآگاهی و یک مونکل" را به تصویر اضافه کنند. این شیوه باعث دقت و انعطاف‌پذیری بیشتر در خروجی نهایی می‌شود.

چت‌جی‌پی‌تی -4 او همچنین امکان ترکیب چندین عنصر از تصاویر مختلف را فراهم کرده است. به‌عنوان مثال، کاربران می‌توانند چند تصویر را با هم ترکیب کرده و صحنه‌های پیچیده‌تری بسازند.

در مقایسه با مدل‌های قبلی که در مدیریت تعداد بالای اشیا در یک تصویر دچار مشکل می‌شدند، این مدل می‌تواند ۱۰ تا ۲۰ شیء مختلف را در یک صحنه پردازش کند، در حالی که بسیاری از مدل‌های قبلی به ۵ تا ۸ شیء محدود بودند.

محدودیت‌ها و چالش‌ها

البته، این مدل همچنان چالش‌هایی دارد. برای مثال:

در برخی موارد، تصویر ممکن است از پایین به‌درستی برش داده نشود.

متن‌های غیرلاتین (مانند چینی، عربی یا فارسی) همچنان ممکن است به درستی نمایش داده نشوند.

هنگامی که تعداد اشیاء موجود در تصویر از ۲۰ مورد بیشتر شود، دقت مدل کاهش می‌یابد.

با این حال، پیشرفت در کیفیت متن‌های تولیدی و افزایش انعطاف‌پذیری در تعامل با تصویر این مدل را به ابزاری قدرتمند برای طراحان، هنرمندان دیجیتال و خالقان محتوا تبدیل کرده است.

یک قدم به سوی آینده‌ای پیشرفته‌تر

با این پیشرفت، اوپن ای آی یک گام دیگر به سوی تکامل هوش مصنوعی در تولید تصاویر برداشته است. اکنون کاربران می‌توانند با دقت بیشتری تصاویر را طراحی کرده و متون موردنظر خود را به‌صورت خوانا و بدون اشکال در آن‌ها قرار دهند.

این قابلیت می‌تواند انقلابی در طراحی گرافیک، تولید محتوای بصری و تبلیغات دیجیتال ایجاد کند و راه را برای توسعه ابزارهای پیشرفته‌تر در آینده هموار سازد.

ارسال این خبر برای دوستان در شبکه های مجازی :