این روزها بحث هوش مصنوعی مولد (generative AI) بسیار داغ است. این سیستمهای هیجانانگیز میتوانند مناظری از افق شهرها تا کافهها را ایجاد کنند و تصاویری خلق نمایند که به طرز شگفتانگیزی، حداقل در نگاه اول واقعی به نظر میرسند، اما یکی از ضعفهای قدیمی مدلهای هوش مصنوعیِ تبدیل متن به تصویر (text-to-image AI models)، ایجاد متن است. حتی بهترین مدلها هم برای تولید تصاویری با لوگوهای خوانا، خوشنویسی یا نمایش فونتها مشکل دارند. اما شاید این مشکل حل شود.
روزهای گذشته، کمپانی دیپ فلوید (DeepFloyd)، از یک ابزار هوش مصنوعی جدید برای تبدیل متن به تصویر، به نام DeepFloyd IF رونمایی کرد که میتواند به طور هوشمندانهای متن را در تصاویر ادغام کند.
DeepFloyd IF که بر روی مجموعه دادهای متشکل از بیش از یک میلیارد عکس و متن آموزش دیده و برای اجراشدن به یک پردازنده گرافیکی با حداقل 16 گیگابایت رم نیاز دارد، میتواند تصویری را از درخواستی مانند «یک خرس عروسکی که پیراهنی با نوشته Deep Floyd پوشیده» را در طیف وسیعی از سبکهای هنری ایجاد کند.
DeepFloyd IF به صورت متن باز در دسترس خواهد بود و البته استفاده تجاری از آن ممنوع است. این محدودیت احتمالاً ناشی از وضعیت حقوقی ضعیف فعلی مدلهای هوش مصنوعی مولد است.
با این حال، NightCafe که یک پلتفرم هنری مولد است، به DeepFloyd IF دسترسی یافته است. آنگوس راسل، مدیر عامل NightCafe، در مورد اینکه چه چیزی DeepFloyd IF را از سایر مدلهای تبدیل متن به تصویر متمایز میکند و اینکه چرا ممکن است گامی مهم به جلو برای هوش مصنوعی مولد باشد، میگوید:
طراحی DeepFloyd IF به شدت از مدل Imagen گوگل الهام گرفته که هرگز به صورت عمومی منتشر نشد. برخلاف مدلهایی مانند DALL-E 2 محصول OpenAI، ابزار DeepFloyd IF برای تولید تصاویر، از چند فرآیند مختلف در یک معماری ماژولار استفاده میکند.
در این عملیات، مدل یاد میگیرد که چگونه به تدریج نویز یک تصویر اولیه (که تقریباً به طور کامل از نویز ساخته شده) را کم کرده و آن را گام به گام به تصویر هدف نزدیکتر کند. DeepFloyd IF این فرآیند را نه یک بار بلکه چندین بار انجام میدهد و ابتدا یک تصویر 64x64px ایجاد کرده و سپس تصویر را به 256x256px و در نهایت به 1024x1024px ارتقا میدهد.
تفاوت کلیدی دیگر بین DeepFloyd IF و مدلهایی مانند DALL-E 2 این است که اولی از یک مدل زبانی بزرگ برای درک و نمایش درخواستها به عنوان یک ساختار داده پایه استفاده می کند. با توجه به اندازه مدل زبانی بزرگ تعبیه شده در معماری DeepFloyd IF، این مدل به ویژه در درک درخواستهای پیچیده و حتی روابط فضایی شرح داده شده در آنها خوب عمل میکند (مثلاً یک مکعب قرمز بالای یک کره صورتی). همچنین در تولید متن خوانا و املای صحیح در تصاویر بسیار خوب است و حتی میتواند درخواستها را به چندین زبان درک کند.
از میان این قابلیتها، شاید توانایی تولید متن خوانا در تصاویر، بزرگترین ویژگی برای متمایز کردن DeepFloyd IF از سایر الگوریتمها باشد. از آنجایی که DeepFloyd IF میتواند به خوبی متن را در تصاویر تولید کند، انتظار میرود پنجره جدیدی را به روی قابلیتهای هنر مولد مانند طراحی لوگو، طراحی وب، پوسترها، بیلبوردها و حتی میمها باز کند.
اما سوال بزرگتر این است که DeepFloyd IF تا چه حد از نقصهای سایر ابزارهای هوش مصنوعی مولد رنج میبرد؟ تحقیقات رو به رشدی به اَشکال تعصبات نژادی، قومیتی، جنسیتی و سایر اشکال کلیشهای در هوش مصنوعی تولیدکننده تصویر دست یافتهاند. همین ماه، محققان استارتآپ Hugging Face و دانشگاه لایپزیگ ابزاری را منتشر کردند که نشان میدهد مدلهایی از جمله DALL-E 2 تمایل به تولید تصاویری از افرادی دارند که مرد و سفیدپوست هستند، به ویژه وقتی از آنها خواسته شود افرادی را در موقعیتهای قدرتمند به تصویر بکشند. تیم DeepFloyd در این مورد میگوید:
متون و تصاویر جوامع و فرهنگهایی که از زبانهای دیگر استفاده میکنند، احتمالاً به اندازه کافی در نظر گرفته نمیشوند و این امر بر خروجی کلی مدل تأثیر می گذارد، زیرا فرهنگهای سفید و غربی اغلب به عنوان پیشفرض مدل تنظیم میشوند.
از طرفی، DeepFloyd IF مانند سایر مدلهای منبع باز میتواند برای موارد آسیبزایی مانند ایجاد دیپفیک افراد مشهور و تصاویر گرافیکی خشونتآمیز استفاده شود. در وبسایت رسمی DeepFloyd IF، اعلام شده که از «فیلترهای سفارشی» برای حذف موارد «NSFW» (محتوای نامناسب) از دادههای آموزشی استفاده کردهاند. با این حال دقیقاً مشخص نیست که چه محتوایی و به چه مقدار حذف شده و چه چیزهایی از قلم افتاده است. در نهایت زمان همه چیز را مشخص خواهد کرد.
منبع: techcrunch