دیپ فلوید، هنر هوش مصنوعی مولد را ارتقا می‌بخشد

این روزها بحث هوش مصنوعی مولد (generative AI)  بسیار داغ است. این سیستم‌های هیجان‌انگیز می‌توانند مناظری از افق شهرها تا کافه‌ها را ایجاد کنند و تصاویری خلق نمایند که به طرز شگفت‌انگیزی، حداقل در نگاه اول واقعی به نظر می‌رسند، اما یکی از ضعف‌های قدیمی مدل‌های هوش مصنوعیِ تبدیل متن به تصویر (text-to-image AI models)، ایجاد متن است. حتی بهترین مدل‌ها هم برای تولید تصاویری با لوگوهای خوانا، خوشنویسی یا نمایش فونت‌ها مشکل دارند. اما شاید این مشکل حل شود.

روزهای گذشته، کمپانی دیپ فلوید (DeepFloyd)، از یک ابزار هوش مصنوعی جدید برای تبدیل متن به تصویر، به نام DeepFloyd IF رونمایی کرد که می‌تواند به طور هوشمندانه‌ای متن را در تصاویر ادغام کند.

 DeepFloyd IF که بر روی مجموعه داده‌ای متشکل از بیش از یک میلیارد عکس و متن آموزش دیده و برای اجراشدن به یک پردازنده گرافیکی با حداقل 16 گیگابایت رم نیاز دارد، می‌تواند تصویری را از درخواستی مانند «یک خرس عروسکی که پیراهنی با نوشته Deep Floyd پوشیده» را در طیف وسیعی از سبک‌های هنری ایجاد کند.

هوش مصنوعی مولد

DeepFloyd IF به صورت متن باز در دسترس خواهد بود و البته استفاده تجاری از آن ممنوع است. این محدودیت احتمالاً ناشی از وضعیت حقوقی ضعیف فعلی مدل‌های هوش مصنوعی مولد است. 

با این حال، NightCafe که یک پلتفرم هنری مولد است، به DeepFloyd IF دسترسی یافته است. آنگوس راسل، مدیر عامل NightCafe، در مورد اینکه چه چیزی DeepFloyd IF را از سایر مدل‌های تبدیل متن به تصویر متمایز می‌کند و اینکه چرا ممکن است گامی مهم به جلو برای هوش مصنوعی مولد باشد، می‌گوید:

طراحی DeepFloyd IF به شدت از مدل Imagen گوگل الهام گرفته که هرگز به صورت عمومی منتشر نشد. برخلاف مدل‌هایی مانند DALL-E 2 محصول OpenAI، ابزار DeepFloyd IF برای تولید تصاویر، از چند فرآیند مختلف در یک معماری ماژولار  استفاده می‌کند.

در این عملیات، مدل یاد می‌گیرد که چگونه به تدریج نویز یک تصویر اولیه (که تقریباً به طور کامل از نویز ساخته شده) را کم کرده و آن را گام به گام به تصویر هدف نزدیک‌تر کند. DeepFloyd IF این فرآیند را نه یک بار بلکه چندین بار انجام می‌دهد و ابتدا یک تصویر 64x64px ایجاد کرده و سپس تصویر را به 256x256px و در نهایت به 1024x1024px ارتقا می‌دهد. 

تفاوت کلیدی دیگر بین DeepFloyd IF و مدل‌هایی مانند  DALL-E 2 این است که اولی از یک مدل زبانی بزرگ برای درک و نمایش درخواست‌ها به عنوان یک ساختار داده پایه استفاده می کند. با توجه به اندازه مدل زبانی بزرگ تعبیه شده در معماری DeepFloyd IF، این مدل به ویژه در درک درخواست‌های پیچیده و حتی روابط فضایی شرح داده شده در آن‌ها خوب عمل می‌کند (مثلاً یک مکعب قرمز بالای یک کره صورتی). همچنین در تولید متن خوانا و املای صحیح در تصاویر بسیار خوب است و حتی می‌تواند درخواست‌ها را به چندین زبان درک کند. هوش مصنوعی مولد

از میان این قابلیت‌ها، شاید توانایی تولید متن خوانا در تصاویر، بزرگترین ویژگی برای متمایز کردن DeepFloyd IF از سایر الگوریتم‌ها باشد. از آنجایی که DeepFloyd IF می‌تواند به خوبی متن را در تصاویر تولید کند، انتظار می‌رود پنجره‌ جدیدی را به روی قابلیت‌های هنر مولد مانند طراحی لوگو، طراحی وب، پوسترها، بیلبوردها و حتی میم‌ها باز کند. 

اما سوال بزرگ‌تر این است که DeepFloyd IF تا چه حد از نقص‌های سایر ابزارهای هوش مصنوعی مولد  رنج می‌برد؟ تحقیقات رو به رشدی به اَشکال تعصبات نژادی، قومیتی، جنسیتی و سایر اشکال کلیشه‌ای در هوش مصنوعی تولیدکننده تصویر دست یافته‌اند. همین ماه، محققان استارت‌آپ Hugging Face و دانشگاه لایپزیگ ابزاری را منتشر کردند که نشان می‌دهد مدل‌هایی از جمله DALL-E 2 تمایل به تولید تصاویری از افرادی دارند که مرد و سفیدپوست هستند، به ویژه وقتی از آنها خواسته شود افرادی را در موقعیت‌های قدرتمند به تصویر بکشند. تیم DeepFloyd در این مورد می‌گوید: 

متون و تصاویر جوامع و فرهنگ‌هایی که از زبان‌های دیگر استفاده می‌کنند، احتمالاً به اندازه کافی در نظر گرفته نمی‌شوند و این امر بر خروجی کلی مدل تأثیر می گذارد، زیرا فرهنگ‌های سفید و غربی اغلب به عنوان پیش‌فرض مدل تنظیم می‌شوند. 

از طرفی، DeepFloyd IF مانند سایر مدل‌های منبع باز می‌تواند برای موارد آسیب‌‌زایی مانند ایجاد دیپ‌فیک افراد مشهور و تصاویر گرافیکی خشونت‌آمیز استفاده شود. در وب‌سایت رسمی DeepFloyd IF، اعلام شده که از «فیلترهای سفارشی» برای حذف موارد «NSFW» (محتوای نامناسب) از داده‌های آموزشی استفاده کرده‌اند. با این حال دقیقاً مشخص نیست که چه محتوایی و به چه مقدار حذف شده و چه چیزهایی از قلم افتاده است. در نهایت زمان همه چیز را مشخص خواهد کرد.

منبع: techcrunch