انویدیا و MIT از هوش مصنوعی Sana رونمایی کردند؛ تولید تصویر با وضوح بالا در چند ثانیه
تکنولوژی و هوش‌مصنوعی

انویدیا و MIT از هوش مصنوعی Sana رونمایی کردند؛ تولید تصویر با وضوح بالا در چند ثانیه

محققان انویدیا، دانشگاه MIT و «دانشگاه چینهوا» چین مدل هوش مصنوعی جدیدی با نام Sana معرفی کرده‌اند که می‌تواند در چند ثانیه تصاویری با وضوح 4096 در 4096 پیکسل تولید کند.

محققان در صفحه گیت‌هاب Sana توضیح می‌دهند برخلاف مدل‌های هوش مصنوعی قدیمی که تصاویر را 8 برابر فشرده می‌کنند، Sana می‌تواند تصاویر را 32 برابر فشرده کند و تعداد توکن‌های موردنیاز را کاهش بدهد.

علاوه‌براین، Sana از مدل زبانی Gemma به‌جای رمزگذار متن خود برای بهبود عملکرد درک و استنتاج سریع استفاده می‌کند. محققان همچنین برای کاهش مراحل نمونه‌گیری آن از مکانیزمی با نام «Flow-DPM-Solver» استفاده کرده‌اند که اساساً تعداد مراحل نمونه‌گیری را از 28-50 به 14-20 کاهش می‌دهد.

تصاویر زیر با هوش مصنوعی Sana تولید شده‌اند:

عملکرد Sana در برابر سایر مدل‌های هوش مصنوعی

آن‌ها ادعا کرده‌اند مدل Sana-0.6B می‌تواند با مدل‌های غول‌پیکر مدرن مانند Flux-12B رقابت کند و 20 برابر کوچک‌تر و بیشتر از 100 برابر در اندازه‌گیری سریع‌تر باشد. همچنین Sana-0.6B را می‌توان روی پردازشگر گرافیکی لپ‌تاپ 16 گیگابایتی اجرا کرد.

نمودار زیر مدت تولید تصویر توسط مدل Sana را با سایر مدل‌ها مقایسه می‌کند. طبق این نمودار برای مثال مدل SANA-1.6B با 1.6 میلیارد پارامتر می‌تواند در 1.2 ثانیه تصویری با وضوح 1024 در 1024 پیکسل تولید کند.

هم‌اکنون از طریق گیت‌هاب می‌توانید نسخه اولیه Sana را آزمایش کنید و محققان وعده داده‌اند کد منبع آن را به‌زودی منتشر می‌کنند.

مقالات مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.

مقالات مشابه