MAGE یک سیستم بینایی یکپارچه به نام MAsked Generative Encoder (MAGE) که توسط محققان MIT و Google ساخته شده است، می‌تواند برای بسیاری از چیزها مانند پیدا کردن و طبقه‌بندی اشیاء در یک تصویر، یادگیری از چند مثال، تولید تصاویر با شرایط خاص مفید باشد. به عنوان متن یا کلاس، ویرایش تصاویر موجود و موارد دیگر.

MAGE دو وظیفه کلیدی تولید و تشخیص تصویر را که معمولاً به طور جداگانه آموزش داده می شود را در یک سیستم ادغام می کند.

کامپیوترها در رابطه با تصاویر دارای دو قابلیت قابل توجه هستند: هم می توانند آنها را شناسایی کنند و هم آنها را دوباره بازتولید کنند. از لحاظ تاریخی، این کارکردها جدا از هم بوده اند، شبیه به اعمال متفاوت یک سرآشپز که در خلق غذاها (نسل) خوب است و یک خبره که در چشیدن غذاها خوب است (تشخیص).

با این حال، نمی‌توان از خود پرسید: برای تنظیم یک اتحاد هماهنگ بین این دو ظرفیت متمایز، چه چیزی لازم است؟ آشپز و خبره هر دو درک مشترکی از طعم غذا دارند. به طور مشابه، یک سیستم بینایی یکپارچه نیاز به درک عمیق دنیای بصری دارد.

اکنون، محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) سیستمی را برای استنتاج بخش‌های گمشده یک تصویر آموزش داده‌اند، کاری که نیاز به درک عمیق محتوای تصویر دارد. با پر کردن موفقیت آمیز جاهای خالی، این سیستم که به عنوان رمزگذار مولد نقاب دار (MAGE) شناخته می شود، به دو هدف به طور همزمان دست می یابد: شناسایی دقیق تصاویر و ایجاد تصاویر جدید با شباهت قابل توجه به واقعیت.

کاربردهای MAGE :

این سیستم دو منظوره کاربردهای بالقوه بی‌شماری مانند شناسایی و طبقه‌بندی اشیا در تصاویر، یادگیری سریع از حداقل نمونه‌ها، ایجاد تصاویر تحت شرایط خاص مانند متن یا کلاس، و بهبود تصاویر موجود را امکان‌پذیر می‌سازد.

برخلاف سایر تکنیک ها، MAGE با پیکسل های خام کار نمی کند. درعوض، تصاویر را به آنچه «توکن‌های معنایی» می‌گویند، تبدیل می‌کند که نسخه‌های فشرده و در عین حال انتزاعی یک بخش تصویر هستند. این توکن ها را به عنوان تکه های پازل کوچک در نظر بگیرید که هر کدام یک وصله ۱۶×۱۶ از تصویر اصلی را نشان می دهند. درست همانطور که کلمات جملات را تشکیل می دهند، این نشانه ها یک نسخه انتزاعی از یک تصویر ایجاد می کنند که می تواند برای کارهای پردازش پیچیده استفاده شود، در حالی که اطلاعات موجود در تصویر اصلی را حفظ می کند. چنین مرحله توکن‌سازی را می‌توان در چارچوبی تحت نظارت خود آموزش داد و به آن اجازه می‌دهد تا بر روی مجموعه داده‌های تصویر بزرگ بدون برچسب، از قبل آموزش ببیند.

اکنون، جادو زمانی شروع می شود که MAGE از “مدل سازی نشانه های ماسک شده” استفاده می کند. به طور تصادفی برخی از این نشانه ها را پنهان می کند و یک پازل ناقص ایجاد می کند و سپس یک شبکه عصبی را آموزش می دهد تا شکاف ها را پر کند. به این ترتیب، یاد می‌گیرد که هم الگوهای موجود در یک تصویر را درک کند (تشخیص تصویر) و هم الگوهای جدیدی تولید کند (تولید تصویر).Tianhong Li، دانشجوی دکترای مهندسی برق و علوم کامپیوتر در MIT می‌گوید: «یکی از بخش‌های قابل‌توجه MAGE، استراتژی پوشش متغیر آن در طول دوره‌های پیش‌آموزشی است که به آن امکان می‌دهد برای کار، تولید تصویر یا تشخیص در یک سیستم آموزش ببیند. ، یکی از زیرمجموعه های CSAIL، و نویسنده اصلی مقاله در مورد این تحقیق. توانایی MAGE برای کار در “فضای نشانه” به جای “فضای پیکسل” منجر به تولید تصویر واضح، با جزئیات و با کیفیت بالا و همچنین نمایش تصاویر غنی از نظر معنایی می شود. این می تواند راه را برای مدل های بینایی کامپیوتری پیشرفته و یکپارچه هموار کند.”

جدا از توانایی آن در تولید تصاویر واقعی از ابتدا، MAGE امکان تولید تصویر مشروط را نیز فراهم می کند. کاربران می‌توانند معیارهای خاصی را برای تصاویری که می‌خواهند MAGE تولید کند مشخص کنند و ابزار تصویر مناسب را تهیه می‌کند. همچنین قادر به انجام وظایف ویرایش تصویر، مانند حذف عناصر از یک تصویر در عین حفظ ظاهر واقعی است.

وظایف تشخیص یکی دیگر از لباس های قوی برای MAGE است. با توانایی پیش‌آموزش روی مجموعه داده‌های بزرگ بدون برچسب، می‌تواند تصاویر را تنها با استفاده از نمایش‌های آموخته شده طبقه‌بندی کند. علاوه بر این، در یادگیری چند شات برتری دارد و تنها با تعداد انگشت شماری از نمونه‌های برچسب‌گذاری شده، به نتایج چشمگیری در مجموعه داده‌های تصویری بزرگ مانند ImageNet می‌رسد.

اعتبارسنجی عملکرد MAGE :

اعتبارسنجی عملکرد MAGE چشمگیر بوده است. از یک طرف، رکوردهای جدیدی را در تولید تصاویر جدید ثبت کرد و با پیشرفت قابل توجهی از مدل های قبلی پیشی گرفت. از سوی دیگر، MAGE در کارهای شناسایی در صدر قرار گرفت و به دقت 80.9 درصد در کاوش خطی و 71.9 درصد دقت 10 عکس در ImageNet دست یافت (این بدان معناست که در 71.9 درصد موارد که تنها 10 نمونه برچسب دار از هر کدام داشت، تصاویر را به درستی شناسایی کرده است. کلاس).

علیرغم نقاط قوت، تیم تحقیقاتی تصدیق می کند که MAGE یک کار در حال پیشرفت است. فرآیند تبدیل تصاویر به توکن به ناچار منجر به از دست دادن اطلاعات می شود. آنها مشتاق هستند راه هایی را برای فشرده سازی تصاویر بدون از دست دادن جزئیات مهم در کار آینده کشف کنند. این تیم همچنین قصد دارد MAGE را روی مجموعه داده های بزرگتر آزمایش کند. اکتشافات آینده ممکن است شامل آموزش MAGE بر روی مجموعه داده های بدون برچسب بزرگتر باشد که به طور بالقوه منجر به عملکرد بهتر می شود.

دستیابی به تولید تصویر و تشخیص تصویر در یک سیستم واحد، یک رویای طولانی بوده است. MAGE یک تحقیق پیشگامانه است که با موفقیت از هم افزایی این دو وظیفه استفاده می کند و به پیشرفته ترین آنها در یک سیستم واحد دست می یابد.” بخش در گوگل که در این کار دخالتی نداشت. این سیستم نوآورانه کاربردهای گسترده ای دارد و پتانسیل الهام بخشیدن به بسیاری از کارهای آینده در زمینه بینایی کامپیوتر را دارد.