MAGE یک سیستم بینایی یکپارچه به نام MAsked Generative Encoder (MAGE) که توسط محققان MIT و Google ساخته شده است، میتواند برای بسیاری از چیزها مانند پیدا کردن و طبقهبندی اشیاء در یک تصویر، یادگیری از چند مثال، تولید تصاویر با شرایط خاص مفید باشد. به عنوان متن یا کلاس، ویرایش تصاویر موجود و موارد دیگر.
MAGE دو وظیفه کلیدی تولید و تشخیص تصویر را که معمولاً به طور جداگانه آموزش داده می شود را در یک سیستم ادغام می کند.
کامپیوترها در رابطه با تصاویر دارای دو قابلیت قابل توجه هستند: هم می توانند آنها را شناسایی کنند و هم آنها را دوباره بازتولید کنند. از لحاظ تاریخی، این کارکردها جدا از هم بوده اند، شبیه به اعمال متفاوت یک سرآشپز که در خلق غذاها (نسل) خوب است و یک خبره که در چشیدن غذاها خوب است (تشخیص).
با این حال، نمیتوان از خود پرسید: برای تنظیم یک اتحاد هماهنگ بین این دو ظرفیت متمایز، چه چیزی لازم است؟ آشپز و خبره هر دو درک مشترکی از طعم غذا دارند. به طور مشابه، یک سیستم بینایی یکپارچه نیاز به درک عمیق دنیای بصری دارد.
اکنون، محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) سیستمی را برای استنتاج بخشهای گمشده یک تصویر آموزش دادهاند، کاری که نیاز به درک عمیق محتوای تصویر دارد. با پر کردن موفقیت آمیز جاهای خالی، این سیستم که به عنوان رمزگذار مولد نقاب دار (MAGE) شناخته می شود، به دو هدف به طور همزمان دست می یابد: شناسایی دقیق تصاویر و ایجاد تصاویر جدید با شباهت قابل توجه به واقعیت.
کاربردهای MAGE :
این سیستم دو منظوره کاربردهای بالقوه بیشماری مانند شناسایی و طبقهبندی اشیا در تصاویر، یادگیری سریع از حداقل نمونهها، ایجاد تصاویر تحت شرایط خاص مانند متن یا کلاس، و بهبود تصاویر موجود را امکانپذیر میسازد.
برخلاف سایر تکنیک ها، MAGE با پیکسل های خام کار نمی کند. درعوض، تصاویر را به آنچه «توکنهای معنایی» میگویند، تبدیل میکند که نسخههای فشرده و در عین حال انتزاعی یک بخش تصویر هستند. این توکن ها را به عنوان تکه های پازل کوچک در نظر بگیرید که هر کدام یک وصله ۱۶×۱۶ از تصویر اصلی را نشان می دهند. درست همانطور که کلمات جملات را تشکیل می دهند، این نشانه ها یک نسخه انتزاعی از یک تصویر ایجاد می کنند که می تواند برای کارهای پردازش پیچیده استفاده شود، در حالی که اطلاعات موجود در تصویر اصلی را حفظ می کند. چنین مرحله توکنسازی را میتوان در چارچوبی تحت نظارت خود آموزش داد و به آن اجازه میدهد تا بر روی مجموعه دادههای تصویر بزرگ بدون برچسب، از قبل آموزش ببیند.
اکنون، جادو زمانی شروع می شود که MAGE از “مدل سازی نشانه های ماسک شده” استفاده می کند. به طور تصادفی برخی از این نشانه ها را پنهان می کند و یک پازل ناقص ایجاد می کند و سپس یک شبکه عصبی را آموزش می دهد تا شکاف ها را پر کند. به این ترتیب، یاد میگیرد که هم الگوهای موجود در یک تصویر را درک کند (تشخیص تصویر) و هم الگوهای جدیدی تولید کند (تولید تصویر).Tianhong Li، دانشجوی دکترای مهندسی برق و علوم کامپیوتر در MIT میگوید: «یکی از بخشهای قابلتوجه MAGE، استراتژی پوشش متغیر آن در طول دورههای پیشآموزشی است که به آن امکان میدهد برای کار، تولید تصویر یا تشخیص در یک سیستم آموزش ببیند. ، یکی از زیرمجموعه های CSAIL، و نویسنده اصلی مقاله در مورد این تحقیق. توانایی MAGE برای کار در “فضای نشانه” به جای “فضای پیکسل” منجر به تولید تصویر واضح، با جزئیات و با کیفیت بالا و همچنین نمایش تصاویر غنی از نظر معنایی می شود. این می تواند راه را برای مدل های بینایی کامپیوتری پیشرفته و یکپارچه هموار کند.”
جدا از توانایی آن در تولید تصاویر واقعی از ابتدا، MAGE امکان تولید تصویر مشروط را نیز فراهم می کند. کاربران میتوانند معیارهای خاصی را برای تصاویری که میخواهند MAGE تولید کند مشخص کنند و ابزار تصویر مناسب را تهیه میکند. همچنین قادر به انجام وظایف ویرایش تصویر، مانند حذف عناصر از یک تصویر در عین حفظ ظاهر واقعی است.
وظایف تشخیص یکی دیگر از لباس های قوی برای MAGE است. با توانایی پیشآموزش روی مجموعه دادههای بزرگ بدون برچسب، میتواند تصاویر را تنها با استفاده از نمایشهای آموخته شده طبقهبندی کند. علاوه بر این، در یادگیری چند شات برتری دارد و تنها با تعداد انگشت شماری از نمونههای برچسبگذاری شده، به نتایج چشمگیری در مجموعه دادههای تصویری بزرگ مانند ImageNet میرسد.
اعتبارسنجی عملکرد MAGE :
اعتبارسنجی عملکرد MAGE چشمگیر بوده است. از یک طرف، رکوردهای جدیدی را در تولید تصاویر جدید ثبت کرد و با پیشرفت قابل توجهی از مدل های قبلی پیشی گرفت. از سوی دیگر، MAGE در کارهای شناسایی در صدر قرار گرفت و به دقت 80.9 درصد در کاوش خطی و 71.9 درصد دقت 10 عکس در ImageNet دست یافت (این بدان معناست که در 71.9 درصد موارد که تنها 10 نمونه برچسب دار از هر کدام داشت، تصاویر را به درستی شناسایی کرده است. کلاس).
علیرغم نقاط قوت، تیم تحقیقاتی تصدیق می کند که MAGE یک کار در حال پیشرفت است. فرآیند تبدیل تصاویر به توکن به ناچار منجر به از دست دادن اطلاعات می شود. آنها مشتاق هستند راه هایی را برای فشرده سازی تصاویر بدون از دست دادن جزئیات مهم در کار آینده کشف کنند. این تیم همچنین قصد دارد MAGE را روی مجموعه داده های بزرگتر آزمایش کند. اکتشافات آینده ممکن است شامل آموزش MAGE بر روی مجموعه داده های بدون برچسب بزرگتر باشد که به طور بالقوه منجر به عملکرد بهتر می شود.
دستیابی به تولید تصویر و تشخیص تصویر در یک سیستم واحد، یک رویای طولانی بوده است. MAGE یک تحقیق پیشگامانه است که با موفقیت از هم افزایی این دو وظیفه استفاده می کند و به پیشرفته ترین آنها در یک سیستم واحد دست می یابد.” بخش در گوگل که در این کار دخالتی نداشت. این سیستم نوآورانه کاربردهای گسترده ای دارد و پتانسیل الهام بخشیدن به بسیاری از کارهای آینده در زمینه بینایی کامپیوتر را دارد.