خلاصه
Cosplay از مبدأ خود در کنوانسیون های طرفداران به یک پدیده لباس جهانی میلیارد دلاری تبدیل شده است. برای تسهیل تخیل و تفسیر مجدد تصاویر متحرک به عنوان لباس واقعی، این مقاله یک روش تولید خودکار لباس-تصویر بر اساس ترجمه تصویر به تصویر ارائه میکند. خرید تیشرت انیمه ای اینجا تیشرت انیمه ای آیتم های Cosplay می توانند به طور قابل توجهی از نظر سبک و شکل متفاوت باشند و روش های مرسوم را نمی توان به طور مستقیم در طیف گسترده ای از تصاویر لباس که تمرکز این مطالعه است به کار برد. برای حل این مشکل، روش ما با جمعآوری و پیشپردازش تصاویر وب برای تهیه یک مجموعه داده تمیز و جفت شده از دامنههای انیمه و واقعی شروع میشود. سپس، ما یک معماری جدید برای شبکههای متخاصم مولد (GANs) ارائه میکنیم تا تولید تصویر cosplay با کیفیت بالا را تسهیل کنیم. GAN ما شامل چندین تکنیک موثر برای ایجاد پل بین دو حوزه و بهبود همسانی جهانی و محلی تصاویر تولید شده است. آزمایشها نشان داد که با معیارهای ارزیابی کمی، GAN پیشنهادی عملکرد بهتری دارد و تصاویر واقعیتری نسبت به روشهای مرسوم تولید میکند. کدها و مدل از پیش آموزش دیده ما در وب موجود است.
مقدمه
نمایش صحنه و لباس (cosplay) یک هنر نمایشی است که در آن افراد لباس هایی می پوشند تا شخصیت های داستانی خاصی را از منابع مورد علاقه خود، مانند مانگا (کمیک های ژاپنی) و انیمه (انیمیشن کارتونی) نشان دهند. محبوبیت بازی cosplay سراسر جهان را فراگرفته است. برای مثال، اجلاس جهانی کازپلی، که یک رویداد سالانه بینالمللی کازپلی است، در سال 2019 تقریباً 300000 نفر از 40 کشور را به خود جذب کرد [38]. همچنین مسابقات و کنوانسیونهای داخلی و منطقهای که شامل فعالیتهای خلاقانه متنوعی میشوند، بهطور شگفتآوری وجود دارد. برای موفقیت در این رویدادها، پوشیدن ظاهر جذاب، منحصربفرد و گویا برای کاسپلیها بسیار مهم است. با این حال، طراحی لباسهای زیبای کازپلی مستلزم تصور و تفسیر مجدد تصاویر متحرک به عنوان لباس واقعی است. این ما را برانگیخت تا سیستم جدیدی برای حمایت از خلق لباس ابداع کنیم که آن را تولید تصویر لباس خودکار می نامیم.
همانطور که در شکل 1 نشان داده شده است، هدف ما تولید تصاویر اقلام لباس cosplay از تصاویر انیمه است. این کار یک موضوع فرعی از ترجمه تصویر به تصویر است که نقشهبرداری را یاد میگیرد که میتواند تصویر را از یک دامنه منبع به یک دامنه هدف تبدیل کند. ترجمه تصویر به تصویر توجه تحقیقات زیادی را به خود جلب کرده است، که چندین شبکه متخاصم مولد (GANs) [7] ارائه شده است. در ادبیات ترجمه تصویر مد، یو و همکاران. [41] شبکه ای را آموزش داد که تصویری از لباس یک فرد لباس پوشیده را با استفاده از چندین تمایز به تصویر محصول مد تبدیل می کرد. برای همین کار، کوون و همکاران. [16] یک طرح درشت به ریز را برای کاهش مصنوعات بصری تولید شده توسط GAN معرفی کرد. این روشهای مرسوم با استفاده از مجموعه دادهای از تصاویر جمعآوریشده از مراکز خرید آنلاین مد آموزش داده شدند. به طور خاص، تصاویر به صورت دستی مرتبط شدند به طوری که هر جفت شامل یک تصویر محصول لباس و مدل مد آن بود. این مجموعه داده باکیفیت و تنوع کمتری دارد زیرا همه تصاویر محصول در یک موقعیت گرفته شدهاند و فرد لباس پوشیده معمولاً صاف میایستد. با این حال، وظیفه ما در ترکیب لباسهای کازپلی مانع متفاوتی برای تهیه چنین تصاویر آموزشی ایجاد میکند: تصاویر در موقعیتهای ثابتی نیستند و آیتمهای کازپلی از نظر سبک و شکل بسیار متفاوت هستند (مانند لباسها، کیمونو، کت و شلوار، لباسهای ورزشی، و یونیفورم مدرسه). ، بنابراین روش های مرسوم را نمی توان مستقیماً اعمال کرد.
عکس. 1
شکل 1
طرح کلی سیستم پیشنهادی، که هدف آن ایجاد یک تصویر لباس واقعی برای یک تصویر شخصیت انیمه معین است. (تصویر: Natsu، Fairy Tail)
تصویر در اندازه کامل
برای حل این مشکل، این مقاله یک رویکرد جدید برای تمیز کردن مجموعه دادههای جفت ساخته شده برای وظیفه خاص تولید لباس cosplay پیشنهاد میکند. علاوه بر این، ما یک GAN جدید برای ترجمه تصاویر شخصیت های انیمیشن به تصاویر لباس ارائه می دهیم. معماری GAN ما از pix2pix [11] بهعنوان مدل پایه استفاده میکند، که به آن متمایزکنندهها و تلفات اضافی را معرفی میکنیم که اثربخشی را در کارهای معمولی نشان دادهاند [37، 41]. برای بهبود کیفیت تولید تصویر، افت جدیدی را ارائه میکنیم که آن را از دست دادن سازگاری ورودی مینامیم تا شکاف بین دامنه منبع (یعنی تصاویر انیمه) و دامنه هدف (یعنی تصاویر واقعی لباس) پر شود. نتایج آزمایشهای انجامشده با استفاده از 35633 جفت تصویر نشان داد که روش ما از نظر سه معیار ارزیابی کمی بهتر از روشهای مرسوم عمل میکند. سیستم جدید ما نه تنها برای تسهیل ایجاد لباس در لباس بازی، بلکه برای کارهای دیگر، مانند بازیابی تصویر مد مبتنی بر تصویر، مفید خواهد بود. شکل 2 نمونه هایی از نتایج حاصل از روش پیشنهادی را نشان می دهد. کدهای ما و مدل از پیش آموزشدیدهای که این تصاویر را تولید کرده است در وب موجود است. Footnote1
شکل 2
شکل 2
نمونه هایی از تصاویر تولید شده با روش ما. ما نتایج ترجمه شده روش پیشنهادی را نشان می دهد. (تصاویر ورودی عبارتند از: گیلگمش، Fate/G
سفارش رند; Imai Risa، BanG Dream!; Dekomori Sanae، Love، Chunibyo و سایر هذیان ها. ناگاکورا شینپاچی، هاکوکی شینسنگومی کیتان؛ و Rengoku Kyojuro، Kimetsu no Yaiba)
تصویر در اندازه کامل
بقیه این مقاله به شرح زیر سازماندهی شده است: بخش 2 کار مرتبط را شرح می دهد. بخش 3 یک روش ساخت مجموعه داده برای این کار خاص را ارائه می دهد که یکی از نوآوری های اصلی این تحقیق است. بخش 4 یک روش ترجمه انیمه به واقعی مبتنی بر GAN را برای تولید تصاویر لباسهای کازپلی ارائه میکند. بخش 5 نتایج آزمایش های انجام شده با مجموعه داده های جدید ساخته شده با استفاده از روش پیشنهادی را ارائه می دهد. در نهایت، در بخش 6، مقاله را خلاصه میکنیم و دستورالعملهایی را برای کار آینده توصیه میکنیم.
کار مرتبط
GAN ها [7] در بسیاری از وظایف بینایی کامپیوتری، از جمله ویرایش عکس، وضوح فوق العاده، ترجمه تصویر به متن (و متن به تصویر) و ترجمه تصویر به تصویر، به نتایج قابل توجهی دست یافته اند. یک رویکرد تولید مشروط مبتنی بر GAN (GAN شرطی) [23] برای تخصیص برچسبهای متنی به یک تصویر ورودی، و به دنبال آن چندین برنامه پیشنهاد شده است. نمونه هایی از اعمال GAN های شرطی در حوزه انیمه شامل رنگ آمیزی انیمه [4]، تولید چهره انیمه [12] و تولید کامل بدن [8] است. GAN ها همچنین برای ترکیب تصاویر واقعی استفاده شده اند [3]. یک مثال معمولی از یک برنامه کاربردی سنتز مد، آزمایش مجازی [9، 40، 44] است که ارتباط نزدیکی با وظیفه ما دارد. روشهای آزمایش مجازی معمولاً بین لباسهای واقعی در تصاویر ترجمه میشوند. به طور خاص، لباسها برای تناسب با فرمها و حالتهای بدن تغییر شکل میدهند. با این حال، هدف ما تولید لباس های تخیلی اما واقعی با یک تصویر انیمه است که نیاز به یادگیری نقشه برداری بین دامنه های مختلف (یعنی واقعی و انیمه) دارد.
تیشرت انیمه ای اینستا برای بهبود کیفیت تصاویر تولید شده، تکنیک های GAN مختلفی مانند نرمال سازی طیفی [24]، طرح های درشت به ریز [13] و نکات مفید برای آموزش [10، 29] پیشنهاد شده است. طراحی معماری ما از این پیشرفت های موفق الهام گرفته شده است. به طور خاص، اگرچه چارچوب ما بر اساس یک مجموعه داده جفتی است، تصاویر درون یک منبع یا دامنه هدف در مقایسه با مشکلات معمولی بسیار متنوع هستند، زیرا شخصیت های انیمه اغلب لباس هایی می پوشند که بسیار پیچیده تر از لباس های روزانه ما هستند. برای مقابله با این مشکل، ما یک استراتژی کالیبراسیون را معرفی کردیم که موقعیت لباسهای cosplay را در تصاویر در ساخت مجموعه دادهها همسو میکند. علاوه بر این، معماری GAN ما مجهز به یک افت جدید است که می تواند ویژگی های تصاویر ورودی و خروجی را مشابه کند.
ساخت مجموعه داده با جمع آوری تصاویر وب
رویکرد ما مستلزم مجموعه دادهای است که از جفت شخصیتهای انیمه و لباسهای مربوط به آنها تشکیل شده باشد. تا آنجا که ما می دانیم، هیچ مجموعه داده عمومی شامل جفت شخصیت های انیمیشن و تصاویر لباس در حال حاضر به صورت آنلاین در دسترس نیست. بنابراین، در این مطالعه، ما بر روی وبسایتهای خرید آنلاین cosplay که تصاویر زوجی را آپلود کردهاند، تمرکز کردیم (شکل 3). برای جمع آوری این تصاویر، ابتدا کلمات کلیدی پرس و جو خود را با استفاده از مجموعه ای از عناوین انیمه فهرست شده در مجموعه داده های موجود برای توصیه انیمه انتخاب کردیم [1، 5]. عبارات پرس و جو استفاده شده عبارت بودند از "cosplay costumeA B"، که در آن A و B به ترتیب برای یکی از عناوین انیمه و یکی از 40 نام فروشگاه لباس های کازپلی بودند. تصاویر برگشتی توسط موتور جستجو را دانلود کردیم که حجم کل آنها به ap رسید
تقریباً 1 ترابایت، شامل تصاویر نامربوط و نویزدار. برای دور انداختن تصاویری که با لباسهای کازپلی یا شخصیتهای انیمه مطابقت نداشتند، همه تصاویر را به صورت زیر از قبل پردازش کردیم: همانطور که در شکل 4 نشان داده شده است، ابتدا تصاویر جفت نشده را با استفاده از یک چارچوب یادگیری فعال حذف کردیم (به بخش 3.1 مراجعه کنید). سپس مناطق تصویر را با استفاده از یک آشکارساز شی برش دادیم و تصاویر تکراری را حذف کردیم (به بخش 3.2 مراجعه کنید). در نهایت، ما موقعیت های تصاویر لباس را برای آموزش موثر GAN کالیبره کردیم (به بخش 3.3 مراجعه کنید).
شکل 3
شکل 3
نمونه هایی از تصاویر وب که جمع آوری کردیم. (الف) لوسی، الفن لید (ب) ایچیگایا آریسا، بنجی رویم! (ج) سوفی، قلعه متحرک هاول، (د) آکوا، کونو سوبا)
تصویر در اندازه کامل
شکل 4
شکل 4
گردش کار ساخت مجموعه داده (تصاویر: Eugeo، Sword Art Online؛ Monika، Doki Doki Literature Club!)
تصویر در اندازه کامل
حذف تصاویر جفت نشده بر اساس یادگیری فعال
نتایج جستجوی تصویر اغلب دارای نویز هستند و حاوی تصاویر نامربوط هستند. برای تشخیص کارآمد تصاویری که جفت نشده بودند یا حاوی هیچ لباسی نبودند، این مطالعه از یک استراتژی یادگیری فعال استفاده کرد [36] که نیاز به بازرسی دستی چند نمونه برای آموزش آشکارساز دارد. به طور خاص، ابتدا به صورت دستی برچسبهای باینری را به صدها تصویر اختصاص دادیم تا هر برچسب نشان دهد که آیا تصویر مربوطه شامل یک جفت کاراکتر-لباس است یا خیر. تصاویر برچسبگذاری شده به مجموعهای از 2760 تصویر آموزشی و مجموعهای از 109 تصویر اعتبارسنجی تقسیم شدند، که ما از آنها برای تنظیم دقیق مدل VGG-16 که در ImageNet [32] از قبل آموزش داده شده بود برای طبقهبندی جفتهای مورد نظر استفاده کردیم. ما آشکارساز را روی تصاویر اضافی اعمال کردیم و به صورت دستی نتایج طبقهبندی نادرست تولید شده توسط مدل را دوباره برچسبگذاری کردیم و مجموعه آموزشی بزرگتری برای آشکارساز تولید کردیم. با استفاده از مجموعه اصلاح شده 3052 تصویر آموزشی و 215 تصویر اعتبار سنجی، مدل را دوباره تنظیم کردیم تا عملکرد آشکارساز را بهبود بخشیم. ما آشکارساز نهایی را روی کل مجموعه داده اعمال کردیم و تصاویری را که منفی ارزیابی شدند حذف کردیم. مجموعه داده به دست آمده بیشتر بررسی شد، همانطور که در زیر توضیح داده شده است.
برش مناطق تصویر و شناسایی موارد تکراری
برای آموزش مدل ترجمه در این مطالعه، مطلوب بود که هر شخصیت انیمه و لباس آن به صورت افقی در یک تصویر تراز شوند (شکل 3 (a) - (c)). با این حال، ما متوجه شدیم که برخی از جفتها این طرحبندی را ندارند، مانند شکل 3 (d)، که نیاز به تنظیم مجدد تصاویر داشت. برای برش شخصیت ها و لباس ها از تصاویر، از یک آشکارساز تک شات (SSD) [18] برای تشخیص اشیا استفاده کردیم. به طور خاص، برای 1059 تصویر، ما به صورت دستی جعبه های محدود شخصیت های انیمه و لباس های آنها را به تصویر کشیدیم و از آنها برای آموزش SSD استفاده کردیم. مدل به دست آمده برای شناسایی مناطق شخصیت های انیمیشن و لباس برای همه تصاویر استفاده شد.
از آنجا که مجموعه داده بر اساس خزیدن وب ساخته شده است، شامل مجموعه هایی از تصاویر یکسان است. چنین تصاویر تکراری در مجموعه های آموزشی و آزمایشی معمولاً ارزیابی عملکرد را ناعادلانه می کند. بنابراین، برای کاهش تعداد تصاویر تکراری، از DupFileEliminator [26] استفاده کردیم که یک برنامه مبتنی بر رابط کاربری گرافیکی است که می تواند تصاویر بسیار مشابه را از نظر رنگ، روشنایی و کنتراست تشخیص دهد. ما هر آستانه شباهت را روی 90٪ تنظیم کردیم و همه تصاویری که مناطق کاراکتر آنها یکسان در نظر گرفته شد را حذف کردیم. مجموعه داده به دست آمده شامل 35633 جفت شخصیت انیمه و تصاویر لباسهای کازپلی آنها بود.
کالیبره کردن موقعیت های لباس
در نهایت، موقعیت های تصاویر آموزشی را برای کاهش سختی آموزش GAN تنظیم کردیم. شکل 5 گردش کار کالیبراسیون تصویر ما را نشان می دهد. با توجه به یک تصویر برش خورده مانند تصویر 5 (الف)، ما از یک روش با وضوح فوق العاده ارائه شده توسط [20] برای بهبود کیفیت تصویر استفاده کردیم. شکل های بالا و پایین در شکل 5 (ب) به ترتیب تصاویر قبل و بعد از وضوح فوق العاده را نشان می دهند. همانطور که در شکل 5 (ج) نشان داده شده است، لایههای آینهای و تاری گاوسی را در هر دو طرف شکل هدف اعمال کردیم. در تصویر توسعهیافته، برای تشخیص ناحیه لباس، یک آشکارساز نقطه کلیدی مد [17] را بر اساس شبکه هرمی آبشاری [2] اعمال کردیم که با استفاده از مجموعه دادههای مد AI [45] از قبل آموزش داده شده بود. موقعیت مرکزی لباس با استفاده از نقاط کلیدی شناسایی شده محاسبه شد (شکل 5 (د))، و ما تصاویری به دست آوردیم که در آن موقعیت های مرکزی با مناطق لباس مطابقت دارد از طریق برش دادن عرض تصویر (شکل 5 (ه)). جدول 1 مجموعه داده حاصل را خلاصه می کند.
سایت منبع
|
امتیاز مطلب : 17
|
تعداد امتیازدهندگان : 4
|
مجموع امتیاز : 4