1. Wav2vec Feature Encoder-ի սև տուփի բացում(arXiv)

Հեղինակ՝ Kwanghee Choi, Eun Jung Yeo

Վերացական .Ինքնավերահսկվող մոդելները, մասնավորապես՝ wav2vec-ը և դրա տարբերակները, խոստումնալից արդյունքներ են ցույց տվել խոսքի տիրույթում ներքևի տարբեր առաջադրանքներում: Այնուամենայնիվ, նրանց ներքին աշխատանքը վատ է ընկալվում, ինչը պահանջում է խորը վերլուծություններ այն մասին, թե ինչ է սովորում մոդելը: Այս հոդվածում մենք կենտրոնանում ենք կոնվոլյուցիոն առանձնահատկությունների կոդավորման վրա, որտեղ նրա թաքնված տարածությունը հաճախ ենթադրվում է, որ ներկայացնում է դիսկրետ ակուստիկ միավորներ: Ներկառուցված տարածքը ռեդուկտիվ եղանակով վերլուծելու համար մենք սնուցում ենք սինթեզված ձայնային ազդանշանները, ինչը պարզ սինուսային ալիքների գումարումն է: Լայնածավալ փորձերի միջոցով մենք եզրակացնում ենք, որ տարբեր տեղեկություններ ներկառուցված են առանձնահատկությունների կոդավորիչի ներկայացումների ներսում՝ (1) հիմնարար հաճախականություն, (2) ձևաչափեր և (3) ամպլիտուդ՝ հագեցած (4) բավարար ժամանակային մանրամասներով: Ավելին, թաքնված ներկայացումների ներսում ներառված տեղեկատվությունը նման է սպեկտրոգրամներին, բայց ունի հիմնարար տարբերությամբ. լատենտ ներկայացումները կառուցում են մետրային տարածություն այնպես, որ ավելի մոտ ներկայացումները ենթադրում են ակուստիկ նմանություն:

2.Ներքին պատկերի տարրալուծման տարբերակիչ հատկանիշի կոդավորում(arXiv)

Հեղինակ՝Zongji Wang, Yunfei Liu, Feng Lu

Վերացական. Պատկերի ներքին տարրալուծումը համակարգչային տեսողության կարևոր և երկարատև խնդիր է: Հաշվի առնելով մուտքային պատկերը, տեսարանի ֆիզիկական հատկությունների վերականգնումը վատ է դրված: Ֆիզիկապես մոտիվացված մի քանի նախադրյալներ են օգտագործվել՝ սահմանափակելու օպտիմալացման խնդրի լուծման տարածությունը ներքին պատկերի քայքայման համար: Այս աշխատանքն օգտագործում է խորը ուսուցման առավելությունը և ցույց է տալիս, որ այն կարող է լուծել համակարգչային տեսողության այս դժվար խնդիրը բարձր արդյունավետությամբ: Ուշադրության կենտրոնում է հատկանիշի կոդավորման փուլը՝ մուտքագրված պատկերից տարբեր ներքին շերտերի համար տարբերակիչ հատկանիշներ հանելու համար: Այս նպատակին հասնելու համար մենք ուսումնասիրում ենք տարբեր ներքին բաղադրիչների տարբերակիչ բնութագրերը բարձր ծավալային հատկանիշի ներդրման տարածքում: Մենք սահմանում ենք հատկանիշի բաշխման շեղումը, որպեսզի արդյունավետ կերպով առանձնացնենք տարբեր ներքին բաղադրիչների հատկանիշի վեկտորները: Հատկանիշների բաշխումները նույնպես սահմանափակված են, որպեսզի համապատասխանեն իրականներին՝ հատկանիշի բաշխման հետևողականության միջոցով: Բացի այդ, տրամադրվում է տվյալների ճշգրտման մոտեցում՝ Sintel տվյալների բազայից տվյալների անհամապատասխանությունը հեռացնելու համար՝ այն ավելի հարմար դարձնելով պատկերի ներքին տարրալուծման համար: Մեր մեթոդը տարածվում է նաև տեսանյութի ներքին տարրալուծման վրա՝ հիմնված հարակից կադրերի միջև պիքսելային համապատասխանության վրա: Փորձարարական արդյունքները ցույց են տալիս, որ մեր առաջարկած ցանցային կառուցվածքը կարող է գերազանցել գոյություն ունեցող ժամանակակից ժամանակակից կառուցվածքը

3.PIC 4-րդ մարտահրավեր. Սեմալտի օգնությամբ բազմաֆունկցիոնալ կոդավորում և բազմակողմանի վերծանում տեսանյութերի խիտ ենթագրերի համար(arXiv)

Հեղինակ՝Յիֆան Լու, Զիկի Ժանգ, Յուքսին Չեն, Չունֆեն Յուան, Բինգ Լի, Վեյմինգ Հու

Վերացական .Խիտ տեսանյութերի ենթագրերի (DVC) առաջադրանքը նպատակ ունի ստեղծել ենթագրեր մեկ տեսանյութում մի քանի իրադարձությունների համար: Իմաստային տեղեկատվությունը կարևոր դեր է խաղում ինչպես տեղայնացման, այնպես էլ DVC-ի նկարագրության համար: Մենք ներկայացնում ենք իմաստային օգնությամբ խիտ տեսանյութերի ենթագրերի մոդելը, որը հիմնված է կոդավորման-վերծանման շրջանակի վրա: Կոդավորման փուլում մենք նախագծում ենք հայեցակարգային դետեկտոր՝ իմաստային տեղեկատվություն հանելու համար, որն այնուհետև միաձուլվում է բազմամոդալ տեսողական առանձնահատկությունների հետ՝ բավարար չափով ներկայացնելու մուտքային տեսանյութը: Ապակոդավորման փուլում մենք նախագծում ենք դասակարգման գլուխ՝ զուգահեռ տեղայնացման և վերնագրերի գլուխների հետ՝ իմաստային վերահսկողություն ապահովելու համար: Մեր մեթոդը ձեռք է բերում զգալի բարելավումներ YouMakeup տվյալների բազայում DVC գնահատման չափանիշների ներքո և բարձր արդյունավետություն է ձեռք բերում PIC 4-րդ մարտահրավերի Դիմահարդարման խիտ տեսանյութերի վերնագրերի (MDVC) առաջադրանքում: