1. Զղջման բարելավված վերլուծություն՝ փոփոխական-հարմարվողական գծային ավազակների և հորիզոնից զերծ գծային խառնուրդի MDP-ների համար (arXiv)

Հեղինակ՝ Yeoneung Kim, Insoon Yang, Kwang-Sung Jun

Համառոտ . Առցանց ուսուցման խնդիրներում ցածր շեղումների օգտագործումը կարևոր դեր է խաղում կատարողականի ամուր երաշխիքներ ձեռք բերելու համար, սակայն դժվար է, քանի որ շեղումները հաճախ առաջնահերթ հայտնի չեն: Վերջերս զգալի առաջընթաց է գրանցվել Zhang et al. (2021), որտեղ նրանք ստանում են գծային ավազակների համար կապակցված շեղում-հարմարվողական ափսոսանք՝ առանց շեղումների մասին իմացության և հորիզոնից զերծ ափսոսանք, որը կապված է գծային խառնուրդ Մարկովի որոշման գործընթացների (MDPs) համար: Այս հոդվածում մենք ներկայացնում ենք նոր վերլուծություններ, որոնք զգալիորեն բարելավում են իրենց ափսոսանքի սահմանները: Գծային ավազակների համար մենք հասնում ենք O~(min{dK−−√,d1.5∑Kk=1σ2k−−−−−−−√}+d2), որտեղ d-ը հատկանիշի չափն է, K-ը՝ ժամանակային հորիզոնը, իսկ σ2k-ը աղմուկի շեղումն է k ժամանակի քայլում, իսկ O~-ն անտեսում է պոլիլոգարիթմական կախվածությունը, որը d3 բարելավման գործոն է: Գծային խառնուրդի MDP-ների համար, եթե դրվագում առավելագույն կուտակային պարգևը ենթադրվում է [0,1]-ում, մենք հասնում ենք O~(dK−−√+d2) առանց հորիզոնների ափսոսանքի սահմանի, որտեղ d-ը բազային մոդելների թիվն է և K-ն դրվագների թիվն է: Սա d3.5 բարելավման գործոն է առաջատար ժամկետում, իսկ d7՝ ավելի ցածր կարգի տերմինում: Մեր վերլուծությունը քննադատաբար հենվում է պիլինգի վրա հիմնված ափսոսանքի նոր վերլուծության վրա, որն օգտագործում է էլիպսային պոտենցիալ «հաշվի» լեմման:

2. Դինամիկ զղջման վերլուծություն առցանց մետա-ուսուցման համար (arXiv)

Հեղինակ՝ Փարվին Նազարի, Էսմայիլե Խորրամ

Համառոտագիր. Առցանց մետա-ուսուցման շրջանակը առաջացել է որպես հզոր գործիք շարունակական ցկյանս ուսուցման համար: Գործակալի նպատակն է արագ սովորել նոր առաջադրանքներ՝ հիմնվելով նախկին փորձի վրա, մինչդեռ նա բախվում է առաջադրանքների հետ մեկտեղ: Այս ձևակերպումը ներառում է երկու մակարդակ՝ արտաքին մակարդակ, որը սովորում է մետա-սովորողներին և ներքին մակարդակ, որը սովորում է առաջադրանքի հատուկ մոդելներ՝ ընթացիկ առաջադրանքից միայն փոքր քանակությամբ տվյալների հետ: Թեև գոյություն ունեցող մեթոդները ապահովում են ստատիկ ափսոսանքի վերլուծություն առցանց մետա-ուսուցման շրջանակի համար, մենք կատարում ենք դինամիկ ափսոսանքի տեսանկյունից, որը կարգավորում է փոփոխվող միջավայրերը գլոբալ հեռանկարից: Մենք նաև կառուցում ենք հարմարվողական գրադիենտ մեթոդների ընդհանրացված տարբերակ, որն ընդգրկում է և՛ ADAM-ը, և՛ ADAGRAD-ը՝ արտաքին մակարդակում մետասովորողներին սովորելու համար: Մենք մեր վերլուծություններն իրականացնում ենք ստոխաստիկ միջավայրում և ակնկալելով ապացուցում ենք լոգարիթմական տեղային դինամիկ ափսոսանք, որը բացահայտորեն կախված է T կրկնությունների ընդհանուր քանակից և սովորողի պարամետրերից: Բացի դրանից, մենք նաև նշում ենք բարձր հավանականության սահմաններ առաջարկվող ալգորիթմի կոնվերգենցիայի տեմպերի վրա՝ համապատասխան պարամետրերի ընտրությամբ, որոնք նախկինում չեն վիճարկվել: