Փաթեթավորումը և խթանումը երկուսն էլ համույթի ուսուցման մեթոդներ են, ինչը նշանակում է, որ դրանք միավորում են բազմաթիվ մոդելներ՝ ստեղծելու ավելի ճշգրիտ և ամուր մոդել, քան ցանկացած առանձին մոդել կարող է լինել:

Bagging-ը (կարճ՝ bootstrap aggregating) աշխատում է՝ ստեղծելով ուսուցման տվյալների բազայի բազմաթիվ պատճեններ, որոնցից յուրաքանչյուրը ստեղծվում է նմուշառման միջոցով՝ փոխարինելով սկզբնական տվյալներից: Այս կրկնօրինակներից յուրաքանչյուրն այնուհետև օգտագործվում է առանձին մոդել պատրաստելու համար, օրինակ՝ որոշման ծառը կամ գծային ռեգրեսիայի մոդելը: Այնուհետև առանձին մոդելների կանխատեսումները համակցվում են վերջնական կանխատեսում ստեղծելու համար:

Փաթեթավորումն արդյունավետ է մոդելի շեղումը նվազեցնելու համար, ինչը մոդելի կողմից վերապատրաստման տվյալներին գերազանցելու միտումն է: Դա պայմանավորված է նրանով, որ անսամբլի առանձին մոդելներից յուրաքանչյուրը վերապատրաստվում է տվյալների այլ ենթաբազմության վրա, ինչը թույլ է տալիս կանխել դրանք բոլորի չափից միանման:

Boosting-ն աշխատում է նաև մի քանի մոդելներ ստեղծելով, բայց դա անում է հաջորդական եղանակով: Առաջին կրկնության ժամանակ մոդելը վերապատրաստվում է ուսուցման ամբողջ տվյալների վրա: Հաջորդ կրկնության ժամանակ մոդելը վերապատրաստվում է վերապատրաստման տվյալների վրա, բայց տվյալների կետերի կշիռները ճշգրտվում են այնպես, որ մոդելն ավելի մեծ ուշադրություն դարձնի այն տվյալների կետերին, որոնք սխալ դասակարգված էին նախորդ կրկնության մեջ: Այս գործընթացը կրկնվում է այնքան ժամանակ, մինչև ստեղծվի ցանկալի թվով մոդելներ:

Boosting-ը արդյունավետ է մոդելի կողմնակալությունը նվազեցնելու համար, որը մոդելի կողմից վերապատրաստման տվյալներին չհամապատասխանելու միտումն է: Դա պայմանավորված է նրանով, որ անսամբլի մոդելները վերապատրաստվում են նախորդ մոդելների սխալները շտկելու համար:

Ահա մի օրինակ, թե ինչպես կարելի է պարկերը և խթանումը օգտագործել մոդելի ճշգրտությունը բարելավելու համար: Ենթադրենք, որ մենք ունենք 1000 տվյալների կետերից կազմված տվյալների հավաքածու, և մենք ցանկանում ենք մոդել կառուցել՝ կանխատեսելու համար, թե արդյոք հաճախորդը կփչանա (չեղարկի իր բաժանորդագրությունը): Մենք կարող ենք կառուցել մեկ որոշումների ծառի մոդել ամբողջ տվյալների վրա, բայց այս մոդելը կարող է գերազանցել ուսուցման տվյալները և լավ չընդհանրացնել նոր տվյալներին:

Փոխարենը, մենք կարող ենք օգտագործել պայուսակ՝ 100 որոշումների ծառեր ստեղծելու համար, որոնցից յուրաքանչյուրը վերապատրաստված է սկզբնական տվյալների բազայի այլ bootstrap նմուշի վրա: Որոշման 100 ծառերի կանխատեսումները կարող են այնուհետև միավորվել՝ վերջնական կանխատեսում ստեղծելու համար: Այս մոտեցումը, ամենայն հավանականությամբ, կստեղծի ավելի ճշգրիտ մոդել, քան մեկ որոշման ծառը, քանի որ փաթեթավորման տեխնիկան կօգնի նվազեցնել մոդելի տարբերությունը:

Մենք կարող ենք նաև օգտագործել խթանումը մեր մոդելի ճշգրտությունը բարելավելու համար: Այս դեպքում մենք կսկսենք ուսուցանելով պարզ որոշումների ծառ ամբողջ տվյալների վրա: Հաջորդ կրկնության ժամանակ մենք կսովորեցնենք երկրորդ որոշման ծառը վերապատրաստման տվյալների վրա, բայց տվյալների կետերի կշիռները կկարգավորվեն այնպես, որ մոդելն ավելի մեծ ուշադրություն դարձնի այն տվյալների կետերին, որոնք սխալ դասակարգվել են առաջին որոշման ծառի կողմից: Այս գործընթացը կկրկնվի այնքան ժամանակ, մինչև ստեղծվեր որոշման ծառերի ցանկալի քանակությունը: Այնուհետև որոշման ծառերի կանխատեսումները կմիավորվեն՝ վերջնական կանխատեսում ստեղծելու համար:

Boosting-ը, ամենայն հավանականությամբ, այս դեպքում ավելի ճշգրիտ մոդել կստեղծի, քան փաթեթավորումը, քանի որ այն հատուկ նախագծված է մոդելի կողմնակալությունը նվազեցնելու համար: Այնուամենայնիվ, փաթեթավորումը սովորաբար ավելի հեշտ է իրականացնել և ավելի քիչ ծախսատար, քան խթանումը:

Ընդհանրապես, պարկերը լավ ընտրություն է, երբ նպատակը մոդելի շեղումը նվազեցնելն է, մինչդեռ խթանումը լավ ընտրություն է, երբ նպատակը մոդելի կողմնակալության նվազեցումն է: Օգտագործման լավագույն մոտեցումը կախված կլինի կոնկրետ լուծվող խնդրից:

Լուսանկարը՝ Էլիֆ Դորթդողանի և Յոնաս Սվիդրասի