Սև հայելի. ճանաչողական կողմնակալություն մեքենայական ուսուցման մեջ

Այս հոդվածն ի սկզբանե հրապարակվել է 2018 թվականի նոյեմբերի 16-ին

«Այս համակարգերը պարզապես հայելիներ են կողմնակալ հասարակության համար», - ասում է Սթենֆորդի համալսարանի պրոֆեսոր դոկտոր Ջերի Կապլանը՝ խոսելով խորը ուսուցման մոդելների մասին: Արհեստական ինտելեկտի ոլորտում հայտնի փորձագետը, որը հիմնել է մի քանի AI ստարտափներ և հրապարակել է երեք գիրք այդ թեմայով, նրա ձայնը ցնցվում է ինտենսիվությամբ, երբ մենք խոսում ենք մեր ներկայիս արհեստական ինտելեկտում ճանաչողական կողմնակալության վերացման հնարավորության մասին: «Եթե հասարակության մեջ կա կողմնակալություն, ապա այս համակարգերը կողմնակալ կլինեն, քանի որ դրանք հիմնված են իրական աշխարհում նկատվող տվյալների վրա», - շարունակում է նա:

Խորը ուսուցումը, արհեստական ինտելեկտի ենթաբազմությունը, նկարագրում է տեղեկատվության կանխատեսման ձև, որը կենտրոնացած է նեյրոնային ցանցերի, համակարգչային համակարգերի շուրջ, որոնք մոդելավորում են մարդու ուղեղը և նյարդային համակարգը: Նյարդային ցանցը կազմված է փոխկապակցված հանգույցներից, որոնք ազդանշաններ են փոխանցում միմյանց՝ համակարգով տեղեկատվություն տարածելու և պահպանելու համար՝ թույլ նմանեցնելով, թե ինչպես են նեյրոններն իրենց սինապսների միջոցով էլեկտրական ազդանշաններ ուղարկում այլ նեյրոններին: Խորը ուսուցման ընթացքում համակարգչային գիտնականները սնուցում են այս նեյրոնային ցանցերի ուսուցման տվյալները, որպեսզի նրանք կարողանան սովորել օրինաչափություններ, որոնք նրանք կարող են կիրառել տեղեկատվություն կանխատեսելու համար, ճիշտ այնպես, ինչպես երեխան կարող է սովորել ճանաչել, թե ինչպիսի վարքագծեր կհանգեցնեն իրենց դժվարություններին, հակառակ վարքագծի տեսակների: գովասանք վաստակել.

«Word2vec» մոդելները նեյրոնային ցանցի մի տեսակ են, որն ըստ էության ընդունում է տեքստի կորպուսը որպես տվյալ, դրանք կարող են տատանվել հայտնի վեպերից մինչև լրատվական հոդվածների հավաքածուներ և թվիթների մեծ խմբավորումներ, և որոշել, թե որ բառերն են հայտնվում տեքստում միմյանց մոտ: բառերը որպես վեկտորներ կամ թվերի ցուցակներ ներկայացնելու կարգը: Մասնավորապես, նույն նախադասության մեջ հայտնված բառերը կհամարվեն «մոտ» միմյանց, և բառի վեկտորային ներկայացման յուրաքանչյուր թիվ քիչ թե շատ չափանիշ է, թե որքան հաճախ է այն հայտնվում անգլերեն մեկ այլ բառի հետ: Քանի որ նմանատիպ բառերը հայտնվում են համանման համատեքստերում, դրանց վեկտորները պետք է մոտ լինեն միմյանց, իսկ կոսինուսային հեռավորությունները՝ ցածր: Սա բառի իմաստի կատարյալ մոտարկում չէ, քանի որ «հանգիստ» և «բարձրաձայն» բառերը կարող են հայտնվել նույն տեղում նույն նախադասության մեջ, սակայն այն թույլ է տալիս word2vec մոդելներին վերականգնել բառերի համեմատաբար ճշգրիտ լեզվական համատեքստերը՝ դրանք վերածելով դրանց: թվերի ցուցակներ.

Քանի որ word2vec-ի այս մոդելները թույլ են տալիս մեզ ներկայացնել անգլերեն բառերը որպես վեկտորներ (կոչվում են բառի ներդրում), մենք կարող ենք մաթեմատիկական գործողություններ կատարել բառերի վրա՝ լրացնելով վեկտորային թվաբանությունը դրանց վեկտորային ձևերի վրա: Օրինակ, եթե մենք նման բան անենք «արքա + կին — տղամարդ», մենք կստանանք «թագուհուն» ամենամոտ ելքային վեկտորը։ Դուք կարող եք մտածել այն մասին, որ ասեք՝ հեռացնելով թագավորի տղամարդու մասը և ավելացնելով կին մասը, մեզ թագուհի է տալիս՝ նմանօրինակ հարաբերություն, որտեղ «թագավորը տղամարդու համար է, ինչպես թագուհին՝ կնոջը»:

Word2vec-ը բնական լեզվի մշակման մեծ մասի հիմքն է և թույլ է տալիս մեզ օգտակար բաներ անել, ինչպիսիք են տեքստի կանխատեսումը և խոսքի ճանաչումը, բայց այն նաև բացահայտում է որոշ տագնապալի ճանաչողական կողմնակալություններ մեր հասարակության մեջ: Քանի որ վերապատրաստման տվյալները, որոնցից մոդելները սովորում են, մարդկանց կողմից գրված են, մեր բոլոր կողմնակալությունները, որոնք առկա են լեզվական տվյալների մեջ, նմանակվում են հենց մոդելների կողմից, ինչպես նշեց դոկտոր Կապլանը: Մասնավորապես, լեզվական մոդելների մեծ մասը չափազանց սեքսիստական է, քանի որ հասանելի գրությունների մեծ մասը ավելի պահպանողական դարաշրջաններից է, քան մերը, և «բժիշկ + կին — տղամարդ» հավասարումը կատարելով հաճախ «բուժքույր»-ին մոտ վեկտոր է ստացվում: Այնուամենայնիվ, մի աշխարհում, որը հեռու է անարդար կողմնակալությունները արմատախիլ անելուց, գրեթե անհնար է խուսափել նման կողմնակալ խելացի համակարգեր ստեղծելուց: Քանի որ նման մոդելները պետք է վերապատրաստվեն մեր արտադրած տվյալների վրա, դրանք միշտ կլինեն մեր անկատար «ես»-ի արտացոլումը, և այդ պատճառով մենք պետք է սովորենք սահմանափակել այն ուժը, որը մենք տալիս ենք նրանց:

+++

Ճանաչողական կողմնակալությունները, ինչպիսիք են սեքսիզմը մեր լեզվական մոդելներում, համեմատաբար տարածված են մեքենայական ուսուցման արագորեն ընդլայնվող ոլորտում: Քանի որ մոդելներին ավելի ու ավելի շատ ուժ է տրվում որոշումներ կայացնելու համար, մենք սկսում ենք տեսնել, որ այս կողմնակալությունները ավելի հասնող հետևանքներ են ունենում: Օրինակ՝ թույլ տալով մեր մոդելներին բացահայտել քրեական արդարադատության համակարգում բարձր ռիսկային կրկնվող հանցագործներին (Equivant's COMPAS համակարգ) կամ քրեական կասկածյալներին տեղական իրավապահ մարմիններում (Amazon's Rekognition ծրագրաշարը) մեծապես սրել է ռասայական պրոֆիլը և նպաստել զանգվածային բանտարկություններին՝ թիրախավորելով մարդկանց: գույն.

Մի շարք տեխնոլոգիական ընկերություններ ձեռնարկել են գործողություններ, որոնք ենթադրում են իրենց մեքենայական ուսուցման համակարգերում նախապաշարմունքների էթիկական հետևանքների ավելի մեծ ըմբռնում: Google-ի գործադիր տնօրեն Սունդար Պիչայը, օրինակ, հրապարակել է էթիկական սկզբունքների ցանկ, որոնք ուղղորդում են իրենց արհեստական ինտելեկտի օգտագործումն այս ամառ: Սկզբունքների թվում նա գրում է, որ արհեստական ինտելեկտը պետք է «խուսափի անարդար կողմնակալության ստեղծումից կամ ամրապնդումից» և, ընդհանուր առմամբ, չպետք է օգտագործվի «տեխնոլոգիաների մեջ, որոնք առաջացնում են կամ կարող են ընդհանուր վնաս պատճառել»: Նմանապես, Microsoft-ը հիմնել է մի շարք ներքին խմբեր՝ կառավարելու արհեստական ինտելեկտի նոր զարգացումների հետազոտությունն ու կիրառումը, օրինակ՝ FATE (Արդարություն, հաշվետվողականություն, թափանցիկություն և էթիկա AI-ի մեջ) հետազոտական խումբը: Այս խմբերի մեծ մասը մղում է իրազեկման, հասկանալու, թե որտեղից են գալիս այդ կողմնակալությունները և ինչ ազդեցություն ունեն դրանք, որպես մոլեռանդ մեքենայական ուսուցման ավելի լայն լուծում: Նրանք կարծում են, որ տվյալների հավաքածուների շուրջ թափանցիկությունը, որոնց վրա վերապատրաստվում են AI համակարգերը, թույլ կտա բացահայտել այդ կողմնակալությունները՝ նախքան դրանք հնարավոր վնաս պատճառելը:

Բացի այդ, քանի որ մեր խելացի համակարգերում ականատես ճանաչողական կողմնակալության մեծ մասը կարող է հետագծվել մինչև ծրագրավորողների մակարդակը, շատ հետազոտողներ կարծում են, որ այս անտեսումները վերացնելը սկսվում է ապագա համակարգչային գիտնականներին արհեստական ինտելեկտի էթիկայի վերաբերյալ կրթելով. փաստ, որ որոշ դպրոցներ սկսել են: հասկանալու համար, առաջարկելով այնպիսի դասընթացներ, ինչպիսին Դոկտոր Կապլանը դասավանդում է Սթենֆորդում, «CS122. Արհեստական ինտելեկտ. Փիլիսոփայություն, էթիկա և ազդեցություն»: Երբ ես հարցրի դոկտոր Կապլանին դասընթացի ծրագրի մասին, նա ասաց ինձ, որ դասընթացի նպատակն է սովորեցնել ուսանողներին քննադատաբար մտածել այն ազդեցության մասին, որը կարող է ունենալ կողմնակալ մոդելը` նման մոդելներին կուրորեն կարևոր առաջադրանքներ վստահելու փոխարեն: Գաղափարն այն է, որ ուսանողներին հզորացնել մեքենայական ուսուցման ծրագրակազմը առանց սոցիալական պատասխանատվության զգացման ստեղծելու, նույնն է, ինչ ինչ-որ մեկին ատրճանակ տալն առանց անվտանգության ուսուցման: Այնուամենայնիվ, այստեղ հարց է ծագում, արդյոք անվտանգության ուսուցումը նշանակում է, որ ատրճանակն ինքնին ավելի քիչ վտանգավոր է:

Այս միջոցառումները, որոնք խթանում են իրազեկումը, թափանցիկությունը կամ կրթությունը, արդյունավետ են միայն որոշակի չափով: Մեր ռասիստական, սեքսիստական և, որպես կանոն, անհանդուրժող մեքենայական ուսուցման մոդելների պատճառը հասկանալը մեզ անպայման թույլ չի տալիս ստեղծել անաչառ համակարգեր, քանի որ կողմնակալությունը բնորոշ է առկա տվյալներին: Օրինակ, եթե մենք վերանայենք մեր խնդրահարույց word2vec մոդելը, մենք տեսնում ենք, որ գործնականում անհնար է գտնել անաչառ տվյալներ, որոնց վրա կարելի է մոդել պատրաստել. առաջադրանքի բնույթը պահանջում է մեծ քանակությամբ տեքստ և տեքստ, որը փոխանցում է իրական իմաստ, այնպես որ մենք չենք կարող իրատեսորեն ստեղծել նոր անաչառ գրություն կամ շարել բոլորովին պատահական բառեր: Գործնականում լեզվական մոդելների մեծամասնությունը ուսուցանվում է մի շարք խոշոր, հանրությանը հասանելի կորպուսների վրա, որոնք համախմբում են լայնածավալ գրվածքներ: Դրանցից մի քանիսը ներառում են Google Books Ngram Viewer-ը, Ամերիկյան ազգային կորպուսը և Բրաունի ներկայիս ամերիկյան անգլերենի սեփական ստանդարտ կորպուսը: Բրաունի կորպուսի համառոտ ուսումնասիրությունը անմիջապես բացահայտում է, թե որտեղից կարող է ծագել մեր մոդելների դրսևորված սեքսիզմը. կորպուսը ներառում է կրոնական տեքստերի մեծ հատվածներ և զգալի թվով գեղարվեստական ստեղծագործություններ այնպիսի գրողների կողմից, ինչպիսին Չարլզ Դիքենսն է (ով նշանավոր այրող էր): Բայց նույնիսկ եթե մենք մտածում ենք ենթադրյալ օբյեկտիվ գրություններից կազմված կորպուսների մասին, ինչպիսին է Հյուսիսային Ամերիկայի նորությունների տեքստային կորպուսը, դժվար չէ պատկերացնել, որ պահպանողական զեկույցը մեր հասարակության խնդրահարույց ոլորտների վերաբերյալ, ինչպիսիք են ավանդական գենդերային դերերը կամ աշխատավարձի տարբերությունը, կարող են հանգեցնել մեր լեզվական մոդելների: տղամարդկանց հետ բժիշկների, իսկ կանանց՝ բուժքույրերի հետ կապելը:

Երբ ես խոսում եմ դոկտոր Կապլանի հետ, նա ներկայացնում է COMPAS ծրագրակազմը, որը սովորել է օգտագործել ռասան որպես բանտարկված անհատի՝ կրկնվող հանցագործ դառնալու հավանականության կանխատեսում: Նա նշում է, որ «դատարանների տեսանկյունից դա կողմնակալ չէ, քանի որ դա վերապատրաստման տվյալների մեջ առկա համամասնությունների օբյեկտիվ վերլուծություն է», բայց հետո նա կրկնում է, որ «անհատի տեսանկյունից դա լիովին անարդար է»: Քանի որ սևամորթ անհատը, ով ունի նույն ռեկորդը, ինչ սպիտակը, պիտակավորվելու է կրկնակի հանցագործության ավելի մեծ հավանականությամբ, այս ծրագրաշարի միջոցով սևամորթները կրկին ընդունվում են շատ ավելի բարձր տեմպերով, և՛ արտացոլելով, և՛ հարատևելով ոստիկանության արդեն գոյություն ունեցող ռասիստական պրակտիկան: Իրականությունն այն է, որ, որպեսզի մոդելը սովորի ճշգրիտ տեղեկատվության կանխատեսման համար օգտագործվող օրինաչափությունները, մոդելը պետք է սնվի իրական տվյալների՝ թերի և կողմնակալ բնակչության կողմից արտադրված տվյալների վրա, և այսպիսով, մեր մոդելները միշտ արձագանքելու են իրենց օգտագործած խնդրահարույց մտածողությանը: Դոկտոր Կապլանը հաստատում է, որ «դուք չեք կարող մեղքերը դնել ծրագրավորողի ոտքերի տակ կամ տեխնիկան, քանի որ դա բնորոշ է տվյալներին», կրկին ենթադրելով, որ մեր մեքենայական ուսուցման մոդելների կողմից դրսևորված ճանաչողական կողմնակալությունը ավելի մեծ կառուցվածքի մի մասն է: խնդիր, որտեղ դաշտի բնույթը նշանակում է, որ մեր խելացի համակարգերը միշտ արտացոլելու են այն աշխարհը, որը մենք ստեղծել ենք որպես մարդիկ:

Բայց որտե՞ղ է դա մեզ թողնում: Երբ ես հարցնում եմ դոկտոր Կապլանին, թե դա ինչ է նշանակում մեքենայական ուսուցման ոլորտում, նա խոսում է իրազեկության բարձրացման և կողմնակալության քանակականացման շարունակության մասին, բայց նաև ընդունում է, որ «Խնդրի էությունն այն է, որ այս համակարգերը կարող են ինստիտուցիոնալացնել և հավերժացնել կողմնակալությունը էլեկտրոնային ձևով: » Քանի որ մենք կշարունակենք ստեղծել ռասիստական, սեքսիստական և, ընդհանուր առմամբ, խտրական մեքենայական ուսուցման մոդելներ, մինչև չստեղծենք անարդար կողմնակալությունից զերծ հասարակություն, միակ լուծումը միջանկյալ ժամանակում նրանց կիրառած ազդեցության զսպումն է:

Այս հոդվածը սկզբնապես հրապարակվել է The College Hill Independent կայքում:

թեմայի վերաբերյալ նյութեր:

Նոր նյութեր

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Այն պահից ի վեր, երբ ես իմացա Արհեստական ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը

C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար

Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..

Պիտակներ

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning React AI Software Engineering Nodejs Typescript Java Javascript Tips Tech Algorithms Front End Development Programming Languages iOS Data Business NLP Development Reactjs Tutorial CSS Learning Computer Science Learning To Code Swift Angular API Javascript Development Startup Android Reinforcement Learning