Գործնականում ապակենտրոնացված գաղտնիության պահպանման մեքենայական ուսուցում

Ծանոթագրություն հեղինակից

Մենք @Kick-start-ը վայելում ենք մեր ամենօրյա աշխատանքը հատկապես այն պատճառով, որ մենք կարող ենք օգտագործել ժամանակակից տեխնոլոգիաները մեր բոլոր նախագծերում: Բժշկական AI-ն այն թեման է, որով հատկապես հետաքրքրված է մեր թիմը, և այդ պատճառով մենք հաճույքով գրել ենք այս հոդվածը: Դուք կարող եք դա ընդունել որպես մեր ազնիվ առաջարկություն՝ ձեր հաջորդ ML-on-the-edge նախագիծը սկսելու համար: Մենք մտածեցինք, որ դա լավ բան է. կիսվելով տեխնոլոգիաների ըմբռնումով զբաղվող ընկերների հետ, այնպես որ սպասեք ավելի շատ տեխնոլոգիական հոդվածների:

Նորեկների ներածություն

Մեքենայական ուսուցումը (ML) տեխնիկայի և ռազմավարության հավաքածու է տվյալների վրա հիմնված համակարգերի մշակման համար: Դուք կարող եք բաց թողնել այս բաժինը, եթե արդեն ունեք ML նախապատմություն, բայց կարող եք նաև մնալ, որպեսզի արագ ծանոթանաք հասկացություններին և տերմինաբանությանը:

ML գործընթացները հիմնականում բաղկացած են այն բանից, թե ինչպես կարելի է տարբերակել տվյալների հիմքում ընկած պոպուլյացիաների բնորոշ հատկանիշները: ML ալգորիթմները պետք է սովորեն, թե ինչպես կատարել տվյալ առաջադրանքը՝ առանց հստակ ծրագրավորված լինելու այն իրականացնելու համար:

Այդ առաջադրանքների կատարումը հիմնված է ML ալգորիթմների կանխատեսումների վրա՝ տվյալների մեջ օրինաչափություններ փնտրելով: Արդյունավետ աշխատելու համար մեքենայական ուսուցման մոդելները հաճախ պահանջում են ուժեղ սարքավորում, սակայն այս իրավիճակը մշտապես փոխվում է վերջին տարիներին (մենք կխոսենք MLեզրիններքևում):

Արագ ամփոփում ML տեխնիկայի կատեգորիաների և ալգորիթմների նպատակների վերաբերյալ.

Դասակարգում — նմուշի ճիշտ պիտակի կանխատեսում (օրինակ՝ նկարներում տարբեր առարկաների տարբերակում);
Ռեգեսիա - գնահատում է անհայտ գործառույթը, որը նկարագրում է տվյալների պոպուլյացիայի վարքագիծը (օրինակ՝ գնահատելով տների գները՝ հիմնվելով այնպիսի բնութագրերի վրա, ինչպիսիք են գտնվելու վայրը, մակերեսը և այլն);
Կլաստերավորում — նմուշների խմբավորում՝ հիմնված միմյանց նմանության վրա (օրինակ՝ պոտենցիալ հաճախորդների վարքագծի վրա հիմնված խմբավորում՝ մարքեթինգային արշավներ մշակելու համար);
Չափերի կրճատում — հայտնաբերել առավել համապատասխան փոփոխականները, թե ինչպես են վարվում տվյալները (օրինակ՝ գտնել համապատասխան մանրամասներ, որոնք պետք է նույնականացվեն, որպեսզի ավտոմատ կերպով նամակներ ուղարկվեն սպամի թղթապանակին);
Քաղաքականության որոնում — նպատակ ունի գտնել այն քաղաքականությունը, որը առավելագույնի է հասցնում երկարաժամկետ վարձատրությունը (օրինակ՝ փոշեկուլ ռոբոտը, որը սովորում է, թե ինչպես կատարել իր առաջադրանքը ավելի լավ);
Խտության գնահատում — վերաբերում է հիմքում ընկած պոպուլյացիայի հավանականության խտության ֆունկցիայի հայտնաբերմանը (օրինակ՝ ձեր վիճակագրական մոդելների համար ճիշտ պարամետրեր գտնելը բնակչության նկատմամբ).

և վերապատրաստման գործընթացի հիման վրա.

Վերահսկվող ուսուցում — տրամադրվում են և՛ տվյալներ, և՛ ճիշտ պիտակավորում
(օրինակ՝ կենդանիների պատկերների հավաքածու՝ հիմնված տվյալների վրա, թե ինչ կենդանիներ կան յուրաքանչյուր նկարում);
Չվերահսկվող ուսուցում — որտեղ կենտրոնանում է այդ պիտակները հայտնաբերելու վրա, քանի որ դրանք տրված չեն. Նպատակը տվյալների թաքնված հիմքում ընկած կառուցվածքի բացահայտումն է (օրինակ՝ մարդկանց խմբավորումը՝ ելնելով նրանց հատկություններից);
Ամրապնդող ուսուցում — որտեղ մոդելի ընթացիկ կատարողականի համար օգտագործվում են պարգևներ, որոնք հետագայում օգտագործվում են հաջորդ կրկնությունները բարելավելու համար: (օրինակ՝ խաղային AI, որը սովորում է, թե ինչպես աստիճանաբար ավելի շատ միավորներ հավաքել)

Մենք դեռ լավ պետք է լինենք տեսական կողմում, քանի որ այս բաժինը ձեզ լավ ինտուիցիա է տրամադրել, թե ինչպես են նախագծվում այս ալգորիթմները:

Մեքենայի ուսուցում եզրին

Հեռանալով ներածական տեսությունից՝ եկեք խոսենք ML-ի իրական աշխարհում օգտագործման մասին: Այդ ալգորիթմների կողմից օգտագործվող տվյալները գտնվում են մեր շուրջը, այն աշխարհում, որը մենք դիտում ենք, մեր գործողություններում և փոխազդեցություններում: Մեզ համար երբեք ավելի հեշտ չի եղել այս տեղեկատվությունը հավաքելը, և դա հիմնականում պայմանավորված է նրանով, որ մենք խորապես ինտեգրել ենք բոլոր տեսակի տեխնոլոգիաները մեր առօրյա կյանքում: Մենք ձեզ կպատմենք, թե ինչպես են վերջին մոտեցումները նպատակ ունեն օգտվել այս աճող IoT լանդշաֆտից:

Մեքենայական ուսուցումը եզրին (Edge ML) կենտրոնական սերվերներից և ամպային ցանցերից կախվածությունը նվազեցնելու մեթոդ է՝ յուրաքանչյուր սարքի թույլ տալով վերլուծել տվյալները տեղական (կամ տեղական սերվերների միջոցով կամ սարքի մակարդակով)՝ օգտագործելով մեքենայական ուսուցման առաջադեմ տեխնիկա: Սա կարող է լինել համակարգիչների, հեռախոսների կամ ցանկացած տեսակի խելացի սարքերի դեպքում: Գոյություն ունի տեխնիկական լուծումների աճող շուկա, որոնք ապահովում են նման ապակենտրոնացված ՓԼ ուսուցման հնարավորություններ:

Ինչ վերաբերում է ներկառուցված հավելվածներին, ապա ML ալգորիթմները ներկառուցված համակարգերում տեղակայելը շատ պարզ գործընթաց է դառնում: Ավելի ու ավելի շատ հայտնի ներկառուցված զարգացման հարթակներ են աջակցվում հիմնական ML շրջանակների կողմից, օրինակ. Tensorflow Lite[1] միկրոկառավարիչների համար (հղում այստեղ): Եթե դուք հետաքրքրված եք ձեր սեփական ML ներկառուցված նախագծի մեկնարկով, մենք գրել ենք հոդված [2] ձեր տեխնոլոգիական փաթեթի հնարավոր թեկնածուի մասին՝ ESP32, որը նույնպես աջակցվում է Tensorflow Lite-ի կողմից: Մյուս կողմից, դուք կարող եք շահագրգռված լինել ոչ միայն եզրակացության մոդելների տեղակայմամբ, այլ իրականում օգտագործել ներկառուցված սարքը մոդելի ուսուցումն իրականացնելու համար: Այս դեպքում մենք առաջարկում ենք ավելի հզոր հարթակ, ինչպիսին է Nvidia Jetson Nano-ն (հղում):

TensorFlow Lite միկրոկոնտրոլերների համար
TensorFlow Lite-ը միկրոկոնտրոլերների համար նախատեսված է միկրոկարգավորիչների և այլ սարքերի վրա մեքենայական ուսուցման մոդելներ գործարկելու համար…www.tensorflow.org

Jetson Nano Developer Kit
Ժամանակակից AI-ի ուժն այժմ հասանելի է ամենուրեք ստեղծողների, սովորողների և ներկառուցված ծրագրավորողների համար: NVIDIA Jetson Nano…developer.nvidia.com

Դաշնային ուսուցում

Ֆեդերատիվ ուսուցումը (FL) մեքենայական ուսուցում իրականացնելու համագործակցային մոտեցում է, որտեղ մոդելը վերապատրաստվում է բազմաթիվ ապակենտրոնացված եզրային սարքերում, մինչդեռ տեղական տվյալների նմուշները չեն փոխանցվում որևէ այլ կողմի: FL շրջանակում օգտատերերը կարող են բարելավել ստացված կանխատեսման մոդելը՝ համագործակցելով վերապատրաստման գործընթացի շրջանակներում՝ առանց մուտք ունենալու մյուս մասնակիցներից ստացվող տվյալներին, քանի որ այս տվյալները մնում են անձնական համագործակցողներից յուրաքանչյուրի համար: Տվյալները չեն հեռանում այն եզրից, որտեղ արդեն գոյություն ունեն, այլ մոդելն ուղարկվում է համագործակցողներից յուրաքանչյուրին՝ տեղում վերապատրաստվելու համար:

Այնուամենայնիվ, FL մոտեցումը խորությամբ ուսումնասիրելը ենթակա կլինի ապագա հոդվածի (կարող եք ցանկանաք ուսումնասիրել այն ինքներդ, այնպես որ այստեղ լավ մեկնարկային կետ է): Մենք կենտրոնանալու ենք այս տեխնիկայի հետ կապված գաղտնիության պահպանման ասպեկտի վրա, ինչպես նաև դրա կիրառություններին իրական աշխարհում, մասնավորապեսբժշկական տիրույթում:

Առողջության էլեկտրոնային գրառումները (EHR) դարձել են իրական աշխարհի առողջապահական տվյալների նմուշների արժեքավոր աղբյուր, որոնք օգտագործվել են մի շարք կարևոր կենսաբժշկական հետազոտություններում, ներառյալ ML-ի վրա հիմնված ուսումնասիրությունները: FL-ը հնարավոր լուծում է տարբեր բժշկական հաստատություններից EHR-ի տվյալները միացնելու համար՝ թույլ տալով նրանց կիսել արժեքավոր պատկերացումները, այլ ոչ թե իրենց անձնական տվյալները՝ այդպիսով պահպանելով հիվանդի տվյալների գաղտնիությունը: Այս դեպքերում, հսկայական և բազմազան բժշկական տվյալների հավաքածուներից սովորելու կրկնվող ձեռքբերումները կտրուկ կբարձրացնեն ML մոդելի արդյունավետությունը: Հիվանդի նմանության ուսուցումը, հիվանդի ներկայացման ուսուցումը, ֆենոտիպավորումը և կանխատեսող մոդելավորումը որոշ գործողություններից են, որոնք ուսումնասիրվել են առողջապահության ոլորտում FL սցենարներում:

Նման կիրառման օրինակը գալիս է գաղտնիության պահպանման հարթակի տեսքով՝ հաստատություններում հիվանդների նմանության ուսուցման համար [3]: Առանց հիվանդի մակարդակի տեղեկատվության փոխանակման, նրանց ծրագրերը կարող են հայտնաբերել նմանատիպ հիվանդներ մի քանի հիվանդանոցներում:

FL-ը նաև հնարավորություն է տվել ուսուցում կանխատեսող մոդելավորման համար՝ հիմնված բազմաթիվ տվյալների աղբյուրների վրա, ինչը, ի վերջո, կարող է բժիշկներին ավելի շատ պատկերացումներ տրամադրել ավելի վաղ հիվանդներին բուժելու ռիսկերի և օգուտների վերաբերյալ: Սրտի հետ կապված խանգարումներ ունեցող հիվանդների ապագա հոսպիտալացումները կանխատեսելու համար օգտագործվել է կանոնավոր նոսր SVM դասակարգիչը, որը տեղադրված է FL միջավայրում [4]: Օգտագործված EHR տվյալները ցրվել են տվյալների մի քանի աղբյուրների/գործակալների վրա:

Վերջապես, այնպիսի ընկերություններ, ինչպիսին է Owkin-ը, օգտագործում են համագործակցային ուսուցում տարբեր օգտագործման դեպքերի համար, օրինակ՝ կանխատեսելու, թե որքան դիմացկուն կլինեն հիվանդները որոշակի բուժումների և դեղամիջոցների նկատմամբ, ինչպես նաև որոշակի հիվանդություններից գոյատևելու նրանց հնարավորությունները: Բաշխված EHR-ից վաղաժամ ծննդաբերության կանխատեսման համար ներկայացվել է դաշնային անորոշության գիտակցված ուսուցման մեթոդ, որի դեպքում վերջնական մոդելի ներդրումը կրճատվում է բարձր անորոշության մակարդակ ունեցող անդամների համար:

Գաղտնիության պահպանման մեթոդներ, որոնք կօգտագործվեն FL-ի երկայնքով

Մասնավոր տեղեկատվության չարաշահումը մեծագույն խնդիրներից մեկն է, որն առաջացել է Մեծ տվյալների մշակման հետ մեկտեղ, որը մասամբ առաջացել է բազմաթիվ հաստատությունների կողմից տվյալների խախտումներով: Այս համատեքստում կառավարությունները միջոցներ են ձեռնարկել նվազեցնելու ռիսկերը, որոնք ստեղծում են տվյալների հավաքագրող հաստատությունները իրենց հաճախորդների համար, ինչպիսիք են Միացյալ Նահանգների HIPAA-ն և Եվրոպայի GDPR-ը: Այդ կանոնակարգերին համապատասխանելու համար հաստատություններից և ընկերություններից պահանջվում է կիրառել գաղտնիության սպառնալիքներից պաշտպանության մեթոդներ:

Անկախ այն հանգամանքից, որ FL մոտեցումը գալիս է անվտանգության մեծ առավելությունով, երբ տվյալները երբեք չեն թողնում սկզբնական հյուրընկալողը վերապատրաստման գործընթացում, դեռևս կան գաղտնիության որոշ մտահոգություններ: Հակադարձ ինժեներական գործընթացների նման, ստացված վերապատրաստված մոդելը կարող է օգտագործվել վերապատրաստման գործընթացում օգտագործված տվյալների մասին համապատասխան տեղեկատվություն ստանալու համար: Այդ ռիսկերից մի քանիսը մեղմելու համար մշակվել են գաղտնիության պահպանման մեթոդներ, որոնք լրացնում են FL սկզբնական բանաձևը: Ժամանակակից տեխնիկան փորձում է նվազագույնի հասցնել տեղեկատվության կորուստը, որն անխուսափելիորեն առաջանում է անանունացման հետևանքով, միաժամանակ պահպանելով վերլուծական արժեքը:

Գաղտնիության պահպանման մի քանի մոտեցումներ, որոնք համապատասխանում են FL միջավայրերին.

Դիֆերենցիալ գաղտնիություն (DP), որը ենթադրում է տարբեր մակարդակներում կիրառվող պատահական աղմուկի օգտագործում՝ տվյալների անանունացման համար.
Վստահելի կատարման միջավայրեր (TTEs) երաշխավորում է կոդերի հուսալի կատարումը հեռավոր մեքենաներում և իրականացվում է սահմանափակելով բոլոր կողմերի թույլտվությունները.
Անվտանգ բազմակողմ հաշվարկ (SMPC)որտեղ հաճախորդների մի ենթախումբ համագործակցում է գաղտնագրության միջոցով՝ նմանակելով վստահելի երրորդ կողմին.
Հոմոմորֆ գաղտնագրում – այն պահանջում է տվյալների վրա աշխատել՝ առանց դրանց ապակոդավորման, ինչը մեծ հաշվողական ծախսեր է պահանջում։
Սինտակտիկ մոտեցումներ, որոնք վերաբերում են հարաբերական տվյալների շտեմարաններում նույնականացնող տեղեկատվության ընդհանրացմանը:

Դիֆերենցիալ գաղտնիությունը և շարահյուսական մոտեցումները ամենաթանկ տեխնիկան են, որոնք նաև ապացուցել են, որ նվազեցնում են տեղեկատվության կորուստը՝ նպատակ ունենալով պահպանել գաղտնիությունը: Այս երկու մոտեցումներն էլ առաջարկում են տվյալների փոխակերպում և անանունացում՝ նախքան ուսուցման գործընթացում օգտագործելը, յուրաքանչյուր առանձին տվյալների կետին անանունություն ապահովելու համար: FL-ի վրա DP սկզբունքի կիրառումը հիմնված է այն փաստի վրա, որ տվյալների կետերին պատահական աղմուկ ավելացնելը չեղարկվում է վերապատրաստման գործընթացի ընթացքում և, հետևաբար, մոդելի կատարողականը չի ազդում: Նմանապես, k-անանունության վրա հիմնված շարահյուսական մոտեցումը, որը կարող է օգտագործվել հարաբերական տվյալների դեպքում, հիմնված է տվյալների առանձնահատկությունների ընդհանրացման վրա, որպեսզի տվյալների կետերը չտարբերվեն տվյալների հավաքածուի առնվազն k այլ մուտքերից (օրինակ՝ a. Տարիքային որոշակի արժեք պարունակող գրառումը, օրինակ՝ 15, կարող է քարտեզագրվել ընդհանուր Տարիքային խմբին, օրինակ՝ [7–18]:

Տվյալների անանունացումն այն ռազմավարություններից է, որոնք ձեռնարկությունները և բժշկական հաստատությունները կարող են կիրառել տվյալների գաղտնիության խիստ կանոններին համապատասխանելու համար, որոնք պահանջում են անձնական նույնականացման տեղեկատվության (PII) պաշտպանություն, ինչպիսիք են բժշկական գրառումները, կոնտակտային տվյալները և ֆինանսական տվյալները: Տվյալների անանունացման ժամանակ դրանք փոխվել են այնպես, որ զգայուն տեղեկատվությունը չի կարող վերականգնվել: Մենք վճար ենք սահմանել տվյալների որոնման և հանքարդյունաբերության արդյունավետության առումով, քանի որ մենք փոխել ենք սկզբնական տվյալները, ինչը ինքնին ակնհայտ է:

Ինչպես սկսել Privacy-Preserving FL-ի հետ

Մենք ձեզ ներկայացրեցինք հասկացությունները, այժմ պետք է նաև պատմենք, թե ինչպես կարող եք սկսել դրանք օգտագործել և կիրառել դրանք գործնականում: Մեր առաջարկությունը գալիս է Python փաթեթի տեսքով՝ PySyft: Դրա հիմնական նպատակն է օգտատերերին տրամադրել պարզ ինտերֆեյս՝ անվտանգ, մասնավոր, համատեղ խորը ուսուցում իրականացնելու համար: PySyft-ն անջատում է մասնավոր տվյալները մոդելային ուսուցումից՝ օգտագործելով Ֆեդերատիվ ուսուցում: PySyft-ը բաց կոդով փաթեթ է, որը հատուկ նախագծված է FL-ի և Գաղտնիության պաշտպանության համար: Այն ստեղծվել է որպես խորը ուսուցման մի քանի փաթեթների ընդլայնում, ներառյալ PyTorch, Keras և Tensorflow: Մենք պատրաստվում ենք հղում թողնել այստեղ, որպեսզի կարողանաք ավելին իմանալ դրա մասին: Մինչև հաջորդ անգամ, ապահով մնացեք: Եվ մասնավոր ;)

[1] TensorFlow Lite (2022): Հասանելի է՝ https://www.tensorflow.org/lite/guide (Մուտք՝ 11 փետրվարի 2022):

[2] Սկսեք ձեր ներդրված նախագծերը ESP32-ով և PlatformIO-ով (2022): Հասանելի է՝ https://blog.kick-start.ro/kickstart-your-embedded-projects-with-esp32-and-platformio-643925ffdd49 (Մուտք գործած՝ 11 փետրվարի 2022):

[3] Lee, J. et al. (2018) «Գաղտնիությունը պահպանող հիվանդի նմանության ուսուցումը դաշնային միջավայրում. զարգացում և վերլուծություն», JMIR Medical Informatics, 6(2), էջ. e20. doi՝ 10.2196/medinform.7744:

[4] Brisimi, T. et al. (2018) «Կանխատեսող մոդելների դաշնային ուսուցում դաշնային էլեկտրոնային առողջության գրառումներից», Բժշկական ինֆորմատիկայի միջազգային հանդես, 112, էջ 59–67: doi՝ 10.1016/j.ijmedinf.2018.01.007.

[5] PySyft — OpenMined բլոգ (2022): Հասանելի է հետևյալ հասցեով՝ https://blog.openmined.org/tag/pysyft/ (Մուտք՝ 11 փետրվարի 2022):

թեմայի վերաբերյալ նյութեր:

Նոր նյութեր

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Այն պահից ի վեր, երբ ես իմացա Արհեստական ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը

C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար

Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..

Պիտակներ

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning React AI Software Engineering Nodejs Typescript Java Javascript Tips Tech Algorithms Front End Development Programming Languages iOS Data Business NLP Development Reactjs Tutorial CSS Learning Swift Angular API Javascript Development Startup Android Computer Science Learning To Code Reinforcement Learning