Ծանոթագրություն հեղինակից
Մենք @Kick-start-ը վայելում ենք մեր ամենօրյա աշխատանքը հատկապես այն պատճառով, որ մենք կարող ենք օգտագործել ժամանակակից տեխնոլոգիաները մեր բոլոր նախագծերում: Բժշկական AI-ն այն թեման է, որով հատկապես հետաքրքրված է մեր թիմը, և այդ պատճառով մենք հաճույքով գրել ենք այս հոդվածը: Դուք կարող եք դա ընդունել որպես մեր ազնիվ առաջարկություն՝ ձեր հաջորդ ML-on-the-edge նախագիծը սկսելու համար: Մենք մտածեցինք, որ դա լավ բան է. կիսվելով տեխնոլոգիաների ըմբռնումով զբաղվող ընկերների հետ, այնպես որ սպասեք ավելի շատ տեխնոլոգիական հոդվածների:
Նորեկների ներածություն
Մեքենայական ուսուցումը (ML) տեխնիկայի և ռազմավարության հավաքածու է տվյալների վրա հիմնված համակարգերի մշակման համար: Դուք կարող եք բաց թողնել այս բաժինը, եթե արդեն ունեք ML նախապատմություն, բայց կարող եք նաև մնալ, որպեսզի արագ ծանոթանաք հասկացություններին և տերմինաբանությանը:
ML գործընթացները հիմնականում բաղկացած են այն բանից, թե ինչպես կարելի է տարբերակել տվյալների հիմքում ընկած պոպուլյացիաների բնորոշ հատկանիշները: ML ալգորիթմները պետք է սովորեն, թե ինչպես կատարել տվյալ առաջադրանքը՝ առանց հստակ ծրագրավորված լինելու այն իրականացնելու համար:
Այդ առաջադրանքների կատարումը հիմնված է ML ալգորիթմների կանխատեսումների վրա՝ տվյալների մեջ օրինաչափություններ փնտրելով: Արդյունավետ աշխատելու համար մեքենայական ուսուցման մոդելները հաճախ պահանջում են ուժեղ սարքավորում, սակայն այս իրավիճակը մշտապես փոխվում է վերջին տարիներին (մենք կխոսենք MLեզրիններքևում):
Արագ ամփոփում ML տեխնիկայի կատեգորիաների և ալգորիթմների նպատակների վերաբերյալ.
- Դասակարգում — նմուշի ճիշտ պիտակի կանխատեսում (օրինակ՝ նկարներում տարբեր առարկաների տարբերակում);
- Ռեգեսիա - գնահատում է անհայտ գործառույթը, որը նկարագրում է տվյալների պոպուլյացիայի վարքագիծը (օրինակ՝ գնահատելով տների գները՝ հիմնվելով այնպիսի բնութագրերի վրա, ինչպիսիք են գտնվելու վայրը, մակերեսը և այլն);
- Կլաստերավորում — նմուշների խմբավորում՝ հիմնված միմյանց նմանության վրա (օրինակ՝ պոտենցիալ հաճախորդների վարքագծի վրա հիմնված խմբավորում՝ մարքեթինգային արշավներ մշակելու համար);
- Չափերի կրճատում — հայտնաբերել առավել համապատասխան փոփոխականները, թե ինչպես են վարվում տվյալները (օրինակ՝ գտնել համապատասխան մանրամասներ, որոնք պետք է նույնականացվեն, որպեսզի ավտոմատ կերպով նամակներ ուղարկվեն սպամի թղթապանակին);
- Քաղաքականության որոնում — նպատակ ունի գտնել այն քաղաքականությունը, որը առավելագույնի է հասցնում երկարաժամկետ վարձատրությունը (օրինակ՝ փոշեկուլ ռոբոտը, որը սովորում է, թե ինչպես կատարել իր առաջադրանքը ավելի լավ);
- Խտության գնահատում — վերաբերում է հիմքում ընկած պոպուլյացիայի հավանականության խտության ֆունկցիայի հայտնաբերմանը (օրինակ՝ ձեր վիճակագրական մոդելների համար ճիշտ պարամետրեր գտնելը բնակչության նկատմամբ).
և վերապատրաստման գործընթացի հիման վրա.
- Վերահսկվող ուսուցում — տրամադրվում են և՛ տվյալներ, և՛ ճիշտ պիտակավորում
- (օրինակ՝ կենդանիների պատկերների հավաքածու՝ հիմնված տվյալների վրա, թե ինչ կենդանիներ կան յուրաքանչյուր նկարում);
- Չվերահսկվող ուսուցում — որտեղ կենտրոնանում է այդ պիտակները հայտնաբերելու վրա, քանի որ դրանք տրված չեն. Նպատակը տվյալների թաքնված հիմքում ընկած կառուցվածքի բացահայտումն է (օրինակ՝ մարդկանց խմբավորումը՝ ելնելով նրանց հատկություններից);
- Ամրապնդող ուսուցում — որտեղ մոդելի ընթացիկ կատարողականի համար օգտագործվում են պարգևներ, որոնք հետագայում օգտագործվում են հաջորդ կրկնությունները բարելավելու համար: (օրինակ՝ խաղային AI, որը սովորում է, թե ինչպես աստիճանաբար ավելի շատ միավորներ հավաքել)
Մենք դեռ լավ պետք է լինենք տեսական կողմում, քանի որ այս բաժինը ձեզ լավ ինտուիցիա է տրամադրել, թե ինչպես են նախագծվում այս ալգորիթմները:
Մեքենայի ուսուցում եզրին
Հեռանալով ներածական տեսությունից՝ եկեք խոսենք ML-ի իրական աշխարհում օգտագործման մասին: Այդ ալգորիթմների կողմից օգտագործվող տվյալները գտնվում են մեր շուրջը, այն աշխարհում, որը մենք դիտում ենք, մեր գործողություններում և փոխազդեցություններում: Մեզ համար երբեք ավելի հեշտ չի եղել այս տեղեկատվությունը հավաքելը, և դա հիմնականում պայմանավորված է նրանով, որ մենք խորապես ինտեգրել ենք բոլոր տեսակի տեխնոլոգիաները մեր առօրյա կյանքում: Մենք ձեզ կպատմենք, թե ինչպես են վերջին մոտեցումները նպատակ ունեն օգտվել այս աճող IoT լանդշաֆտից:
Մեքենայական ուսուցումը եզրին (Edge ML) կենտրոնական սերվերներից և ամպային ցանցերից կախվածությունը նվազեցնելու մեթոդ է՝ յուրաքանչյուր սարքի թույլ տալով վերլուծել տվյալները տեղական (կամ տեղական սերվերների միջոցով կամ սարքի մակարդակով)՝ օգտագործելով մեքենայական ուսուցման առաջադեմ տեխնիկա: Սա կարող է լինել համակարգիչների, հեռախոսների կամ ցանկացած տեսակի խելացի սարքերի դեպքում: Գոյություն ունի տեխնիկական լուծումների աճող շուկա, որոնք ապահովում են նման ապակենտրոնացված ՓԼ ուսուցման հնարավորություններ:
Ինչ վերաբերում է ներկառուցված հավելվածներին, ապա ML ալգորիթմները ներկառուցված համակարգերում տեղակայելը շատ պարզ գործընթաց է դառնում: Ավելի ու ավելի շատ հայտնի ներկառուցված զարգացման հարթակներ են աջակցվում հիմնական ML շրջանակների կողմից, օրինակ. Tensorflow Lite[1] միկրոկառավարիչների համար (հղում այստեղ): Եթե դուք հետաքրքրված եք ձեր սեփական ML ներկառուցված նախագծի մեկնարկով, մենք գրել ենք հոդված [2] ձեր տեխնոլոգիական փաթեթի հնարավոր թեկնածուի մասին՝ ESP32, որը նույնպես աջակցվում է Tensorflow Lite-ի կողմից: Մյուս կողմից, դուք կարող եք շահագրգռված լինել ոչ միայն եզրակացության մոդելների տեղակայմամբ, այլ իրականում օգտագործել ներկառուցված սարքը մոդելի ուսուցումն իրականացնելու համար: Այս դեպքում մենք առաջարկում ենք ավելի հզոր հարթակ, ինչպիսին է Nvidia Jetson Nano-ն (հղում):
Դաշնային ուսուցում
Ֆեդերատիվ ուսուցումը (FL) մեքենայական ուսուցում իրականացնելու համագործակցային մոտեցում է, որտեղ մոդելը վերապատրաստվում է բազմաթիվ ապակենտրոնացված եզրային սարքերում, մինչդեռ տեղական տվյալների նմուշները չեն փոխանցվում որևէ այլ կողմի: FL շրջանակում օգտատերերը կարող են բարելավել ստացված կանխատեսման մոդելը՝ համագործակցելով վերապատրաստման գործընթացի շրջանակներում՝ առանց մուտք ունենալու մյուս մասնակիցներից ստացվող տվյալներին, քանի որ այս տվյալները մնում են անձնական համագործակցողներից յուրաքանչյուրի համար: Տվյալները չեն հեռանում այն եզրից, որտեղ արդեն գոյություն ունեն, այլ մոդելն ուղարկվում է համագործակցողներից յուրաքանչյուրին՝ տեղում վերապատրաստվելու համար:
Այնուամենայնիվ, FL մոտեցումը խորությամբ ուսումնասիրելը ենթակա կլինի ապագա հոդվածի (կարող եք ցանկանաք ուսումնասիրել այն ինքներդ, այնպես որ այստեղ լավ մեկնարկային կետ է): Մենք կենտրոնանալու ենք այս տեխնիկայի հետ կապված գաղտնիության պահպանման ասպեկտի վրա, ինչպես նաև դրա կիրառություններին իրական աշխարհում, մասնավորապեսբժշկական տիրույթում:
Առողջության էլեկտրոնային գրառումները (EHR) դարձել են իրական աշխարհի առողջապահական տվյալների նմուշների արժեքավոր աղբյուր, որոնք օգտագործվել են մի շարք կարևոր կենսաբժշկական հետազոտություններում, ներառյալ ML-ի վրա հիմնված ուսումնասիրությունները: FL-ը հնարավոր լուծում է տարբեր բժշկական հաստատություններից EHR-ի տվյալները միացնելու համար՝ թույլ տալով նրանց կիսել արժեքավոր պատկերացումները, այլ ոչ թե իրենց անձնական տվյալները՝ այդպիսով պահպանելով հիվանդի տվյալների գաղտնիությունը: Այս դեպքերում, հսկայական և բազմազան բժշկական տվյալների հավաքածուներից սովորելու կրկնվող ձեռքբերումները կտրուկ կբարձրացնեն ML մոդելի արդյունավետությունը: Հիվանդի նմանության ուսուցումը, հիվանդի ներկայացման ուսուցումը, ֆենոտիպավորումը և կանխատեսող մոդելավորումը որոշ գործողություններից են, որոնք ուսումնասիրվել են առողջապահության ոլորտում FL սցենարներում:
Նման կիրառման օրինակը գալիս է գաղտնիության պահպանման հարթակի տեսքով՝ հաստատություններում հիվանդների նմանության ուսուցման համար [3]: Առանց հիվանդի մակարդակի տեղեկատվության փոխանակման, նրանց ծրագրերը կարող են հայտնաբերել նմանատիպ հիվանդներ մի քանի հիվանդանոցներում:
FL-ը նաև հնարավորություն է տվել ուսուցում կանխատեսող մոդելավորման համար՝ հիմնված բազմաթիվ տվյալների աղբյուրների վրա, ինչը, ի վերջո, կարող է բժիշկներին ավելի շատ պատկերացումներ տրամադրել ավելի վաղ հիվանդներին բուժելու ռիսկերի և օգուտների վերաբերյալ: Սրտի հետ կապված խանգարումներ ունեցող հիվանդների ապագա հոսպիտալացումները կանխատեսելու համար օգտագործվել է կանոնավոր նոսր SVM դասակարգիչը, որը տեղադրված է FL միջավայրում [4]: Օգտագործված EHR տվյալները ցրվել են տվյալների մի քանի աղբյուրների/գործակալների վրա:
Վերջապես, այնպիսի ընկերություններ, ինչպիսին է Owkin-ը, օգտագործում են համագործակցային ուսուցում տարբեր օգտագործման դեպքերի համար, օրինակ՝ կանխատեսելու, թե որքան դիմացկուն կլինեն հիվանդները որոշակի բուժումների և դեղամիջոցների նկատմամբ, ինչպես նաև որոշակի հիվանդություններից գոյատևելու նրանց հնարավորությունները: Բաշխված EHR-ից վաղաժամ ծննդաբերության կանխատեսման համար ներկայացվել է դաշնային անորոշության գիտակցված ուսուցման մեթոդ, որի դեպքում վերջնական մոդելի ներդրումը կրճատվում է բարձր անորոշության մակարդակ ունեցող անդամների համար:
Գաղտնիության պահպանման մեթոդներ, որոնք կօգտագործվեն FL-ի երկայնքով
Մասնավոր տեղեկատվության չարաշահումը մեծագույն խնդիրներից մեկն է, որն առաջացել է Մեծ տվյալների մշակման հետ մեկտեղ, որը մասամբ առաջացել է բազմաթիվ հաստատությունների կողմից տվյալների խախտումներով: Այս համատեքստում կառավարությունները միջոցներ են ձեռնարկել նվազեցնելու ռիսկերը, որոնք ստեղծում են տվյալների հավաքագրող հաստատությունները իրենց հաճախորդների համար, ինչպիսիք են Միացյալ Նահանգների HIPAA-ն և Եվրոպայի GDPR-ը: Այդ կանոնակարգերին համապատասխանելու համար հաստատություններից և ընկերություններից պահանջվում է կիրառել գաղտնիության սպառնալիքներից պաշտպանության մեթոդներ:
Անկախ այն հանգամանքից, որ FL մոտեցումը գալիս է անվտանգության մեծ առավելությունով, երբ տվյալները երբեք չեն թողնում սկզբնական հյուրընկալողը վերապատրաստման գործընթացում, դեռևս կան գաղտնիության որոշ մտահոգություններ: Հակադարձ ինժեներական գործընթացների նման, ստացված վերապատրաստված մոդելը կարող է օգտագործվել վերապատրաստման գործընթացում օգտագործված տվյալների մասին համապատասխան տեղեկատվություն ստանալու համար: Այդ ռիսկերից մի քանիսը մեղմելու համար մշակվել են գաղտնիության պահպանման մեթոդներ, որոնք լրացնում են FL սկզբնական բանաձևը: Ժամանակակից տեխնիկան փորձում է նվազագույնի հասցնել տեղեկատվության կորուստը, որն անխուսափելիորեն առաջանում է անանունացման հետևանքով, միաժամանակ պահպանելով վերլուծական արժեքը:
Գաղտնիության պահպանման մի քանի մոտեցումներ, որոնք համապատասխանում են FL միջավայրերին.
- Դիֆերենցիալ գաղտնիություն (DP), որը ենթադրում է տարբեր մակարդակներում կիրառվող պատահական աղմուկի օգտագործում՝ տվյալների անանունացման համար.
- Վստահելի կատարման միջավայրեր (TTEs) երաշխավորում է կոդերի հուսալի կատարումը հեռավոր մեքենաներում և իրականացվում է սահմանափակելով բոլոր կողմերի թույլտվությունները.
- Անվտանգ բազմակողմ հաշվարկ (SMPC)որտեղ հաճախորդների մի ենթախումբ համագործակցում է գաղտնագրության միջոցով՝ նմանակելով վստահելի երրորդ կողմին.
- Հոմոմորֆ գաղտնագրում – այն պահանջում է տվյալների վրա աշխատել՝ առանց դրանց ապակոդավորման, ինչը մեծ հաշվողական ծախսեր է պահանջում։
- Սինտակտիկ մոտեցումներ, որոնք վերաբերում են հարաբերական տվյալների շտեմարաններում նույնականացնող տեղեկատվության ընդհանրացմանը:
Դիֆերենցիալ գաղտնիությունը և շարահյուսական մոտեցումները ամենաթանկ տեխնիկան են, որոնք նաև ապացուցել են, որ նվազեցնում են տեղեկատվության կորուստը՝ նպատակ ունենալով պահպանել գաղտնիությունը: Այս երկու մոտեցումներն էլ առաջարկում են տվյալների փոխակերպում և անանունացում՝ նախքան ուսուցման գործընթացում օգտագործելը, յուրաքանչյուր առանձին տվյալների կետին անանունություն ապահովելու համար: FL-ի վրա DP սկզբունքի կիրառումը հիմնված է այն փաստի վրա, որ տվյալների կետերին պատահական աղմուկ ավելացնելը չեղարկվում է վերապատրաստման գործընթացի ընթացքում և, հետևաբար, մոդելի կատարողականը չի ազդում: Նմանապես, k-անանունության վրա հիմնված շարահյուսական մոտեցումը, որը կարող է օգտագործվել հարաբերական տվյալների դեպքում, հիմնված է տվյալների առանձնահատկությունների ընդհանրացման վրա, որպեսզի տվյալների կետերը չտարբերվեն տվյալների հավաքածուի առնվազն k այլ մուտքերից (օրինակ՝ a. Տարիքային որոշակի արժեք պարունակող գրառումը, օրինակ՝ 15, կարող է քարտեզագրվել ընդհանուր Տարիքային խմբին, օրինակ՝ [7–18]:
Տվյալների անանունացումն այն ռազմավարություններից է, որոնք ձեռնարկությունները և բժշկական հաստատությունները կարող են կիրառել տվյալների գաղտնիության խիստ կանոններին համապատասխանելու համար, որոնք պահանջում են անձնական նույնականացման տեղեկատվության (PII) պաշտպանություն, ինչպիսիք են բժշկական գրառումները, կոնտակտային տվյալները և ֆինանսական տվյալները: Տվյալների անանունացման ժամանակ դրանք փոխվել են այնպես, որ զգայուն տեղեկատվությունը չի կարող վերականգնվել: Մենք վճար ենք սահմանել տվյալների որոնման և հանքարդյունաբերության արդյունավետության առումով, քանի որ մենք փոխել ենք սկզբնական տվյալները, ինչը ինքնին ակնհայտ է:
Ինչպես սկսել Privacy-Preserving FL-ի հետ
Մենք ձեզ ներկայացրեցինք հասկացությունները, այժմ պետք է նաև պատմենք, թե ինչպես կարող եք սկսել դրանք օգտագործել և կիրառել դրանք գործնականում: Մեր առաջարկությունը գալիս է Python փաթեթի տեսքով՝ PySyft: Դրա հիմնական նպատակն է օգտատերերին տրամադրել պարզ ինտերֆեյս՝ անվտանգ, մասնավոր, համատեղ խորը ուսուցում իրականացնելու համար: PySyft-ն անջատում է մասնավոր տվյալները մոդելային ուսուցումից՝ օգտագործելով Ֆեդերատիվ ուսուցում: PySyft-ը բաց կոդով փաթեթ է, որը հատուկ նախագծված է FL-ի և Գաղտնիության պաշտպանության համար: Այն ստեղծվել է որպես խորը ուսուցման մի քանի փաթեթների ընդլայնում, ներառյալ PyTorch, Keras և Tensorflow: Մենք պատրաստվում ենք հղում թողնել այստեղ, որպեսզի կարողանաք ավելին իմանալ դրա մասին: Մինչև հաջորդ անգամ, ապահով մնացեք: Եվ մասնավոր ;)
[1] TensorFlow Lite (2022): Հասանելի է՝ https://www.tensorflow.org/lite/guide (Մուտք՝ 11 փետրվարի 2022):
[2] Սկսեք ձեր ներդրված նախագծերը ESP32-ով և PlatformIO-ով (2022): Հասանելի է՝ https://blog.kick-start.ro/kickstart-your-embedded-projects-with-esp32-and-platformio-643925ffdd49 (Մուտք գործած՝ 11 փետրվարի 2022):
[3] Lee, J. et al. (2018) «Գաղտնիությունը պահպանող հիվանդի նմանության ուսուցումը դաշնային միջավայրում. զարգացում և վերլուծություն», JMIR Medical Informatics, 6(2), էջ. e20. doi՝ 10.2196/medinform.7744:
[4] Brisimi, T. et al. (2018) «Կանխատեսող մոդելների դաշնային ուսուցում դաշնային էլեկտրոնային առողջության գրառումներից», Բժշկական ինֆորմատիկայի միջազգային հանդես, 112, էջ 59–67: doi՝ 10.1016/j.ijmedinf.2018.01.007.
[5] PySyft — OpenMined բլոգ (2022): Հասանելի է հետևյալ հասցեով՝ https://blog.openmined.org/tag/pysyft/ (Մուտք՝ 11 փետրվարի 2022):