Ծանոթագրություն հեղինակից

Մենք @Kick-start-ը վայելում ենք մեր ամենօրյա աշխատանքը հատկապես այն պատճառով, որ մենք կարող ենք օգտագործել ժամանակակից տեխնոլոգիաները մեր բոլոր նախագծերում: Բժշկական AI-ն այն թեման է, որով հատկապես հետաքրքրված է մեր թիմը, և այդ պատճառով մենք հաճույքով գրել ենք այս հոդվածը: Դուք կարող եք դա ընդունել որպես մեր ազնիվ առաջարկություն՝ ձեր հաջորդ ML-on-the-edge նախագիծը սկսելու համար: Մենք մտածեցինք, որ դա լավ բան է. կիսվելով տեխնոլոգիաների ըմբռնումով զբաղվող ընկերների հետ, այնպես որ սպասեք ավելի շատ տեխնոլոգիական հոդվածների:

Նորեկների ներածություն

Մեքենայական ուսուցումը (ML) տեխնիկայի և ռազմավարության հավաքածու է տվյալների վրա հիմնված համակարգերի մշակման համար: Դուք կարող եք բաց թողնել այս բաժինը, եթե արդեն ունեք ML նախապատմություն, բայց կարող եք նաև մնալ, որպեսզի արագ ծանոթանաք հասկացություններին և տերմինաբանությանը:

ML գործընթացները հիմնականում բաղկացած են այն բանից, թե ինչպես կարելի է տարբերակել տվյալների հիմքում ընկած պոպուլյացիաների բնորոշ հատկանիշները: ML ալգորիթմները պետք է սովորեն, թե ինչպես կատարել տվյալ առաջադրանքը՝ առանց հստակ ծրագրավորված լինելու այն իրականացնելու համար:

Այդ առաջադրանքների կատարումը հիմնված է ML ալգորիթմների կանխատեսումների վրա՝ տվյալների մեջ օրինաչափություններ փնտրելով: Արդյունավետ աշխատելու համար մեքենայական ուսուցման մոդելները հաճախ պահանջում են ուժեղ սարքավորում, սակայն այս իրավիճակը մշտապես փոխվում է վերջին տարիներին (մենք կխոսենք MLեզրիններքևում):

Արագ ամփոփում ML տեխնիկայի կատեգորիաների և ալգորիթմների նպատակների վերաբերյալ.

  • Դասակարգում — նմուշի ճիշտ պիտակի կանխատեսում (օրինակ՝ նկարներում տարբեր առարկաների տարբերակում);
  • Ռեգեսիա - գնահատում է անհայտ գործառույթը, որը նկարագրում է տվյալների պոպուլյացիայի վարքագիծը (օրինակ՝ գնահատելով տների գները՝ հիմնվելով այնպիսի բնութագրերի վրա, ինչպիսիք են գտնվելու վայրը, մակերեսը և այլն);
  • Կլաստերավորում — նմուշների խմբավորում՝ հիմնված միմյանց նմանության վրա (օրինակ՝ պոտենցիալ հաճախորդների վարքագծի վրա հիմնված խմբավորում՝ մարքեթինգային արշավներ մշակելու համար);
  • Չափերի կրճատում — հայտնաբերել առավել համապատասխան փոփոխականները, թե ինչպես են վարվում տվյալները (օրինակ՝ գտնել համապատասխան մանրամասներ, որոնք պետք է նույնականացվեն, որպեսզի ավտոմատ կերպով նամակներ ուղարկվեն սպամի թղթապանակին);
  • Քաղաքականության որոնում — նպատակ ունի գտնել այն քաղաքականությունը, որը առավելագույնի է հասցնում երկարաժամկետ վարձատրությունը (օրինակ՝ փոշեկուլ ռոբոտը, որը սովորում է, թե ինչպես կատարել իր առաջադրանքը ավելի լավ);
  • Խտության գնահատում — վերաբերում է հիմքում ընկած պոպուլյացիայի հավանականության խտության ֆունկցիայի հայտնաբերմանը (օրինակ՝ ձեր վիճակագրական մոդելների համար ճիշտ պարամետրեր գտնելը բնակչության նկատմամբ).

և վերապատրաստման գործընթացի հիման վրա.

  • Վերահսկվող ուսուցում — տրամադրվում են և՛ տվյալներ, և՛ ճիշտ պիտակավորում
  • (օրինակ՝ կենդանիների պատկերների հավաքածու՝ հիմնված տվյալների վրա, թե ինչ կենդանիներ կան յուրաքանչյուր նկարում);
  • Չվերահսկվող ուսուցում — որտեղ կենտրոնանում է այդ պիտակները հայտնաբերելու վրա, քանի որ դրանք տրված չեն. Նպատակը տվյալների թաքնված հիմքում ընկած կառուցվածքի բացահայտումն է (օրինակ՝ մարդկանց խմբավորումը՝ ելնելով նրանց հատկություններից);
  • Ամրապնդող ուսուցում — որտեղ մոդելի ընթացիկ կատարողականի համար օգտագործվում են պարգևներ, որոնք հետագայում օգտագործվում են հաջորդ կրկնությունները բարելավելու համար: (օրինակ՝ խաղային AI, որը սովորում է, թե ինչպես աստիճանաբար ավելի շատ միավորներ հավաքել)

Մենք դեռ լավ պետք է լինենք տեսական կողմում, քանի որ այս բաժինը ձեզ լավ ինտուիցիա է տրամադրել, թե ինչպես են նախագծվում այս ալգորիթմները:

Մեքենայի ուսուցում եզրին

Հեռանալով ներածական տեսությունից՝ եկեք խոսենք ML-ի իրական աշխարհում օգտագործման մասին: Այդ ալգորիթմների կողմից օգտագործվող տվյալները գտնվում են մեր շուրջը, այն աշխարհում, որը մենք դիտում ենք, մեր գործողություններում և փոխազդեցություններում: Մեզ համար երբեք ավելի հեշտ չի եղել այս տեղեկատվությունը հավաքելը, և դա հիմնականում պայմանավորված է նրանով, որ մենք խորապես ինտեգրել ենք բոլոր տեսակի տեխնոլոգիաները մեր առօրյա կյանքում: Մենք ձեզ կպատմենք, թե ինչպես են վերջին մոտեցումները նպատակ ունեն օգտվել այս աճող IoT լանդշաֆտից:

Մեքենայական ուսուցումը եզրին (Edge ML) կենտրոնական սերվերներից և ամպային ցանցերից կախվածությունը նվազեցնելու մեթոդ է՝ յուրաքանչյուր սարքի թույլ տալով վերլուծել տվյալները տեղական (կամ տեղական սերվերների միջոցով կամ սարքի մակարդակով)՝ օգտագործելով մեքենայական ուսուցման առաջադեմ տեխնիկա: Սա կարող է լինել համակարգիչների, հեռախոսների կամ ցանկացած տեսակի խելացի սարքերի դեպքում: Գոյություն ունի տեխնիկական լուծումների աճող շուկա, որոնք ապահովում են նման ապակենտրոնացված ՓԼ ուսուցման հնարավորություններ:

Ինչ վերաբերում է ներկառուցված հավելվածներին, ապա ML ալգորիթմները ներկառուցված համակարգերում տեղակայելը շատ պարզ գործընթաց է դառնում: Ավելի ու ավելի շատ հայտնի ներկառուցված զարգացման հարթակներ են աջակցվում հիմնական ML շրջանակների կողմից, օրինակ. Tensorflow Lite[1] միկրոկառավարիչների համար (հղում այստեղ): Եթե ​​դուք հետաքրքրված եք ձեր սեփական ML ներկառուցված նախագծի մեկնարկով, մենք գրել ենք հոդված [2] ձեր տեխնոլոգիական փաթեթի հնարավոր թեկնածուի մասին՝ ESP32, որը նույնպես աջակցվում է Tensorflow Lite-ի կողմից: Մյուս կողմից, դուք կարող եք շահագրգռված լինել ոչ միայն եզրակացության մոդելների տեղակայմամբ, այլ իրականում օգտագործել ներկառուցված սարքը մոդելի ուսուցումն իրականացնելու համար: Այս դեպքում մենք առաջարկում ենք ավելի հզոր հարթակ, ինչպիսին է Nvidia Jetson Nano-ն (հղում):





Դաշնային ուսուցում

Ֆեդերատիվ ուսուցումը (FL) մեքենայական ուսուցում իրականացնելու համագործակցային մոտեցում է, որտեղ մոդելը վերապատրաստվում է բազմաթիվ ապակենտրոնացված եզրային սարքերում, մինչդեռ տեղական տվյալների նմուշները չեն փոխանցվում որևէ այլ կողմի: FL շրջանակում օգտատերերը կարող են բարելավել ստացված կանխատեսման մոդելը՝ համագործակցելով վերապատրաստման գործընթացի շրջանակներում՝ առանց մուտք ունենալու մյուս մասնակիցներից ստացվող տվյալներին, քանի որ այս տվյալները մնում են անձնական համագործակցողներից յուրաքանչյուրի համար: Տվյալները չեն հեռանում այն ​​եզրից, որտեղ արդեն գոյություն ունեն, այլ մոդելն ուղարկվում է համագործակցողներից յուրաքանչյուրին՝ տեղում վերապատրաստվելու համար:

Այնուամենայնիվ, FL մոտեցումը խորությամբ ուսումնասիրելը ենթակա կլինի ապագա հոդվածի (կարող եք ցանկանաք ուսումնասիրել այն ինքներդ, այնպես որ այստեղ լավ մեկնարկային կետ է): Մենք կենտրոնանալու ենք այս տեխնիկայի հետ կապված գաղտնիության պահպանման ասպեկտի վրա, ինչպես նաև դրա կիրառություններին իրական աշխարհում, մասնավորապեսբժշկական տիրույթում:

Առողջության էլեկտրոնային գրառումները (EHR) դարձել են իրական աշխարհի առողջապահական տվյալների նմուշների արժեքավոր աղբյուր, որոնք օգտագործվել են մի շարք կարևոր կենսաբժշկական հետազոտություններում, ներառյալ ML-ի վրա հիմնված ուսումնասիրությունները: FL-ը հնարավոր լուծում է տարբեր բժշկական հաստատություններից EHR-ի տվյալները միացնելու համար՝ թույլ տալով նրանց կիսել արժեքավոր պատկերացումները, այլ ոչ թե իրենց անձնական տվյալները՝ այդպիսով պահպանելով հիվանդի տվյալների գաղտնիությունը: Այս դեպքերում, հսկայական և բազմազան բժշկական տվյալների հավաքածուներից սովորելու կրկնվող ձեռքբերումները կտրուկ կբարձրացնեն ML մոդելի արդյունավետությունը: Հիվանդի նմանության ուսուցումը, հիվանդի ներկայացման ուսուցումը, ֆենոտիպավորումը և կանխատեսող մոդելավորումը որոշ գործողություններից են, որոնք ուսումնասիրվել են առողջապահության ոլորտում FL սցենարներում:

Նման կիրառման օրինակը գալիս է գաղտնիության պահպանման հարթակի տեսքով՝ հաստատություններում հիվանդների նմանության ուսուցման համար [3]: Առանց հիվանդի մակարդակի տեղեկատվության փոխանակման, նրանց ծրագրերը կարող են հայտնաբերել նմանատիպ հիվանդներ մի քանի հիվանդանոցներում:

FL-ը նաև հնարավորություն է տվել ուսուցում կանխատեսող մոդելավորման համար՝ հիմնված բազմաթիվ տվյալների աղբյուրների վրա, ինչը, ի վերջո, կարող է բժիշկներին ավելի շատ պատկերացումներ տրամադրել ավելի վաղ հիվանդներին բուժելու ռիսկերի և օգուտների վերաբերյալ: Սրտի հետ կապված խանգարումներ ունեցող հիվանդների ապագա հոսպիտալացումները կանխատեսելու համար օգտագործվել է կանոնավոր նոսր SVM դասակարգիչը, որը տեղադրված է FL միջավայրում [4]: Օգտագործված EHR տվյալները ցրվել են տվյալների մի քանի աղբյուրների/գործակալների վրա:

Վերջապես, այնպիսի ընկերություններ, ինչպիսին է Owkin-ը, օգտագործում են համագործակցային ուսուցում տարբեր օգտագործման դեպքերի համար, օրինակ՝ կանխատեսելու, թե որքան դիմացկուն կլինեն հիվանդները որոշակի բուժումների և դեղամիջոցների նկատմամբ, ինչպես նաև որոշակի հիվանդություններից գոյատևելու նրանց հնարավորությունները: Բաշխված EHR-ից վաղաժամ ծննդաբերության կանխատեսման համար ներկայացվել է դաշնային անորոշության գիտակցված ուսուցման մեթոդ, որի դեպքում վերջնական մոդելի ներդրումը կրճատվում է բարձր անորոշության մակարդակ ունեցող անդամների համար:

Գաղտնիության պահպանման մեթոդներ, որոնք կօգտագործվեն FL-ի երկայնքով

Մասնավոր տեղեկատվության չարաշահումը մեծագույն խնդիրներից մեկն է, որն առաջացել է Մեծ տվյալների մշակման հետ մեկտեղ, որը մասամբ առաջացել է բազմաթիվ հաստատությունների կողմից տվյալների խախտումներով: Այս համատեքստում կառավարությունները միջոցներ են ձեռնարկել նվազեցնելու ռիսկերը, որոնք ստեղծում են տվյալների հավաքագրող հաստատությունները իրենց հաճախորդների համար, ինչպիսիք են Միացյալ Նահանգների HIPAA-ն և Եվրոպայի GDPR-ը: Այդ կանոնակարգերին համապատասխանելու համար հաստատություններից և ընկերություններից պահանջվում է կիրառել գաղտնիության սպառնալիքներից պաշտպանության մեթոդներ:

Անկախ այն հանգամանքից, որ FL մոտեցումը գալիս է անվտանգության մեծ առավելությունով, երբ տվյալները երբեք չեն թողնում սկզբնական հյուրընկալողը վերապատրաստման գործընթացում, դեռևս կան գաղտնիության որոշ մտահոգություններ: Հակադարձ ինժեներական գործընթացների նման, ստացված վերապատրաստված մոդելը կարող է օգտագործվել վերապատրաստման գործընթացում օգտագործված տվյալների մասին համապատասխան տեղեկատվություն ստանալու համար: Այդ ռիսկերից մի քանիսը մեղմելու համար մշակվել են գաղտնիության պահպանման մեթոդներ, որոնք լրացնում են FL սկզբնական բանաձևը: Ժամանակակից տեխնիկան փորձում է նվազագույնի հասցնել տեղեկատվության կորուստը, որն անխուսափելիորեն առաջանում է անանունացման հետևանքով, միաժամանակ պահպանելով վերլուծական արժեքը:

Գաղտնիության պահպանման մի քանի մոտեցումներ, որոնք համապատասխանում են FL միջավայրերին.

  • Դիֆերենցիալ գաղտնիություն (DP), որը ենթադրում է տարբեր մակարդակներում կիրառվող պատահական աղմուկի օգտագործում՝ տվյալների անանունացման համար.
  • Վստահելի կատարման միջավայրեր (TTEs) երաշխավորում է կոդերի հուսալի կատարումը հեռավոր մեքենաներում և իրականացվում է սահմանափակելով բոլոր կողմերի թույլտվությունները.
  • Անվտանգ բազմակողմ հաշվարկ (SMPC)որտեղ հաճախորդների մի ենթախումբ համագործակցում է գաղտնագրության միջոցով՝ նմանակելով վստահելի երրորդ կողմին.
  • Հոմոմորֆ գաղտնագրում – այն պահանջում է տվյալների վրա աշխատել՝ առանց դրանց ապակոդավորման, ինչը մեծ հաշվողական ծախսեր է պահանջում։
  • Սինտակտիկ մոտեցումներ, որոնք վերաբերում են հարաբերական տվյալների շտեմարաններում նույնականացնող տեղեկատվության ընդհանրացմանը:

Դիֆերենցիալ գաղտնիությունը և շարահյուսական մոտեցումները ամենաթանկ տեխնիկան են, որոնք նաև ապացուցել են, որ նվազեցնում են տեղեկատվության կորուստը՝ նպատակ ունենալով պահպանել գաղտնիությունը: Այս երկու մոտեցումներն էլ առաջարկում են տվյալների փոխակերպում և անանունացում՝ նախքան ուսուցման գործընթացում օգտագործելը, յուրաքանչյուր առանձին տվյալների կետին անանունություն ապահովելու համար: FL-ի վրա DP սկզբունքի կիրառումը հիմնված է այն փաստի վրա, որ տվյալների կետերին պատահական աղմուկ ավելացնելը չեղարկվում է վերապատրաստման գործընթացի ընթացքում և, հետևաբար, մոդելի կատարողականը չի ազդում: Նմանապես, k-անանունության վրա հիմնված շարահյուսական մոտեցումը, որը կարող է օգտագործվել հարաբերական տվյալների դեպքում, հիմնված է տվյալների առանձնահատկությունների ընդհանրացման վրա, որպեսզի տվյալների կետերը չտարբերվեն տվյալների հավաքածուի առնվազն k այլ մուտքերից (օրինակ՝ a. Տարիքային որոշակի արժեք պարունակող գրառումը, օրինակ՝ 15, կարող է քարտեզագրվել ընդհանուր Տարիքային խմբին, օրինակ՝ [7–18]:

Տվյալների անանունացումն այն ռազմավարություններից է, որոնք ձեռնարկությունները և բժշկական հաստատությունները կարող են կիրառել տվյալների գաղտնիության խիստ կանոններին համապատասխանելու համար, որոնք պահանջում են անձնական նույնականացման տեղեկատվության (PII) պաշտպանություն, ինչպիսիք են բժշկական գրառումները, կոնտակտային տվյալները և ֆինանսական տվյալները: Տվյալների անանունացման ժամանակ դրանք փոխվել են այնպես, որ զգայուն տեղեկատվությունը չի կարող վերականգնվել: Մենք վճար ենք սահմանել տվյալների որոնման և հանքարդյունաբերության արդյունավետության առումով, քանի որ մենք փոխել ենք սկզբնական տվյալները, ինչը ինքնին ակնհայտ է:

Ինչպես սկսել Privacy-Preserving FL-ի հետ

Մենք ձեզ ներկայացրեցինք հասկացությունները, այժմ պետք է նաև պատմենք, թե ինչպես կարող եք սկսել դրանք օգտագործել և կիրառել դրանք գործնականում: Մեր առաջարկությունը գալիս է Python փաթեթի տեսքով՝ PySyft: Դրա հիմնական նպատակն է օգտատերերին տրամադրել պարզ ինտերֆեյս՝ անվտանգ, մասնավոր, համատեղ խորը ուսուցում իրականացնելու համար: PySyft-ն անջատում է մասնավոր տվյալները մոդելային ուսուցումից՝ օգտագործելով Ֆեդերատիվ ուսուցում: PySyft-ը բաց կոդով փաթեթ է, որը հատուկ նախագծված է FL-ի և Գաղտնիության պաշտպանության համար: Այն ստեղծվել է որպես խորը ուսուցման մի քանի փաթեթների ընդլայնում, ներառյալ PyTorch, Keras և Tensorflow: Մենք պատրաստվում ենք հղում թողնել այստեղ, որպեսզի կարողանաք ավելին իմանալ դրա մասին: Մինչև հաջորդ անգամ, ապահով մնացեք: Եվ մասնավոր ;)

[1] TensorFlow Lite (2022): Հասանելի է՝ https://www.tensorflow.org/lite/guide (Մուտք՝ 11 փետրվարի 2022):

[2] Սկսեք ձեր ներդրված նախագծերը ESP32-ով և PlatformIO-ով (2022): Հասանելի է՝ https://blog.kick-start.ro/kickstart-your-embedded-projects-with-esp32-and-platformio-643925ffdd49 (Մուտք գործած՝ 11 փետրվարի 2022):

[3] Lee, J. et al. (2018) «Գաղտնիությունը պահպանող հիվանդի նմանության ուսուցումը դաշնային միջավայրում. զարգացում և վերլուծություն», JMIR Medical Informatics, 6(2), էջ. e20. doi՝ 10.2196/medinform.7744:

[4] Brisimi, T. et al. (2018) «Կանխատեսող մոդելների դաշնային ուսուցում դաշնային էլեկտրոնային առողջության գրառումներից», Բժշկական ինֆորմատիկայի միջազգային հանդես, 112, էջ 59–67: doi՝ 10.1016/j.ijmedinf.2018.01.007.

[5] PySyft — OpenMined բլոգ (2022): Հասանելի է հետևյալ հասցեով՝ https://blog.openmined.org/tag/pysyft/ (Մուտք՝ 11 փետրվարի 2022):