Արհեստական ​​ինտելեկտի նոր գեներատիվ լուծումների վերջին ալիքը, որոնք օգտագործում են տրանսֆորմատորների վրա հիմնված մեծ լեզուների մոդելները (LLM), նոր ուժ և հետաքրքրություն է ներշնչել արհեստական ​​ինտելեկտի և մեքենայական ուսուցման համակարգերի նկատմամբ և այն, ինչ նրանք կարող են անել բիզնեսի համար:

Filament Syfter-ում մենք հետևում ենք բնական լեզվի մշակման նորագույն համակարգերին 2016 թվականից: Մենք տրանսֆորմատորների վրա հիմնված LLM-ների վաղ ընդունողներն էինք և փորձարկում էինք դրանց հետ և հասկանում, թե ինչպես դրանք կարող են օգտագործվել մասնավոր շուկայի համար: վերլուծաբաններ, որոնք օգտագործում են աղբյուրների և մոնիտորինգի դեպքեր, քանի որ դրանք հանրաճանաչ են դարձել BERT-ի կողմից 2018 թվականին:

Վերջին հինգ տարիների ընթացքում մենք կուտակել ենք մեծ փորձ և փորձ մոդելների այս ընտանիքի և նրանց ուժեղ և թույլ կողմերի շուրջ: Այս հոդվածում մենք քննարկում ենք հնարավորություններ, որտեղ LLM-ները կարող են արագացնել մասնավոր շուկայի վերլուծությունը և ուրվագծել ռիսկերը, և ոմանք օգտագործում են դեպքեր, երբ այդ տեխնոլոգիաները հարմար չեն կամ պետք է զուգակցվեն այլ համակարգերի հետ՝ արժեքավոր արդյունքներ տալու համար:

Մարտահրավեր՝ հալյուցինացիա

Յուրաքանչյուր ոք, ով խաղացել է ChatGPT-ով, ամենայն հավանականությամբ, զարմացած է դրա լայնությունից և թվացյալ գիտելիքների խորությունից: Այնուամենայնիվ, ChatGPT-ի հակվածությունը հալյուցինացիաների, այսինքն՝ դիմահարդարման պատասխանների, նույնպես տխրահռչակ է (եթե դեռ չեք արել, փորձեք խնդրել նրան գրել ձեր մասին կարճ կենսագրություն): Այս գործիքների մեկ գիշերվա հաջողությամբ, շատ վերջնական օգտվողներ տեղյակ են և համեմատաբար ընդունում են հալյուցինացիան որոշ դեպքերում: Օրինակ, դուք կարող եք օգտագործել ChatGPT՝ նամակի առաջին նախագիծը գրելու և արդյունքը ձեռքով սրբագրելու համար, քանի որ այն դեռ ձեզ խնայում է 15 րոպե՝ հաղորդագրությունը զրոյից գրելու փոխարեն:

Filament-ում մենք հասկանում ենք, որ վերլուծաբանների համար շատ կարևոր է մուտք ունենալ մասնավոր շուկաների վերաբերյալ վստահելի և արդի տեղեկատվություն՝ գործընկերներին տրամադրելու անհրաժեշտ տեղեկատվությունը, որպեսզի նրանք հիմնավոր ներդրումային որոշումներ կայացնեն: Գործիքի օգտագործումը, որը երբեմն պատասխաններ է կազմում ընկերության կարևոր տեղեկատվությունը պարզելու համար, հավանաբար կպահանջի վերլուծաբաններից, որպեսզի նրանք ծախսեն նույնքան երկար սրբագրելու և ստուգելու փաստերը, կարծես դրանք փնտրել են ավանդական որոնման գործիքների միջոցով, կամ, վատագույն դեպքում, դա կարող է հանգեցնել: սխալ կամ շինծու տեղեկատվությունը, որն օգտագործվում է ներդրումային որոշումներ կայացնելու համար:

Այս բնույթի LLM հալյուցինացիաները վերջերս վայրէջք կատարեցին տաք ջրի մեջ բարձր փաստաբանին, երբ նա ներկայացրեց հորինված մեջբերումներ դատական ​​գործընթացում:

Անդրադառնալով հալյուցինացիային

LLM-ների տարբերակների միջև աստիճանական բարելավումներ են եղել (օրինակ՝ ցատկը GPT-3.5-ի և GPT4-ի միջև), և հնարավոր է նաև ձեր հարցը ձևավորել այնպես, որ նվազեցնի հալյուցինացիաների հավանականությունը (օրինակ՝ հարցնելով մոդելը. բացատրել դրա պատճառաբանությունը»): Այնուամենայնիվ, այս հավելյալ լուծումներն ընդհանրապես չեն վերացնում հալյուցինացիաների վտանգները և, հակառակ ինտուիտիվորեն, կարող են ավելի հավանական դարձնել կեղծ տեղեկատվության փոխանցման հավանականությունը շահագրգիռ կողմերին՝ դարձնելով հալյուցինացիային ավելի դժվար սրբագրելը:

Հետաքննության մեկ այլ խոստումնալից եղանակ է փաստերի ստուգման մոդելների զուգակցումը LLM-ների հետ: Վերջին մի քանի տարիների ընթացքում մշակվել են AI-ի վրա հիմնված փաստերի ստուգման մի քանի մոդելներ և չափորոշիչներ: Վերջին աշխատանքը ցույց է տվել, որ փաստերի ստուգման հնարավորությունները կարող են ավելացվել LLM-ներին՝ թույլ տալով նրանց սրբագրել և ուղղել ստացված արդյունքները անմիջապես: Այս տեխնիկական զարգացումները խոստումնալից են, բայց դեռ շատ վաղ են, և Filament-ում մենք սկսում ենք փորձարկել այս տեխնիկաներից մի քանիսը:

Ավելին, հալյուցինացիաների վտանգը կարող է հետագայում կրճատվել կամ նույնիսկ վերացվել՝ LLM-ն արտաքին գիտելիքի աղբյուրի հետ ինտեգրելու և այն իմաստային որոնման օրինաչափության մեջ օգտագործելու միջոցով: Այս մասին ավելի շատ կկենտրոնանանք մեր հաջորդ հրատարակության մեջ:

Հալյուցինացիան մնում է հիմնարար մարտահրավեր, երբ աշխատում ենք գեներատիվ տրանսֆորմատորների վրա հիմնված LLM-ների հետ, և Filament Syfter-ում մենք խրախուսում ենք զգուշություն ցուցաբերել LLM-ի կողմից ստեղծված տեքստերի հետ աշխատելիս, հատկապես առևտրային առումով զգայուն համատեքստերում, որտեղ կարևոր է, որ փաստերն ու թվերը ճիշտ լինեն:

Մյուս կողմից, կան որոշ օգտագործման դեպքեր, երբ հալյուցինացիան ավելի քիչ կարևոր է (օրինակ՝ ձեռքով խմբագրվող փաստաթղթի մշակումը), և ուրիշներ, որտեղ հալյուցինացիայի բացասական ազդեցությունը կարող է չեզոքացվել՝ կիրառելով կանոններ հետմշակման ժամանակ (տես «Դասակարգման արագացում Օգտագործում» դեպքեր» ստորև):

Հնարավորություն. Դասակարգման օգտագործման դեպքերի արագացում

Դասակարգումը մեքենայական ուսուցման խնդրի մի տեսակ է, որտեղ մենք փորձում ենք ավտոմատ կերպով պիտակներ վերագրել մուտքագրմանը, դասականը, որին ծանոթ է մարդկանց մեծամասնությունը, սպամի զտումն է, որտեղ պիտակները «սպամ» են և «ոչ սպամ»: Վերջին յոթ տարիների ընթացքում մենք աշխատել ենք մեր մի շարք մասնավոր կապիտալի և կորպորատիվ ֆինանսների հաճախորդների հետ՝ ստեղծելու դասակարգման մոդելներ, որոնք հարստացնում են նրանց տվյալների աշխարհը, օրինակ՝ «որ ոլորտին է պատկանում ընկերությունը»: կամ «Բլումբերգի այդ նոր հոդվածները պորտֆելի ընկերության մասին ունե՞ն բացասական տրամադրություն»: Պատմականորեն այս գործընթացը պահանջում է մեծ ծավալի ծանոթագրված տվյալներ մեր հաճախորդներից: Այնուամենայնիվ, LLM-ները ներկայացնում են երկու հետաքրքիր հնարավորություն այս գործընթացը արագացնելու և ձեռքով պիտակավորված վերապատրաստման պահանջվող տվյալները նվազեցնելու համար:

Մի քանի կրակոցների դասակարգում

«Few-shot» դասակարգումն օգտագործում է մոդելներ՝ դասակարգման առաջադրանքն իրականացնելու համար ձեռքով պիտակավորված միայն փոքր թվով օրինակներով: Հաշվի առնելով ընկերության ոլորտի դասակարգման օրինակը, LLM-ին կարող են տրվել փոքր թվով ընկերությունների վերելակների ակնարկներ և հարակից ոլորտների պիտակներ և խնդրել պիտակներ հատկացնել մի շարք չպիտակավորված ամփոփագրերի: Օգտագործելով այսպես՝ մենք կարող ենք մոդելին խնդրել, որ պարզապես պատասխանի յուրաքանչյուր ընկերության համար ոլորտի անվանումը և օգտագործի կանոններ՝ համոզվելու համար, որ արդյունքները կհամապատասխանեն մեր պահանջներին՝ հստակորեն շրջանցելով հալյուցինացիաների վիճակը:

Մենք սովորաբար գտնում ենք, որ հատուկ, նպատակային AI մոդելները, որոնք վերապատրաստվել են մեր հաճախորդների սեփական տվյալների վրա, զգալիորեն ավելի լավ են գործում, քան LLM-ները «մի քանի կրակոց» ռեժիմում: Այնուամենայնիվ, այն դեպքերում, երբ առկա տվյալները շատ սահմանափակ են կամ բացակայում են, մի քանի կրակոցների ուսուցումը կարող է ապահովել թռիչքային կետ, և ավելի ճշգրիտ նպատակային մոդել կարող է ստեղծվել նախագծի հետագա փուլում: Քիչ կրակոցների կատարումը կարող է նաև ավելի հուսալի և հետևողական դառնալ՝ մուտքագրման հուշում ստեղծելով բազմաթիվ տատանումներ, մի քանի անգամ գործարկել մոդելը և ընդունելով համաձայնության պատասխանը:

Սինթետիկ տվյալների ստեղծում

Օգտագործման այս դեպքում, մենք շուռ ենք տալիս հալյուցինացիան նրա գլխին և դարձնում այն ​​որպես առավելություն, քան մարտահրավեր: LLM-ներին կարող է հուշել ստեղծել կեղծ տեղեկատվություն, որը կարող է օգտագործվել հոսանքով ներքևող մոդելների վերապատրաստման համար: Շարունակելով ընկերության հատվածի դասակարգման օրինակը, LLM-ին կարող են տրվել որոշակի ընկերության նկարագրությունների օրինակ տվյալ գործառնական հատվածից և խնդրել ավելին ստեղծել: Այս սինթետիկ փաստաթղթերն այնուհետ կարող են օգտագործվել որպես ավանդական ուսումնական խողովակաշարի մաս՝ նպատակային մոդել ստեղծելու համար՝ նվազեցնելով զբաղված վերլուծաբանների կողմից ձեռքով անոտացիայի անհրաժեշտությունը:

Մենք նշում ենք, որ այս մոտեցմամբ կարևոր է, որ ստացված տվյալները դեռ վերանայվեն և ուսումնասիրվեն՝ համոզվելու համար, որ դրանք զերծ են խնդրահարույց կողմնակալություններից և ներկայացնում են իրական տվյալները, որոնց վրա մոդելը պետք է աշխատի արտադրության մեջ: Filament-ն ունի սինթետիկ տվյալների հետ աշխատելու և վերանայելու փորձ. այս գործընթացը սովորաբար շատ ավելի արագ և ավելի քիչ ինտենսիվ է, քան զրոյից նոր տվյալների հավաքածուներ ստեղծելը:

Հնարավորություն. Կառուցվածքային տեղեկատվության արդյունահանում

LLM-ները կարող են օգտագործվել նաև առկա փաստաթղթերից հիմնական տեղեկությունները բացահայտելու և հանելու համար: Փաստաթղթերից մարդկանց, վայրերի, ընկերությունների և այլ հետաքրքրության առարկաների անունները հանելու խնդիրը հայտնի է որպես Անվանված սուբյեկտի ճանաչում (NER): Նմանապես, այս անվանված սուբյեկտների միջև հարաբերությունների նույնականացումը հայտնի է որպես Հարաբերությունների արդյունահանում: LLM-ները կարող են օգտագործվել սուբյեկտները և դրանց հարաբերությունները գտնելու և արդյունահանելու և այդ տեղեկատվությունը կառուցվածքային ձևաչափով ձևավորելու համար, որը կարող է ներառվել հարաբերական տվյալների բազաներում կամ գիտելիքների գծապատկերներում:

Հալյուցինացիան դեռևս խոչընդոտ է հանդիսանում այս օգտագործման դեպքում, սակայն ազդեցությունը կարող է կրճատվել՝ օգտագործելով լրացուցիչ կանոններ և տրամաբանություն՝ որպես LLM ելքի վրա կիրառվող հետմշակման քայլ: Օրինակ, եթե մի քանի փաստաթղթերում նշվում է միևնույն անձը որպես ընկերության գործադիր տնօրեն, մենք կարող ենք վստահ լինել, որ մոդելը ճիշտ կապ է հաստատել:

Եզրափակիչ դիտողություններ

LLM-ները հետաքրքիր և հզոր տեխնոլոգիաների նոր ընտանիք են, և շատ բիզնեսներ և ներդրողներ սկսում են ուսումնասիրել իրենց բացվող հնարավորությունները: Հալյուցինացիան, որտեղ LLM-ը կազմում է հարցերի պատասխանները, կարող է նշանակալից մարտահրավեր լինել այս տեխնոլոգիայի հետ աշխատելիս: LLM-ների վերահսկման տեխնիկան դեռևս զարգացման փուլում է, և Filament Syfter-ը խորհուրդ է տալիս զգույշ լինել գեներատիվ ելքերի հետ աշխատելիս որոշ օգտագործման դեպքերի համար:

Այնուամենայնիվ, մենք նաև ցույց ենք տվել, որ կան մի շարք հետաքրքիր հնարավորություններ, որտեղ հալյուցինացիան ավելի քիչ մտահոգիչ է, և որտեղ LLM-ները կարող են նոր արժեք բացել մասնավոր շուկայի ներդրողների և վերլուծաբանների համար:

Հալյուցինացիաների բարձր ռիսկի օգտագործման դեպքեր.

  • Հարցերի պատասխան և փաստերի որոնում— օրինակ. «Ո՞րն էր ACME-ի EBITDA-ն անցյալ տարի»: — LLM-ի կողմից ստեղծված նման ֆակտոիդ հարցերի արդյունքները հալյուցինացիաների/հորինված լինելու մեծ հավանականություն ունեն, նույնիսկ եթե իրական պատասխանը հասանելի է մոդելին:
  • Բացատրություններ — «Ինչո՞ւ է ACME-ի եկամուտն այդքան ցածր 2016/2017 ֆինանսական տարվա համար»: - LLM-ները կարող են նաև հալյուցինացիաներ առաջացնել պատասխանների համար՝ հորինելով խելամիտ, բայց ոչ ճիշտ բացատրություններ, որոնք պետք է ստուգվեն այլ տվյալների աղբյուրների հետ:

Հալյուցինացիաների միջին ռիսկի օգտագործման դեպքեր.

  • Ամփոփում — «Տվեք ինձ այս լրատվական հոդվածի մեկ նախադասության ամփոփում» — հալյուցինացիան կարելի է մեղմել՝ ստուգելով, որ ամփոփագիրը հավատարիմ է սկզբնաղբյուր փաստաթղթին և փոխանցում է հիմնական կետերը:
  • Սևագրում — «գրել ACME Corp-ի մասին զեկույցի առաջին նախագիծը» — հալյուցինացիան կարելի է մեղմել փաստաթղթի նախագիծը սրբագրելով և խմբագրելով նախքան այն նախատեսված լսարանին ուղարկելը։

Հալյուցինացիաների ցածր ռիսկի օգտագործման դեպքեր.

  • Քիչ կրակոցների դասակարգումը և սինթետիկ տվյալների ստեղծումը- հալյուցինացիան առաջինում մեղմվում է` սահմանափակելով ցանկալի արդյունքը և կիրառելով վավերացման կանոններ: Վերջինիս դեպքում հալյուցինացիան նախատեսված էֆեկտ է, որը թույլ է տալիս մոդելին ստեղծել սինթետիկ ուսուցման տվյալներ, որոնք կարող են օգտագործվել ավանդական նպատակային դասակարգիչի մոդելում:
  • Տեղեկատվության արդյունահանում— այս օգտագործման դեպքը կարող է համարվել «առանց ռեժիմի» այլընտրանք՝ հարցի պատասխանին, որտեղ պատասխանները զտվում են ծրագրաշարի շերտերի և մարդու վավերացման միջոցով՝ նախքան օգտատիրոջը ներկայացնելը: Որակի ապահովման այս լրացուցիչ միջոցառումները կարող են օգնել ապահովելու պատասխանների իսկությունը:

Հաջորդ հրատարակություն

Մեր հաջորդ հրատարակության մեջ մենք կքննարկենք LLM-ների համար գիտելիքների որոնման և հարցերին պատասխանելու մարտահրավերներն ու հնարավորությունները: