Ութ կարևոր դիտարկում ModelLLM-ում

Այս հոդվածը փորձում է ամփոփել Սամուել Ռ. (https://arxiv.org/pdf/2304.00612.pdf): Ձեռագիրը նկարագրում է ընթացիկ LLM պայթյունի ութ բնութագրերը:

Կանխատեսելի է, որ LLM-ները ավելի ունակ են դառնում ներդրումների ավելացման դեպքում, նույնիսկ առանց նպատակային նորարարությունների:

LLM-ը պահանջում է զգալի ենթակառուցվածքային ծախսեր: Ռեսուրսների գնման, բյուջեի պլանավորման և նախագծման որոշումներ կայացնելու համար երաշխավորված է մոդելի կատարողականը ճանաչել որպես մոդելի չափի (չափված պարամետրերի քանակով), տվյալների բազայի չափի և վերապատրաստման համար օգտագործվող հաշվարկի քանակի (չափված FLOPS) ֆունկցիա: (https://arxiv.org/pdf/2001.08361.pdf): Նման գործառույթն օգնում է նախագծման հիմնական որոշումներին, ինչպիսիք են մոդելի ճիշտ չափերը՝ հաշվի առնելով բյուջեն, նվազագույնի հասցնելով թանկարժեք փորձարկումներն ու սխալները: Այն տալիս է ռազմավարական մտածողության գործիք՝ մոդելի կատարողականը կառավարելու համար՝ որպես մոդելի չափի, տվյալների չափի և հաշվողական ծախսերի ֆունկցիա: Օրինակ, հեղինակը մեջբերեց բաց AI-ի GPT մոդելի օրինակները: Բնօրինակ GPT-ը կարող էր կատարել տեքստի պիտակավորման պարզ առաջադրանքներ: Այնուհետև GPT-2-ը բերեց տեքստի ստեղծման հնարավորությունը: Վերջապես, GPT-3-ը գործարկեց առաջին ընդհանուր նշանակության հրահանգը, որը հետևում է LLM-ին: GPT-ից մինչև GPT-3, կա մասշտաբի հսկայական տարբերություն: GPT-3-ն օգտագործում է մոտավորապես 20000x հաշվարկ, քան GPT ուսուցումը: Հատկանշական է, որ GPT-ի և GPT-3-ի միջև առաջնային շրջանը կայանում է բարձր արդյունավետության հաշվարկման ենթակառուցվածքային նորարարությունների մեջ, քան մոդելային նախագծման աշխատանքներում: Հաղորդվում է, որ GPT-4 ուսուցումն օգտագործում է մասշտաբային գործառույթը, ինչը հանգեցնում է վերապատրաստման ծախսերի զգալի կրճատմանը (https://arxiv.org/pdf/2001.08361.pdf):

ԼԳՄ-ում հատուկ կարևոր վարքագիծը հակված է անկանխատեսելիորեն առաջանալ որպես ներդրումների աճի կողմնակի արդյունք

Scaling laws-ը վերաբերում է միայն մոդելի նախնական վերապատրաստման կորստի հետ, որը չափում է մոդելի կարողությունը ճիշտ լրացնել տեքստը: Թեև տեքստի լրացումը կրկնակի օգտագործվող և մոդուլային հմտություն է, որը կարող է օգտագործվել LLM-ի տարբեր առաջադրանքներում, ինչպիսիք են հարցի պատասխանը (QA), նյարդային լեզվի ըմբռնումը (NLU), LLM-ի հատուկ հմտությունները պահանջում են որոշակի տիրույթի ճշգրտում, որը կանխատեսելի չէ: Վերջերս կատարված ուսումնասիրությունը (https://openreview.net/forum?id=yzkSU5zdwD) ցույց է տալիս, որ BIG-Bench-ի (https://github.com/google/BIG-bench) առաջադրանքները մեծացման տարբեր միտումներ են առաջացնում: - օրենքի ոճի կանխատեսումներ: Հիմնական վարքագծերից մեկը, որը առանձնացնում է GPT-3-ը մնացած LLM-ներից, ուսուցումն է մի քանի կրակոցով (մի քանի օրինակներից սովորելու ունակություն. https://arxiv.org/abs/2205.06743) և մտքի շղթա: պատճառաբանություն (պատճառաբանություն դուրս գրելու ունակություն. https://arxiv.org/abs/2201.11903): GPT-3-ի կատարումը ծրագրավորման, թվաբանության և քննության հարցերին պատասխանելիս ցույց է տալիս զգալի բարելավում վերջին մի քանի ամիսների ընթացքում՝ նախավարժանքից հետո այս տեխնիկայի ընդունմամբ:

LLM-ները հաճախ սովորում և օգտագործում են արտաքին աշխարհի ներկայացումները:

LLM-ները որոշ չափով զարգացնում են աշխարհի ներքին ներկայացումները: Սա թույլ է տալիս որոշ տպավորիչ հմտություններ, ինչպիսիք են գունային բառերի ներկայացումը, որոնք սերտորեն արտացոլում են մարդու գունային ընկալման մասին օբյեկտիվ փաստերը (https://aclanthology.org/2021.conll-1.9), տեքստում նշված վայրերը կապելով աշխարհագրության և տարածական տեղեկատվության հետ (https: //aclanthology.org/2021.acl-long.143.pdf), գծագրերի ուսուցում (https://arxiv.org/pdf/2303.12712.pdf), սեղանի խաղ սովորելով առանձին խաղային շարժումների նկարագրություններից ( https://openreview.net/forum?id=DeG07_TcZvT), տարբերելով փաստերը սխալ պատկերացումներից (https://arxiv.org/abs/2207.05221) և ողջամտության հիմնավորումը (https://openreview.net/ ֆորում?id=XPZIaotutsD):

Սա ապշեցուցիչ է, որ վիճակագրական, հաջորդ բառի կանխատեսման մոդելը կարող է շատ բան սովորել տեքստի մշակումից դուրս:

Չկան վստահելի տեխնիկա LLM-ների վարքագիծը ղեկավարելու համար:

Ի հավելումն նախնական ուսուցման, LLM-ը պահանջում է կոնկրետ առաջադրանքների ճշգրտում, որը ներառում է պարզ լեզվով մոդելի հուշում (https://arxiv.org/abs/1910.10683), վերահսկվող ճշգրտում (https://arxiv.org/abs/2203.02155) և ամրապնդման ուսուցում (https://arxiv.org/pdf/2204.05862.pdf): Այս մեթոդը չի կարող երաշխավորել համապատասխան վարքագիծ բոլոր հավանական միջավայրում, ինչպիսիք են սխալ մեկնաբանությունը և վատ խրախուսումները (https://arxiv.org/pdf/2103.14659.pdf), սիկոֆանտիզմը (https://arxiv.org/abs/2212.09251): ), և ավազի պարկերով:

Փորձագետները դեռ չեն կարողանում մեկնաբանել LLM-ների ներքին աշխատանքը:

Ժամանակակից LLM-ները կառուցված են խոշոր հաշվողական գրաֆիկների վրա: Թեև LLM-ները թվացյալ արժանահավատ արդյունքներ են տալիս, դժվար է ճանաչել հիմքում ընկած հիմնավորումները, որոնք օգտագործում են այս մոդելները: Հետազոտողները օգտագործում են ժամանակավոր հուերիստիկա, որը հեռու է արդյունավետ լինելուց և իրականում, որոշ դեպքերում, ուղղակի ապակողմնորոշիչ է (https://arxiv.org/abs/2211.14275):

Առաջադրանքում մարդու կատարողականը LLM-ի կատարման վերին սահմանը չէ:

LLM-ները վերապատրաստվում են տվյալների մեծ կորպուսի վրա, որը ցանկացած մարդ երբևէ կարող է մշակել: Բացի այդ, LLM-ներին տրվում է լրացուցիչ ուսուցում՝ օգտագործելով ուժեղացման ուսուցումը (https://arxiv.org/abs/2203.02155)՝ ավելացնելով LLM-ների գերազանցությունը մարդկանց նկատմամբ (https://arxiv.org/abs/2212.11281):

LLM-ները չպետք է արտահայտեն իրենց ստեղծողների արժեքները, ոչ էլ վեբ տեքստում կոդավորված արժեքները:

Ժամանակակից կողմնակալությունները և դրանից բխող խտրականությունները զգայուն թեմաներ են, որոնց պետք է անդրադառնալ: Ամրապնդման ուսուցումը ճանապարհ է հարթում մոդելի ճշգրտման համար՝ մոդելի կողմնակալությունը նվազագույնի հասցնելու համար: Սահմանադրական AI տեխնիկան (https://arxiv.org/abs/2212.08073) ռիսկը նվազագույնի հասցնելու գործիք է:

Հակիրճ շփումները LLM-ների հետ հաճախ ապակողմնորոշիչ են:

LLM-ները վերապատրաստվում են հաջորդ բառերը կամ նշանները արտադրելու համար, այլ ոչ թե հետևելու հրահանգներին: Բավականին սովորական է, որ LLM-ը չի կարողանում արդյունք տալ որոշակի հրահանգի վրա, բայց տալիս է ճիշտ արդյունքներ մեկ այլ հրահանգի վրա: Սա ճանապարհ է հարթում արագ ճարտարագիտության առաջացող արհեստի համար (https://openreview.net/forum?id=98p5x51L5af): Հետևաբար, մոդելի արդյունավետությունը պետք է դատել բազմաթիվ հուշումների հիման վրա:

Հեղինակը ներկայացնում է նաև հավելյալ տեսակետներ.

Մենք պետք է ակնկալենք, որ ներկայիս LLM-ների որոշ ակնառու թերությունները զգալիորեն կբարելավվեն: LLM-ները վերջերս.
Կլինեն խթաններ՝ տեղակայելու LLM-ներին որպես գործակալներ, որոնք ճկուն կերպով հետապնդում են նպատակները:
LLM մշակողները սահմանափակ ազդեցություն ունեն մշակվածի վրա (https://arxiv.org/abs/2303.08774):
LLM-ները հավանաբար կառաջացնեն մոդելի գնահատման, մեկնաբանելիության և վերահսկողության ռիսկերի արագ աճող զանգված:
LLM-ների հետ բացասական արդյունքները կարող են դժվար լինել մեկնաբանել, բայց մատնանշում են իրական թուլության ոլորտները:
Գիտությունը և կրթաթոշակը LLM-ների շուրջ հատկապես անհաս են:

թեմայի վերաբերյալ նյութեր:

Նոր նյութեր

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Այն պահից ի վեր, երբ ես իմացա Արհեստական ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը

C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար

Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..

Պիտակներ

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning React AI Software Engineering Nodejs Typescript Java Javascript Tips Tech Algorithms Front End Development Programming Languages iOS Data Business NLP Development Reactjs Tutorial CSS Learning Swift Angular API Javascript Development Startup Android Computer Science Learning To Code Reinforcement Learning