Ինչ է տեղի ունեցել այս շաբաթ AI-ում

Stable diffusion-ը կրկին մեր ուշադրությունը հրավիրեց, բայց ավելի ճիշտ, թե որքանով է կայուն դիֆուզիոն նախաձեռնությունը ազդում նոր հետազոտությունների վրա և առաջ է տանում ոլորտը: Անհավանականորեն հիանալի է նման հզոր մոդել ունենալ բաց կոդով: Պատկերների ստեղծման տիրույթի մեր ընկերներից շատերը ներկայումս խաղում և իրականացնում են դրա տարբեր տարբերակները օր ու գիշեր: Դրանցից մեկը, որը մենք գտնում ենք, շատ հետաքրքիր և խոստումնալից է, նոր թերթն է՝ Պատկերը մեկ բառ արժե վերնագրով։

«Պատկերը մեկ բառ արժե» թույլ է տալիս անհատականացնել նախապես վերապատրաստված տեքստից պատկեր մոդելի արդյունքները, ինչպիսին է Stable Diffusion-ը, օգտագործելով օբյեկտի ձեր սեփական պատկերները՝ ուսուցման շատ քիչ ժամանակով (~2 ժամ): Այն սովորում է հայեցակարգը 3–5 պատկերներից և այն ձևակերպում է որպես «կեղծ բառ», որը դուք կարող եք օգտագործել ձեր հուշող սերունդներում: Այն շատ հիանալի է և ունի անհավատալի ներուժ խաղը փոխող զարմանալի ապրանքների համար, և դա ընդամենը մեկ նոր հետազոտություն է, որը բերվել է շատ ավելիից և նույնիսկ գալիք ավելինների կայուն տարածման շնորհիվ: Մենք ապրում ենք հետաքրքիր օրեր պատկերների ստեղծման արդյունաբերության համար, և մենք ուշադիր հետևելու ենք դրան՝ Towards AI թիմի հետ ձեզ համար:

Ամենաթեժ նորությունները

  1. DALL·E. Ներկայացնում ենք Outpainting-ը
    OpenAI-ը հենց նոր ներկայացրեց outpainting-ը DALLE-ին: Outpainting-ը կարող է ընդլայնել բնօրինակ պատկերը՝ ստեղծելով լայնածավալ պատկերներ ցանկացած հարաբերակցությամբ (տես այս տեղեկագրի կրկնության շապիկի պատկերը): Այն հաշվի է առնում պատկերի առկա տեսողական տարրերը՝ բնօրինակ պատկերի համատեքստը պահպանելու համար և կարող է պայմանավորվել տեքստով՝ հատուկ տարրեր ավելացնելու համար:
  2. Թոփ-22 AI ազդեցիկները, որոնք պետք է հետևեն Twitter-ում մինչև 2023 թվականը
    «Մենք վստահ չենք, թե ինչպես, բայց մեր համահիմնադիր և համայնքի ղեկավար Լուի Բուշարդը ներկայացված է այս «Տո 22 AI ազդեցիկներից, որոնք պետք է հետևեն մինչև 2023 թվականը
    հոդվածում: Bytescout-ում: Մենք ճանաչում ենք այս ցուցակի մարդկանց մեծ մասին, և մենք աներևակայելի երախտապարտ և ոգևորված ենք, որ Լուիը դրա մի մասն է: Ստուգեք այն և հետևեք այնտեղ գտնվող մյուս զարմանալի մարդկանց:
  3. «Դուք բոլորդ լսել և փորձել եք Stable Diffusion-ը, բայց ի՞նչ է դա:
    «Ի՞նչ ընդհանրություն ունեն բոլոր վերջին գերհզոր պատկերների մոդելները, ինչպիսիք են DALLE-ը, Imagen-ը կամ Midjourney-ը: Բացի իրենց բարձր հաշվողական ծախսերից, ուսուցման հսկայական ժամանակից և ընդհանուր աղմուկից, դրանք բոլորը հիմնված են նույն մեխանիզմի վրա՝ դիֆուզիոն: Դիֆուզիոն մոդելները վերջերս հասել են գերժամանակակից արդյունքների պատկերի առաջադրանքների մեծ մասի համար, ներառյալ DALLE-ի միջոցով տեքստից պատկեր, ինչպես նաև պատկերի ստեղծման հետ կապված շատ այլ առաջադրանքներ, ինչպիսիք են պատկերի ներկումը, ոճի փոխանցումը կամ պատկերի գերլուծումը: Բայց ի՞նչ է դիֆուզիան և ինչպե՞ս է այն գործում: Իմացեք ավելին հոդվածում:

Շաբաթվա ամենահետաքրքիր թերթերը

  1. Հարմարվողական-իրատեսական պատկերների ստեղծում՝ հարվածից և էսքիզից՝ դիֆուզիոն մոդելով
    «Միասնական շրջանակ, որն աջակցում է էսքիզներից և հարվածներից պատկերի սինթեզի եռաչափ վերահսկողությանը, որը հիմնված է դիֆուզիոն մոդելների վրա [որով օգտվողները կարող են] որոշել մակարդակը հավատարմություն ոչ միայն մուտքային հարվածներին և էսքիզներին, այլև ռեալիզմի աստիճանին
    :
  2. Շրջադարձային կանխատեսում բնական խոսակցական խոսքի համար
    Թեև հոսքային ձայնային օգնական համակարգը օգտագործվել է բազմաթիվ ծրագրերում, այն պարզապես հզոր է միակողմանի քննարկումների և հիմնական հարց/պատասխան անբնական փոխազդեցությունների համար: Ինչպես գիտեք, այն բավականին վատ է աշխատում, եթե դադար եք տալիս մտածելու կամ պատահաբար կրկնում եք բառերը: Նրանք ներկայացնում են շրջադարձային կանխագուշակ, որը կառուցված է վերջից մինչև վերջ (E2E) խոսքի ճանաչիչի վրա՝ օգնելու սահուն, իրական քննարկումներին:
  3. ՄՈՒԼԱՆ. ԵՐԱԺՇՏԱԿԱՆ ԱՈՒԴԻՈԻ ԵՎ ԲՆԱԿԱՆ ԼԵԶՎԻ ՀԱՄԱՏԵՂ ներկառուցում
    ՄՈՒԼԱՆ. «Ակուստիկ մոդելների նոր սերնդի առաջին փորձը, որը երաժշտական ​​աուդիո ուղղակիորեն կապում է բնական լեզվով անսահմանափակ երաժշտության նկարագրություններին
    : Մարդ ունկնդիրները նախընտրում են բասերի և հարվածային գործիքների աղբյուրների գնահատումները, որոնք հետմշակվել են MSG-ի կողմից:

Վայելո՞ւմ եք այս թերթերն ու նորությունների ամփոփումները: Ստացեք ամենօրյա ամփոփում ձեր մուտքի արկղում:

Պատրաստվու՞մ եք հարցազրույցի տվյալների գիտության կամ մեքենայական ուսուցման ոլորտում: Ստուգեք դեպի AI-ի հարցազրույցի նախապատրաստական ​​հարթակ Confetti AI:

Սովորեք AI Together Community բաժինը:

Շաբաթվա մեմը:

Համայնքի ընդգծված գրառում Discord-ից

Learn AI Together-ի անդամներից մեկը՝ Ravioli#7085-ը, հրապարակել է իրենց առաջին անկախ հետազոտությունը և նախնական տպագրությունը: Շնորհավորում եմ Արավին և մենք ոգևորված ենք տեսնելու հաջորդ հրապարակումները (ես ունեմ պատկերացումներ և շուտով կլինեն ևս մի քանիսը!) 🔥🎉 Կարդացեք Արավի հրապարակումները:

Եթե ​​դուք արդեն ունեք որոշ հրապարակումներ կամ պատրաստվում եք, խնդրում ենք կիսվել դրանք մեզ հետ սերվերի վրա:

Շաբաթվա AI հարցում:

TAI Համադրված բաժին

Շաբաթվա հոդված

Մոդելի բարդության և կողմնակալության-տարբերակման երկընտրանքի մաթեմատիկական կապը.Տվյալների գիտության սիրահարների մեծ մասը կհամաձայնի, որ Կողմնակալություն-Վարիանս երկընտրանքը տառապում է վերլուծության կաթվածից, քանի որ կա վիթխարի գրականություն կողմնակալության գաղափարի վերաբերյալ: -Վարիանս, դրա տարրալուծում, ածանցում և կապ մոդելի բարդության հետ: Հեղինակը ցույց է տալիս, թե ինչու, չնայած մեր լավագույն ջանքերին, պարզեցված մոդելները ցուցադրում են զգալի կողմնակալություն, մինչդեռ բարդ մոդելները ցուցադրում են նվազագույն կողմնակալություն:

Եթե ​​դուք հետաքրքրված եք գրել մեզ համար Towards AI-ում, խնդրում ենք գրանցվել այստեղ, և մենք կհրապարակենք ձեր բլոգը մեր ցանցում, եթե այն համապատասխանի մեր խմբագրական քաղաքականությանը և չափանիշներին: https://contribute.towardsai.net/

Լորենի էթիկական վերաբերմունքը LLM-ների ապագայի վերաբերյալ

Ես ուզում էի գրել MIT Technology Review-ից մի հրաշալի հոդվածի մասին, որն ընդգծում է մեծ լեզուների մոդելների էթիկական շատ տեսակետներ և նրանց հետ մեր ապագան: Ի՞նչ է GPT-3-ը «իմանում իմ մասին» հարցը դնելով, հեղինակ Մելիսա Հեյկկիլան անձնական ոսպնյակ է բերում հսկայական երևույթին: Սկսելով իր սեփական տեղեկատվությունից և ընդլայնվելով ուրիշներին լուսաբանելու համար՝ նա ուսումնասիրում է ապշեցուցիչ դիսոնանսը ինչպես ճշգրիտ, այնպես էլ ոչ ճշգրիտ պատասխանների (կոչվում են հալյուցինացիաներ) LLM-ների կողմից:

Անհրաժեշտություն կա ուսումնասիրել ապագան, որտեղ այս տեղեկատվությունը ամենուր տարածված է, քանի որ բոլոր մոդելները, որոնք մենք ունենք, շուտով չեն անհետանա, և դեռ ավելին է սպասվում: Աճող չափերը և կարողությունները, բնականաբար, կապված են խոցելիության ավելացման հետ: Թեև մենք ունենք գաղտնիության չափանիշների կիրառման շատ տարբեր հայեցակարգեր և եղանակներ (օրինակ՝ այս մեծ պատմությունը Meta-ի վերաբերյալ), ռիսկերը մեղմելու համար կպահանջվի, որ մենք շարունակենք նորարարություններ կատարել գաղտնիության էթիկական պաշտպանության ուղղությամբ: Շատերն աջակցում են այն գաղափարին, որ ամբողջ հանրային տեղեկատվությունը արդար խաղ է, այլևս չի պատրաստվում կրճատել այն, քանի որ մոտենում է լայնածավալ գաղտնիության խնդիրներին:

Ես ոգևորված եմ տեսնելով, թե ուր է մեզ տանում պաշտպանության այս ապագան և ինչպես ենք մենք ընտրում առաջընթացի ուղղություն: Անձնական, տարածաշրջանային կամ մշակութային տարբերություններն ազդում են այն բանի վրա, թե ինչպես ենք մենք հասկանում, թե ինչ տեսք ունի գաղտնիությունը և ինչպես պետք է այն պաշտպանվի: Ես խրախուսում եմ ձեզ ուսումնասիրել, թե ինչ տեսք ունի դա ձեզ համար:

Աշխատանքային առաջարկներ

Ավագ ML Engineer @ Safe Security(Remote)

Հետազոտող գիտնական — Խոսքի ճանաչում @ Abridge(Հեռակառավարում)

Computer Vision Scientist @ Percipient AI(Santa Clara, CA)

Հետազոտող գիտնական — մեքենայական ուսուցում @ DeepMind (Լոնդոն, Միացյալ Թագավորություն)

Տվյալների ավագ գիտաշխատող @ EvolutionIQ (Հեռակառավարում)

Ավագ ML Engineer — Semantic Search @ Algolia (Հիբրիդային հեռակառավարում)

Հետաքրքրվա՞ծ եք այստեղ աշխատելու հնարավորությունով: Կապվեք [email protected]ի հետ կամ տեղադրեք հնարավորություն մեր #վարձույթի ալիքում անհամաձայնության վրա:

Եթե պատրաստում եք ձեր հաջորդ մեքենայական ուսուցման հարցազրույցը, մի հապաղեք ծանոթանալ հարցազրույցի նախապատրաստման մեր առաջատար հարթակին` կոնֆետին: