Վեբ էջից պատկեր պահելը պարզ է, պարզապես աջ սեղմեք և ընտրեք«Պահել պատկերը որպես»: Բայց ի՞նչ անել, եթե ունեք հարյուրավոր կամ նույնիսկ հազարավոր պատկերներ, որոնք պետք է պահպանվեն: Արդյո՞ք նույն հնարքը կաշխատի:

Այս հոդվածում ես ուզում եմ ձեզ ցույց տալ, թե ինչպես արագ կառուցել պատկերի սողուն առանց կոդավորման: Նույնիսկ եթե դուք բացարձակապես չունեք տեխնոլոգիական նախապատմություն, դուք պետք է կարողանաք դա անել 30 րոպեի ընթացքում: Անկախ նրանից, թե ինչ պատճառով կարող են ձեզ անհրաժեշտ լինել նկարները՝ լինի դա վերաբլոգ, վերավաճառք կամ մեքենայական ուսուցում, նույն հնարքը կարող է տարածվել բառացիորեն ցանկացած վեբկայքի վրա:

Ոչ բոլոր պատկերներն են ստեղծվում հավասար: Որոշ պատկերներ կարող են ուղղակիորեն բեռնվել վեբ էջից, մյուս պատկերները գործարկվում են միայն մանրապատկերների վրա սեղմելով:

Այս ձեռնարկում ես ձեզ ցույց կտամ, թե ինչպես վարվել այս սցենարներից յուրաքանչյուրի հետ մի քանի օրինակների միջոցով:

Պատրա՞ստ եք: Եկեք սկսենք.

Ձեզ անհրաժեշտ կլինեն հետևյալ գործիքները.
* Octoparse. առանց կոդավորման վիզուալ վեբ քերիչ գործիք
* Tab Save. Chrome-ի հավելումը՝ պատկերները տրամադրելուց անմիջապես հետո: URL-ների ցանկ

Նախադրյալներ

Լավագույնը կլինի, եթե ծանոթ լինեք ինչպես է աշխատում Octoparse-ն ընդհանրապես: Octoparse Scraping 101-ը կարող է նաև օգնել, եթե դուք նոր եք գործիքի հետ:

Օրինակ 1. Պատկերներ ուղղակիորեն վեբ էջից վերցնելը

Ցույց տալու համար մենք պատրաստվում ենք քերել շների պատկերները Pixabay.com-ից: Հետևելու համար փնտրեք շներ Pixabay.com-ում: Սա ձեզ պետք է հասցնի այս էջ:

1. Սեղմեք «+ Առաջադրանք»՝ Ընդլայնված ռեժիմում նոր առաջադրանք սկսելու համար: Այնուհետև մուտքագրեք թիրախ վեբ էջի URL-ը տեքստային վանդակում և սեղմեք «Պահպանել URL-ը»:

Դուք պետք է հասնեք այստեղ.

2. Հաջորդը, մենք պատրաստվում ենք բոտին ասել, թե ինչ պատկերներ պետք է բերի:

Սեղմեք առաջին պատկերի վրա։ «Գործողությունների խորհուրդներ»-ում այժմ գրված է «Ընտրված պատկեր, հայտնաբերված 100 նմանատիպ պատկեր»: Սա հիանալի է՝ հենց այն, ինչ մեզ անհրաժեշտ է: Շարունակեք ընտրել «Ընտրել բոլորը», ապա «Արտահանել պատկերի URL-ը օղակում»:

3. Իհարկե, մենք ոչ միայն ուզում ենք պատկերները 1-ին էջից, այլ բոլոր էջերից (կամ այնքան էջերից, որքան անհրաժեշտ է):

Դա անելու համար ոլորեք ներքև՝ ընթացիկ էջի ներքև, նշեք «հաջորդ էջ» կոճակը և սեղմեք դրա վրա:

Մենք ակնհայտորեն ցանկանում ենք բազմիցս սեղմել «հաջորդ էջ» կոճակը, ուստի իմաստ ունի «Գործողությունների խորհուրդներից» ընտրել «Կտտացրեք ընտրված հղմանը»:

Այժմ պարզապես հաստատեք, թե արդյոք ամեն ինչ ճիշտ է կարգավորվել: Միացրեք աշխատանքային հոսքի անջատիչը վերին աջ անկյունում: Ավարտված աշխատանքային հոսքը պետք է այսպիսին լինի.

Նաև ստուգեք տվյալների վահանակը և համոզվեք, որ մենք ճիշտ ենք արդյունահանել ցանկալի տվյալները:

4. Կա ևս մեկ բան, որը պետք է շտկել նախքան սողունը գործարկելը:

Վրիպազերծման ժամանակ ես պատահաբար նկատեցի, որ HTML-ի սկզբնական կոդը դինամիկ կերպով թարմացվում է, երբ մեկը ոլորում է վեբ էջը: Այլ կերպ ասած, եթե վեբ էջը չի ոլորվում ներքև, մենք չենք կարողանա ստանալ համապատասխան պատկերի URL-ները սկզբնաղբյուրից: Մեր բախտը բերել է, որ Octoparse-ը հեշտությամբ պտտվում է ավտոմատ կերպով:

Մենք պետք է ավելացնենք ավտոմատ ոլորում՝ ինչպես վեբկայքի առաջին անգամ բեռնման ժամանակ, այնպես էլ այն էջերում:

Աշխատանքային հոսքից կտտացրեք «Գնալ վեբ էջ»: Աշխատանքային հոսքի աջ կողմում նշեք «Ընդլայնված ընտրանքներ» և նշեք «Ոլորեք ներքև դեպի էջի ներքև, երբ բեռնումն ավարտվի»:

Այնուհետև որոշեք, թե քանի անգամ ոլորել և ինչ տեմպերով: Այստեղ ես սահմանեցի ոլորման ժամանակները = 40, ընդմիջումը = 1 վայրկյան, և ոլորման եղանակը = ոլորեք ներքև մեկ էկրանի համար: Սա հիմնականում նշանակում է, որ Octoparse-ը մեկ էկրանից ներքև կշարժվի 40 անգամ՝ յուրաքանչյուր ոլորման միջև 1 վայրկյանով:

Ես պատահականորեն չեմ ստեղծել այս կարգավորումը, բայց ես մի փոքր կարգավորել եմ՝ համոզվելու համար, որ այս կարգավորումն աշխատում է: Ես նաև նկատեցի, որ էական է օգտագործել «Ոլորել ներքև մեկ էկրանի համար»՝ ի տարբերություն «Ոլորել էջի ներքևի»: Սա հիմնականում պայմանավորված է նրանով, որ մեզ անհրաժեշտ պատկերների URL-ները միայն աստիճանաբար թարմացվում են սկզբնական կոդը:

Կիրառեք նույն պարամետրը էջադրման քայլին:

Աշխատանքային հոսքի վրա կտտացրեք «Սեղմեք էջադրելու համար» և օգտագործեք ճիշտ նույն պարամետրը ավտոմատ ոլորման համար:

5. Ահա և վերջ: Դուք ավարտված եք: Արդյո՞ք սա շատ լավ չէ ճշմարիտ լինելու համար: Եկեք գործարկենք սողունը և տեսնենք, թե արդյոք այն աշխատում է:

Կտտացրեք Սկսել արդյունահանումը վերին ձախ անկյունից: Ընտրեք տեղական արդյունահանում: Դա հիմնականում նշանակում է, որ դուք ամպային սերվերի փոխարեն կգործարկեք սողուն ձեր սեփական համակարգչում: Դուք կարող եք ներբեռնել սողացող ֆայլը, որն օգտագործվում է այս օրինակում և ինքներդ փորձեք:

Օրինակ 2. Քերեք ամբողջական չափի պատկերներ

Հարց. Իսկ եթե Ձեզ անհրաժեշտ են ամբողջական չափի պատկերներ:

Այս օրինակի համար մենք կօգտագործենք նույն կայքը՝ https://pixabay.com/images/search/dogs/՝ ցույց տալու համար, թե ինչպես կարող եք ստանալ ամբողջական չափի նկարներ:

1. Սկսեք նոր առաջադրանք՝ սեղմելով «+ Առաջադրանք» Ընդլայնված ռեժիմում:

2. Մուտքագրեք թիրախ վեբ էջի URL-ը տեքստային վանդակում, այնուհետև կտտացրեք «Պահպանել URL»-ը՝ շարունակելու համար:

3. Ի տարբերություն նախորդ օրինակի, որտեղ մենք կարող էինք ուղղակիորեն նկարել պատկերները, մենք այժմ պետք է սեղմենք յուրաքանչյուր առանձին պատկեր՝ ամբողջական չափի պատկերը տեսնելու/բերելու համար:

Երբ սեղմում եք առաջին նկարի վրա, Գործողությունների խորհուրդները պետք է գրված լինեն «Ընտրված է պատկերը, գտնվել են 100 նմանատիպ պատկերներ»: Ընտրեք «Ընտրել բոլորը»:

Այնուհետև ընտրեք «Օղակ, սեղմեք յուրաքանչյուր պատկերի վրա»:

4. Այժմ, երբ մենք հասել ենք ամբողջական չափի պատկերով էջ, ամեն ինչ շատ ավելի հեշտ է:

Կտտացրեք ամբողջական չափի պատկերին, այնուհետև ընտրեք «Արտահանել ընտրված պատկերի URL-ը»:

Ինչպես միշտ, ստուգեք տվյալների վահանակը և համոզվեք, որ մենք ճիշտ ենք արդյունահանել ցանկալի տվյալները:

5. Հետևեք օրինակ 1-ի նույն քայլերին՝ էջադրման քայլեր ավելացնելու համար:

Կտտացրեք «Գնացեք վեբ էջ», նշեք «Հաջորդ էջ» կոճակը և սեղմեք դրա վրա: «Գործողությունների խորհուրդներ» բաժնում ընտրեք «Օղակը սեղմել է ընտրված հղումը»:

Ավարտված աշխատանքային հոսքը պետք է այսպիսին լինի.

Եթե ​​այն նույն տեսքը չունի: Քաշեք այն շուրջը տեղափոխելու համար:

6. Կատարված է: Փորձարկել սողունը: Դուք կարող եք ներբեռնել այս օրինակում օգտագործված սողուն ֆայլը և ինքներդ փորձեք:

Օրինակ 3. Ստանալ ամբողջական չափի պատկերներ մանրապատկերներից

Համոզված եմ, որ դուք նման բան տեսել եք առցանց գնումներ կատարելիս կամ եթե պատահաբար առցանց խանութ եք վարում:

Արտադրանքի պատկերների համար մանրապատկերների պատկերները, անկասկած, պատկերների ցուցադրման ամենատարածված ձևերն են: Մանրապատկերների օգտագործումը զգալիորեն նվազեցնում է թողունակությունը և բեռնման ժամանակը, ինչը մարդկանց համար շատ ավելի հարմար է դարձնում տարբեր ապրանքների զննումը:

Octoparse-ի միջոցով մանրապատկերներից լրիվ չափի պատկերները հանելու երկու եղանակ կա:

Տարբերակ 1.Դուք կարող եք կարգավորել շրջադարձային սեղմումը՝ յուրաքանչյուր մանրապատկերի վրա սեղմելու համար, այնուհետև բեռնվելուց հետո շարունակեք հանել ամբողջական չափի պատկերը:
Ընտրանք 2.Քանի որ մանրապատկերների մեծամասնությունը կիսում է նույն URL-ի օրինակը համապատասխան ամբողջական չափի պատկերների հետ, բայց միայն տարբեր թվով, որը ցույց է տալիս տարբեր չափերը, իմաստ ունի հանել մանրապատկերի URL-ն այնուհետև փոխարինեք մանրապատկերի չափի համարը լրիվ չափի գործընկերների թվին: Դա կարելի է հեշտությամբ անել Octoparse-ի ներկառուցված տվյալների մաքրման գործիքի միջոցով:

Քանի որ մենք արդեն անցել ենք 1-ին տարբերակի նման մի բան օրինակ 2-ում, ես այս օրինակում կմշակեմ 2-րդ տարբերակը: Ցուցադրելու համար մենք կօգտագործենք արտադրանքի էջը Flipcart.com-ում:

Նախքան աշխատանքը սկսելը, արժե հաստատել, թե արդյոք այս մարտավարությունը կարող է կիրառվել՝ դիտելով մանրապատկերի պատկերի URL-ը և դրա լրիվ չափի նմանակը: Այսպիսով, ես ձեռքով ընտրեցի մանրապատկերներից մեկը՝ ստուգելու համար:

Մաննապատկերի URL՝https://rukminim1.flixcart.com/image/128/128/jatym4w0/speaker/mobile-tablet-speaker/v/u/7/philips-in- bt40bk-94-original-imafybc9ysphpzhv.jpeg?q=70

Լրիվ չափի URL՝https://rukminim1.flixcart.com/image/416/416/jatym4w0/speaker/mobile-tablet-speaker/v/u/7/philips- in-bt40bk-94-original-imafybc9rqhdna8z.jpeg?q=70

Ուշադրություն դարձրեք, որ այս երկու URL-ների միջև միակ տարբերությունը պատկերի չափը ցույց տվող թիվն է՝ «128» մանրապատկերի համար և «416»՝ լրիվ չափի պատկերի համար:

Սա նշանակում է, որ քանի դեռ մենք հանված ենք մանրապատկերների URL-ները, մենք կարող ենք դրանք վերածել լրիվ չափի URL-ների՝ պարզապես «128»-ը «416»-ով փոխարինելով:

Եկեք տեսնենք այն գործողության մեջ:

1. Գործարկեք Octoparse հավելվածը, սկսեք նոր առաջադրանք և այնուհետև մուտքագրեք թիրախային URL-ը տեքստային վանդակում:

2) Սեղմեք առաջին մանրապատկերի պատկերի վրա: «Գործողությունների խորհուրդները» այժմ գրված է «Ընտրված տարրը. Հայտնաբերվել է 5 նմանատիպ կոճակ»։ Բրավո Octoparse-ն ավտոմատ կերպով ճանաչեց մնացած մանրապատկերները:

Ընտրեք «Ընտրել բոլորը»:

Այնուհետև ընտրեք «Արտահանել ընտրված տարրերի տեքստը»: Սա ակնհայտորեն այն չէ, ինչ մենք ուզում ենք, բայց մենք կարող ենք փոխել այն ավելի ուշ:

Միացրեք «Workflow» անջատիչը վերին աջ անկյունում: Ուշադրություն դարձրեք, որ մենք ոչինչ չենք հանել:

Դե, սա մի տեսակ սպասելի է, քանի որ, ըստ երևույթին, տեքստ չկար հանելու: Այն, ինչ մենք իսկապես պետք է բերենք, պատկերի URL-ն է, որը թաքնված է HTML աղբյուրի կոդում: Այսպիսով, այժմ մենք պետք է փոխենք արդյունահանվող տվյալների տեսակը:

3. Կտտացրեք «Անհատականացնել» պատկերակը ներքևում: Այնուհետև կտտացրեք «Սահմանել արդյունահանված տվյալները»: Ստուգեք «Արտահանել արտաքին HTML, ներառյալ սկզբնական կոդը, տեքստը ձևաչափի և պատկերի համար»: Պահելու համար սեղմեք «OK»:

4. Օգտագործեք Regular Expression գործիքը, որպեսզի համապատասխանի պատկերի URL-ը արտաքին HTML-ի ամբողջ հատվածից:

Կրկին սեղմեք «Անհատականացնել» պատկերակը: Այս անգամ սեղմեք «Ստուգել արդյունահանված տվյալները»: Տվյալների մաքրման մի քանի քայլ կա ավելացնելու համար:

Կտտացրեք «Ավելացնել քայլ», այնուհետև ընտրեք «Համապատասխանել սովորական արտահայտությամբ»: Եթե ​​դուք ծանոթ չեք կանոնավոր արտահայտությանը, ազատ զգալ օգտագործեք ներկառուցված RegEx գործիքը, որն ինձ շատ է դուր գալիս:

RegEx գործիքը բավականին ինքնըստինքյան է: Մուտքագրեք ցանկալի տվյալների տողի սկիզբը և վերջը: Սեղմեք «Ստեղծել» և ստեղծվում է համապատասխան կանոնավոր արտահայտությունը: Սեղմեք «Համապատասխան»՝ տեսնելու համար, թե արդյոք ցանկալի տվյալները կարող են հաջողությամբ համընկնել: Եթե ​​դուք ակնկալում եք, որ մեկից ավելի տող կհամապատասխանի, նշեք «Համապատասխանել բոլորին»:

5. Ավարտե՞լ ենք: Փակել, բայց դեռ ոչ: Հիշեք, որ սա միայն մանրապատկերի URL-ն է, և մենք դեռ պետք է «128»-ը փոխարինենք «416»-ով, որպեսզի դրանք դարձնենք ամբողջական չափի պատկերի URL-ներ:

Կտտացրեք «Ավելացնել քայլը» ևս մեկ անգամ: Ընտրեք «Փոխարինել»: «128»-ը փոխարինել «416»-ով: Սեղմեք «Գնահատել»: Վերջապես, մենք ունենք մեզ անհրաժեշտ URL-ը:

Ստուգեք արդյունահանված տվյալները:

6. Փորձարկել սողունը:

Վերևի օրինակում մենք ունեինք յուրաքանչյուր պատկերի URL արդյունահանված որպես առանձին տող: Ի՞նչ անել, եթե ձեզ անհրաժեշտ է URL-ները միասին հանել: Դա կարելի է անել՝ բոլոր մանրապատկերների արտաքին HTML-ը միանգամից հանելով: Այնուհետև օգտագործեք RegEx՝ անհատական ​​URL-ները համապատասխանելու համար: Փոխարինեք չափի համարը, և դուք կստանաք բոլոր ամբողջական չափի պատկերների URL-ները, որոնք բերված են մեկ տողի մեջ:

  1. Բեռնեք կայքը և սեղմեք մանրապատկերներից մեկի վրա: Կտտացրեք «Ընդարձակել» պատկերակը «Գործողությունների խորհուրդներ» ստորին աջ անկյունում, մինչև ամբողջ մանրապատկերների բաժինը ընդգծվի կանաչով, ինչը հիմնականում նշանակում է, որ դրանք ընտրված են:

2. «Գործողությունների խորհուրդներ» բաժնում ընտրեք «Արտահանել ընտրված տարրի արտաքին HTML-ը»:

3. Վերադարձեք աշխատանքային հոսքի ռեժիմին:

Կրկնեք տվյալների մաքրման նույն քայլերը՝ անհատական ​​մանրապատկերների URL-ներին համապատասխանելու համար:

Այս անգամ նշեք «Match All»-ը, քանի որ մենք պետք է համընկնենք մեկից ավելի URL արդյունահանված HTML կոդից:

Կրկին փոխարինեք 128416-ով: Վերջապես, մենք ունենք բոլոր ամբողջական չափի պատկերների URL-ները, որոնք արդյունահանված են մեկ տողով: Դուք կարող եք ներբեռնել այս օրինակում օգտագործված սողացող ֆայլը և ինքներդ փորձեք:

Այժմ, երբ մենք ունենք արդյունահանված պատկերների URL-ները, եկեք առաջ գնանք և ներբեռնենք իրական պատկերային ֆայլերը՝ օգտագործելով իմ սիրելի գործիքներից մեկը՝ Tab Save: Համացանցում կան նաև այլ նման պատկերներ ներբեռնողներ, և դրանցից շատերն անվճար են:

  1. Արտահանված տվյալները Excel կամ նմանատիպ ձևաչափեր:

2. Պատճենեք և տեղադրեք պատկերի URL-ները Tab Save-ում:

3. Սկսեք ներբեռնել ֆայլերը՝ սեղմելով ներքևում գտնվող ներբեռնման պատկերակը:

Հուսով եմ, որ այս ձեռնարկը ձեզ լավ սկիզբ է տվել համացանցից պատկերներ/տվյալներ հանելու համար: Ասել է թե, յուրաքանչյուր կայք տարբեր է: Կախված ձեր թիրախային կայքերից, որոշ ճշգրտումներ կարող են անհրաժեշտ լինել, որպեսզի այն աշխատի: Բայց ընդհանուր հայեցակարգը և աշխատանքային հոսքը կարող են տարածվել կայքերի մեծ մասի վրա: