Վեբ էջից պատկեր պահելը պարզ է, պարզապես աջ սեղմեք և ընտրեք«Պահել պատկերը որպես»: Բայց ի՞նչ անել, եթե ունեք հարյուրավոր կամ նույնիսկ հազարավոր պատկերներ, որոնք պետք է պահպանվեն: Արդյո՞ք նույն հնարքը կաշխատի:
Այս հոդվածում ես ուզում եմ ձեզ ցույց տալ, թե ինչպես արագ կառուցել պատկերի սողուն առանց կոդավորման: Նույնիսկ եթե դուք բացարձակապես չունեք տեխնոլոգիական նախապատմություն, դուք պետք է կարողանաք դա անել 30 րոպեի ընթացքում: Անկախ նրանից, թե ինչ պատճառով կարող են ձեզ անհրաժեշտ լինել նկարները՝ լինի դա վերաբլոգ, վերավաճառք կամ մեքենայական ուսուցում, նույն հնարքը կարող է տարածվել բառացիորեն ցանկացած վեբկայքի վրա:
Ոչ բոլոր պատկերներն են ստեղծվում հավասար: Որոշ պատկերներ կարող են ուղղակիորեն բեռնվել վեբ էջից, մյուս պատկերները գործարկվում են միայն մանրապատկերների վրա սեղմելով:
Այս ձեռնարկում ես ձեզ ցույց կտամ, թե ինչպես վարվել այս սցենարներից յուրաքանչյուրի հետ մի քանի օրինակների միջոցով:
Պատրա՞ստ եք: Եկեք սկսենք.
Ձեզ անհրաժեշտ կլինեն հետևյալ գործիքները.
* Octoparse. առանց կոդավորման վիզուալ վեբ քերիչ գործիք
* Tab Save. Chrome-ի հավելումը՝ պատկերները տրամադրելուց անմիջապես հետո: URL-ների ցանկ
Նախադրյալներ
Լավագույնը կլինի, եթե ծանոթ լինեք ինչպես է աշխատում Octoparse-ն ընդհանրապես: Octoparse Scraping 101-ը կարող է նաև օգնել, եթե դուք նոր եք գործիքի հետ:
Օրինակ 1. Պատկերներ ուղղակիորեն վեբ էջից վերցնելը
Ցույց տալու համար մենք պատրաստվում ենք քերել շների պատկերները Pixabay.com-ից: Հետևելու համար փնտրեք շներ Pixabay.com-ում: Սա ձեզ պետք է հասցնի այս էջ:
1. Սեղմեք «+ Առաջադրանք»՝ Ընդլայնված ռեժիմում նոր առաջադրանք սկսելու համար: Այնուհետև մուտքագրեք թիրախ վեբ էջի URL-ը տեքստային վանդակում և սեղմեք «Պահպանել URL-ը»:
Դուք պետք է հասնեք այստեղ.
2. Հաջորդը, մենք պատրաստվում ենք բոտին ասել, թե ինչ պատկերներ պետք է բերի:
Սեղմեք առաջին պատկերի վրա։ «Գործողությունների խորհուրդներ»-ում այժմ գրված է «Ընտրված պատկեր, հայտնաբերված 100 նմանատիպ պատկեր»: Սա հիանալի է՝ հենց այն, ինչ մեզ անհրաժեշտ է: Շարունակեք ընտրել «Ընտրել բոլորը», ապա «Արտահանել պատկերի URL-ը օղակում»:
3. Իհարկե, մենք ոչ միայն ուզում ենք պատկերները 1-ին էջից, այլ բոլոր էջերից (կամ այնքան էջերից, որքան անհրաժեշտ է):
Դա անելու համար ոլորեք ներքև՝ ընթացիկ էջի ներքև, նշեք «հաջորդ էջ» կոճակը և սեղմեք դրա վրա:
Մենք ակնհայտորեն ցանկանում ենք բազմիցս սեղմել «հաջորդ էջ» կոճակը, ուստի իմաստ ունի «Գործողությունների խորհուրդներից» ընտրել «Կտտացրեք ընտրված հղմանը»:
Այժմ պարզապես հաստատեք, թե արդյոք ամեն ինչ ճիշտ է կարգավորվել: Միացրեք աշխատանքային հոսքի անջատիչը վերին աջ անկյունում: Ավարտված աշխատանքային հոսքը պետք է այսպիսին լինի.
Նաև ստուգեք տվյալների վահանակը և համոզվեք, որ մենք ճիշտ ենք արդյունահանել ցանկալի տվյալները:
4. Կա ևս մեկ բան, որը պետք է շտկել նախքան սողունը գործարկելը:
Վրիպազերծման ժամանակ ես պատահաբար նկատեցի, որ HTML-ի սկզբնական կոդը դինամիկ կերպով թարմացվում է, երբ մեկը ոլորում է վեբ էջը: Այլ կերպ ասած, եթե վեբ էջը չի ոլորվում ներքև, մենք չենք կարողանա ստանալ համապատասխան պատկերի URL-ները սկզբնաղբյուրից: Մեր բախտը բերել է, որ Octoparse-ը հեշտությամբ պտտվում է ավտոմատ կերպով:
Մենք պետք է ավելացնենք ավտոմատ ոլորում՝ ինչպես վեբկայքի առաջին անգամ բեռնման ժամանակ, այնպես էլ այն էջերում:
Աշխատանքային հոսքից կտտացրեք «Գնալ վեբ էջ»: Աշխատանքային հոսքի աջ կողմում նշեք «Ընդլայնված ընտրանքներ» և նշեք «Ոլորեք ներքև դեպի էջի ներքև, երբ բեռնումն ավարտվի»:
Այնուհետև որոշեք, թե քանի անգամ ոլորել և ինչ տեմպերով: Այստեղ ես սահմանեցի ոլորման ժամանակները = 40, ընդմիջումը = 1 վայրկյան, և ոլորման եղանակը = ոլորեք ներքև մեկ էկրանի համար: Սա հիմնականում նշանակում է, որ Octoparse-ը մեկ էկրանից ներքև կշարժվի 40 անգամ՝ յուրաքանչյուր ոլորման միջև 1 վայրկյանով:
Ես պատահականորեն չեմ ստեղծել այս կարգավորումը, բայց ես մի փոքր կարգավորել եմ՝ համոզվելու համար, որ այս կարգավորումն աշխատում է: Ես նաև նկատեցի, որ էական է օգտագործել «Ոլորել ներքև մեկ էկրանի համար»՝ ի տարբերություն «Ոլորել էջի ներքևի»: Սա հիմնականում պայմանավորված է նրանով, որ մեզ անհրաժեշտ պատկերների URL-ները միայն աստիճանաբար թարմացվում են սկզբնական կոդը:
Կիրառեք նույն պարամետրը էջադրման քայլին:
Աշխատանքային հոսքի վրա կտտացրեք «Սեղմեք էջադրելու համար» և օգտագործեք ճիշտ նույն պարամետրը ավտոմատ ոլորման համար:
5. Ահա և վերջ: Դուք ավարտված եք: Արդյո՞ք սա շատ լավ չէ ճշմարիտ լինելու համար: Եկեք գործարկենք սողունը և տեսնենք, թե արդյոք այն աշխատում է:
Կտտացրեք Սկսել արդյունահանումը վերին ձախ անկյունից: Ընտրեք տեղական արդյունահանում: Դա հիմնականում նշանակում է, որ դուք ամպային սերվերի փոխարեն կգործարկեք սողուն ձեր սեփական համակարգչում: Դուք կարող եք ներբեռնել սողացող ֆայլը, որն օգտագործվում է այս օրինակում և ինքներդ փորձեք:
Օրինակ 2. Քերեք ամբողջական չափի պատկերներ
Հարց. Իսկ եթե Ձեզ անհրաժեշտ են ամբողջական չափի պատկերներ:
Այս օրինակի համար մենք կօգտագործենք նույն կայքը՝ https://pixabay.com/images/search/dogs/՝ ցույց տալու համար, թե ինչպես կարող եք ստանալ ամբողջական չափի նկարներ:
1. Սկսեք նոր առաջադրանք՝ սեղմելով «+ Առաջադրանք» Ընդլայնված ռեժիմում:
2. Մուտքագրեք թիրախ վեբ էջի URL-ը տեքստային վանդակում, այնուհետև կտտացրեք «Պահպանել URL»-ը՝ շարունակելու համար:
3. Ի տարբերություն նախորդ օրինակի, որտեղ մենք կարող էինք ուղղակիորեն նկարել պատկերները, մենք այժմ պետք է սեղմենք յուրաքանչյուր առանձին պատկեր՝ ամբողջական չափի պատկերը տեսնելու/բերելու համար:
Երբ սեղմում եք առաջին նկարի վրա, Գործողությունների խորհուրդները պետք է գրված լինեն «Ընտրված է պատկերը, գտնվել են 100 նմանատիպ պատկերներ»: Ընտրեք «Ընտրել բոլորը»:
Այնուհետև ընտրեք «Օղակ, սեղմեք յուրաքանչյուր պատկերի վրա»:
4. Այժմ, երբ մենք հասել ենք ամբողջական չափի պատկերով էջ, ամեն ինչ շատ ավելի հեշտ է:
Կտտացրեք ամբողջական չափի պատկերին, այնուհետև ընտրեք «Արտահանել ընտրված պատկերի URL-ը»:
Ինչպես միշտ, ստուգեք տվյալների վահանակը և համոզվեք, որ մենք ճիշտ ենք արդյունահանել ցանկալի տվյալները:
5. Հետևեք օրինակ 1-ի նույն քայլերին՝ էջադրման քայլեր ավելացնելու համար:
Կտտացրեք «Գնացեք վեբ էջ», նշեք «Հաջորդ էջ» կոճակը և սեղմեք դրա վրա: «Գործողությունների խորհուրդներ» բաժնում ընտրեք «Օղակը սեղմել է ընտրված հղումը»:
Ավարտված աշխատանքային հոսքը պետք է այսպիսին լինի.
Եթե այն նույն տեսքը չունի: Քաշեք այն շուրջը տեղափոխելու համար:
6. Կատարված է: Փորձարկել սողունը: Դուք կարող եք ներբեռնել այս օրինակում օգտագործված սողուն ֆայլը և ինքներդ փորձեք:
Օրինակ 3. Ստանալ ամբողջական չափի պատկերներ մանրապատկերներից
Համոզված եմ, որ դուք նման բան տեսել եք առցանց գնումներ կատարելիս կամ եթե պատահաբար առցանց խանութ եք վարում:
Արտադրանքի պատկերների համար մանրապատկերների պատկերները, անկասկած, պատկերների ցուցադրման ամենատարածված ձևերն են: Մանրապատկերների օգտագործումը զգալիորեն նվազեցնում է թողունակությունը և բեռնման ժամանակը, ինչը մարդկանց համար շատ ավելի հարմար է դարձնում տարբեր ապրանքների զննումը:
Octoparse-ի միջոցով մանրապատկերներից լրիվ չափի պատկերները հանելու երկու եղանակ կա:
Տարբերակ 1.Դուք կարող եք կարգավորել շրջադարձային սեղմումը՝ յուրաքանչյուր մանրապատկերի վրա սեղմելու համար, այնուհետև բեռնվելուց հետո շարունակեք հանել ամբողջական չափի պատկերը:
Ընտրանք 2.Քանի որ մանրապատկերների մեծամասնությունը կիսում է նույն URL-ի օրինակը համապատասխան ամբողջական չափի պատկերների հետ, բայց միայն տարբեր թվով, որը ցույց է տալիս տարբեր չափերը, իմաստ ունի հանել մանրապատկերի URL-ն այնուհետև փոխարինեք մանրապատկերի չափի համարը լրիվ չափի գործընկերների թվին: Դա կարելի է հեշտությամբ անել Octoparse-ի ներկառուցված տվյալների մաքրման գործիքի միջոցով:
Քանի որ մենք արդեն անցել ենք 1-ին տարբերակի նման մի բան օրինակ 2-ում, ես այս օրինակում կմշակեմ 2-րդ տարբերակը: Ցուցադրելու համար մենք կօգտագործենք արտադրանքի էջը Flipcart.com-ում:
Նախքան աշխատանքը սկսելը, արժե հաստատել, թե արդյոք այս մարտավարությունը կարող է կիրառվել՝ դիտելով մանրապատկերի պատկերի URL-ը և դրա լրիվ չափի նմանակը: Այսպիսով, ես ձեռքով ընտրեցի մանրապատկերներից մեկը՝ ստուգելու համար:
Մաննապատկերի URL՝https://rukminim1.flixcart.com/image/128/128/jatym4w0/speaker/mobile-tablet-speaker/v/u/7/philips-in- bt40bk-94-original-imafybc9ysphpzhv.jpeg?q=70
Ուշադրություն դարձրեք, որ այս երկու URL-ների միջև միակ տարբերությունը պատկերի չափը ցույց տվող թիվն է՝ «128» մանրապատկերի համար և «416»՝ լրիվ չափի պատկերի համար:
Սա նշանակում է, որ քանի դեռ մենք հանված ենք մանրապատկերների URL-ները, մենք կարող ենք դրանք վերածել լրիվ չափի URL-ների՝ պարզապես «128»-ը «416»-ով փոխարինելով:
Եկեք տեսնենք այն գործողության մեջ:
1. Գործարկեք Octoparse հավելվածը, սկսեք նոր առաջադրանք և այնուհետև մուտքագրեք թիրախային URL-ը տեքստային վանդակում:
2) Սեղմեք առաջին մանրապատկերի պատկերի վրա: «Գործողությունների խորհուրդները» այժմ գրված է «Ընտրված տարրը. Հայտնաբերվել է 5 նմանատիպ կոճակ»։ Բրավո Octoparse-ն ավտոմատ կերպով ճանաչեց մնացած մանրապատկերները:
Ընտրեք «Ընտրել բոլորը»:
Այնուհետև ընտրեք «Արտահանել ընտրված տարրերի տեքստը»: Սա ակնհայտորեն այն չէ, ինչ մենք ուզում ենք, բայց մենք կարող ենք փոխել այն ավելի ուշ:
Միացրեք «Workflow» անջատիչը վերին աջ անկյունում: Ուշադրություն դարձրեք, որ մենք ոչինչ չենք հանել:
Դե, սա մի տեսակ սպասելի է, քանի որ, ըստ երևույթին, տեքստ չկար հանելու: Այն, ինչ մենք իսկապես պետք է բերենք, պատկերի URL-ն է, որը թաքնված է HTML աղբյուրի կոդում: Այսպիսով, այժմ մենք պետք է փոխենք արդյունահանվող տվյալների տեսակը:
3. Կտտացրեք «Անհատականացնել» պատկերակը ներքևում: Այնուհետև կտտացրեք «Սահմանել արդյունահանված տվյալները»: Ստուգեք «Արտահանել արտաքին HTML, ներառյալ սկզբնական կոդը, տեքստը ձևաչափի և պատկերի համար»: Պահելու համար սեղմեք «OK»:
4. Օգտագործեք Regular Expression գործիքը, որպեսզի համապատասխանի պատկերի URL-ը արտաքին HTML-ի ամբողջ հատվածից:
Կրկին սեղմեք «Անհատականացնել» պատկերակը: Այս անգամ սեղմեք «Ստուգել արդյունահանված տվյալները»: Տվյալների մաքրման մի քանի քայլ կա ավելացնելու համար:
Կտտացրեք «Ավելացնել քայլ», այնուհետև ընտրեք «Համապատասխանել սովորական արտահայտությամբ»: Եթե դուք ծանոթ չեք կանոնավոր արտահայտությանը, ազատ զգալ օգտագործեք ներկառուցված RegEx գործիքը, որն ինձ շատ է դուր գալիս:
RegEx գործիքը բավականին ինքնըստինքյան է: Մուտքագրեք ցանկալի տվյալների տողի սկիզբը և վերջը: Սեղմեք «Ստեղծել» և ստեղծվում է համապատասխան կանոնավոր արտահայտությունը: Սեղմեք «Համապատասխան»՝ տեսնելու համար, թե արդյոք ցանկալի տվյալները կարող են հաջողությամբ համընկնել: Եթե դուք ակնկալում եք, որ մեկից ավելի տող կհամապատասխանի, նշեք «Համապատասխանել բոլորին»:
5. Ավարտե՞լ ենք: Փակել, բայց դեռ ոչ: Հիշեք, որ սա միայն մանրապատկերի URL-ն է, և մենք դեռ պետք է «128»-ը փոխարինենք «416»-ով, որպեսզի դրանք դարձնենք ամբողջական չափի պատկերի URL-ներ:
Կտտացրեք «Ավելացնել քայլը» ևս մեկ անգամ: Ընտրեք «Փոխարինել»: «128»-ը փոխարինել «416»-ով: Սեղմեք «Գնահատել»: Վերջապես, մենք ունենք մեզ անհրաժեշտ URL-ը:
Ստուգեք արդյունահանված տվյալները:
6. Փորձարկել սողունը:
Վերևի օրինակում մենք ունեինք յուրաքանչյուր պատկերի URL արդյունահանված որպես առանձին տող: Ի՞նչ անել, եթե ձեզ անհրաժեշտ է URL-ները միասին հանել: Դա կարելի է անել՝ բոլոր մանրապատկերների արտաքին HTML-ը միանգամից հանելով: Այնուհետև օգտագործեք RegEx՝ անհատական URL-ները համապատասխանելու համար: Փոխարինեք չափի համարը, և դուք կստանաք բոլոր ամբողջական չափի պատկերների URL-ները, որոնք բերված են մեկ տողի մեջ:
- Բեռնեք կայքը և սեղմեք մանրապատկերներից մեկի վրա: Կտտացրեք «Ընդարձակել» պատկերակը «Գործողությունների խորհուրդներ» ստորին աջ անկյունում, մինչև ամբողջ մանրապատկերների բաժինը ընդգծվի կանաչով, ինչը հիմնականում նշանակում է, որ դրանք ընտրված են:
2. «Գործողությունների խորհուրդներ» բաժնում ընտրեք «Արտահանել ընտրված տարրի արտաքին HTML-ը»:
3. Վերադարձեք աշխատանքային հոսքի ռեժիմին:
Կրկնեք տվյալների մաքրման նույն քայլերը՝ անհատական մանրապատկերների URL-ներին համապատասխանելու համար:
Այս անգամ նշեք «Match All»-ը, քանի որ մենք պետք է համընկնենք մեկից ավելի URL արդյունահանված HTML կոդից:
Կրկին փոխարինեք 128-ը 416-ով: Վերջապես, մենք ունենք բոլոր ամբողջական չափի պատկերների URL-ները, որոնք արդյունահանված են մեկ տողով: Դուք կարող եք ներբեռնել այս օրինակում օգտագործված սողացող ֆայլը և ինքներդ փորձեք:
Այժմ, երբ մենք ունենք արդյունահանված պատկերների URL-ները, եկեք առաջ գնանք և ներբեռնենք իրական պատկերային ֆայլերը՝ օգտագործելով իմ սիրելի գործիքներից մեկը՝ Tab Save: Համացանցում կան նաև այլ նման պատկերներ ներբեռնողներ, և դրանցից շատերն անվճար են:
- Արտահանված տվյալները Excel կամ նմանատիպ ձևաչափեր:
2. Պատճենեք և տեղադրեք պատկերի URL-ները Tab Save-ում:
3. Սկսեք ներբեռնել ֆայլերը՝ սեղմելով ներքևում գտնվող ներբեռնման պատկերակը:
Հուսով եմ, որ այս ձեռնարկը ձեզ լավ սկիզբ է տվել համացանցից պատկերներ/տվյալներ հանելու համար: Ասել է թե, յուրաքանչյուր կայք տարբեր է: Կախված ձեր թիրախային կայքերից, որոշ ճշգրտումներ կարող են անհրաժեշտ լինել, որպեսզի այն աշխատի: Բայց ընդհանուր հայեցակարգը և աշխատանքային հոսքը կարող են տարածվել կայքերի մեծ մասի վրա: