Սա Python-ի վրա հիմնված զգացմունքների վերլուծության նախագիծ է(Հղում դեպի Github ֆայլեր), որն օգտագործում է Թվիթերը, որպեսզի տպավորություն ստեղծվի, թե արդյոք անհատը կամ թվիթների որոշակի խումբը դրական, բացասական կամ չեզոք տրամադրություններ ունի:

Ընդհանուր ակնարկ

Scraandclean python ֆայլը պարունակում է կոդ, որն օգտագործում է Tweepy գրադարանը՝ Twitter-ում որոնելու հեշթեգ պարունակող թվիթներ և պահում է թվիթերը CSV ֆայլում:

Այն կարդում է API ստեղնը և մուտքի նշանը կոնֆիգուրացիայի ֆայլից, որը կոչվում է «config.ini», որը վերացված է: Այն օգտագործում է API ստեղնը և մուտքի նշանը՝ Twitter API-ով նույնականացնելու համար՝ օգտագործելով Tweepy-ի OAuthHandler և API օբյեկտները:

Երբ օգտատերը սահմանում է հեշթեգը որոնելու համար, Tweepy's Cursor օբյեկտը բեռնում է 100 ամենավերջին թվիթերը, որոնք պարունակում են այս հեշթեգը կամ ցանկացած այլ համար, որը նրանք ցանկանում են: Այն կրկնվում է թվիթերի միջով և որոշակի մաքրում է կատարում յուրաքանչյուր թվիթի տեքստի վրա: Սա ներառում է URL-ների հեռացում, հատուկ նիշերի և հեշթեգների հեռացում և լրացուցիչ բացատների հեռացում:

Այն պահպանում է մաքրված թվիթները կոչվող ցուցակում և ստեղծում է Pandas տվյալների շրջանակ այս ցուցակից: Այն ցուցադրում է տվյալների շրջանակը և պահում այն ​​CSV ֆայլում, որը հետագայում կարող է վերբեռնվել վեբ հավելված՝ վերլուծության համար:

Հիմնական python ֆայլը ցուցադրում է Streamlit հավելվածը երկու ընդլայնողներով՝ մեկը տեքստը վերլուծելու համար, իսկ մեկը՝ CSV ֆայլը վերլուծելու համար:

«Վերլուծեք տեքստը» ընդլայնիչում օգտատերը կարող է մուտքագրել որոշ տեքստ, և հավելվածը TextBlob-ի միջոցով կկատարի տեքստի տրամադրությունների վերլուծություն: Այնուհետև այն կցուցադրի տեքստի բևեռականությունն ու սուբյեկտիվությունը: Օգտագործողը կարող է նաև մուտքագրել որոշ տեքստ, որը պետք է մաքրվի, և հավելվածը կօգտագործի CleanText գրադարանը՝ տեքստը մաքրելու և արդյունքը ցուցադրելու համար:

«Վերլուծեք CSV» ընդլայնիչում օգտվողը կարող է վերբեռնել CSV ֆայլ: Այնուհետև հավելվածը կկարդա ֆայլը, կկատարի տրամադրությունների վերլուծություն «tweet» սյունակում և կավելացնի «score» սյունակ՝ տրամադրությունների միավորներով և «վերլուծություն» սյունակ՝ զգացմունքների պիտակներով («Դրական», «Չեզոք» կամ « Բացասական»): Այնուհետև հավելվածը կցուցադրի փոփոխված տվյալների շրջանակի առաջին 10 տողերը: Այնուհետև օգտագործողը կարող է ներբեռնել փոփոխված տվյալների շրջանակը որպես CSV ֆայլ, և արդյունքները կարող են վիզուալացվել կամ դրա վրա կատարել հետագա վերլուծություն:

Գրադարաններ

Scraping python ֆայլը պահանջում է օգտագործել tweepy գրադարանը, որը թույլ է տալիս մուտք գործել Twitter API՝ ջնջելու թվիթները՝ հիմնվելով դրանց հավատարմագրերի վրա, ինչպես նաև պանդաների վրա, որոնք օգնում են մեզ կարգավորել և շահարկել տվյալները:

Հիմնական python ֆայլը, որը պարունակում է հիմնական կիրառական տրամաբանությունը, օգտագործում է գրադարաններ, ինչպիսիք են TextBlob-ը, որը բնական լեզվի մշակման գրադարան է, որը կառուցված է NLTK-ի և Pattern-ի միջոցով՝ NLP առաջադրանքները հիմնական մակարդակում կատարելու համար: Մյուս գրադարանները ներառում են Cleantext-ը, որն օգտագործվում է չմշակված տեքստային տվյալները մաքրելու համար, ինչպես նաև պարզեցված, որն օգնում է մեզ գործարկել հավելվածը և կիրառել այն:

Եզրակացություն

Սա շարունակական նախագիծ է, որի նպատակն է ավտոմատացնել առաջադրանքների մեծ մասը, ինչպիսիք են քերծվածքը, և ես բաց եմ նախագծի վերաբերյալ օգնության և գաղափարների համար: