Web Crawler cu Analiză de Sentiment ==================================== Descriere generală: ------------------- Acest script este un web crawler avansat care combină funcționalitatea de extragere a conținutului web cu analiza de sentiment. Scopul său principal este de a identifica și analiza conținut web bazat pe cuvinte cheie specificate de utilizator, evaluând sentimentul textelor găsite. Funcționalități principale: --------------------------- 1. Căutare de conținut web bazată pe cuvinte cheie 2. Analiză de sentiment a textelor extrase 3. Identificarea conținutului potențial negativ sau amenințător 4. Explorarea datelor din Common Crawl 5. Salvarea și reluarea progresului Cum să utilizați scriptul: -------------------------- 1. Instalare: - Asigurați-vă că aveți Python 3.7+ instalat - Instalați dependențele: pip install -r requirements.txt 2. Rulare de bază: python web_crawler_sentiment_analysis.py 3. Rulare cu argumente: python web_crawler_sentiment_analysis.py -k cuvant1 cuvant2 -m sau -t 0.2 -r -c 15 Unde: -k: cuvinte cheie pentru căutare -m: modul de căutare ("sau" sau "si") -t: pragul pentru scorul de sentiment negativ (0.0 - 1.0) -r: reia execuția de unde a rămas ultima dată -c: numărul maxim de cereri concurente Explicații pentru funcții specifice: ------------------------------------ 1. Căutare de conținut: - Utilizează cuvintele cheie pentru a filtra conținutul web relevant - Modul "sau" găsește texte care conțin oricare dintre cuvintele cheie - Modul "și" găsește texte care conțin toate cuvintele cheie 2. Analiză de sentiment: - Folosește NLTK VADER pentru a evalua sentimentul textelor - Scorul variază de la 0.0 (pozitiv) la 1.0 (foarte negativ) - Pragul recomandat este 0.107, dar poate fi ajustat 3. Salvare și reluare: - Progresul este salvat automat în fișierul 'progress.pickle' - La rulările ulterioare, puteți alege să reluați de unde ați rămas 4. Procesare paralelă: - Utilizează asyncio pentru operațiuni concurente - Numărul de cereri concurente poate fi ajustat cu argumentul -c Sfaturi pentru performanță optimă: ---------------------------------- 1. Ajustați numărul de cereri concurente (-c): - Creșteți pentru conexiuni la internet rapide și sisteme puternice - Reduceți dacă întâmpinați erori de rețea sau utilizare intensă a CPU 2. Folosiți cuvinte cheie specifice: - Cuvinte cheie mai specifice duc la rezultate mai relevante și procesare mai rapidă 3. Ajustați pragul de sentiment: - Un prag mai mare (ex: 0.3) va filtra mai mult, dar poate omite unele rezultate relevante - Un prag mai mic (ex: 0.1) va include mai multe rezultate, dar poate crește timpul de procesare 4. Utilizați modul de căutare "și" pentru rezultate mai precise: - Reduce numărul de texte procesate, crescând viteza - Util când căutați combinații specifice de cuvinte 5. Rulați scriptul pe un sistem cu resurse adecvate: - Procesor multi-core pentru procesare paralelă eficientă - Memorie RAM suficientă pentru gestionarea datelor mari - Conexiune la internet stabilă și rapidă 6. Utilizați opțiunea de reluare pentru sesiuni lungi: - Permite întreruperea și reluarea procesului fără pierderi de progres 7. Monitorizați utilizarea resurselor: - Ajustați parametrii dacă observați utilizare excesivă a CPU sau memoriei Notă de utilizare responsabilă: ------------------------------- Vă rugăm să utilizați acest script în mod etic și în conformitate cu legile și reglementările aplicabile. Respectați termenii de utilizare ai surselor web și evitați supraîncărcarea serverelor prin stabilirea unor limite rezonabile de rate. Pentru întrebări sau asistență suplimentară, vă rugăm să consultați documentația detaliată sau să contactați echipa de suport.