This repository was archived by the owner on Dec 23, 2020. It is now read-only.
Tags: iosifache/Aranea
Tags
Rezolvă funcționări necorespunzătoare În urma unor teste pe website-uri publice, s-a observat un comportament necorespunzător în ceea ce privește procesarea fișierelor de tip robots.txt și verificarea dimensiunii paginilor prin intermediul unor cereri de tip HEAD, ceea ce ducea la nedescărcarea paginilor solicitate. Acest commit rezolvă aceste probleme prin introducerea unui parametru care face optională verificarea dimensiunii fișierelor prin cereri de tip HEAD și printr-o procesare corectă a fișierelor de tip robots.txt, prin considerarea acelor înregistrări din fișier specifice tuturor crawlerelor web (cele care succed "User-agent: *"). S-au introdus și doi parametrii noi, ce pot fi setați prin intermediul fișierului de configurare, pentru numarul maxim de pagini descărcate și pentru folosirea cererilor de tip HEAD menționate anterior. Îmbunătățirile în comportamentul crawler-ului au fost observate după efectuarea modificărilor, prin realizarea de teste manuale pe localhost și pe câteva pagini web publice, de pe Internet. Signed-off-by: George-Andrei Iosif <georgeiosif@live.com>