Skip to content
This repository was archived by the owner on Dec 23, 2020. It is now read-only.

Tags: iosifache/Aranea

Tags

v1.0

Toggle v1.0's commit message
Rezolvă funcționări necorespunzătoare

În urma unor teste pe website-uri publice, s-a observat un comportament
necorespunzător în ceea ce privește procesarea fișierelor de tip
robots.txt și verificarea dimensiunii paginilor prin intermediul unor
cereri de tip HEAD, ceea ce ducea la nedescărcarea paginilor solicitate.
Acest commit rezolvă aceste probleme prin introducerea unui parametru
care face optională verificarea dimensiunii fișierelor prin cereri de
tip HEAD și printr-o procesare corectă a fișierelor de tip robots.txt,
prin considerarea acelor înregistrări din fișier specifice tuturor
crawlerelor web (cele care succed "User-agent: *"). S-au introdus și doi
parametrii noi, ce pot fi setați prin intermediul fișierului de
configurare, pentru numarul maxim de pagini descărcate și pentru
folosirea cererilor de tip HEAD menționate anterior.
Îmbunătățirile în comportamentul crawler-ului au fost observate după
efectuarea modificărilor, prin realizarea de teste manuale pe localhost
și pe câteva pagini web publice, de pe Internet.

Signed-off-by: George-Andrei Iosif <georgeiosif@live.com>