Crawler

Ищет ссылки по заданному запросу и скачивает их содержимое

Программа принимает на вход ссылку, с которой начинается поиск и запрос

Установка

git clone https://github.com/OxyEho/crawler

pip install -r requirements.txt

Запуск

python main.py some_start_url some_request -d 10 --wildcard *.wikipedia.org -f result

Опция -d задает максимальное количество просмотренных ссылок

Опция -f указывает директорию, в которую будут скачаны найденные страницы

Опция -w указывает будут ли скачены найденные страницы

Опция --wildcard задает домены, которые можно посещать 

Опция -g указывает будет ли показан граф поиска страниц

Синтаксис 

    --wildcard *.wikipedia.org
   
При таком задании параметра для посещения будут доступны www.wikipedia.org, en.wikipedia.org, ru.wikipedia.org

Пример работы crawler

python main.py https://docs.scala-lang.org/ru/tour/tour-of-scala.html scala -d 5 --wildcard *.scala-lang.org

https://docs.scala-lang.org/ru/tour/tour-of-scala.html
https://docs.scala-lang.org//ru
https://www.scala-lang.org/community/
https://docs.scala-lang.org//
https://www.scala-lang.org/contribute/
Program is completed

Запрос

Запрос может состоять более чем из одного слова

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
crawler		crawler
tests		tests
.gitignore		.gitignore
README.md		README.md
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Crawler

Установка

Запуск

Пример работы crawler

Запрос

About

Uh oh!

Releases

Packages

Uh oh!

Languages

OxyEho/crawler

Folders and files

Latest commit

History

Repository files navigation

Crawler

Установка

Запуск

Пример работы crawler

Запрос

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages