爬取的网址为http://qh.gsxt.gov.cn/
采用的是Scrapy爬虫框架,学习网址有Scrapy1.0中文文档
爬取之前安装requirements.txt里面的库,并进入相应的虚拟环境中
开始爬虫:scrapy crawl qh_gsxt -o result.json --logfile=debugmsg.txt --loglevel=DEBUG
| Name | Name | Last commit date | ||
|---|---|---|---|---|
爬取的网址为http://qh.gsxt.gov.cn/
采用的是Scrapy爬虫框架,学习网址有Scrapy1.0中文文档
爬取之前安装requirements.txt里面的库,并进入相应的虚拟环境中
开始爬虫:scrapy crawl qh_gsxt -o result.json --logfile=debugmsg.txt --loglevel=DEBUG