Skip to content

booooodv/cnkiSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

cnkispider

知网爬虫,根据搜索搜索基金号爬取文献名

爬虫思路

任务是拿基金号去知网上爬取搜索结果,刚开始发现通过知网高级检索搜索以后是渲染网页,而且有极高的反爬虫机制,最后无法获得搜索内容。最后通过不懈努力找到一个原始版的搜索页面能完成特定的搜索跳转,但是其中的url有反爬虫所以无法实现跳转,只能拿到搜索的名字。

新版搜索页面:
新版搜索页面

老版搜索页面:
老版搜索页面

程序结构


connection :用来连接网址,处理数据最后调用WriteTxt写入文件
file:用来对文件进行操作
main:有main函数,程序起点

About

知网爬虫,根据搜索基金号爬取文献名

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages