Skip to content

Mehaei/xmlTomd

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 

Repository files navigation

xmlTomd

说明

  • 支持抓取单篇微信文章并下载图片资源及转为github page(jeklly)配套的markdown文章
  • 执行将cnblogs(博客园)备份的xml文章下载图片资源及转为github page(jeklly)配套的markdown文章

使用

执行完成后文章会在blog_root /_post中(文章名为 md5(标题+日期)),下载对应的图片会在blog_root/image/md5中。

  1. 导入cnblogs xml文章
xml_files = ["cnblogs_blog_mswei.20250728163812.xml"]
xml_crawler = XmlArticleCrawler(xml_files, download_images=True)
# 获取每篇文章分类, 也就是文章头中的categories,如果不需要则不需要获取,函数中的分类替换为自己的分类,在博客管理后台找一下分类请求复制下来就行。
# xml_crawler.get_category()
# 开始转换文章,并下载其中的图片
xml_crawler.crawl()
  1. 抓取微信公众号文章
# 文章id,比如:[https://mp.weixin.qq.com/s/t27RQEsrYJzjxEJr4PWgMA], 就填写 t27RQEsrYJzjxEJr4PWgMA
pid_list = ["C75Haa47Oeq5DsPwA0BMSw", "t27RQEsrYJzjxEJr4PWgMA"]
wx_crawler = WeChatArticleCrawler(blog_root="../source", download_images=True)
# 下载文章并转为md格式, 同时会下载文章封面和其中的配图
wx_crawler.crawl_batch(pid_list)

About

cnblogs xml转github page文章及支持微信公众号文章下载

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages