本项目将民政部公布的中国行政区划数据结构化,可作为地点控件的参考数据。
原始数据来自于中华人民共和国民政部-行政区划代码。获取方法:
xargs -n 1 curl -s <source-url.txt | html2text --ignore-tables >data/places.txt
这里用到了 html2text 工具。或者,也可以用浏览器访问该网页,访问最新的“县以上区划变更情况”网页,然后把文字内容复制粘贴到 data/places.txt 文件中。
data/regions.json:JSON 格式的中国县以上行政区划数据,本身是一个数组,元素为省级行政区划,元素字段包括code:行政区划的 6 位数字代码name:行政区划的名称subregions(可选):下级行政区划数据,格式同上
data/locations.csv:CSV 格式的中国县以上行政区划数据,包含三个字段code:行政区划的 6 位数字代码name:行政区划的名称full_name:行政区划的全称,一般包含省、地、县三部分
data/locations.txt:纯文本格式,每行包括一条中国县以上行政区划的全称,包括县以上的下级行政区划的行政区划不列出。
generate_regions.py:从data/places.txt产生data/regions.json的 Python 脚本parse_places.py:从data/places.txt产生data/locations.csv的 Python 脚本dump_locations.py:从data/regions.json产生data/locations.txt的 Python 脚本