.
├── README.md
├── STATA
│ ├── Code
│ ├── Data
│ ├── Full_0521.dta
│ ├── Graph_Density.png
│ ├── Main.do
│ ├── README.md
│ ├── Tables_0518
│ └── Tables_0521
├── api
│ ├── bundle_merge.py
│ ├── factor_construct.py
│ ├── factor_construct_heter.py
│ ├── pdf2txt.py
│ └── pdf_access.py
├── config
│ ├── diydict.txt
│ └── stopwords.txt
├── pipeline
│ ├── target_fvalue
│ ├── target_fvalue(4425,\ 27).csv
│ ├── target_fvalue.csv
│ ├── target_fvector
│ └── text_splitted
└── src
├── all_pdf
├── all_text
├── parse_target_all.csv
├── urllib
├── urllib_combined.csv
├── wind_info_all.csv
└── wind_info_gre.csv-
README.md说明 -
文件夹
STATA: 描述性统计和回归的Stata代码 -
文件夹
api: 文本获取和处理的Python代码 -
文件夹
config: 外部配置文件diydict.txt用户自定义词典stopwords.txt用户自定义停用词词典
-
文件夹
pipeline: 存放计算过程数据- 文件夹
target_fvalue分段处理的文本指标 target_fvalue(4425,\ 27).csv最终的样本文本指标面板target_fvalue.csv分段处理后文本指标合并- 文件夹
target_fvector分段处理的文本词频向量 - 文件夹
text_splitted分词、停用、分句后的文本,可用作未来研究
- 文件夹
-
文件夹
src: 存放外部添加的数据- 文件夹
all_pdf下载的原始pdf文件 - 文件夹
all_text原始pdf读取获得的txt文件 parse_target_all.csv筛选后的样本urllib_combined.csv从爬虫结果合并的pdf网址记录- 文件夹
urllib由“八抓鱼采集器”爬取的募集说明书获取地址 wind_info_all.csvWind上16-21年发行的所有公司债和企业债wind_info_gre.csvWind上16-21年发行的所有绿色债券
- 文件夹
- 运行代码前,修改开头的
_PATH为项目根目录 pdf_access.py下载PDF文件,来源于src/urllib/*.xlsxpdf2txt.py上一步获取的PDF文件依次读取为TXT存储factor_construct.py逐个分析TXT文档,计算词频指标和词频向量bundle_merge.py合并上一步分块存储的的计算结果factor_construct_heter.py由合并后的词频向量计算文本异质性指标