募集书文本与债券发行利差 | 金融科技研究论文

项目文件结构

.
├── README.md
├── STATA
│   ├── Code
│   ├── Data
│   ├── Full_0521.dta
│   ├── Graph_Density.png
│   ├── Main.do
│   ├── README.md
│   ├── Tables_0518
│   └── Tables_0521
├── api
│   ├── bundle_merge.py
│   ├── factor_construct.py
│   ├── factor_construct_heter.py
│   ├── pdf2txt.py
│   └── pdf_access.py
├── config
│   ├── diydict.txt
│   └── stopwords.txt
├── pipeline
│   ├── target_fvalue
│   ├── target_fvalue(4425,\ 27).csv
│   ├── target_fvalue.csv
│   ├── target_fvector
│   └── text_splitted
└── src
    ├── all_pdf
    ├── all_text
    ├── parse_target_all.csv
    ├── urllib
    ├── urllib_combined.csv
    ├── wind_info_all.csv
    └── wind_info_gre.csv

README.md 说明
文件夹STATA: 描述性统计和回归的Stata代码
文件夹api: 文本获取和处理的Python代码
文件夹config: 外部配置文件
- diydict.txt 用户自定义词典
- stopwords.txt 用户自定义停用词词典
文件夹pipeline: 存放计算过程数据
- 文件夹target_fvalue 分段处理的文本指标
- target_fvalue(4425,\ 27).csv 最终的样本文本指标面板
- target_fvalue.csv 分段处理后文本指标合并
- 文件夹target_fvector 分段处理的文本词频向量
- 文件夹text_splitted 分词、停用、分句后的文本，可用作未来研究
文件夹src: 存放外部添加的数据
- 文件夹all_pdf 下载的原始pdf文件
- 文件夹all_text 原始pdf读取获得的txt文件
- parse_target_all.csv 筛选后的样本
- urllib_combined.csv 从爬虫结果合并的pdf网址记录
- 文件夹urllib 由“八抓鱼采集器”爬取的募集说明书获取地址
- wind_info_all.csv Wind上16-21年发行的所有公司债和企业债
- wind_info_gre.csv Wind上16-21年发行的所有绿色债券

Python部分运行流程

运行代码前，修改开头的_PATH为项目根目录
pdf_access.py 下载PDF文件，来源于src/urllib/*.xlsx
pdf2txt.py 上一步获取的PDF文件依次读取为TXT存储
factor_construct.py 逐个分析TXT文档，计算词频指标和词频向量
bundle_merge.py 合并上一步分块存储的的计算结果
factor_construct_heter.py 由合并后的词频向量计算文本异质性指标

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

募集书文本与债券发行利差 | 金融科技研究论文

项目文件结构

Python部分运行流程

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
Doc		Doc
STATA		STATA
api		api
config		config
pipeline		pipeline
src		src
.gitignore		.gitignore
README.md		README.md

wins-m/bond_prospectus

Folders and files

Latest commit

History

Repository files navigation

募集书文本与债券发行利差 | 金融科技研究论文

项目文件结构

Python部分运行流程

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages