本项目用于在 MAPLE 和 arXiv 数据上进行时序预测实验,主运行文件是 run.py。
原始数据参考:
处理后的文件放在:
dataset/arxiv/arxiv.csv
数据来源:
处理后的文件放在:
dataset/MAPLE/MAPLE.csv
数据处理脚本:
/mnt/data2/jingxz/models/prepare_arxiv_maple_monthly.py
这个脚本主要用于把 arXiv 原始元数据整理成按月统计的 csv 文件。
运行方式:
cd /mnt/data2/jingxz/models/llmP1
python /mnt/data2/jingxz/models/prepare_arxiv_maple_monthly.py \
--input /mnt/data2/jingxz/system/MixF/dataset/arxiv-metadata-oai-snapshot.json \
--mapping /mnt/data2/jingxz/system/data_message/json2jsonl.py \
--output /mnt/data2/jingxz/models/llmP1/dataset/arxiv/arxiv.csv说明:
--input:arXiv 原始数据路径--mapping:学科映射文件路径--output:输出的csv路径
如果是 MAPLE 数据,通常直接使用官方提供的 MAPLE.csv 即可,不需要额外处理。
先进入项目目录:
cd /mnt/data2/jingxz/models/llmP1bash scripts/arxiv.shbash scripts/maple.shbash scripts/sensitivity.sh模型主要通过下面两个参数控制:
--llm_model--llm_dim
当前支持的模型有:
bert,llm_dim=1024MiniLM,llm_dim=384Qwen3,llm_dim=1024mdbr,llm_dim=384bge-large-en-v1.5,llm_dim=1024Octen-Embedding-0.6B,llm_dim=1024roberta-base,llm_dim=768
如果想切换模型,可以直接修改:
scripts/arxiv.sh里的llm_models
例如:
llm_models=(
"bert"
"MiniLM"
)注意:
llm_dim必须和模型实际维度一致- 除
bert外,其它模型默认从本地目录加载:/mnt/data2/jingxz/models/llm_models/
实验结束后,结果会追加写入:
result.txt
常看指标:
msemaerse
查看方式:
tail -n 40 result.txt完整训练日志在:
logs/LongForecasting/
例如:
logs/LongForecasting/model2_arxiv_bert_sl24_pl12.log
checkpoint 在:
checkpoints/<setting>/checkpoint.pth
如果运行时加了 --do_predict,预测结果会保存在:
results/<setting>/real_prediction.npy
- 下载 arXiv 和 MAPLE 数据
- 用
prepare_arxiv_maple_monthly.py处理 arXiv 数据 - 把数据放到
dataset/arxiv/和dataset/MAPLE/ - 运行
bash scripts/arxiv.sh或bash scripts/maple.sh - 到
result.txt和logs/LongForecasting/查看结果