llmP1 README

本项目用于在 MAPLE 和 arXiv 数据上进行时序预测实验，主运行文件是 run.py。

1. 数据下载

arXiv

原始数据参考：

https://www.kaggle.com/code/artgor/arxiv-metadata-exploration/notebook

处理后的文件放在：

dataset/arxiv/arxiv.csv

MAPLE

数据来源：

https://github.com/yuzhimanhua/MAPLE

处理后的文件放在：

dataset/MAPLE/MAPLE.csv

2. 数据处理

数据处理脚本：

/mnt/data2/jingxz/models/prepare_arxiv_maple_monthly.py

这个脚本主要用于把 arXiv 原始元数据整理成按月统计的 csv 文件。

运行方式：

cd /mnt/data2/jingxz/models/llmP1

python /mnt/data2/jingxz/models/prepare_arxiv_maple_monthly.py \
  --input /mnt/data2/jingxz/system/MixF/dataset/arxiv-metadata-oai-snapshot.json \
  --mapping /mnt/data2/jingxz/system/data_message/json2jsonl.py \
  --output /mnt/data2/jingxz/models/llmP1/dataset/arxiv/arxiv.csv

说明：

--input：arXiv 原始数据路径
--mapping：学科映射文件路径
--output：输出的 csv 路径

如果是 MAPLE 数据，通常直接使用官方提供的 MAPLE.csv 即可，不需要额外处理。

3. 数据运行脚本与模型选择

先进入项目目录：

cd /mnt/data2/jingxz/models/llmP1

运行 arXiv 实验

bash scripts/arxiv.sh

运行 MAPLE 实验

bash scripts/maple.sh

运行敏感性实验

bash scripts/sensitivity.sh

大模型如何选择

模型主要通过下面两个参数控制：

--llm_model
--llm_dim

当前支持的模型有：

bert，llm_dim=1024
MiniLM，llm_dim=384
Qwen3，llm_dim=1024
mdbr，llm_dim=384
bge-large-en-v1.5，llm_dim=1024
Octen-Embedding-0.6B，llm_dim=1024
roberta-base，llm_dim=768

如果想切换模型，可以直接修改：

scripts/arxiv.sh 里的 llm_models

例如：

llm_models=(
  "bert"
  "MiniLM"
)

注意：

llm_dim 必须和模型实际维度一致
除 bert 外，其它模型默认从本地目录加载：
- /mnt/data2/jingxz/models/llm_models/

4. 实验结果查看

最终指标

实验结束后，结果会追加写入：

result.txt

常看指标：

mse
mae
rse

查看方式：

tail -n 40 result.txt

日志

完整训练日志在：

logs/LongForecasting/

例如：

logs/LongForecasting/model2_arxiv_bert_sl24_pl12.log

模型权重

checkpoint 在：

checkpoints/<setting>/checkpoint.pth

预测结果

如果运行时加了 --do_predict，预测结果会保存在：

results/<setting>/real_prediction.npy

简单流程

下载 arXiv 和 MAPLE 数据
用 prepare_arxiv_maple_monthly.py 处理 arXiv 数据
把数据放到 dataset/arxiv/ 和 dataset/MAPLE/
运行 bash scripts/arxiv.sh 或 bash scripts/maple.sh
到 result.txt 和 logs/LongForecasting/ 查看结果

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
data_provider		data_provider
dataset		dataset
exp		exp
layers		layers
model		model
scripts		scripts
utils		utils
.gitignore		.gitignore
README.md		README.md
run.py		run.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

llmP1 README

1. 数据下载

arXiv

MAPLE

2. 数据处理

3. 数据运行脚本与模型选择

运行 arXiv 实验

运行 MAPLE 实验

运行敏感性实验

大模型如何选择

4. 实验结果查看

最终指标

日志

模型权重

预测结果

简单流程

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

llmP1 README

1. 数据下载

arXiv

MAPLE

2. 数据处理

3. 数据运行脚本与模型选择

运行 arXiv 实验

运行 MAPLE 实验

运行敏感性实验

大模型如何选择

4. 实验结果查看

最终指标

日志

模型权重

预测结果

简单流程

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages