Skip to content

jxz7110/LLMP

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

llmP1 README

本项目用于在 MAPLEarXiv 数据上进行时序预测实验,主运行文件是 run.py

1. 数据下载

arXiv

原始数据参考:

处理后的文件放在:

  • dataset/arxiv/arxiv.csv

MAPLE

数据来源:

处理后的文件放在:

  • dataset/MAPLE/MAPLE.csv

2. 数据处理

数据处理脚本:

  • /mnt/data2/jingxz/models/prepare_arxiv_maple_monthly.py

这个脚本主要用于把 arXiv 原始元数据整理成按月统计的 csv 文件。

运行方式:

cd /mnt/data2/jingxz/models/llmP1

python /mnt/data2/jingxz/models/prepare_arxiv_maple_monthly.py \
  --input /mnt/data2/jingxz/system/MixF/dataset/arxiv-metadata-oai-snapshot.json \
  --mapping /mnt/data2/jingxz/system/data_message/json2jsonl.py \
  --output /mnt/data2/jingxz/models/llmP1/dataset/arxiv/arxiv.csv

说明:

  • --input:arXiv 原始数据路径
  • --mapping:学科映射文件路径
  • --output:输出的 csv 路径

如果是 MAPLE 数据,通常直接使用官方提供的 MAPLE.csv 即可,不需要额外处理。

3. 数据运行脚本与模型选择

先进入项目目录:

cd /mnt/data2/jingxz/models/llmP1

运行 arXiv 实验

bash scripts/arxiv.sh

运行 MAPLE 实验

bash scripts/maple.sh

运行敏感性实验

bash scripts/sensitivity.sh

大模型如何选择

模型主要通过下面两个参数控制:

  • --llm_model
  • --llm_dim

当前支持的模型有:

  • bertllm_dim=1024
  • MiniLMllm_dim=384
  • Qwen3llm_dim=1024
  • mdbrllm_dim=384
  • bge-large-en-v1.5llm_dim=1024
  • Octen-Embedding-0.6Bllm_dim=1024
  • roberta-basellm_dim=768

如果想切换模型,可以直接修改:

  • scripts/arxiv.sh 里的 llm_models

例如:

llm_models=(
  "bert"
  "MiniLM"
)

注意:

  • llm_dim 必须和模型实际维度一致
  • bert 外,其它模型默认从本地目录加载:
    • /mnt/data2/jingxz/models/llm_models/

4. 实验结果查看

最终指标

实验结束后,结果会追加写入:

  • result.txt

常看指标:

  • mse
  • mae
  • rse

查看方式:

tail -n 40 result.txt

日志

完整训练日志在:

  • logs/LongForecasting/

例如:

  • logs/LongForecasting/model2_arxiv_bert_sl24_pl12.log

模型权重

checkpoint 在:

  • checkpoints/<setting>/checkpoint.pth

预测结果

如果运行时加了 --do_predict,预测结果会保存在:

  • results/<setting>/real_prediction.npy

简单流程

  1. 下载 arXiv 和 MAPLE 数据
  2. prepare_arxiv_maple_monthly.py 处理 arXiv 数据
  3. 把数据放到 dataset/arxiv/dataset/MAPLE/
  4. 运行 bash scripts/arxiv.shbash scripts/maple.sh
  5. result.txtlogs/LongForecasting/ 查看结果

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors