Adaptive-P Sampler Documentation

A sampler for autoregressive language models that selects tokens near a configurable target probability over time.

Note

Implementation available in llama.cpp#17927

Documentation sections

Abstract

Summary of Adaptive-P's probability-targeting approach, key contributions, and empirical findings.

1. Introduction

The high-confidence token chain problem, why temperature and truncation don't solve it, and how Adaptive-P's targeting approach differs.

2. Related Work

Comparison with Temperature, Top-K, Top-P, Min-P, XTC, and Mirostat. Why renormalization fails and how selective redistribution works.

3. The Algorithm

Core probability targeting, real distribution patterns (forced choice, binary split, clustered tail), configured vs. calculated target, the logit transformation function, and why unbounded negative logits matter.

4. Design Justification

Why the logit transformation function was selected, empirical tuning of constants, and design tradeoffs.

5. Parameters

target (0.0-1.0), decay (0.0-0.99), internal constants. Includes elasticity/stubbornness/fishtailing behavior and why SHARPNESS isn't user-configurable.

6. Integration

Chain positioning (must be last), Min-P complementarity, temperature interaction, samplers made unnecessary. Includes llama.cpp usage examples.

7. Empirical Validation

Selection distribution analysis, target achievement, comparisons with temperature, adaptation dynamics, initialization validation, cross-model consistency.

8. Reference Implementation

Annotated C++ implementation.

9. Conclusion

Summary of contributions, limitations, and future work directions.

Quick Start

./llama-cli -m model.gguf \
    --samplers "min-p;adaptive-p" \
    --min-p 0.05 \
    --adaptive-target 0.5 \
    --adaptive-decay 0.9 \
    -p "Once upon a time"

This sampler exposes two parameters:

Parameter name	Description	CLI argument	Valid range	Default value	Notes
`target`	Select tokens near this probability	`--adaptive-target N`	0.0 - 1.0	-1.0	When set to -1.0, the adaptive probability transform is disabled, and instead it just samples normally. Note that since the default value is -1.0, the sampler is disabled by default. This is intentional.
`decay`	Decay value for exponential moving average - lower values are more reactive, higher values are more stable	`--adaptive-decay N`	0.0 - 0.99	0.90	Clamped to <=0.99 at init to avoid unbounded accumulation

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
charts		charts
samples		samples
sections		sections
Documentation.md		Documentation.md
Documentation_NoImages.md		Documentation_NoImages.md
README.md		README.md
TODO.md		TODO.md
compile_docs.bat		compile_docs.bat
compile_docs.ps1		compile_docs.ps1
compile_docs_no_images.bat		compile_docs_no_images.bat
compile_docs_no_images.ps1		compile_docs_no_images.ps1
graph_reference.md		graph_reference.md
paper_outline.md		paper_outline.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Adaptive-P Sampler Documentation

Documentation sections

Abstract

1. Introduction

2. Related Work

3. The Algorithm

4. Design Justification

5. Parameters

6. Integration

7. Empirical Validation

8. Reference Implementation

9. Conclusion

Quick Start

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Adaptive-P Sampler Documentation

Documentation sections

Quick Start

About

Resources

Uh oh!

Stars

Watchers

Forks

Uh oh!

Uh oh!

Languages