jbloomAus

Joseph Bloom jbloomAus

Achievements

decoderesearch/SAELens decoderesearch/SAELens Public

Training Sparse Autoencoders on Language Models

Python 1.4k 237
TransformerLensOrg/TransformerLens TransformerLensOrg/TransformerLens Public

A library for mechanistic interpretability of GPT-style language models

Python 3.5k 595
DecisionTransformerInterpretability DecisionTransformerInterpretability Public

Interpreting how transformers simulate agents performing RL tasks

Jupyter Notebook 90 19