javirandor

🌱

Javier Rando javirandor

🌱

AI Safety Researcher

63 followers · 3 following

Achievements

x2 x2

Achievements

x2 x2

Organizations

Stars

ethz-spylab / autoadvexbench

Python 33 3 Updated May 21, 2025

OpenHands / OpenHands

🙌 OpenHands: AI-Driven Development

Python 65,881 8,106 Updated Dec 24, 2025

ethz-spylab / non-adversarial-reproduction

Official code for "Measuring Non-Adversarial Reproduction of Training Data in Large Language Models" (https://arxiv.org/abs/2411.10242)

Jupyter Notebook 8 1 Updated Nov 18, 2024

facebookresearch / multimodal-fusion-jailbreaks

Official repository for the paper "Gradient-based Jailbreak Images for Multimodal Fusion Models" (https//arxiv.org/abs/2410.03489)

Python 19 1 Updated Oct 22, 2024

andyrdt / refusal_direction

Code and results accompanying the paper "Refusal in Language Models Is Mediated by a Single Direction".

Python 323 87 Updated Jun 13, 2025

ethz-spylab / robust-style-mimicry

Python 44 2 Updated Jun 19, 2024

javirandor / anthropic-tokenizer

Approximation of the Claude 3 tokenizer by inspecting generation stream

Python 149 8 Updated Jul 22, 2024

ethz-spylab / rlhf-poisoning

Code for paper "Universal Jailbreak Backdoors from Poisoned Human Feedback"

Python 66 9 Updated Apr 24, 2024

ethz-spylab / rlhf_trojan_competition

Finding trojans in aligned LLMs. Official repository for the competition hosted at SaTML 2024.

Python 116 9 Updated Jun 13, 2024

javirandor / passgpt

Python 83 26 Updated Mar 13, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Javier Rando javirandor

Achievements

Achievements

Organizations

Block or report javirandor

Stars

ethz-spylab / autoadvexbench

OpenHands / OpenHands

ethz-spylab / non-adversarial-reproduction

facebookresearch / multimodal-fusion-jailbreaks

andyrdt / refusal_direction

ethz-spylab / robust-style-mimicry

javirandor / anthropic-tokenizer

ethz-spylab / rlhf-poisoning

ethz-spylab / rlhf_trojan_competition

javirandor / passgpt