orca-clap

Contrastive Language-Audio Pretraining (CLAP) model that recognizes similarities between audio-text pairs, ingesting Orcasound community reports and Orcahello moderator annotations as training data. Primary applications include natural language search of audio files, and annotation assistance.

Proposed layout:

python/ (inference server—tiny FastAPI with /embed, /score, /nearest)
tools/
- node-text-audio-pairs/ (Node utility for generating pairs)
- shared CSV schema samples
models/ (download/readme scripts, no weights checked in)
docs/ (usage + examples)

APIs this repo should expose:

POST /score → { audio_url | wav:bytes, prompts: [text...] } -> { scores: [{prompt, sim}], version }
POST /nearest → { audio_url, k } -> { neighbors: [{audio_id, sim, meta}], version }
POST /caption (optional/MVP later) → { audio_url } -> { caption, evidence_neighbors }

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
tools		tools
.DS_Store		.DS_Store
.gitmodules		.gitmodules
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

orca-clap

About

Uh oh!

Releases

Packages

Languages

orcasound/orca-clap

Folders and files

Latest commit

History

Repository files navigation

orca-clap

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages