Dedupe Variant Get response & added verbose flag for logging #85

azingalis-go · 2025-10-29T13:24:39Z

Pull Request: Optimize Variant Output for LLM Consumption

🎯 Summary

Implements compact formatting for variant queries and adds verbose logging control to optimize BioMCP for LLM consumption while preserving all data and functionality.

📊 Key Improvements

Token Reduction (~90-95%)

Single variants: 110 lines vs 2,015 lines extensive (~95% reduction)
Multi-allelic variants: 181 lines vs 3,574 lines extensive (~93% reduction)
Example: rs113488022 reduced from 7,716 words → 565 words

Clean Output by Default

Logging level: WARNING (no INFO spam)
Add --verbose / -v flag for detailed debug logs
Cleaner output for LLM consumption

🔧 Changes

New Files:

src/biomcp/variants/formatter.py - Compact variant formatting logic
tests/tdd/variants/test_formatter.py - 20 comprehensive unit tests

Modified Files:

src/biomcp/variants/getter.py - Integrated compact formatting (default) + extensive mode
src/biomcp/cli/variants.py - Added --extensive flag
src/biomcp/cli/main.py - Added --verbose / -v global flag
tests/tdd/variants/test_getter.py - Added 3 new tests, updated 2 existing tests

🎨 Features

Compact Format (Default)

biomcp variant get rs113488022
# Clean, consolidated output optimized for LLMs

Extensive Format (Optional)

biomcp variant get rs113488022 --extensive
# Full raw details with all 35+ prediction tools

Verbose Logging (Optional)

biomcp --verbose variant get rs113488022
# Show detailed INFO logs for debugging

JSON Output (Unchanged)

biomcp variant get rs113488022 --json
# Always returns complete unmodified data

✅ Quality Assurance

Tests: 32 tests added/updated (100% pass)
Code Quality: make check passes (0 errors)
Type Safety: Full mypy compliance
Coverage: All new functions tested
Breaking Changes: None
Backward Compatibility: ✅ Maintained via --extensive flag

🔍 Technical Details

Compact Format Consolidates:

Shared info (gene, position, rsID) → shown once
Prediction scores → key predictors only (CADD, REVEL, AlphaMissense, PrimateAI, ClinPred)
Clinical data → deduplicated ClinVar/COSMIC/CIViC
Population frequencies → consolidated gnomAD/ExAC
External annotations → preserved cBioPortal, OncoKB, TCGA

What's Preserved:

All API calls (cBioPortal, OncoKB, TCGA, 1000 Genomes)
All data (just reorganized)
JSON output (completely unchanged)
OncoKB therapeutic implications (full text)

🎯 Use Cases

For LLM Applications:

Massive token savings → more variants per context window
Cleaner input → better LLM comprehension
Faster processing → reduced inference time

For Debugging:

--verbose flag shows detailed processing logs
--extensive flag reveals all raw prediction data
--json provides complete programmatic access

[ ] dedupe variant get response, reduce token usage

[ ] dedupe variant get response, reduce token usage [ ] added extensive flag- will return original full response [ ] added verbose tag for logging, logging turned off by default

azingalis-go added 2 commits October 29, 2025 09:20

** variant get cleanup **

078e666

[ ] dedupe variant get response, reduce token usage

** variant get cleanup **

1b0a611

[ ] dedupe variant get response, reduce token usage [ ] added extensive flag- will return original full response [ ] added verbose tag for logging, logging turned off by default

azingalis-go requested review from imaurer and jyeakley October 29, 2025 13:24

jyeakley approved these changes Oct 29, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Dedupe Variant Get response & added verbose flag for logging #85

Dedupe Variant Get response & added verbose flag for logging #85

Uh oh!

azingalis-go commented Oct 29, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Dedupe Variant Get response & added verbose flag for logging #85

Are you sure you want to change the base?

Dedupe Variant Get response & added verbose flag for logging #85

Uh oh!

Conversation

azingalis-go commented Oct 29, 2025

Pull Request: Optimize Variant Output for LLM Consumption

🎯 Summary

📊 Key Improvements

🔧 Changes

🎨 Features

✅ Quality Assurance

🔍 Technical Details

🎯 Use Cases

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants