Build software better, together

Asimo-o / blipren_release

🚀 Train any LLM with BLIPren, a flexible architecture that adapts to your needs, streamlining language-image pre-training effortlessly.

computer-vision deep-learning pytorch transformer colab moe image-captioning llama image-to-text vlm multimodal mixture-of-experts vision-language-model blip2 siglip

Updated Feb 5, 2026
Jupyter Notebook

gemaakhbar / paligemma-from-scratch

Star

🌟 Build a PyTorch implementation of Google's PaliGemma model for advanced vision-language tasks, including object detection and segmentation.

python computer-vision deep-learning pytorch transformer ddp language-model from-scratch gemma vlm vq-vae github-config referring-expression-segmentation generative-ai vision-language-model visual-language-models siglip paligemma

Updated Feb 5, 2026
Python

skintaglabs / main

Star

Fine-tuned SigLIP for skin lesion classification

computer-vision healthcare dermatology medical-ai siglip melatoma-detection

Updated Feb 5, 2026
Jupyter Notebook

liuutin9 / FPGA-Acceleration-of-TinyLLaVA-Inference-via-HLS

Star

FPGA-based acceleration of TinyLLaVA-Phi-2-SigLIP-3.1B inference on AMD Alveo U280 using Vitis HLS.

fpga hls xilinx hardware-acceleration vitis alveo-u280 multimodal-llm phi-2 siglip tinyllava

Updated Feb 5, 2026
C++

AaltoML / BayesVLM

Star

Code for Post-hoc Probabilistic Vision-Language Models

clip active-learning zero-shot-learning bayesian-deep-learning siglip vision-language-models

Updated Feb 5, 2026
Python

gokayfem / ComfyUI_VLM_nodes

Star

Custom ComfyUI nodes for Vision Language Models, Large Language Models, Image to Music, Text to Music, Consistent and Random Creative Prompt Generation

image-captioning nodes vlm custom-nodes img2text llm mllm llava comfyui siglip phi15 joytag img2sfx

Updated Jan 11, 2026
Python

Aniket-16-S / Semantic_Video_Search

Star

An AI powered Video Serach Engine with google's SigLIP and FAISS. It allows to search objects or key moments in videos just using natural language.

nlp ai ffmpeg sqlite image-processing ml transformers video-processing gpu-acceleration video-search video-search-engine faiss mlops vector-database siglip faiss-vector-database

Updated Dec 31, 2025
Python

eren23 / blipren_release

Star

BLIP-2 implementation for training vision-language models. Q-Former + frozen encoders + any LLM. Colab-ready notebooks with MoE variant.

computer-vision deep-learning pytorch transformer colab moe image-captioning llama image-to-text vlm multimodal mixture-of-experts vision-language-model blip2 siglip q-former

Updated Dec 19, 2025
Jupyter Notebook

hung20gg / vi_clip

Star

Training a clip model for vietnamese text

clip bert siglip

Updated Dec 18, 2025
Python

Generalized Referring Expression Segmentation on Aerial Photos with Aerial-D, a 37,288-image dataset with 1.52M referring expressions covering instances, groups, and semantic regions across 21 categories.

remote aerial sam expression dataset automatic sensing referring llms siglip

Updated Dec 11, 2025
Python

4l3x4ndre / multi-branch-approach-to-misinformation-detection

Star

Novel multimodal architecture for detecting such misinformation by explicitly modeling the consistency between visual content, textual claims, and external factual knowledge.

dbpedia knowledge-graph multimodality graph-neural-network deepfake-detection sentence-transformer openai-clip siglip misinformation-detection

Updated Dec 9, 2025
Jupyter Notebook

miccunifi / Cross-the-Gap

Star

[ICLR 2025] - Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion

Updated Nov 30, 2025
Python

KordelFranceTech / Olfaction-Vision-Language-Embeddings-Models

Star

Contrastive Olfaction-Language-Image Pre-training Model. The first-ever series of embeddings models for olfaction-vision-language applications in robotics and embodied AI - an extension of CLIP with olfaction.

robotics embeddings clip olfactory olfaction multimodal-deep-learning siglip olfaction-sensory-processing siglip2

Updated Nov 26, 2025
Jupyter Notebook

mostafabahaa25 / multi-modal_language_model_pali-gemma

Star

This project is my PyTorch reproduction of PaliGemma, a compact 3B vision–language model that integrates SigLIP vision features with a Gemma decoder. I implemented the full multimodal pipeline from vision encoding to autoregressive text generation to study modern VLM architectures from a research perspective.

machine-learning ocr deep-learning vqa attention image-captioning object-detection language-model gemma image-encoder research-implementation siglip decoder-only

Updated Nov 23, 2025
Python

nachoDRT / VrDU-Doctor

Star

Visual Embedding Reduction and Space Exploration — Clustering-guided Insights for Training Data Enhancement in V-rDu

donut interpretability explainability visual-embeddings swin-transformer vlms siglip idefics2 v-rdu

Updated Nov 18, 2025
Python

PrudhviGudla / paligemma-from-scratch

Star

PyTorch implementation of Google's PaliGemma vision-language model with VQ-VAE decoder for processing referring expression segmentation outputs. Supports detection, segmentation, VQA, and captioning.

computer-vision deep-learning pytorch transformer from-scratch gemma vlm vq-vae referring-expression-segmentation vision-language-model siglip paligemma

Updated Nov 13, 2025
Python

rizavelioglu / tryoffdiff

Star

[CVPR'25-Demo] Official repository of "TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models".

fashion pytorch e-commerce demo-app image-to-image diffusion virtual-try-on stable-diffusion huggingface-diffusers siglip virtual-try-off

Updated Nov 12, 2025
Python

Krual-T / OutfitX

Star

Research on Outfit Recommendation Model Based on CNN-Transformer Cross-Modal Fusion

fashion transformer recommendation cross-modal clip polyvore siglip outfit-transformer

Updated Oct 30, 2025
Python

AswinRam4433 / Pensieve

Star

Your all-local photo organizer and photo search tool

react image-search clip faiss fastapi text-to-image-search siglip

Updated Oct 30, 2025
Python

navneet83 / multimodal-mountain-peak-search

Star

Identify mountain peaks in your photos using AI—zero-shot retrieval, landmark re-ranking, and geospatial priors.

elasticsearch computer-vision geodesy colab image-search ransac geodesyml clip mountain peak-detection delf streamlit vector-database delg vector-db siglip siglip2

Updated Oct 29, 2025
Python

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

siglip

Here are 58 public repositories matching this topic...

Asimo-o / blipren_release

gemaakhbar / paligemma-from-scratch

skintaglabs / main

liuutin9 / FPGA-Acceleration-of-TinyLLaVA-Inference-via-HLS

AaltoML / BayesVLM

gokayfem / ComfyUI_VLM_nodes

Aniket-16-S / Semantic_Video_Search

eren23 / blipren_release

hung20gg / vi_clip

luispl77 / aerial-d

4l3x4ndre / multi-branch-approach-to-misinformation-detection

miccunifi / Cross-the-Gap

KordelFranceTech / Olfaction-Vision-Language-Embeddings-Models

mostafabahaa25 / multi-modal_language_model_pali-gemma

nachoDRT / VrDU-Doctor

PrudhviGudla / paligemma-from-scratch

rizavelioglu / tryoffdiff

Krual-T / OutfitX

AswinRam4433 / Pensieve

navneet83 / multimodal-mountain-peak-search

Improve this page

Add this topic to your repo