multimodal-deep-learning

Here are 518 public repositories matching this topic...

akusayudodograu / Agentic-RAG-Story-Generation-with-Multimodal-GenAI

Multimodal Agentic GenAI Workflow – Seamlessly blends retrieval and generation for intelligent storytelling

story-generation multimodal-learning multimodal multimodal-deep-learning vision-language vision-language-transformer generative-ai vision-language-model multimodal-large-language-models generative-ai-model agentic-workflow agentic-rag agentic-ai internvl2

Updated Nov 13, 2025

Aileupfield687 / multimodal-rag-engine

Star

🔍 Build a production-ready RAG system for multi-modal search across text, images, audio, and video using LangChain and LLMs for effective knowledge retrieval.

python embeddings question-answering searching-algorithms clip semantic-search bm25 multimodal multimodal-deep-learning fastapi vector-search sentence-transformers llm langchain chromadb retrieval-augmented-generation deepseek multimodal-ai

Updated Nov 13, 2025

UKiyooooo / multimodal-rag-engine

Star

🔍 Build an advanced RAG system for multi-modal search across text, images, audio, and video, enhancing knowledge retrieval and question answering.

embeddings clip semantic-search bm25 pinecone multimodal multimodal-deep-learning rag fastapi vector-search sentence-transformers llm langchain chromadb genai deepseek huggingface-clip multimodal-ai

Updated Nov 13, 2025

Air00100 / domain-normalizer

Star

🌐 Normalize and parse domain names from messy input, cleaning errors and preserving structure for easier use and analysis.

authentication email phone-number pytorch eeg transfer-learning image-to-text bci multi-modal hacktoberfest latent-variable-models chromatin domain-adaptation scripture-references conditional-vae multimodal-deep-learning unsupervised-domain-adaptation vision-language

Updated Nov 13, 2025
Go

Maheee000 / embodied-temporal-reasoning

Star

🌐 Enhance embodied AI with continuous vision-language understanding for dynamic environment adaptation and achieve accurate multi-step temporal reasoning.

computer-vision robotics multimodal multimodal-deep-learning embodied-artificial-intelligence temporal-reasoning embodied-agent embodied-ai habitat-sim llava

Updated Nov 13, 2025
Python

batiktechstyle / Multimodal-VLM-v1.0

Star

🖼️ Enhance image and video inference with a powerful multimodal vision-language model, integrating advanced document processing and OCR capabilities.

open-source computer-vision gradio opencv-python multimodal-learning multimodal-deep-learning huggingface-transformers vision-transformer vision-language-model

Updated Nov 13, 2025
Python

The Rakuten deep learning challenge project is to build a supervised multimodal classifier (text + image) to predict the product category and tackle class imbalance, multilingual text, and heterogeneous visuals.

nlp docker kubernetes airflow grafana vit resnet-50 classification-model cnn-classification multimodal-deep-learning mlops vision-language-model dagshub

Updated Nov 13, 2025
Jupyter Notebook

Devanshpandey / preCog-Multimodal-AI-for-Precision-Cardiology

Star

Code used for training preCog

risk-modelling multimodal-deep-learning disease-prediction

Updated Nov 12, 2025
Jupyter Notebook

plaban / fllm-aut25

Star

This is the webpage repository of Foundation of LLM course offered by Department of AI, IIT Kharagpur.

machine-learning deep-learning transformers gpt multimodal-deep-learning large-language-models llms agentic-ai

Updated Nov 12, 2025
Jupyter Notebook

zhoubohan0 / MEgoHand

Star

[NeurIPS 2025] Official implementation of MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation

multimodal-deep-learning hand-object-interaction motion-generation

Updated Nov 12, 2025
Python

Yutong-Zhou-cv / Awesome-Text-to-Image

Star

(ෆ`꒳´ෆ) A Survey on Text-to-Image Generation/Synthesis.

survey generative-adversarial-network image-manipulation image-generation text-to-image image-synthesis multimodal multimodal-deep-learning awseome-list text-to-face

Updated Nov 12, 2025

willxxy / ECG-Bench

Star

A Unified Framework for Benchmarking Generative Electrocardiogram-Language Models (ELMs)

machine-learning deep-learning ecg ecg-signal physiological-signals biosignals electrocardiogram multimodal-learning multimodal multimodal-deep-learning large-language-models llm generative-ai multimodal-large-language-models signal-preprocessing

Updated Nov 11, 2025
Python

multimindlab / multimind-sdk

Star

Your SDK solves all of this. One interface. Unified logic. Local + hosted models. Fine-tuning. Agent tools. Enterprise-ready. Hybrid RAG.Star 🌟 if you like it!

Updated Nov 11, 2025
Python

GerrySant / multimodalhugs

Star

MultimodalHugs is an extension of Hugging Face that offers a generalized framework for training, evaluating, and using multimodal AI models with minimal code differences, ensuring seamless compatibility with Hugging Face pipelines.

multimodal multimodal-deep-learning huggingface huggingface-transformers multimodal-large-language-models