Build software better, together

Kimosabey / vision-query

Enterprise vision-query Technical Architecture focusing on Scalability and High Performance.

distributed-systems ffmpeg scalability artificial-intelligence openai cognitive-systems video-search multimodal vision-ai backend-engineering openai-vision agentic-ai kimo-2026-roadmap senior-engineer-portfolio

Updated Mar 8, 2026

Hasan8123 / Breakup-Recovery-Agent

Star

The Breakup Recovery Agent is an AI-powered emotional support system built with Streamlit and Agno that coordinates a specialized team of Gemini agents to provide empathetic guidance and personalized healing plans. By analyzing user feelings and chat screenshots, it offers a multi-perspective approach to recovery through supportive therapy, closure

ai-agents vision-ai large-language-models llms mental-health-technology personalized-wellness

Updated Feb 23, 2026
Python

astik77 / nexusvisionAI-doc-assist

Star

"A full-stack AI document intelligence app built with React, FastAPI, and Google Gemini Vision. Supports instant extraction and chat for PDFs, Images, and Text files."

react artificial-intelligence tailwindcss gemini-api pdf-analyzer fastapi vercel-serverless vision-ai

Updated Mar 8, 2026
JavaScript

iuliaL / handwriting-2-text-converter

Star

Using Google Vision AI

nodejs handwriting-recognition google-vision google-vision-ocr handwriting-text-recognition vision-ai

Updated Feb 10, 2023
JavaScript

ksm26 / Reasoning-with-o1

Star

This repository explores OpenAI’s o1 model, a cutting-edge AI designed for abstract reasoning, coding, and vision-based tasks. It provides insights into o1’s strengths, advanced prompting techniques, task delegation, and real-world applications, enabling developers to build intelligent, high-performance AI-driven solutions.

machine-learning deep-learning openai task-automation ai-optimization future-ai vision-ai llm prompt-engineering ai-reasoning meta-prompting ai-innovation o1model stem-ai coding-with-ai

Updated Feb 5, 2025
Jupyter Notebook

WhatIsLoveOO / NicolaBlindAssistant

Star

"Nicola Blind Assistant" — мобільний додаток, який допомагає людям з вадами зору орієнтуватися в просторі, розпізнавати текст, об'єкти та обличчя, використовуючи сучасні технології."

machine-learning text-to-speech csharp algorithms dotnet compass mvvm face-recognition object-detection speech-to-text ocr-recognition magnifier maui blind-assistance ai-recognition dotnet-maui vision-ai

Updated Jan 20, 2025
LLVM

Ruthwik-Data / memora

Star

ai nextjs gemini product-management vercel vision-ai google-gemini

Updated Mar 18, 2026
TypeScript

kckang1103 / ScrapeGoats

Star

Web scraping and machine learning for sentiment analysis over the history of a term's usage on twitter.

javascript python machine-learning sentiment-analysis data-visualization web-scraping vision-ai

Updated May 2, 2023
Python

0xnomy / SnapQuery

Star

SnapQuery is a lightweight multimodal AI application that lets you interact with images through natural language. Powered by Groq's high-speed LLMs (LLaMA 4 Scout), it supports visual question answering, image captioning, and general chat.

vqa fastapi streamlit vision-ai

Updated Jul 9, 2025
Python

YooSungHyun / Transformer-OCR

Star

Transformer OCR by Torch Lightning

ocr deep-learning opticalcharacterrecognition deepspeed vision-ai torch-lightning transformer-ocr

Updated Feb 17, 2023
Python

Ayan03092005 / calorie_tracker

Star

Calorie Tracker Pro is a modern web app that analyzes food images to estimate calories and macronutrients using AI. Built with HTML, Tailwind CSS, Chart.js, Firebase, and Groq Vision models, it supports image upload/camera capture, interactive nutrient charts, history tracking, CSV export, and theme customization—all in a sleek glassmorphic UI.

javascript firebase computer-vision web-app chartjs image-recognition llama camera-api image-upload health-tech tailwindcss ai-powered vision-ai frontend-project

Updated Mar 28, 2026
HTML

ghaibhawishya-tech / visionprompt-ai

Star

AI-powered image analysis tool — upload any image and get smart, context-aware prompts generated instantly using vision LLMs

firebase typescript nextjs openai ai-tools vision-ai prompt-engineering

Updated Feb 24, 2026
TypeScript

RajhansJain / MULTI-LANGUAGE-INVOICE-EXTRACTOR-LLM

Star

AI-powered invoice understanding system using Vision + LLMs (Gemini API). Extracts structured fields from multilingual invoice images and enables intelligent natural language querying through a Streamlit application.

python gemini-api multimodal ai-project streamlit invoice-processing document-ai vision-ai llm generative-ai

Updated Feb 17, 2026
Python

kalpthakkar / ChromaVision-Object-aware-Image-Colorization

Star

AI-driven object-aware image colorization system that restores grayscale images with realistic, context-sensitive color mapping.

Updated Nov 20, 2025
Jupyter Notebook

RealUnfazed / PyCVision

Star

PyCVision is a Python-based real-time object detection system powered by the YOLOv3 (You Only Look Once) algorithm. This project leverages the efficiency and accuracy of YOLOv3 for detecting and classifying multiple objects in live video streams or static images.

python ai computer-vision cv artificial-intelligence cv2 simple-ai python-ai vision-ai ai-vision

Updated Jan 22, 2025
Python

KalaINC / AskTheManual

Star

Multimodal RAG pipeline to transform static PDF manuals into image-aware AI chatbots. Local, secure, and transparent.

chatbot customer-support knowledge-base self-service multimodal rag customer-experience pdf-extraction streamlit ai-assistant vision-ai local-llm ollama docling

Updated Feb 11, 2026
Python

seankrux / captcha-assasin

Star

Chrome extension that uses Vision AI to solve captchas. Supports Claude, GPT-4o, Gemini, Qwen-VL, and local Ollama models.

chrome-extension automation ai computer-vision gemini browser-automation captcha-solver claude gpt4 vision-ai ollama

Updated Apr 1, 2026
JavaScript

drakyanerlanggarizkiwardhana / Stable-Diffusion-With-midjourney4

Star

machine-learning image-processing generative-adversarial-network huggingface-transformers vision-ai

Updated Mar 26, 2023
Jupyter Notebook

tiagorcfortunato / inspection-management-api

Star

Production REST API with autonomous Vision AI classification for infrastructure inspections. Explainable AI rationale, structured LLM output. FastAPI · Groq Vision AI · LangChain · LangSmith · PostgreSQL · Docker.

computer-vision rest-api postgresql fastapi vision-ai langchain langsmith production-api groq-llm

Updated Apr 9, 2026
Python

MaharshPatelX / qwen-clip-multimodal

Star

Multimodal Vision-AI: CLIP eyes + Qwen2.5 brain, 155 K-step pipeline & demo.

computer-vision deep-learning pytorch clip multimodal vision-ai qwen2-5

Updated Jun 13, 2025
Python

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

vision-ai

Here are 96 public repositories matching this topic...

Kimosabey / vision-query

Hasan8123 / Breakup-Recovery-Agent

astik77 / nexusvisionAI-doc-assist

iuliaL / handwriting-2-text-converter

ksm26 / Reasoning-with-o1

WhatIsLoveOO / NicolaBlindAssistant

Ruthwik-Data / memora

kckang1103 / ScrapeGoats

0xnomy / SnapQuery

YooSungHyun / Transformer-OCR

Ayan03092005 / calorie_tracker

ghaibhawishya-tech / visionprompt-ai

RajhansJain / MULTI-LANGUAGE-INVOICE-EXTRACTOR-LLM

kalpthakkar / ChromaVision-Object-aware-Image-Colorization

RealUnfazed / PyCVision

KalaINC / AskTheManual

seankrux / captcha-assasin

drakyanerlanggarizkiwardhana / Stable-Diffusion-With-midjourney4

tiagorcfortunato / inspection-management-api

MaharshPatelX / qwen-clip-multimodal

Improve this page

Add this topic to your repo