S-Agent는 공간 추론을 한 장면 예측이 아니라 3D 증거 축적으로 바꾼다
S-Agent는 VLM을 의미적 planner로 두고 2D grounding, 3D lifting, 공간 expert, scene/agent memory를 결합해 multi-view·video 공간 추론을 evidence accumulation 문제로 재정의한다.
Blog
S-Agent는 VLM을 의미적 planner로 두고 2D grounding, 3D lifting, 공간 expert, scene/agent memory를 결합해 multi-view·video 공간 추론을 evidence accumulation 문제로 재정의한다.
Moebius는 LλMI 블록과 latent-space distillation으로 226M 파라미터 이미지 인페인팅 모델을 만들고, 10B급 범용 생성 모델 대비 훨씬 낮은 비용의 품질-속도 절충점을 제시한다.
Meta Reality Labs의 CVPR 2026 논문 LAMP는 다중 카메라 헤드셋의 2D keypoint를 6-DoF pose로 3D ray cloud에 올린 뒤, LAMP-Net으로 metric 3D hu...
Google DeepMind의 arXiv 2604.17121은 feedforward Transformer가 긴 문맥 검색에는 강하지만, 시간에 따라 변하는 belief state를 반복 갱신하는 상태 추적에는 구...
AWS와 LangChain의 예제는 웹 리서치, 코드 분석, 장기 메모리, 관측성을 별도 MicroVM과 서브에이전트 경계로 나눠 컨텍스트 압박을 줄이는 실무형 리서치 에이전트 설계를 보여준다.
NVIDIA의 CuTe DSL 기반 MoE 융합 MLP 커널은 GEMM, GLU activation, quantization, transpose를 한 커널 경로로 묶고 tokens-per-expert 정보를 GP...
Z.AI의 GLM-5.2는 753B MoE, 1M-token context, IndexShare sparse attention, 개선된 MTP, slime RL 인프라, anti-hack guardrail을 묶어...
MiniMax Sparse Attention은 GQA 위에 경량 Index Branch를 붙여 GQA 그룹별 Top-k KV 블록만 정확 어텐션하고, 1M 컨텍스트에서 어텐션 compute와 wall-clock...
arXiv 2606.16774는 여러 모델의 실행 궤적과 judge 평가를 결합해 전이 가능한 스킬 트리를 만들고, CSRL로 스킬 조건부 rollout을 비교 학습하는 OpenClaw-Skill을 제안한다.
WeiboAI의 VibeThinker-3B는 Qwen2.5-Coder-3B 위에 Spectrum-to-Signal post-training, 다중 도메인 RL, offline self-distillation, C...
Qwable-v1은 Qwen3.6-35B-A3B 계열 reasoning distill 위에 Claude Fable-5 도구 사용 흔적을 한 번 더 SFT한 35B MoE 오픈 웨이트 모델이다. 공개된 근거는 ag...
arXiv 2606.14249는 prompt·tool·memory·control flow를 typed harness primitive로 분리하고, AEGIS trace-driven evolution과 cross-...
FLARE는 Qwen3.5 계열 하이브리드 어텐션 체크포인트를 약 10B 토큰 전이 학습으로 변환해, 한 체크포인트에서 AR 검증식 디코딩과 디퓨전 병렬 디노이징을 함께 지원하려는 dLLM 변환 프레임워크다.