coefu

coefu

V2EX 第 616381 号会员,加入于 2023-02-28 17:15:35 +08:00
今日活跃度排名 6877
根据 coefu 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
coefu 最近回复了
2 天前
回复了 kfpenn 创建的主题 职场话题 v2er 大佬们, offer 选择求助
一个十多年都没嗝屁的玩具厂,还是有点东西的,还能随时代做转变,如果是我,我会选择 A 。因为 A 会更看重你,这对能力的提升是有帮助的。如果你有心,后续是有更多思路去观察制造业。

在 B 里,随时可有可无,没有存在感,随时 fire 你。讲真,要么做量化,要么做融资,但是股票期货,我更多相信是量化,但是量化的 coder ,讲真,当前的 LLM coder 针对的就是这种。主体在境外的,如果受限各种 zc ,一旦波动,fire 一个 team 太正常。 你能在这里拓展金融业甚至量化的可能,比较低,都是螺丝钉。

年轻人,大小周是一个点,但是也不能太短视。
2 天前
回复了 Myst 创建的主题 职场话题 现在还需要时时刻刻追求新技术吗?
我每天都在起来之后和睡前,关注新进展,无他,兴趣使然。

不要 FOMO 热点,这是我的经验。找自己喜欢的方向跟一下。
2 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
RAG 有门槛的,要一些工程优化的手段。准不准的关键在 rerank 。 当然了,细节上肯定是有语义丢失的,要想更精准,还是要新东西支持。RAG 本身就是个过渡方案。一两年之后,还有没有人继续用都是个问题。

给你介绍几个路线,免得被说嘴炮了:
1 ,又多又准,又省资源的路线: https://github.com/EverMind-AI/MSA ,这个技术可以将知识放到内存,省显存方案

2 ,又快又准: https://github.com/mempalace/mempalace ,启动 token O(1) 级别的快,还能记的准。

1 ,难一点,2 ,简单一点。
@coefu #6 all, qwen3.6 35B A3B 开源了,打榜分数确实更强,我打我自己的脸。
先试 llama.cpp 的 8 卡 tensor parallel 。反正一年前的 8 卡 TP 模式,是有点问题的,不知道修复没有。如果不行,就上 vllm 。
unsloth/Qwen3.5-397B-A17B-GGUF, UD-Q6_K,327G,留 50G 跑 context ,看情况;如果 context 不够,就换 UD-Q4_K_XL ,245G ,留 130G 跑 context ,肯定够的。

IDE 用开源的 continue 即可。想完全 agent ,估计够呛,你自己得盯着。local 的能力肯定不如云端 api 的。
agent 这条路,本身就是跑不通的。理论决定了。

每次 agent 的成功率到不了 100%,N 步之后,就会降到低于 1%,完全失败。云端无非就是用巨量资源让这个 N 长到能覆盖每个人的任务。端侧的这个 N 因为资源的限制,比云端 api 要低几个数量级。

云端 api 的体验,在 local 本地,基本上就无法体验到,理论决定了。
@enihcam #36 A16 这种,配合 LatentMAS ,实际上是当前最佳方案了。同一张卡有 4 个 gpu ,可以跑 4 个 qwen3.5 9B Q8 ,合作的好的话,能力提升是指数级的。
5 天前
回复了 RatioPattern 创建的主题 Local LLM 32B 本地 vibe coding 有能用的模型吗
要用好,需要很多绝招。比较难搞,但也并不是搞不成。

用多个 agent 并行,并且改造成隐式推理,用 LatentMAS 技术( https://arxiv.org/abs/2511.20639https://github.com/Gen-Verse/LatentMAS ),这个要改 模型的 transformer 架构,将 kvcache 流动起来,对显存也有挑战。 多个 agent 并行隐式推理,能保证速度,多个 agent 也能提升智能。

就算是 Qwen3.5-35B-A3B 的 BF16 ,也有 70GB 了,长 context 的 kvcache + LatentMAS 本身也要显存,估计单卡 128G ,可以搞。
@coefu #37 不过,mi50 夸张的 1.02T/s bandwidth + pcie 4.0 ,足够有吸引力了.
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2463 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 15:56 · PVG 23:56 · LAX 08:56 · JFK 11:56
♥ Do have faith in what you're doing.