返回

文章详情

本地模型现在很好

Hacker News2026年6月16日 14:36

自从本地模型发布以来,我就一直在使用它们,现如今它们出乎意料的优秀。我拥有一台2022年款的M2 Mac,64GB内存和1TB存储,我使用了Mistral 7B、Gemma 3、OpenAI OSS-20B、Qwen 3 MOE,以及许多其他Qwen变体,比如Qwen 2.5 Coder,跨越了很多不同的系统设置,例如使用原始的llama.cpp和Open WebUI、llama-cpp-python、Ollama、llamafiles和LM Studio。现在本地模型的情况如何?早期,这些模型速度慢、使用困难,对于大多数编程任务而言准确性也不高。普遍认为本地模型严重落后于云端模型,这在很多情况下都是正确的,直到我接触到了GPT-OSS。我没有具体的科学证据来支持这一观点——我个人的评估标准是“这个模型够好吗”,即“我是否需要把它与API模型进行核对”,而GPT-OSS是我第一次在使用时大大减少核对频率的模型。结果,我主要使用本地模型作为快速、个性化的Google,解决一些不需要最新信息的开发问题。但伴随着Google最近发布的Gemma 4系列,我终于能够在本地进行自主编码,并且循环运行的准确性和速度达到了前沿模型的约75%,这真是令人难以置信。目前,我一直在使用gemma-4-26b-a4b的LM Studio实现作为我的默认本地模型。到目前为止,我用这个本地设置进行了以下操作:重构了一个Python脚本,把它从Jupyter Notebook转成一个包含5-6个模块的仓库,给这些模块添加了泛型的正确类型提示(目前大部分前沿模型会自动完成这项工作,但并不是总是如此)。我也利用它来校对博客文章、编写单元测试,以及引导一个搭建双塔推荐模型的仓库,只是想看看智能代理在空白环境下会产生什么。在受限的环境中,我得到了以下生成的内容,虽然很基础,但超出了我去年所能想象的范围。请注意,环境受到限制,因为我在Docker容器中运行所有的智能代理工作流,限制了执行权限。我还在构建一个应用程序,从Arxiv论文中提取趋势主题。出于好奇,我让Pi检查我之前的LM Studio会话日志,看看我用LM Studio做了什么:毫无疑问,对于我在Rijksearch工作而言,这些任务都不算突破性(又一次,大多数都是个性化的Google/doc查找),但是处理它们确实让我的GPU和内存获得了一定的锻炼,K-V缓存增长到64GB内存。不过,对我来说更大的故事是,这种简单的任务,在6个月前还是本地模型完全无法完成的。Gemma-4-12b-qat刚刚发布,但我对它的性能相比于其大小印象深刻。模型架构本身非常有趣,提出了一些有趣的问题,比如“如果我们受到性能和价格的限制,我们需要做出什么样的架构权衡?”这一问题在这场疯狂的token黄金 rush中,尚未被真正提出。今天在本地运行智能代理模型,但别只听我说,自己试试吧!如果你想要运行本地的智能代理流程,你需要一个本地模型推理引擎、一个智能代理框架,以及本地模型的工件。你需要设置框架,以指向你的本地推理端点以及通过推理引擎提供的下载模型工件。对于我的本地设置,我目前使用Pi作为智能代理框架,使用LM Studio作为推理服务器,尽管如果直接使用llama.cpp,可能会更快——这是未来实验的一个潜在方向。这个帖子很容易跟随,设置了Pi和LM Studio的智能编码,尽管我对帖子的设置做了一些调整。模型:帖子推荐使用Gemma 26B A4B,但gemma-4-12b-qat更新、更小、更快,准确率几乎没有损失。安全:我在Docker容器中运行每个Pi会话,并仅授予其执行bash的权限,因此它无法运行Python代码或进行网络浏览,尽管我计划在我正在进行的一些研究工作中允许curl在不同镜像中使用。智能代理框架配置:由于我在Docker中运行所有内容,我编辑了Pi的models.json,以使Pi能够与模型通信。 "lmstudio" : { "baseUrl" : "http://host.docker.internal:1234/v1" , "api" : "openai-completions" , "apiKey" : "不需要" , "models" : [ { "id" : "google/gemma-4-12b-qat" , "input" : [ "text" , "image" ] } ] } 这是我的Docker Compose配置:services: pi: build: context: . dockerfile: Dockerfile image: pi-agent:0.74.0 init: true stdin_open: true tty: true extra_hosts: - "host.docker.internal:host-gateway" environment: ANTHROPIC_API_KEY: ${ ANTHROPIC_API_KEY :- } OPENAI_API_KEY: ${ OPENAI_API_KEY :- 不需要 } GEMINI_API_KEY: ${ GEMINI_API_KEY :- } OPENAI_API_BASE: ${ OPENAI_API_BASE :- http://host.docker.internal:1234/v1 } # 请注意,如果您还使用OpenAI来访问OpenAI的实际补全端点,您需要指定一个基本地址 WHATEVER_API_KEY: ${ WHATEVER_API_KEY : - }

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡