本地模型现在很好

自从本地模型发布以来，我就一直在使用它们，现如今它们出乎意料的优秀。我拥有一台2022年款的M2 Mac，64GB内存和1TB存储，我使用了Mistral 7B、Gemma 3、OpenAI OSS-20B、Qwen 3 MOE，以及许多其他Qwen变体，比如Qwen 2.5 Coder，跨越了很多不同的系统设置，例如使用原始的llama.cpp和Open WebUI、llama-cpp-python、Ollama、llamafiles和LM Studio。现在本地模型的情况如何？早期，这些模型速度慢、使用困难，对于大多数编程任务而言准确性也不高。普遍认为本地模型严重落后于云端模型，这在很多情况下都是正确的，直到我接触到了GPT-OSS。我没有具体的科学证据来支持这一观点——我个人的评估标准是“这个模型够好吗”，即“我是否需要把它与API模型进行核对”，而GPT-OSS是我第一次在使用时大大减少核对频率的模型。结果，我主要使用本地模型作为快速、个性化的Google，解决一些不需要最新信息的开发问题。但伴随着Google最近发布的Gemma 4系列，我终于能够在本地进行自主编码，并且循环运行的准确性和速度达到了前沿模型的约75%，这真是令人难以置信。目前，我一直在使用gemma-4-26b-a4b的LM Studio实现作为我的默认本地模型。到目前为止，我用这个本地设置进行了以下操作：重构了一个Python脚本，把它从Jupyter Notebook转成一个包含5-6个模块的仓库，给这些模块添加了泛型的正确类型提示（目前大部分前沿模型会自动完成这项工作，但并不是总是如此）。我也利用它来校对博客文章、编写单元测试，以及引导一个搭建双塔推荐模型的仓库，只是想看看智能代理在空白环境下会产生什么。在受限的环境中，我得到了以下生成的内容，虽然很基础，但超出了我去年所能想象的范围。请注意，环境受到限制，因为我在Docker容器中运行所有的智能代理工作流，限制了执行权限。我还在构建一个应用程序，从Arxiv论文中提取趋势主题。出于好奇，我让Pi检查我之前的LM Studio会话日志，看看我用LM Studio做了什么：毫无疑问，对于我在Rijksearch工作而言，这些任务都不算突破性（又一次，大多数都是个性化的Google/doc查找），但是处理它们确实让我的GPU和内存获得了一定的锻炼，K-V缓存增长到64GB内存。不过，对我来说更大的故事是，这种简单的任务，在6个月前还是本地模型完全无法完成的。Gemma-4-12b-qat刚刚发布，但我对它的性能相比于其大小印象深刻。模型架构本身非常有趣，提出了一些有趣的问题，比如“如果我们受到性能和价格的限制，我们需要做出什么样的架构权衡？”这一问题在这场疯狂的token黄金 rush中，尚未被真正提出。今天在本地运行智能代理模型，但别只听我说，自己试试吧！如果你想要运行本地的智能代理流程，你需要一个本地模型推理引擎、一个智能代理框架，以及本地模型的工件。你需要设置框架，以指向你的本地推理端点以及通过推理引擎提供的下载模型工件。对于我的本地设置，我目前使用Pi作为智能代理框架，使用LM Studio作为推理服务器，尽管如果直接使用llama.cpp，可能会更快——这是未来实验的一个潜在方向。这个帖子很容易跟随，设置了Pi和LM Studio的智能编码，尽管我对帖子的设置做了一些调整。模型：帖子推荐使用Gemma 26B A4B，但gemma-4-12b-qat更新、更小、更快，准确率几乎没有损失。安全：我在Docker容器中运行每个Pi会话，并仅授予其执行bash的权限，因此它无法运行Python代码或进行网络浏览，尽管我计划在我正在进行的一些研究工作中允许curl在不同镜像中使用。智能代理框架配置：由于我在Docker中运行所有内容，我编辑了Pi的models.json，以使Pi能够与模型通信。 "lmstudio" : { "baseUrl" : "http://host.docker.internal:1234/v1" , "api" : "openai-completions" , "apiKey" : "不需要" , "models" : [ { "id" : "google/gemma-4-12b-qat" , "input" : [ "text" , "image" ] } ] } 这是我的Docker Compose配置：services: pi: build: context: . dockerfile: Dockerfile image: pi-agent:0.74.0 init: true stdin_open: true tty: true extra_hosts: - "host.docker.internal:host-gateway" environment: ANTHROPIC_API_KEY: ${ ANTHROPIC_API_KEY :- } OPENAI_API_KEY: ${ OPENAI_API_KEY :- 不需要 } GEMINI_API_KEY: ${ GEMINI_API_KEY :- } OPENAI_API_BASE: ${ OPENAI_API_BASE :- http://host.docker.internal:1234/v1 } # 请注意，如果您还使用OpenAI来访问OpenAI的实际补全端点，您需要指定一个基本地址 WHATEVER_API_KEY: ${ WHATEVER_API_KEY : - }