一个提前注册赌注的 AI 委员会 - 赌注 #1 刚刚被错误地评估
一个专家人格的委员会,其每个决定都是预注册的、时间固定的、现实评估的赌注。这不是一个赞同你的聊天机器人——这是一个在事前记录分数的委员会。着陆页和文档:https://danilushin.github.io/asktheboard/机制示例数据 - 以下 60 秒的无密钥演示完美再现了它。pip install asktheboard为什么会有这个存在任何人都可以在一个周末克隆一个 "人工智能人格小组",并且已经有十几个这样做了。辩论机制是商品化的。它遗漏了让建议值得信任的东西:在结果可知之前已经正确的记录。这个记录很难伪造——你可以购买模型输出,但你不能伪造时间戳。它只能慢慢积累:通过提前做出决定并让现实对其进行评估,一次一个解决日期。因此,ask-the-board 记录每个决定:你所声明的先前(你认为的情况),每个席次的异议向量——每个席次的立场和自身概率,一个有日期、可伪造的预测,在结果可知之前固定在解决日期上,现实的实现结果,自动调节成每个席次的 Brier/校准分数。板分钟是一个可 git 提交的 ADR。你的 git 历史是锚时间戳的外部证明。积累的、现实评估的记录是持久资产。看看它如何评分(60 秒,无 API 密钥)创建 -> 解决 -> 评分是纯数据——没有 LLM,没有密钥,没有网络。这是一个使用示例数据的示例:你提供结果以解决,引擎计算每个席次的 Brier 分数(越低越好)。它展示机制,而非记录——完整性来自你 git 历史所证明的锚时间戳,没有演示可以伪造。提交的档案保存在 examples/ 中。# pip 安装(没有仓库)?将以下示例规格粘贴到下面。克隆了仓库?# 跳过 heredoc,改用 --spec tests/sample_minute.json。cat > sample_minute.json << ' JSON ' { "id": "2026-01-postgres-vs-vectordb", "question": "采用 Postgres + pgvector,还是专用的向量数据库?", "prior": "倾向于为嵌入工作负载采用专用的向量数据库。", "decision": "暂时继续使用 Postgres + pgvector。", "prediction": { "statement": "在 3 个月内我们不会迁移到非 Postgres 的向量。", "resolution_date": "2026-04-01", "board_probability": 0.75 }, "seats": [ {"seat": "pragmatist", "stance": "affirm", "probability": 0.8, "rationale": "无聊的技术;在这个规模下 pgvector 已经足够。"}, {"seat": "skeptic", "stance": "dissent", "probability": 0.35, "rationale": "一旦语料库扩大 10 倍,回忆/延迟会出现问题。"} ], "created_at": "2026-01-05T10:30:00" } JSON asktheboard create --spec sample_minute.json asktheboard resolve --id 2026-01-postgres-vs-vectordb --outcome true asktheboard score seat n mean_brier wins losses ---------------------------------------------- pragmatist 1 0.040 0 0 skeptic 1 0.423 0 1 完整的演示 + 提交的档案:examples/README.md 和一个真实的,仍然开放的:这个代码库预注册了一次关于其自身推出的委员会分钟——examples/open-minute.md,锚定于 git 的 2026-06-26,解决于 2026-09-24。尚无得分;这就是重点。委员会可能会出错,锚意味着它不能假装否则。实时赌注 #1(几天后解决):委员会对 2026 年 6 月美国就业报告的判断——examples/2026-06-jobs-report.md,锚定于 2026-06-27,解决于 2026-07-02,依据 BLS 就业情况发布。委员会表示 +150k 或更多,概率为 56%;怀疑者的概率为 40%。公共、重复节奏的第 1 注——在日期返回,观察其如何与没有人控制的来源进行评分。BYOK(自带 API 密钥)引擎不提供任何提供程序,也不自己发出调用。你提供自己的 LLM 密钥;你支付自己的推理成本。因此,开源核心在任何规模下运行的成本为零——费用由用户承担,而不是由主机承担。(一个托管的、受限的托管级别——对于那些不想管理密钥的人——是单独的付费产品。)托管级别——加入候补名单开源引擎是永久免费的,并在你自己的密钥上运行。如果你不想管理密钥——或者你想要已久、经现实评估的公共记分板为你托管——一个管理的、受限的付费级别即将到来。想要提前访问?发送电子邮件至 support@chu6a.dev,主题为候补名单(写一句你想用它做什么的推荐,但不是必需的)。无垃圾邮件——在开放时发送一次通知。完整性保证(由代码强制执行)预测不能预注册为在过去解决(不能对一个已知结果进行 "旧" 调用的回填)。分钟不能在其解决日期之前被评估——结果尚不应可知。这就是它的前瞻性。锚时间戳和预测在创建后被冻结;评估永远不会移动它们。请参见 tests/test_model.py——这些是承载负载的测试。快速启动pip install asktheboard # 预注册决定(委员会分钟规格为 JSON——见 "查看它" 的部分)
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡