关于
AI工具排名2026:我们如何评分和测试新AI工具
AI工具排名2026:AI Tools Radar如何测试工具、评估免费与付费版本,并给出Use/Watch/Skip评级。透明的评测方法论。
简短回答: AI Tools Radar的AI工具排名2026不是人气投票。我们通过发布门槛、动手测试、通俗易懂的评级和公开变更日志对工具进行评分。本页面详细说明了每个Use、Watch和Skip标签背后的完整方法论。日常规则请阅读编辑政策。实际案例请参见2026年6月第一周新AI工具、Manus AI评测(2026)、SlideAI评测(2026)和2026年最新AI模型对比。
最后更新:2026年6月2日。
排名概览(一张表)
| 阶段 | 我们做什么 | 输出 |
|---|---|---|
| 扫描 | AIxploria、TAAFT、ddgs、HN Algolia | 长名单 |
| 筛选 | 仅三条赛道 | 带赛道标签的短名单 |
| 门槛 | 满足2+标准才进行完整评测 | 评测/雷达/跳过 |
| 测试 | 注册+一个真实工作流 | 笔记+截图 |
| 评分 | Use / Watch / Skip | 评级+适用人群 |
| 发布 | 雷达、评测或专题 | 带日期的URL+变更日志 |
| 刷新 | 定价和服务条款 | 更新updatedDate |
变更日志
- 2026-05-15: 方法论页面发布。与prompt.md v1.2和编辑政策保持一致。
- 2026-06-02: 6月发布周使用的内部研究流程。
- 2026-06-02: 对雷达URL和评级与已发布评测(Manus、Dokie → 在满足试点标准前为Watch)的一致性进行事实核查。
三条赛道(硬性筛选)
我们只覆盖属于以下类别的工具:
- 智能体: 自主或半自主任务执行器(Manus、Genspark、ChatGPT agent模式)。
- 创作者/幻灯片: 演示文稿、视频、图像、UGC(SlideAI、Dokie、Kling)。
- 构建者: IDE、网站生成器、API路由器(Cursor、Lovable、OpenRouter)。
如果工具不符合上述类别,我们会Skip,除非它是模型专题的纯模型更新。

发布门槛(完整评测 vs 雷达)
当满足两项或以上条件时,工具将获得完整评测(2,000+字):
| 标准 | 信号 |
|---|---|
| 搜索需求 | Google/Bing自动补全显示评测或定价查询 |
| 热度 | HN、Product Hunt、AIxploria投票或持续的ddgs新闻 |
| 赛道匹配 | 明确属于智能体、创作者或构建者任务 |
| 可测试 | 注册并完成一个工作流约需2小时以内 |
| 政策安全 | 无越狱、伪装、面部搜索、未过滤成人内容 |
否则:
| 决定 | 条件 |
|---|---|
| 仅雷达 | 有趣但需求薄弱或测试不完整 |
| Watch | 有前景;定价或权限未验证 |
| Skip | 不在赛道内、政策风险或已有更好的现有工具 |
研究来源(至少三个类别)
发布前我们要求至少来自七个类别中的三个的证据:
- ddgs网页搜索(评测、定价、投诉、变更日志)
- Google自动补全
- Bing自动建议
- Bing SERP竞争度(仅相对难度)
- Hacker News Algolia
- AI目录(AIxploria、TAAFT、Product Hunt、Toolify、Futurepedia)
- 厂商文档和定价页面
我们不会仅凭单一联盟推广列表来确认定价。
动手测试清单
每个雷达工具都会经历:
- 注册阻力记录(邮箱、信用卡、等候名单)
- 在赛道内完成一个真实任务(幻灯片、短视频、落地页、智能体任务简报)
- 定价截图带日期戳
- 导出检查(PPTX、MP4、CSV、部署URL)
- 我们实际遇到的失败场景
完整评测额外包含:
- 与两个竞品的对比表格
- 带具体说明的优缺点
- 适用人群/关注/跳过表格
- 五到八个常见问题
我们会说明未测试的内容(企业SSO、SOC 2、团队版、所有语言区域)。
评级定义
Use
- 目标受众本周即可获得价值
- 定价可理解或有证据明确标注为需验证
- 政策和导出路径对所述使用场景可接受
Watch
- 产品尚未成熟,或
- 权利(视频音乐、虚拟形象、广告)不明确,或
- 免费层营销与导出现实不符,或
- 搜索需求上升但测试未完成
Skip
- 同赛道中已有更好的工具被评为Use
- 编辑政策限制(伪装、监控、未过滤成人内容)
- 无有意义的搜索需求且无热度
评分维度(内部评估标准)
我们不发布虚假的0到100分评分。我们使用五个内部问题:
| 问题 | 权重 |
|---|---|
| 能否端到端完成工作? | 高 |
| 计划页面的定价是否真实? | 高 |
| 读者能在30分钟内重复我们的测试吗? | 中 |
| 替代品是否明显更好? | 高 |
| 政策和客户安全? | 否决项 |
在否决项或高权重项目上出现两个否通常会导致Skip或Watch。
自有产品披露(SlideAI)
SlideAI的评测方式与其他工具相同。我们:
- 使用与第三方工具相同的测试清单
- 公开局限性(设计精细度、积分上限)
- 公正地链接Dokie、Gamma和Copilot
- 在评测和对比文章顶部放置披露声明
其他位置的联盟链接不会自动推广SlideAI。
模型专题 vs 工具评测
模型发布(GPT-5.5、Claude Opus 4.8、DeepSeek V4)更新:
当搜索需求与消费级产品发布在同一周飙升时,我们会在雷达中提及模型。我们不会为每次API更新撰写完整的工具评测。
更新和更正
- 雷达: 每个日历周一个新slug(
new-ai-tools-2026-june-week-2) - 评测/专题: 相同URL,更新
updatedDate,添加变更日志要点 - 更正: 通过联系我们发邮件;事实性错误尽快修复
我们避免的内容
与编辑政策保持一致:
- 未标注的纯AI评测,无人工测试
- 越狱、检测器垃圾信息、监控核心内容报道
- 未加测试笔记的厂商营销文案
- 大量使用破折号的散文(所有文章的样式规则)
读者如何使用我们的排名
- 从最新雷达文章中的速览表格开始。
- 当你决定选用某家厂商时,打开完整评测。
- 在责怪工具给出差结果前,先查看模型专题。
- 购买年度计划前,阅读流失文章如我们停止使用的AI工具。
内部链接(示例)
| 类型 | URL |
|---|---|
| 智能体评测 | Manus AI评测(2026) |
| 幻灯片评测 | SlideAI评测(2026) |
| 模型专题 | 2026年最新AI模型对比 |
| 每周雷达 | 6月第一周 |
| 自由职业指南 | 用AI工具赚钱(2026) |
| 智能体对比 | Manus vs ChatGPT Agent vs Claude |
底线: 这里的AI工具排名2026意味着门槛、测试、评级、变更日志。当工作需求和定价真实时使用Use。当权利或账单仍有问题时Watch。当政策或现有工具胜出时Skip。法律和独立性声明请阅读编辑政策。
常见问题
6 个问题什么是Use、Watch和Skip?
Use表示值得立即尝试。Watch表示有前景但尚未成熟、定价不明确或适用面窄。Skip表示已有更好的替代品、存在政策风险或没有有意义的搜索需求。
联盟链接会影响排名吗?
不会。联盟链接可能为网站提供资金支持,但不会将某个工具从Skip提升为Use。赞助文章在发布时会标注。
你们每周测试多少工具?
雷达文章最多测试七款。当通过发布门槛时,每月发布一到两篇完整评测。我们不会发布50款工具的垃圾清单。
你们如何处理自研产品SlideAI?
SlideAI采用相同的测试清单,并在评测和对比文章中明确披露。我们会公正地列出其局限性和竞品。
简要编辑政策在哪里?
请参阅/editorial-policy/了解公开规则。本页面更详细地解释了评分方法和研究步骤。
你们多久更新一次评分?
雷达每周更新新内容。当定价或功能发生变化时,评测和专题页面会更新updatedDate。重大方法论变更会在此页面记录变更日志。
更多文章
查看全部
GLM-5.2:开源前沿模型,百万上下文、基准测试与本地部署指南(2026)
GLM-5.2 是智谱 AI 推出的 744B 开源权重模型,MIT 许可证。基准测试、定价、vLLM 和 llama.cpp 本地部署,以及与 Claude Opus 4.8 和 GPT-5.5 的对比。
模型

Kimi K2.7 Code(2026):1T MoE 编程模型、基准测试与定价
Kimi K2.7 Code:Moonshot AI 推出的 1T 开源编程模型,32B 激活 MoE,preserve_thinking 模式,对比 GPT-5.5 和 Claude Opus 基准测试。
模型

MiniMax M3开源版(2026):428B模型、百万上下文与基准测试
MiniMax M3:428B开放权重模型,通过稀疏注意力实现百万上下文,原生多模态输入,编程基准测试有竞争力,价格比GPT-5.5便宜10倍。
模型

美国政府封禁Anthropic Fable 5与Mythos 5(2026)
美国政府封禁Anthropic:商务部于2026年6月12日下令暂停Fable 5和Mythos 5。长达四个月的冲突完整时间线。
模型