AI 动作
AI 在 TG-SignPulse 中做什么
AI 主要负责解决机器人交互里“无法直接靠固定文本匹配”的步骤,例如:
- 图片验证码
- 诗句填空
- OCR 识别
- 简单计算题
- 根据题面推断要点击哪个按钮
启用前提
在系统设置里配置 AI:
API KeyBase URL,可选Model,可选
这些设置会保存到数据目录下的 .openai_config.json。
默认模型
系统默认模型是:
text
gpt-4o如果你在设置里指定了别的模型,系统会优先使用你填写的模型。
支持的 AI 动作
| 动作 | 用途 |
|---|---|
| 根据图片选择选项 | 识别题面和候选项,返回应该点击的按钮 |
| 回复计算题 | 读题后直接发送答案文本 |
| AI 识图后回复文本 | OCR 或视觉识别后把结果发出去 |
| AI 计算后点击按钮 | 先算出结果,再匹配同名按钮点击 |
自定义提示词
当前前端已经支持在 AI 动作编辑框中填写自定义提示词。
规则:
- 字段名是
ai_prompt - 留空则使用内置默认提示词
- 填写后只对当前这一步生效
- 关键词监听里的后续 AI 动作也支持这个能力
适合的自定义方式:
- 强调“只返回按钮文字”
- 强调“忽略图片上的 logo、水印、装饰元素”
- 强调“这是诗词填空,不是 OCR 原样抄写”
- 强调“只输出最终答案,不要解释”
当前默认提示词行为
系统内置了四类默认 system prompt。
1. 图片单选
用于“根据图片和题目,从选项里选一个答案”的场景。
默认要求模型:
- 理解图片和题面
- 选择唯一最合理的选项
- 返回 JSON
返回格式:
json
{"option":1,"reason":"short reason"}2. 图片/按钮验证
用于“根据图片、消息文本和按钮列表,决定要点哪些按钮以及顺序”的场景。
默认要求模型:
- 同时理解图片、caption、按钮文本
- 支持诗句填空、短语补全、图片问答、数学结果
- 返回按钮索引列表
返回格式:
json
{"options":[1],"reason":"short reason"}3. OCR 文本提取
用于“从图片里提取最相关文本并直接回复”的场景。
默认要求模型:
- 返回纯文本
- 不要 Markdown
- 不要解释
4. 计算题回答
用于“根据题目算出结果再回复”或“算出结果后去点击同名按钮”的场景。
默认要求模型:
- 只给出答案
- 不要解释
- 不输出额外内容
什么时候应该写自定义提示词
建议在这些场景下自定义:
- 机器人题面不是普通 OCR,而是语义题
- 按钮里有大量干扰项
- 你希望强制返回“按钮文字”或“编号”
- 题目经常是诗词、成语、谚语、顺序类任务
常见用法
识图后点击按钮
适合:
- “请完成诗句填空”
- “根据图片选出正确答案”
- “根据图中内容点击对应按钮”
推荐做法:
- 前一步先点击触发验证
- 下一步立即放一个 AI 点击类动作
- 如有必要,为这一步填写自定义提示词
OCR 后回文本
适合:
- 图片里直接有验证码文字
- 机器人要求把图上的内容发回去
计算后点按钮
适合:
- 按钮本身就是答案选项
- 机器人不是要你发文本,而是要点对应答案按钮
调试建议
- AI 动作失败时先检查
.openai_config.json是否正确 - 在设置里先测试 AI 连接
- 观察任务流程日志,看 AI 动作是“没有拿到候选按钮”还是“拿到结果后没有匹配到按钮”
- 如果默认提示词效果一般,给该动作补一个更明确的
ai_prompt