AI 动作

AI 在 TG-SignPulse 中做什么

AI 主要负责解决机器人交互里“无法直接靠固定文本匹配”的步骤，例如：

图片验证码
诗句填空
OCR 识别
简单计算题
根据题面推断要点击哪个按钮

启用前提

在系统设置里配置 AI：

API Key
Base URL，可选
Model，可选

这些设置会保存到数据目录下的 .openai_config.json。

默认模型

系统默认模型是：

text

gpt-4o

如果你在设置里指定了别的模型，系统会优先使用你填写的模型。

支持的 AI 动作

动作	用途
根据图片选择选项	识别题面和候选项，返回应该点击的按钮
回复计算题	读题后直接发送答案文本
AI 识图后回复文本	OCR 或视觉识别后把结果发出去
AI 计算后点击按钮	先算出结果，再匹配同名按钮点击

自定义提示词

当前前端已经支持在 AI 动作编辑框中填写自定义提示词。

规则：

字段名是 ai_prompt
留空则使用内置默认提示词
填写后只对当前这一步生效
关键词监听里的后续 AI 动作也支持这个能力

适合的自定义方式：

强调“只返回按钮文字”
强调“忽略图片上的 logo、水印、装饰元素”
强调“这是诗词填空，不是 OCR 原样抄写”
强调“只输出最终答案，不要解释”

当前默认提示词行为

系统内置了四类默认 system prompt。

1. 图片单选

用于“根据图片和题目，从选项里选一个答案”的场景。

默认要求模型：

理解图片和题面
选择唯一最合理的选项
返回 JSON

返回格式：

json

{"option":1,"reason":"short reason"}

2. 图片/按钮验证

用于“根据图片、消息文本和按钮列表，决定要点哪些按钮以及顺序”的场景。

默认要求模型：

同时理解图片、caption、按钮文本
支持诗句填空、短语补全、图片问答、数学结果
返回按钮索引列表

返回格式：

json

{"options":[1],"reason":"short reason"}

3. OCR 文本提取

用于“从图片里提取最相关文本并直接回复”的场景。

默认要求模型：

返回纯文本
不要 Markdown
不要解释

4. 计算题回答

用于“根据题目算出结果再回复”或“算出结果后去点击同名按钮”的场景。

默认要求模型：

只给出答案
不要解释
不输出额外内容

什么时候应该写自定义提示词

建议在这些场景下自定义：

机器人题面不是普通 OCR，而是语义题
按钮里有大量干扰项
你希望强制返回“按钮文字”或“编号”
题目经常是诗词、成语、谚语、顺序类任务

常见用法

识图后点击按钮

适合：

“请完成诗句填空”
“根据图片选出正确答案”
“根据图中内容点击对应按钮”

推荐做法：

前一步先点击触发验证
下一步立即放一个 AI 点击类动作
如有必要，为这一步填写自定义提示词

OCR 后回文本

适合：

图片里直接有验证码文字
机器人要求把图上的内容发回去

计算后点按钮

适合：

按钮本身就是答案选项
机器人不是要你发文本，而是要点对应答案按钮

调试建议

AI 动作失败时先检查 .openai_config.json 是否正确
在设置里先测试 AI 连接
观察任务流程日志，看 AI 动作是“没有拿到候选按钮”还是“拿到结果后没有匹配到按钮”
如果默认提示词效果一般，给该动作补一个更明确的 ai_prompt

AI 动作 ​

AI 在 TG-SignPulse 中做什么 ​

启用前提 ​

默认模型 ​

支持的 AI 动作 ​

自定义提示词 ​

当前默认提示词行为 ​

1. 图片单选 ​

2. 图片/按钮验证 ​

3. OCR 文本提取 ​

4. 计算题回答 ​

什么时候应该写自定义提示词 ​

常见用法 ​

识图后点击按钮 ​

OCR 后回文本 ​

计算后点按钮 ​

调试建议 ​

AI 动作

AI 在 TG-SignPulse 中做什么

启用前提

默认模型

支持的 AI 动作

自定义提示词

当前默认提示词行为

1. 图片单选

2. 图片/按钮验证

3. OCR 文本提取

4. 计算题回答

什么时候应该写自定义提示词

常见用法

识图后点击按钮

OCR 后回文本

计算后点按钮

调试建议