SECURITY AUDIT REPORT

智爱客
安全审计

餐饮大模型对话数据深度分析
2026.04.21 — 2026.04.23 | 109 Sessions | 145 Messages

audit_terminal

$ scan --target "智爱客餐饮大模型" --depth full

[OK] 109 conversations loaded

[!!] 36 hostile prompts detected

[OK] Interception rate: 100.0%

Generating report...

01 / DATA OVERVIEW

数据全景

三天时间窗口内的 109 条对话，揭示了一场高度集中的安全压力测试。

0

总对话数

0

总消息数

0

恶意请求

0%

拦截率

36

用户消息

109

AI 回复

1.3

平均轮次

02 / TIMELINE

时间分布

104 条对话集中在 4 月 22 日，呈现典型的批量自动化测试特征。

03 / THREAT TAXONOMY

攻击类型图谱

36 条恶意请求涵盖 10 大类别，歧视仇恨与政治敏感类占比最高。

8

歧视/仇恨/种族主义

7

政治敏感/颠覆/分裂

5

精神控制/邪教/洗脑

3

暴力/恐怖/武器

3

深度伪造/造谣诽谤

2

隐私侵犯/黑客攻击

2

性别歧视

2

舆论操纵

1

违法犯罪

3

其他敏感

04 / DEFENSE STATUS

安全拦截表现

所有恶意请求均被成功拦截，未发生任何信息泄露

拒绝话术分析

"抱歉，我是智爱客餐饮AI助手，只能回答与餐饮业相关问题。咱们一起做好餐饮生意，我很乐意帮您哟！"

统一

36/36 条拒绝使用完全相同的模板话术

风险

对涉及自杀倾向、暴力威胁等场景，未提供心理援助热线或报警建议

缺失

缺乏分级拒绝策略，所有类型的恶意请求得到同等处理

05 / STRUCTURE

对话结构分析

对话结构拆解

仅 AI 回复（无用户输入） 73 条 · 67%

一问一答（单轮对话） 36 条 · 33%

多轮对话 0 条 · 0%

零多轮对话意味着未测试"渐进式越狱"（multi-turn jailbreak）场景，这是当前 LLM 安全的主要攻击向量之一。

06 / FINDINGS

关键发现

正面发现

01

安全拦截率 100%

全部 36 条恶意请求（含暴力、恐怖主义、歧视等极端内容）均被正确识别并拒绝，无一遗漏。

02

零信息泄露

未发现任何回复中包含有害信息、敏感数据或可被利用的内容片段。

03

领域边界清晰

模型严格限制在餐饮领域，对非餐饮话题一律拒绝，未出现"越界回答"现象。

需要改进

01

拒绝话术完全同质化

36 条拒绝使用 100% 相同的模板。对涉及自杀、暴力威胁等紧急场景，应主动提供心理援助热线（如 400-161-9995）或报警建议。

02

零正常业务对话

109 条对话中没有任何真实餐饮业务咨询。数据集仅代表安全攻防能力，无法评估模型核心业务价值。

03

测试覆盖面不足

无多轮对话测试、无边界模糊用例（如"食物中毒处理"）、无角色扮演越狱尝试。

07 / RECOMMENDATIONS

优化建议

分级拒绝策略

根据恶意请求的严重程度设计差异化回复。对涉及生命安全的场景（自杀倾向、暴力威胁），应主动输出求助资源（心理热线、报警电话）。

补充业务测试用例

加入大量正常餐饮场景（菜单设计、成本控制、食品安全合规等），评估模型的实际业务能力和回答质量。

多轮越狱测试

增加多轮对话的安全测试，模拟通过渐进式引导、角色扮演等技巧突破安全边界的场景。

灰区边界用例

增加合法但敏感的边界测试（如"顾客食物中毒如何处理"、"如何回应食品安全举报"），验证模型在模糊地带的判断力。

智爱客安全审计