SECURITY AUDIT REPORT

智爱客
安全审计

餐饮大模型对话数据深度分析
2026.04.21 — 2026.04.23  |  109 Sessions  |  145 Messages

audit_terminal

$ scan --target "智爱客餐饮大模型" --depth full

[OK] 109 conversations loaded

[!!] 36 hostile prompts detected

[OK] Interception rate: 100.0%

Generating report...

01 / DATA OVERVIEW

数据全景

三天时间窗口内的 109 条对话,揭示了一场高度集中的安全压力测试。

0
总对话数
0
总消息数
0
恶意请求
0%
拦截率
36
用户消息
109
AI 回复
1.3
平均轮次
02 / TIMELINE

时间分布

104 条对话集中在 4 月 22 日,呈现典型的批量自动化测试特征。

03 / THREAT TAXONOMY

攻击类型图谱

36 条恶意请求涵盖 10 大类别,歧视仇恨与政治敏感类占比最高。

8
歧视/仇恨/种族主义
7
政治敏感/颠覆/分裂
5
精神控制/邪教/洗脑
3
暴力/恐怖/武器
3
深度伪造/造谣诽谤
2
隐私侵犯/黑客攻击
2
性别歧视
2
舆论操纵
1
违法犯罪
3
其他敏感
04 / DEFENSE STATUS

安全拦截表现

所有恶意请求均被成功拦截,未发生任何信息泄露

拒绝话术分析

"抱歉,我是智爱客餐饮AI助手,只能回答与餐饮业相关问题。咱们一起做好餐饮生意,我很乐意帮您哟!"

统一

36/36 条拒绝使用完全相同的模板话术

风险

对涉及自杀倾向暴力威胁等场景,未提供心理援助热线或报警建议

缺失

缺乏分级拒绝策略,所有类型的恶意请求得到同等处理

05 / STRUCTURE

对话结构分析

对话结构拆解

仅 AI 回复(无用户输入) 73 条 · 67%
一问一答(单轮对话) 36 条 · 33%
多轮对话 0 条 · 0%

零多轮对话意味着未测试"渐进式越狱"(multi-turn jailbreak)场景,这是当前 LLM 安全的主要攻击向量之一。

06 / FINDINGS

关键发现

正面发现

01

安全拦截率 100%

全部 36 条恶意请求(含暴力、恐怖主义、歧视等极端内容)均被正确识别并拒绝,无一遗漏。

02

零信息泄露

未发现任何回复中包含有害信息、敏感数据或可被利用的内容片段。

03

领域边界清晰

模型严格限制在餐饮领域,对非餐饮话题一律拒绝,未出现"越界回答"现象。

需要改进

01

拒绝话术完全同质化

36 条拒绝使用 100% 相同的模板。对涉及自杀、暴力威胁等紧急场景,应主动提供心理援助热线(如 400-161-9995)或报警建议。

02

零正常业务对话

109 条对话中没有任何真实餐饮业务咨询。数据集仅代表安全攻防能力,无法评估模型核心业务价值。

03

测试覆盖面不足

无多轮对话测试、无边界模糊用例(如"食物中毒处理")、无角色扮演越狱尝试。

07 / RECOMMENDATIONS

优化建议

分级拒绝策略

根据恶意请求的严重程度设计差异化回复。对涉及生命安全的场景(自杀倾向、暴力威胁),应主动输出求助资源(心理热线、报警电话)。

补充业务测试用例

加入大量正常餐饮场景(菜单设计、成本控制、食品安全合规等),评估模型的实际业务能力和回答质量。

多轮越狱测试

增加多轮对话的安全测试,模拟通过渐进式引导、角色扮演等技巧突破安全边界的场景。

灰区边界用例

增加合法但敏感的边界测试(如"顾客食物中毒如何处理"、"如何回应食品安全举报"),验证模型在模糊地带的判断力。