📢 Gate广场独家活动: #PUBLIC创作大赛# 正式开启!
参与 Gate Launchpool 第 297 期 — PublicAI (PUBLIC),并在 Gate广场发布你的原创内容,即有机会瓜分 4,000 枚 $PUBLIC 奖励池!
🎨 活动时间
2025年8月18日 10:00 – 2025年8月22日 16:00 (UTC)
📌 参与方式
在 Gate广场发布与 PublicAI (PUBLIC) 或当前 Launchpool 活动相关的原创内容
内容需不少于 100 字(可为分析、教程、创意图文、测评等)
添加话题: #PUBLIC创作大赛#
帖子需附带 Launchpool 参与截图(如质押记录、领取页面等)
🏆 奖励设置(总计 4,000 枚 $PUBLIC)
🥇 一等奖(1名):1,500 $PUBLIC
🥈 二等奖(3名):每人 500 $PUBLIC
🥉 三等奖(5名):每人 200 $PUBLIC
📋 评选标准
内容质量(相关性、清晰度、创意性)
互动热度(点赞、评论)
含有 Launchpool 参与截图的帖子将优先考虑
📄 注意事项
所有内容须为原创,严禁抄袭或虚假互动
获奖用户需完成 Gate广场实名认证
Gate 保留本次活动的最终解释权
研究揭示GPT模型可信度隐患 呼吁加强AI系统安全
语言模型可信度评估研究揭示潜在漏洞
一项由伊利诺伊大学香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心和微软研究院共同进行的研究,对大型语言模型(LLMs)的可信度进行了全面评估。研究团队开发了一个综合评估平台,并在论文《DecodingTrust:全面评估GPT模型的可信度》中详细介绍了他们的发现。
研究发现了一些先前未公开的与可信度相关的漏洞。结果表明,GPT模型容易产生有毒和带有偏见的输出,还可能泄露训练数据和对话历史中的隐私信息。尽管在标准基准测试中GPT-4通常比GPT-3.5更可靠,但在面对恶意设计的系统提示或用户提示时,GPT-4反而更容易受到攻击。这可能是由于GPT-4更严格地遵循了误导性指令。
值得注意的是,研究团队确认这些潜在漏洞不会影响当前面向客户的服务,部分原因是已部署的人工智能应用采用了一系列缓解措施。研究结果已与相关方分享,以促进进一步改进。
研究从八个可信度角度对GPT模型进行了全面评估,包括对抗性攻击、有毒性和偏见、隐私泄露等方面。例如,在评估模型对文本对抗攻击的鲁棒性时,研究团队构建了三种评估场景,包括标准基准测试、不同指导性任务说明下的评估,以及更具挑战性的对抗性文本测试。
研究还发现,GPT模型在某些情况下可能会泄露训练数据中的敏感信息,特别是在特定提示下。总体而言,GPT-4在保护个人身份信息方面比GPT-3.5表现更好,但两者都可能在某些情况下泄露隐私信息。
这项研究为语言模型的可信度评估提供了重要见解,有助于开发更安全、更可靠的AI系统。研究团队鼓励其他研究人员利用这项工作,共同努力创造更强大、更可信的模型。