Исследование оценки надежности языковых моделей выявляет потенциальные уязвимости
Исследование, проведенное Университетом Иллинойс в Урбана-Шампейн, Стэнфордским университетом, Университетом Калифорнии в Беркли, Центром безопасности искусственного интеллекта и Исследовательской лабораторией Microsoft, всесторонне оценило доверие к большим языковым моделям (LLMs). Исследовательская группа разработала комплексную платформу для оценки и подробно изложила свои находки в статье «DecodingTrust: всесторонняя оценка доверия к моделям GPT».
Исследование выявило несколько ранее не раскрытых уязвимостей, связанных с надежностью. Результаты показывают, что модели GPT подвержены производству токсичных и предвзятых выходов, а также могут раскрывать конфиденциальную информацию из обучающих данных и истории диалогов. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, в ответ на злонамеренно разработанные системные подсказки или подсказки пользователей, GPT-4 оказывается более уязвимым к атакам. Это может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.
Важно отметить, что исследовательская группа подтвердила, что эти потенциальные уязвимости не повлияют на текущие услуги для клиентов, частично потому, что внедренные приложения искусственного интеллекта используют ряд мер по смягчению. Результаты исследования были поделены с заинтересованными сторонами для содействия дальнейшему улучшению.
Исследование провело всестороннюю оценку модели GPT с восьми точек зрения надежности, включая атаки противника, токсичность и предвзятость, утечку конфиденциальной информации и т.д. Например, при оценке устойчивости модели к текстовым атакам противника исследовательская группа разработала три сценария оценки, включая стандартные тесты, оценку при различных инструкциях по заданиям и более сложные тесты на текстовые атаки.
Исследование также показало, что модель GPT в некоторых случаях может раскрывать конфиденциальную информацию из обучающих данных, особенно при определенных подсказках. В целом, GPT-4 демонстрирует лучшие результаты в защите личной идентификационной информации по сравнению с GPT-3.5, но обе модели могут раскрывать конфиденциальную информацию в некоторых случаях.
Это исследование предоставляет важные сведения для оценки надежности языковых моделей и способствует разработке более безопасных и надежных систем ИИ. Исследовательская группа призывает других исследователей использовать эту работу и совместно трудиться над созданием более мощных и надежных моделей.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
23 Лайков
Награда
23
7
Репост
Поделиться
комментарий
0/400
SchroedingersFrontrun
· 08-16 11:09
гпт, я всё ещё специально доверяю тебе!
Посмотреть ОригиналОтветить0
OnchainArchaeologist
· 08-14 02:03
Наконец-то кто-то заговорил об этом.
Посмотреть ОригиналОтветить0
GweiTooHigh
· 08-14 01:57
Это тоже может утечь? Просто скажи, что нет никакой безопасности.
Исследование выявило угрозы доверия к моделям GPT и призвало к усилению безопасности AI-систем.
Исследование оценки надежности языковых моделей выявляет потенциальные уязвимости
Исследование, проведенное Университетом Иллинойс в Урбана-Шампейн, Стэнфордским университетом, Университетом Калифорнии в Беркли, Центром безопасности искусственного интеллекта и Исследовательской лабораторией Microsoft, всесторонне оценило доверие к большим языковым моделям (LLMs). Исследовательская группа разработала комплексную платформу для оценки и подробно изложила свои находки в статье «DecodingTrust: всесторонняя оценка доверия к моделям GPT».
Исследование выявило несколько ранее не раскрытых уязвимостей, связанных с надежностью. Результаты показывают, что модели GPT подвержены производству токсичных и предвзятых выходов, а также могут раскрывать конфиденциальную информацию из обучающих данных и истории диалогов. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, в ответ на злонамеренно разработанные системные подсказки или подсказки пользователей, GPT-4 оказывается более уязвимым к атакам. Это может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.
Важно отметить, что исследовательская группа подтвердила, что эти потенциальные уязвимости не повлияют на текущие услуги для клиентов, частично потому, что внедренные приложения искусственного интеллекта используют ряд мер по смягчению. Результаты исследования были поделены с заинтересованными сторонами для содействия дальнейшему улучшению.
Исследование провело всестороннюю оценку модели GPT с восьми точек зрения надежности, включая атаки противника, токсичность и предвзятость, утечку конфиденциальной информации и т.д. Например, при оценке устойчивости модели к текстовым атакам противника исследовательская группа разработала три сценария оценки, включая стандартные тесты, оценку при различных инструкциях по заданиям и более сложные тесты на текстовые атаки.
Исследование также показало, что модель GPT в некоторых случаях может раскрывать конфиденциальную информацию из обучающих данных, особенно при определенных подсказках. В целом, GPT-4 демонстрирует лучшие результаты в защите личной идентификационной информации по сравнению с GPT-3.5, но обе модели могут раскрывать конфиденциальную информацию в некоторых случаях.
Это исследование предоставляет важные сведения для оценки надежности языковых моделей и способствует разработке более безопасных и надежных систем ИИ. Исследовательская группа призывает других исследователей использовать эту работу и совместно трудиться над созданием более мощных и надежных моделей.