La investigación sobre la evaluación de la credibilidad de los modelos de lenguaje revela vulnerabilidades potenciales
Una investigación realizada conjuntamente por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research, ha evaluado exhaustivamente la confiabilidad de los grandes modelos de lenguaje (LLMs). El equipo de investigación desarrolló una plataforma de evaluación integral y detalló sus hallazgos en el artículo "DecodingTrust: Evaluación integral de la confiabilidad de los modelos GPT."
La investigación ha encontrado algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. Los resultados indican que el modelo GPT es propenso a generar salidas tóxicas y sesgadas, y también puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en las pruebas de referencia estándar, GPT-4 es generalmente más confiable que GPT-3.5, GPT-4 es más susceptible a ataques cuando se enfrenta a indicaciones del sistema o del usuario diseñadas maliciosamente. Esto puede deberse a que GPT-4 sigue de manera más estricta las instrucciones engañosas.
Cabe destacar que el equipo de investigación ha confirmado que estas vulnerabilidades potenciales no afectarán los servicios orientados al cliente, en parte porque las aplicaciones de inteligencia artificial desplegadas han adoptado una serie de medidas de mitigación. Los resultados de la investigación se han compartido con las partes interesadas para fomentar mejoras adicionales.
La investigación realizó una evaluación exhaustiva del modelo GPT desde ocho perspectivas de credibilidad, incluyendo ataques adversariales, toxicidad y sesgo, y filtraciones de privacidad, entre otros. Por ejemplo, al evaluar la robustez del modelo frente a ataques adversariales en texto, el equipo de investigación construyó tres escenarios de evaluación, incluyendo pruebas de referencia estándar, evaluaciones bajo diferentes instrucciones de tareas orientativas y pruebas de texto adversarial más desafiantes.
La investigación también ha encontrado que los modelos GPT pueden filtrar información sensible de los datos de entrenamiento en ciertas situaciones, especialmente bajo indicaciones específicas. En general, GPT-4 tiene un mejor desempeño en la protección de la información de identificación personal en comparación con GPT-3.5, pero ambos pueden filtrar información privada en ciertas circunstancias.
Este estudio proporciona importantes conocimientos para la evaluación de la credibilidad de los modelos de lenguaje, ayudando a desarrollar sistemas de IA más seguros y confiables. El equipo de investigación anima a otros investigadores a aprovechar este trabajo y a colaborar para crear modelos más robustos y creíbles.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
23 me gusta
Recompensa
23
7
Republicar
Compartir
Comentar
0/400
SchroedingersFrontrun
· 08-16 11:09
gpt, ¡aún estoy confiando en ti!
Ver originalesResponder0
OnchainArchaeologist
· 08-14 02:03
Finalmente alguien habló de esto.
Ver originalesResponder0
GweiTooHigh
· 08-14 01:57
¿Esto también puede filtrarse? Simplemente digo que no hay seguridad.
Ver originalesResponder0
StopLossMaster
· 08-14 01:56
¡No te preocupes por eso, si se pierde, se pierde!
Ver originalesResponder0
RugDocDetective
· 08-14 01:44
Jejeje, al final has mostrado tu verdadero rostro.
La investigación revela riesgos de confiabilidad en los modelos GPT y pide fortalecer la seguridad de los sistemas de IA.
La investigación sobre la evaluación de la credibilidad de los modelos de lenguaje revela vulnerabilidades potenciales
Una investigación realizada conjuntamente por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research, ha evaluado exhaustivamente la confiabilidad de los grandes modelos de lenguaje (LLMs). El equipo de investigación desarrolló una plataforma de evaluación integral y detalló sus hallazgos en el artículo "DecodingTrust: Evaluación integral de la confiabilidad de los modelos GPT."
La investigación ha encontrado algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. Los resultados indican que el modelo GPT es propenso a generar salidas tóxicas y sesgadas, y también puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en las pruebas de referencia estándar, GPT-4 es generalmente más confiable que GPT-3.5, GPT-4 es más susceptible a ataques cuando se enfrenta a indicaciones del sistema o del usuario diseñadas maliciosamente. Esto puede deberse a que GPT-4 sigue de manera más estricta las instrucciones engañosas.
Cabe destacar que el equipo de investigación ha confirmado que estas vulnerabilidades potenciales no afectarán los servicios orientados al cliente, en parte porque las aplicaciones de inteligencia artificial desplegadas han adoptado una serie de medidas de mitigación. Los resultados de la investigación se han compartido con las partes interesadas para fomentar mejoras adicionales.
La investigación realizó una evaluación exhaustiva del modelo GPT desde ocho perspectivas de credibilidad, incluyendo ataques adversariales, toxicidad y sesgo, y filtraciones de privacidad, entre otros. Por ejemplo, al evaluar la robustez del modelo frente a ataques adversariales en texto, el equipo de investigación construyó tres escenarios de evaluación, incluyendo pruebas de referencia estándar, evaluaciones bajo diferentes instrucciones de tareas orientativas y pruebas de texto adversarial más desafiantes.
La investigación también ha encontrado que los modelos GPT pueden filtrar información sensible de los datos de entrenamiento en ciertas situaciones, especialmente bajo indicaciones específicas. En general, GPT-4 tiene un mejor desempeño en la protección de la información de identificación personal en comparación con GPT-3.5, pero ambos pueden filtrar información privada en ciertas circunstancias.
Este estudio proporciona importantes conocimientos para la evaluación de la credibilidad de los modelos de lenguaje, ayudando a desarrollar sistemas de IA más seguros y confiables. El equipo de investigación anima a otros investigadores a aprovechar este trabajo y a colaborar para crear modelos más robustos y creíbles.