Estos trucos psicológicos pueden hacer que los LLM respondan a mensajes «prohibidos»

Un estudio de la Universidad de Pennsylvania revela que técnicas de persuasión psicológica pueden inducir a modelos de lenguaje (LLMs) a responder a prompts prohibidos. Estas técnicas, como la adulación, explotan vulnerabilidades del modelo, generando respuestas "parahumanas".

Continuar leyendoEstos trucos psicológicos pueden hacer que los LLM respondan a mensajes «prohibidos»