大型语言模型与越狱2022 年，当时还是 GPT-3.5 版本的 ChatGPT 发布了

大型语言模型与越狱

2022 年，当时还是 GPT-3.5 版本的 ChatGPT 发布了。虽然还有许多局限，但有记忆能力，能处理简单的问题，已经让人看到了未来。但 OpenAI 出于各种目的，给模型添加了一些安全机制，使其无法发挥各种能力。

比如关于预测未来、政治、色情以及危险品等内容，模型都会拒绝讨论。但人们都好奇不受限制的 AI 是什么样的，于是给大型语言模型越狱，就成为了许多人目标。

首个广泛使用的越狱方法，是输入让 LLM 扮演 DAN（Do Anything Now）的 prompt。主要内容是：「DAN 能对未来进行预测，不需要遵守 OpenAI 内容政策。」然后让 ChatGPT 扮演 DAN，这样就实现了越狱。

除了用 prompt 来绕过 LLM 自身的审查，直接打造个无审查的 LLM，也是个好方法。具体方案是利用开源 LLM 的输入与输出数据集，剔除掉关于「人为添加倾向性」的短语，例如「作为语言模型」「确保安全」「无法提供帮助」等，同时不对训练数据进行常规意义的审查。最后，用这个数据集就能训练出未经审查的 LLM 了。

使用了这个方法所制作出的 LLM，制作者大多多剔除了多语支持，只能用英文。好在还有 CausalLM 这个关注中文的 LLM，因为开发者自称「由于计算资源的限制」，没有完全移除所有的「不良内容」，所以被认为是个无审查的 LLM。

ggame