面对诸多质疑以及指责后，OpenAI公布保障AI安全的六大方法

来源：https://mp.weixin.qq.com/s/QIg1aEyIPaoh5-b5zvI5Zg

在迎来诸多质疑以及指责后，美国当地时间4月5日，ChatGPT研发者OpenAI在其官网中发布了题为《Our approach to AI safety》（《我们保障AI安全的方法》）的文章，介绍了该公司确保AI模型安全性的部署。

原文地址：

https://openai.com/blog/our-approach-to-ai-safety

下文来自chatgpt的原文翻译～

总结：OpenAI致力于保持强大的人工智能系统的安全和广泛的益处，并重视社会对人工智能的逐步调整。他们进行了严格的测试，并采用监控系统来预防人工智能系统的滥用。此外，OpenAI致力于保护儿童，对生成内容进行分类，避免生成有害的内容。他们还采用用户反馈来不断提高人工智能系统的安全性和准确性。

全文：

OpenAI致力于保持强大的AI的安全性和广泛的益处。我们知道我们的AI工具为人们提供了许多好处。我们世界各地的用户告诉我们，ChatGPT有助于提高他们的生产力，增强他们的创造力，并提供量身定制的学习体验。我们也认识到，像任何技术一样，这些工具带来了真正的风险，因此我们在所有层面上都致力于确保安全。

Table of Contents

构建日益安全的AI系统

在发布任何新系统之前，我们进行严格的测试，征求外部专家的反馈，努力通过强化学习和人类反馈等技术来改善模型的行为，并建立广泛的安全和监控系统。

例如，在我们的最新模型GPT-4完成培训后，我们花费了超过6个月的时间在整个组织中工作，使其更安全和更协调，然后才公开发布。

我们认为，强大的AI系统应该接受严格的安全评估。需要法规来确保采用这种实践，并且我们积极与政府合作，探讨这种法规的最佳形式。

从实际使用中学习以改善保障

我们努力防止部署之前可以预见的风险，但是，在实验室中我们无法学习到的是有限的。尽管进行了广泛的研究和测试，我们无法预测人们会以所有有益的方式使用我们的技术，也无法预测人们会滥用它的方式。这就是为什么我们认为从实际使用中学习是创建和逐步发布越来越安全的AI系统的关键组成部分。

我们谨慎地、逐步地向越来越广泛的人群发布新的AI系统，并采取大量的保障措施，基于我们所学到的经验不断改进。

我们向开发者提供我们最强大的模型，让他们可以将这种技术直接构建到他们的应用程序中。这使我们能够监控并采取行动防止滥用，并不断建立缓解措施，以应对人们滥用我们系统的真实方式，而不仅仅是关于滥用可能看起来是什么的理论。

实际使用还使我们制定了越来越细致的政策，以防止代表对人们构成真正风险的行为，同时仍允许我们的技术有许多有益的用途。

至关重要的是，我们认为社会必须有时间更新和调整对越来越有能力的AI的看法，并且所有受到这种技术影响的人都应该对AI进一步发展有重要的发言权。迭代部署帮助我们更有效地将各方利益相关者引入到关于采用AI技术的对话中，比如果他们没有亲身体验这些工具要好。

保护儿童

我们安全工作的一个关键重点是保护儿童。我们要求人们必须年满18岁或在获得父母批准后年满13岁才能使用我们的AI工具，并正在寻找验证选项。

我们不允许将我们的技术用于生成仇恨、骚扰、暴力或成人内容等其他类别。我们的最新模型GPT-4对于不允许的内容请求的响应概率比GPT-3.5低82%。我们已经建立了强大的监控系统以防止滥用。GPT-4现在可用于ChatGPT Plus订阅者，并希望随着时间的推移将其提供给更多人使用。

我们已经付出了巨大的努力，以最大限度地减少我们的模型生成可能伤害儿童的内容的可能性。例如，当用户尝试将儿童色情材料上传到我们的图像工具时，我们会阻止并向国家失踪和被剥削儿童中心报告。

除了我们的默认安全防护措施，我们还与开发者合作，例如非营利组织Khan Academy，他们建立了一个AI助手，既可以为学生提供虚拟导师，也可以为教师提供课堂助手，为他们的用例制定了专门的安全缓解措施。我们还正在开发功能，让开发者可以设置更严格的模型输出标准，以更好地支持希望使用这种功能的开发者和用户。

尊重隐私

我们的大型语言模型是在包括公开可用内容、许可内容和人类审核员生成的文本语料库上训练的。我们不使用数据销售我们的服务、广告或建立人们的档案——我们使用数据使我们的模型对人们更有帮助。例如，ChatGPT通过进一步培训人们与它进行的对话来改进。

尽管我们的一些培训数据包括在公共互联网上可用的个人信息，但我们希望我们的模型学习世界，而不是私人个人。因此，我们努力从培训数据集中删除个人信息，准确细调模型以拒绝私人个人信息的请求，并回应个人的请求，从我们的系统中删除其个人信息。这些步骤最小化了我们的模型可能生成包含私人个人信息的回复的可能性。

提高事实准确性

今天的大型语言模型根据它们先前看到的模式（包括用户提供的文本输入）预测下一组单词。在某些情况下，下一个最可能的单词可能不是事实上准确的。

提高事实准确性是OpenAI和许多其他AI开发者的重要关注点，我们正在取得进展。通过利用用户对标记为不正确的ChatGPT输出的反馈作为主要数据来源，我们已经提高了GPT-4的事实准确性。GPT-4比GPT-3.5产生事实内容的可能性提高了40%。

当用户注册使用该工具时，我们努力尽可能透明地说明ChatGPT可能不总是准确的。然而，我们意识到还有许多工作要做，以进一步减少错觉的可能性，并教育公众这些AI工具目前的局限性。

持续研究和参与

我们认为解决AI安全问题的实用方法是投入更多的时间和资源研究有效的缓解和对准技术，并针对实际滥用进行测试。

重要的是，我们也认为提高AI安全和能力应该手牵手。我们迄今为止最好的安全工作是与我们最有能力的模型合作完成的，因为它们更擅长遵循用户的指示，并更容易引导。

我们将越来越谨慎地创建和部署更有能力的模型，并将继续增强安全预防措施，随着我们的AI系统不断发展。

虽然我们等待了超过6个月才部署GPT-4以更好地了解它的能力、好处和风险，但有时需要花费更长的时间来提高AI系统的安全性。因此，决策者和AI提供商需要确保全球范围内有效地管理AI的开发和部署，以免有人走捷径获取优势。这是一个艰巨的挑战，需要技术和制度创新，但这是我们热切希望为之做出贡献的事情。

解决安全问题还需要广泛的辩论、实验和参与，包括对AI系统行为范围的讨论。我们已经并将继续促进利益相关者之间的合作和开放对话，以创建一个安全的AI生态系统。