人工智能(AI)越来越多地成为我们周围世界的一部分,它正在迅速改变我们的生活。它提供了一个非常令人兴奋的机会,有时,它可能会有点可怕。毫无疑问,目前人工智能领域最具影响力的发展就是生成式人工智能。
就像听起来的那样,人工智能可以创造,从文字和图像到视频、音乐、计算机应用程序,甚至整个虚拟世界。
生成式人工智能的不同和特别之处在于,它将机器智能的力量交给了几乎任何人。
我们已经习惯在日常生活中使用人工智能驱动的应用程序和工具。谷歌用它来查找我们需要的信息;亚马逊用它来推荐我们应该买的东西;Netflix用它来推荐电影;Spotify用它来播放音乐——这一切都是由人工智能驱动的。
但新一代的生成式人工智能工具走得更远,让我们能够以惊人的方式进行构建和创造。稍加练习,我们甚至可以用它们来构建我们自己的人工智能应用程序和工具。因为它打破了技术壁垒,所以它真正可以被视为期待已久的人工智能民主化的开始。
因此,在本文中,我将以简单的方式概述它的强大之处,以及您可以使用它做些什么。我也会从非技术角度来看它是如何工作的,但最重要的是,我将解释为什么它将改变世界,以及每个人应该做些什么来为它做准备。
什么是生成式人工智能?今天使用的术语“人工智能”指的是能够有效模拟人类认知过程的计算机算法——学习、决策、解决问题,甚至是创造力。
这是最后一个,也许是最人性化的品质,生成人工智能进入了人们的视野。像所有现代人工智能一样,生成式人工智能模型是在数据上训练的。然后,他们使用这些数据来创建更多的数据,遵循他们所学到的规则和模式。
例如,如果你用猫的照片训练它,它会知道猫有四条腿,两只耳朵和一条尾巴。然后,你可以让它生成自己的猫的图片,它会根据你的需要想出尽可能多的变化,所有这些都遵循这些基本规则。
一个值得理解的区别是生成AI和判别(或预测)AI之间的区别。判别式人工智能主要关注分类,学习“事物”之间的区别——例如猫和狗。这就是Netflix或亚马逊等推荐引擎用来区分你可能想看或想买的东西和你不太可能感兴趣的东西的方法。或者在导航应用程序中区分从A到B的好路线和你可能应该避免的路线。
相反,生成式人工智能侧重于理解数据中的模式和结构,并使用它来创建看起来像它的新数据。
那么生成人工智能能做什么?生成式人工智能的第一个用例通常涉及创建文本和图像,但随着技术变得越来越复杂,一个充满可能性的世界已经打开。以下是其中的一些:
1. 图像:许多生成式人工智能工具(如Midjourney或Stable Diffusion)可以采用自然语言(即人类语言)提示并使用它生成图像。
2. 文本:ChatGPT可能是目前围绕生成人工智能的激烈炒作的开端,但还有其他生成文本工具,如谷歌的Bard和Meta的Llama。它们可以用来写任何东西,从散文和文章到戏剧、诗歌和小说。
3. 编程:除了ChatGPT,微软的GitHub Copilot和亚马逊的CodeWhisperer等工具可以让任何人在几乎没有技术知识的情况下轻松生成计算机代码。
4. 音频:生成式人工智能工具可以创造类似人类的声音(语音合成),允许计算机说出人类从未说过的话,以及音乐和声音效果。
5. 视频:虽然还没有像文本或图像生成那样先进,但工具已经开始出现,使我们能够通过描述我们想要看到的内容来创建和编辑视频。
6. 数据增强:生成式人工智能可以轻松创建完全合成的数据集,用于训练遵循现实世界规则的其他人工智能模型,而无需对存储和使用它的人赋予隐私和数据安全义务。
7. 虚拟环境:想想可以探索和互动的虚拟现实(VR)环境或视频游戏世界,或者相当夸张的虚拟世界概念。设计这些是一项非常复杂的任务,可以在生成人工智能的帮助下大大加速。
它是如何工作的?就像我们今天看到的所有人工智能一样,生成式人工智能起源于人工智能研究和实践的一个领域,即机器学习(ML)。
传统的计算机算法是由人类编写的,目的是告诉机器如何准确地完成特定的工作,而机器学习算法得到的数据越多,它们的工作表现就越好。
把这些算法放在一起,让它们基于所学的知识生成新的数据,你就得到了一个模型——本质上是一个引擎,用于生成特定类型的数据。
生成式人工智能应用中使用的一些模型示例包括:
1. 大型语言模型(llm):通过摄取大量文本,他们学习单词之间的语义关系,并使用该数据生成更多的语言。法学硕士的一个例子是由OpenAI创建的GPT-4,它为ChatGPT工具提供了动力。
2. 生成对抗网络(GANs):这是通过让两种相互竞争的算法相互竞争来实现的,一种算法的任务是生成与训练数据相似的数据,另一种算法的任务是试图判断输出是真实的还是生成的。这种类型的生成模型通常用于创建图像、声音甚至视频。
3. 变分自编码器:这是一种模型,它通过一种简单的方式对数据进行编码,捕捉数据的基本特征,然后找出如何重构数据,从而了解数据是如何构造的。它通常用于生成合成数据。
4. 扩散模型:这些模型的工作原理是将随机数据(称为“噪声”)添加到它正在学习的数据中,然后找出如何在保留原始数据的同时删除它——从而了解哪些是重要的,哪些可以丢弃。扩散模型在图像生成中最常用。
5. 变形模型:这是包括llm在内的一组模型的总称,但涵盖了通过学习训练数据中不同元素之间的上下文和关系来工作的任何模型。
生成式人工智能的实践已经有许多令人难以置信的例子,生成人工智能被用来创造惊人的(有时是可怕的)东西。
以可口可乐的杰作广告为例,这是人类艺术家和人工智能之间的合作创作,以前所未有的方式将许多历史上最伟大的艺术作品带到屏幕上。
它还被用来通过重建约翰·列侬部分录制的歌词,结合保罗·麦卡特尼的新材料来创作新的披头士歌曲。
生成设计是一个新兴领域的术语,在这个领域中,生成人工智能被用于创建新产品的蓝图和生产流程。例如,通用汽车(General Motors)使用欧特克(Autodesk)创建的生成工具设计了一种新的安全带支架,比现有部件轻40%,强度高20%。
它也被用于加速药物发现,一家英国公司最近宣布,它创造了世界上第一个人工智能生成的免疫疗法癌症治疗方法。
生成式人工智能也是最近的深度造假现象背后的技术,这种现象通过让真实的人看起来好像做过或说过虚假的事情,模糊了现实与虚构之间的界限。
深度假汤姆克鲁斯是最早也是最著名的例子之一。更阴险的是,即将到来的2024年美国总统大选双方的潜在候选人都出演了深度造假,目的是为了政治目的而抹黑他们。
虽然传播宣传已经够糟糕的了,但也有直接的犯罪用途——包括利用克隆声音进行恶作剧绑架,以及冒充公司首席执行官骗取钱财。
关于生成人工智能的伦理问题虽然生成式人工智能显然有惊人的能力,但很明显,它的存在迫使我们面对一些困难的问题。
也许最大的问题之一是,我们将无法区分真实和人工智能生成的东西。
考虑到该领域的创新速度之快令人难以置信,这很可能很快就会发生。
这就引出了我们应该对此做些什么的问题。包括我国在内的一些国家已经通过立法,规定未经同意对人进行深度造假是非法的——世界各国是否应该效仿?
接下来的问题是,这将如何影响人类的工作——如果雇用他们的公司可以通过告诉计算机来创造他们需要的图像、声音和视频,那么创作者的生计会受到威胁吗?
另一个需要解决的问题是版权。如果一个人工智能被用来创造一件艺术品,谁拥有它?使用AI创造艺术的人?人工智能本身的创造者?或者所有(可能)成千上万的艺术家,他们的作品被用来训练AI?
所有这些问题都需要回答——而且,考虑到这项技术正在加速发展,答案必须尽快揭晓。我们如何回答这些问题,很可能在决定人工智能在社会和我们生活中的未来方面发挥重要作用。