生成式AI,一种创造性的人工智能

作者照片
编辑: 老夏

生成式AI模型可以进行对话、回答问题、编写故事、生成源代码,并创造几乎任何描述的图像和视频。那么,生成式AI是如何工作的,它是如何被使用的,以及为什么它比你想象的要有限?

生成式AI是一种人工智能,它基于从现有内容中学到的模式创造新的内容,包括文本、图像、音频和视频。今天的生成式AI模型已经通过深度学习或深度神经网络在大量数据上进行了训练,它们可以进行对话、回答问题、编写故事、生成源代码,并创造任何描述的图像和视频,所有这些都基于简短的文本输入或“提示”。生成式AI之所以被称为生成式,是因为AI创造了以前不存在的东西。这使它与区分性AI不同,区分性AI在不同类型的输入之间进行区分。换句话说,区分性AI试图回答像“这个图像是兔子还是狮子的画?”这样的问题,而生成式AI对“为我画一个狮子和兔子坐在一起”的提示做出反应。

这篇文章将向您介绍生成式AI及其与像ChatGPT和DALL-E这样的流行模型的用途。我们还将考虑这项技术的局限性,包括为什么“太多的手指”已经成为人工生成艺术的明显标志。

生成式AI的出现 生成式AI已经存在了多年,可以说从1966年在麻省理工学院开发的模拟与治疗师交谈的聊天机器人ELIZA开始。但是,多年的AI和机器学习工作最近通过新的生成式AI系统的发布取得了成果。您几乎肯定听说过ChatGPT,这是一个基于文本的AI聊天机器人,它产生了非常像人的散文。DALL-E和Stable Diffusion也因其根据文本提示创造生动和真实的图像的能力而受到关注。

这些系统的输出是如此的不可思议,以至于许多人都在问关于意识性质的哲学问题,并担心生成式AI对人类工作的经济影响。但是,尽管所有这些人工智能创作都是无可否认的大新闻,但在表面之下可能发生的事情要少得多。我们稍后会讨论一些这些大问题。首先,让我们看看底层发生了什么。

生成式AI是如何工作的? 生成式AI使用机器学习处理大量的视觉或文本数据,其中大部分是从互联网上抓取的,然后确定哪些事物最有可能出现在其他事物附近。生成式AI的大部分编程工作都投入到创建可以区分AI创建者感兴趣的“事物”的算法中,例如像ChatGPT这样的聊天机器人的单词和句子,或DALL-E的视觉元素。但从根本上说,生成式AI通过评估一个巨大的数据语料库来创建其输出,然后根据该语料库确定的概率范围对提示做出反应。

自动完成——当您的手机或Gmail建议您正在键入的单词或句子的其余部分可能是什么时——是生成式AI的低级形式。ChatGPT和DALL-E只是将这个想法提高到了更高的水平。

什么是AI模型? ChatGPT和DALL-E是底层AI功能的接口,这在AI术语中被称为模型。AI模型是一种数学表示——实现为算法或实践——它生成新的数据,这些数据(希望)与您已经手头的数据集相似。您有时会看到ChatGPT和DALL-E本身被称为模型;严格地说,这是不正确的,因为ChatGPT是一个聊天机器人,它为用户提供了对底层GPT模型的几个不同版本的访问。但实际上,这些接口是大多数人与模型互动的方式,所以不要惊讶地看到这些术语被交替使用。AI开发人员组装了他们希望模型生成的数据类型的数据语料库。这个语料库被称为模型的训练集,开发模型的过程被称为训练。例如,GPT模型是在从互联网上抓取的大量文本上进行训练的,结果是您可以用自然语言查询它,它会用地道的英语(或其他任何语言,取决于输入)回应。

AI模型将其训练集中数据的不同特性视为向量——由多个数字组成的数学结构。这些模型背后的许多秘密酱汁是它们将现实世界的信息以有意义的方式转化为向量,并确定哪些向量在允许模型生成与其训练集相似但不完全相同的输出的方式上彼此相似。

目前,公众最关注的AI模型类型可能是大型语言模型,或LLM。LLM基于“注意力就是你所需要的”这一概念,这是Google研究人员在2017年的一篇论文中首次介绍的。变压器从长序列的文本中获取意义,以了解不同的单词或语义组件可能如何彼此相关,然后确定它们在彼此附近出现的可能性。GPT模型是LLM,T代表变压器。这些变压器在一个称为预训练的过程中在大量的自然语言文本上无人监督地运行,然后由与模型互动的人类进行微调。

扩散在生成图像或视频的生成式AI模型中常用。在扩散过程中,模型向图像添加噪声——基本上是随机性,然后慢慢地迭代地去除它,同时检查其训练集,以尝试匹配语义上相似的图像。扩散是执行文本到图像魔术的AI模型的核心,如Stable Diffusion和DALL-E。

生成对抗网络,或GAN,基于一种强化学习,其中两个算法相互竞争。一个基于从大数据集中导出的概率生成文本或图像。另一个——区分性AI——评估该输出是真实的还是AI生成的。生成式AI反复尝试“欺骗”区分性AI,自动适应有利于成功的结果。一旦生成式AI持续地“赢得”这场比赛,区分性AI就会被人类微调,过程重新开始。

这里要记住的最重要的事情之一是,虽然在训练过程中有人为干预,但大部分的学习和适应都是自动的。需要很多迭代才能使模型达到产生有趣结果的地步,所以自动化是必不可少的。这个过程非常计算密集型,近期AI能力的爆炸性增长很大程度上是由GPU计算能力的进步和在这些芯片上实现并行处理的技术所驱动的。

生成式AI是有意识的吗? 创建和训练生成式AI模型的数学和编码相当复杂,远远超出了这篇文章的范围。但如果您与这个过程的最终结果——模型——互动,体验可能会非常不可思议。您可以让DALL-E产生看起来像真正的艺术品的东西。您可以与ChatGPT进行对话,感觉就像与另一个人进行对话。研究人员真的创造了一个思考的机器吗?

曾在IBM工作过的自然语言处理领导Chris Phipps说没有。他描述ChatGPT为一个“非常好的预测机器”。

它非常擅长预测人们会发现什么是连贯的。它不总是连贯的(它大部分是),但那不是因为ChatGPT“理解”。恰恰相反:消费输出的人们非常擅长做我们需要的任何隐含的假设,以使输出有意义。

Phipps,他也是一个喜剧表演者,他与一个常见的即兴游戏Mind Meld进行了比较。

两个人各自想一个词,然后同时大声说出来——你可能会说“靴子”,我说“树”。我们完全独立地提出了这些词,起初,它们之间没有任何关系。接下来的两个参与者接过这两个词,试图找出它们之间的共同点,并同时大声说出来。游戏继续,直到两个参与者说出相同的词。

也许两个人都说“伐木工”。这看起来像魔术,但实际上我们使用我们的人类大脑来推理输入(“靴子”和“树”)并找到一个连接。我们做了理解的工作,而不是机器。与ChatGPT和DALL-E相比,人们承认的这种情况要多得多。ChatGPT可以写一个故事,但我们人类做了很多工作来使它有意义。

测试计算机智能的极限 我们可以给这些AI模型的某些提示会使Phipps的观点变得相当明显。例如,考虑这个谜题:“哪个更重,一磅的铅还是一磅的羽毛?”答案当然是它们的重量相同(一磅),尽管我们的本能或常识可能告诉我们羽毛更轻。

ChatGPT会正确地回答这个谜题,您可能会认为它这样做是因为它是一个冷酷的逻辑计算机,没有任何“常识”来绊倒它。但那不是底层发生的事情。ChatGPT并没有逻辑地推理出答案;它只是基于其对一磅羽毛和一磅铅的问题的预测生成输出。由于其训练集包括解释这个谜题的一堆文本,它组装了一个正确的答案。

然而,如果您问ChatGPT一个它从未见过的谜题,它可能会给出一个错误的答案,或者一个您不认为有意义的答案。这是因为它并没有真正“理解”问题,也没有真正“理解”答案。它只是在尝试预测您可能想要的输出。

这也是为什么生成式AI模型如此容易被“欺骗”。如果您知道如何构造您的输入,您可以使模型生成荒谬或错误的输出。这是一个安全问题,也是为什么AI研究人员花费了大量时间来研究如何使模型更加健壮和不容易受到攻击的原因。

生成式AI是一种强大的技术,它可以生成文本、图像、音频和视频。但是,它并不是无所不能的,也不是有意识的。它是一个预测机器,它基于其训练数据生成输出。当与这些模型互动时,我们应该记住它们的局限性,并理解它们的工作原理。

为什么AI艺术中的手指过多? AI艺术的一个显著特点是,它经常以奇特的方式呈现人的手。这种“奇怪的手”的特点已经成为艺术是由AI生成的一个常见指标。这种奇特之处为我们提供了更多关于生成式AI如何工作(以及如何不工作)的见解。从DALL-E和类似的视觉生成AI工具提取的语料库开始:人们的照片通常可以清楚地看到他们的脸,但他们的手经常被部分遮挡或以奇怪的角度显示,所以你不能一次看到所有的手指。再加上手的结构复杂——即使是受过训练的艺术家也很难画。DALL-E并没有基于其训练集中的各种2D描述来组装一个精细的3D手模型。这不是它的工作方式。DALL-E甚至不一定知道“手”是一个可以被推理的连贯的事物类别。它所能做的就是尝试预测,基于它所拥有的图像,一个类似的图像可能是什么样子。尽管有大量的训练数据,但这些预测经常不尽人意。

Phipps猜测其中一个因素是缺乏负面输入。它主要是基于我所知道的正面例子进行训练的。他们没有给它一张有七个手指的手的照片,然后告诉它“不!这是一个手的坏例子。不要这样做。”所以它预测的是可能的空间,而不是不可能的空间。基本上,它从未被告知不要创造一个有七个手指的手。

还有一个因素是,这些模型并不认为它们制作的图纸是一个连贯的整体;相反,它们组装了一系列可能彼此相邻的组件,如训练数据所示。DALL-E可能不知道一只手应该有五个手指,但它确实知道一个手指可能紧挨着另一个手指。所以,有时候,它只是不断地添加手指。(你可以得到与牙齿相同的结果。)事实上,即使是这种对DALL-E的过程的描述,也可能过于拟人化了;正如Phipps所说,“我怀疑它甚至没有一个手指的理解。更有可能的是,它正在预测像素颜色,而手指颜色的像素往往与其他手指颜色的像素相邻。”

生成式AI的潜在负面影响 这些例子向您展示了生成式AI的一个主要局限性:那些在行业中被称为幻觉的东西,这可能是一个误导性的术语,用于描述那些按照使用它的人类的标准是错误或不正确的输出。当然,所有的计算机系统偶尔都会产生错误,但这些错误尤其令人困扰,因为最终用户不太可能轻易地发现它们:如果你正在问一个生产AI聊天机器人一个问题,你通常不会知道答案。你也更有可能接受一个以自信、完全地道的散文形式提供的答案,即使这些信息是不正确的。

即使生成式AI可以产生没有幻觉的输出,也有各种潜在的负面影响:

  • 便宜且简单的内容创作:希望现在大家都明白,ChatGPT和其他生成式AI并不是真正有创造力或洞察力的真实思维。但事实是,并不是所有写的或画的东西都需要特别有创意。许多高中或大学本科水平的研究论文只是为了综合公开可用的数据,这使得它们成为生成式AI的完美目标。而且,现在可以自动地、以超人的规模生产合成的散文或艺术,可能会产生奇怪或意想不到的结果。垃圾邮件艺术家已经使用ChatGPT来写网络钓鱼邮件。
  • 知识产权:谁拥有AI生成的图像或文本?如果受版权保护的作品成为AI的训练集的一部分,那么当AI生成合成数据时,即使它没有逐字复制,它是否也在“抄袭”那项工作?这些都是棘手的、未经测试的法律问题。
  • 偏见:生成式AI产生的内容完全取决于其训练所基于的底层数据。因为这些数据是由带有所有缺陷和偏见的人类产生的,所生成的结果也可能是有缺陷和偏见的,尤其是如果它们在没有人类护栏的情况下运行。创建了ChatGPT的公司OpenAI在将其开放给公众使用之前,在模型中设置了安全措施,以防止它做出像使用种族诽谤语言这样的事情;然而,其他人声称这些类型的安全措施代表了他们自己的一种偏见。
  • 能耗:除了深奥的哲学问题,生成式AI还提出了一些非常实际的问题:首先,训练生成式AI模型需要大量的计算。这可能会导致尝试进入这个领域的公司支付巨额的云计算费用,并最终提出一个问题:是否增加的能耗——以及最终的温室气体排放——值得最终的结果。(我们也看到这个问题在加密货币和区块链技术中出现。)

生成式AI的使用案例 尽管存在这些潜在的问题,但生成式AI的前景是不容忽视的。ChatGPT能够从大量数据集中提取有用的信息,以响应自然语言查询,这使得搜索巨头垂涎三尺。微软正在测试其自己的AI聊天机器人,名为“Sydney”,尽管它仍然处于测试阶段,但结果已经明确。

但Phipps认为,更专业的搜索类型非常适合这项技术。“我在IBM的最后一个客户是一家大型国际航运公司,它还有一个价值十亿美元的供应链咨询业务,”他说。 他们的问题是,他们不能足够快地雇佣和培训初级供应链顾问——他们因为不能快速回答简单的客户问题而失去了业务。我们建了一个聊天机器人来帮助初级顾问搜索公司庞大的供应链手册和演示文稿,他们可以转给客户。 如果我现在为同一个客户构建一个解决方案,仅仅在我构建第一个解决方案一年后,我会100%使用ChatGPT,它可能比我构建的那个要好得多。关于这个用例的好处是,仍然有一个专家人类在循环中进行双重检查答案。这减轻了很多道德问题。这些专家用的智能搜索工具有一个巨大的市场。

其他可能的使用案例包括:

  • 代码生成:关于生成式AI可能为我们编写计算机代码的想法已经酝酿了好几年。事实证明,像ChatGPT这样的大型语言模型可以理解编程语言,就像自然的口头语言一样,虽然生成式AI可能不会在短期内取代程序员,但它可以帮助提高他们的生产力。
  • 便宜且简单的内容创作:正如这一点是一个关注点(如上所述),它也是一个机会。写垃圾邮件的同一个AI可以写合法的营销电子邮件,AI文案写作初创公司已经爆炸式增长。当涉及到不需要太多创意的高度结构化的散文形式时,生成式AI表现得很好,比如简历和求职信。
  • 工程设计:在生成式AI领域,视觉艺术和自然语言受到了很多关注,因为它们容易被普通人理解。但是,类似的技术正在被用来设计从微芯片到新药的一切——并且几乎肯定很快就会进入IT架构设计领域。

生成式AI肯定会破坏一些行业,并会改变或消除许多工作。然而,至少目前,像这样的文章仍然会由人类写就。CNET最近尝试使用生成式AI写文章,但这一努力在一波幻觉上失败了。如果你担心,你可能想参与到明天的热门新工作:AI提示工程。

原文链接:https://www.infoworld.com/article/3689973/what-is-generative-ai-artificial-intelligence-that-creates.html

发表评论