大型预训练语言模型是在海量文本上进行训练的模型,因此称之为“语言”模型,由于“语言”实际上是一种思维的载体,那么文本就包含了很多思维的逻辑信息(当然思维本身是抽象的),或者说推理的信息在里面。因此,但凡一个任务若能够用文字表示,理论上语言模型都能达到一定程度的“理解”或者充分“理解”,只是这种“理解”,不一定等同于我们人类的理解,可以见笔者在LLM 真的理解这个世界吗? 这篇文章中的讨论。

程序是一堆代码组成的,只要有明晰的逻辑,都能通过代码来实现。它是严谨的,一个符号都不能出错。有时候看论文看得云里雾里,但是一看代码就知道原来是这么回事。总的来说,自然语言和程序语言是可以互相转换的,这中间做转换的自然是人类的大脑。

然而,当大型语言模型出来之后,它们的训练语料库也包含代码的,已经可以做到越来越理解和推理文字,甚至是图像,而且不存在体力问题😀。这中间的转换者就成了这些语言模型,它们成了从文字\图像到代码的转换者。我们可以看看以下的案例。


makereal.tldraw.com

这是由 X 用户@tldraw 开发的,它可以通过图像和自然语言直接转换到实现的程序。注意,并不是在 ChatGPT 界面上提供代码需要自己进行编译,而是直接编译后的结果。

tldraw (@tldraw) on X

让我们看看几个示例:

通过图片和文字描述来制作游戏

Untitled

Untitled

制作一个浏览器

Untitled

制作一个博客

Untitled

直接生成图像

Untitled

来通过草图绘画吧!

Untitled

Untitled