特德姜讲了一个堪比他写的科幻小说般的故事。
“这个事情我是从一个计算机科学家朋友大卫·克里赛尔那里听到的,他接到锝国一家建筑公司的求助,说他们公司的施乐复印机出现了一些奇怪的问题。当他们在复印一个房子的平面图时,副本和原件之间总是会存在微小但无法忽视的差异。原件中,每栋房子的三个房间都有个矩形来说明它们的面积,房间分别是1413平方米、2111平方米和1742平方米。然而在复印件中,所有三个房间都被标记成1413平方米。”
刘玉琨听过这个故事,露出神秘的微笑。
李睿和妲露拉却觉得不可思议,复印机不就是应该把原件原原本本的复印下来吗,为什么复印件会和原件之间出现如此奇怪的差异呢?
如果不是内部程序出了问题,就只能是复印机成精了?
特德姜继续道:“那家公司对复印机进行了全方位的检查,没有发现任何问题,最后只能求助于大卫。大卫去看了一下,发现这是一台采用了数字扫描文档然后打印生成图像文件的现代复印机,而在扫描和打印的过程之间,复印机内部程序会把每个数字图像文件进行压缩,问题就出现在压缩环节中。”
“我们都知道,压缩分为两种,一种是无损压缩,另外一种是有损压缩。无损压缩恢复的文件和原始文件相同,而有损压缩恢复的文件只是原始文件的近似值。这台施乐复印机使用了一种被称为jbig2的有损压缩格式,是一种专为黑白图像而设计的,非常节省空间的技术格式,复印机会识别图像中看起来相似的区域,并将所有这类区域存储成一份副本。当文件被解压时,复印机会重复使用该副本来重建映像。结果就是,复印机判断出指定房间面积的标签非常相似,所以它只需要存储其中那个1413平方米的房间,并且在打印时,对所有三个房间都重复使用这一个标签。”
“原来如此。”李睿和妲露拉明白了。
看来不是复印机成精了,还是内部程序的设计有问题。
看上去,一台复印机疑似成精的故事和人工智能之间没什么直接联系,复印机内部采用的压缩技术,才是这个故事的关键。
特德姜继续道:“大卫把这个问题指出来,并且联系了施乐的工程师,想必他们很快就会通过补丁来解决这个bug,而我则从这个故事中,发散想到了其他的问题。我们一直认为复印机只是完整的复制原件,但在数字时代,它却采用了一种微妙而模糊的方式来解决复制问题,它制造的副本看起来准确,实际上并不准确。我们正在研究的人工智能,是不是也可以采用类似的方式来发展呢?”
“发展不准确的复制?”妲露拉惊讶的问道。
特德姜笑了:“当然不是。”
他顿了顿解释道:“据我所知,微软谷歌还有其他一些公司正在研究语言模型,希望人类和机器能够通过某种方式进行沟通和对话,这就需要为机器准备极为庞大的数据库,最好是能够把整个万维网储存下来供机器调用。”
“那是不可能的。”妲露拉摇头道。
特德姜道:“确实不可能,但如果是采用压缩技术,尤其是有损压缩的技术,还是有可能的。这需要编写一个有损算法来识别所有数据中的统计规律,就可以把所有数据信息储存下来,供机器学习和使用。唯一的问题是,由于数据被高度压缩,机器无法通过搜索准确的引用来查找信息,就无法得到一个精确的匹配,只能通过一些要点来进行响应。”
“chatgpt……不,应该是问心义言……”李睿小声咕哝着。
本章未完,点击下一页继续阅读。