LOADING...
LOADING...
LOADING...
当前位置: 玩币族首页 > 行情分析 > 超越图灵测试——近年来最重要的人工智能论文:论智慧的测量

超越图灵测试——近年来最重要的人工智能论文:论智慧的测量

2020-08-20 区块链研究员 来源:区块链网络

Keras的缔造者Fran?ois Chollet发表了一篇突破性的论文,挑战了传统机器学习的一些传统智慧。


每隔一段时间,你就会遇到一篇研究论文,它是那样简洁,却又是那样深刻和精彩,让你希望自己能写出它。当我读到弗朗索瓦.乔莱Fran?ois Chollet的《论智慧的测量On the Measure of Intelligence》时,我就是这样的感觉。这篇论文之所以能引起我的共鸣,不仅是因为它直面了一些关于人工智能(AI)系统的关键哲学和技术挑战,而这些挑战正是我一直在花时间研究的,还因为它以一种优雅的方式做到了这一点,让人难以反驳。Chollet先生的论文非常简单:为了让人工智能系统发挥其潜力,我们需要量化和可操作的方法,以显示出与人类认知相似的方式来衡量智能。

鉴于人工智能系统最近取得的成就,Chollet先生的论点可能看起来很矛盾。毕竟,我们正在生产智能算法,这些算法在围棋、扑克或星际争霸等游戏中实现了超人类的表现,或者能够驾驶车辆、船只和飞机,这是毋庸置疑的。然而,这些系统到底有多智能呢?尽管人工智能取得了实实在在的成就,但我们仍然以完成单一任务的效果来衡量 "智能",但这些是真正智慧的标准吗?系统下围棋的能力并不意味着能理解莎士比亚或通过经济问题进行推理。作为人类,我们判断智慧的依据是分析和抽象推理、记忆力、常识等能力。在历史或科学史上,曾有两个基本学派标志着智慧的具体定义。


达尔文与图灵:历史上两种对智慧的定义

在科学史上,有两种主流的智慧观:达尔文的进化论和图灵的机器智能观。达尔文的进化论,人类的认知是为了解决人类在整个进化过程中遇到的特定问题而产生的特殊目的的适应性结果。AI传奇人物马文·明斯基Marvin Minsky概括了一个以任务为中心的AI定义,是这一理论的最好表达之一:

"人工智能是一门使机器能够执行如果由人类来完成就需要智慧的任务的科学。"

进化的智能观与一种将心智视为垂直的、相对静止的程序的广泛集合,共同实现智能的观点直接相关。由于历史的原因,这种智能观在人工智能领域变得非常有影响力,创造出的系统在掌握单个任务上非常高效,却没有表现出任何智慧的真正迹象。

对达尔文主义智能观的对比性和一定程度上的互补性的观点是由阿兰.图灵开创的。在1959年的一篇论文中,图灵对智能的特点发表了一些有趣的评论。

"如果我们有一天要制造一台机器,使它能说、理解或翻译人类的语言,用想象力解决数学问题,从事一种职业或指导一个组织,要么我们必须把这些活动简化为一门科学,精确到我们能准确地告诉机器如何去做这些活动,要么我们必须开发出一台不需要被准确地告诉它如何做的机器。"

图灵的智能观受到英国哲学家约翰-洛克(John Locke)的Tabular Rasa理论的启发,该理论认为心智是一个灵活的、适应性强的、高度概括的过程,它将经验转化为行为、知识和技能。

人工智能的发展深受达尔文和图灵的智能理论的影响。当前一代的人工智能模型固然专注于具体的任务,但也基于与环境和其他代理的互动来积累知识。两种基础智能理论的结合,起源了现代人工智能的一个关键概念。

泛化

在人工智能,尤其是现代深度学习算法中,泛化的概念无处不在。广义上讲,泛化可以定义为

"处理与以前遇到的情况不同的情况(或任务)的能力"。

在最简单的形式中,泛化适用于AI模型如何能够将训练期间获得的知识应用于测试数据集。在更宏大的形式中,泛化指的是AI模型将执行特定任务所获得的知识应用到完全不同的任务中的能力。

从定性的角度来看,泛化有几个维度与AI模型相关:


1. 泛化缺失。我们在上面已经非正式地定义了泛化的概念,从根本上讲,它依赖于相关的新颖性和不确定性的概念:一个系统只能泛化到新颖的信息,而这些信息对系统或其创造者来说都不可能事先知道。不存在不确定性的AI系统不会表现出泛化。

2、局部泛化,即 "鲁棒性"。这是指一个系统处理来自已知分布的新点的能力,对于单个任务或一组范围良好的已知任务,给定分布中足够密集的例子样本(例如,在固定环境中对预期扰动的容忍度)。

3、广义泛化,或 "灵活性"。广义泛化,或称 "灵活性"。这是指系统在不需要人类进一步干预的情况下,处理广泛类别的任务和环境的能力。这包括处理系统创建者无法预见的情况的能力。这可以被认为是反映了人类在一个大的活动领域中的能力。

4、极限泛化。极限泛化。这描述的是开放式系统,具有处理全新任务的能力,这些任务与以前遇到的情况只有抽象的共性,适用于广泛范围内的任何任务和领域。这可以被描述为 "在未知的任务和领域范围内适应未知的未知"。

有趣的是,上述概括的不同维度反映了认知心理学中智力结构理论所规定的人类认知能力的组织。此外,我们还可以利用前面的泛化分类法来建立智力的层次表征,如下图所示。


来源:https://arxiv.org/abs/1911.01547

我想,我们都可以同意,目前这一代的人工智能系统是专注于任务和局部智能,但其也在快速发展。利用之前的大纲层次结构,我们可以开始勾勒出一个框架,用于衡量跨广义技能和一般的智能。这将是本文第二部分的主题。

从心理测量学的角度看智力

心理测量学领域的重点是研究人类技能和知识的发展。心理测量学的一个基本概念是:智力测试评估的是广泛的认知能力,而不是具体任务的技能。重要的是,能力是一种抽象的建构(基于理论和统计现象),而不是一个人头脑中可直接测量的客观属性,如特定测试的分数。人工智能中的广义能力,也是一种建构,与心理测量学中的认知能力完全属于同一评价问题。心理测量学通过使用广泛的测试任务而不是任何单一的任务,并通过概率模型分析测试结果来处理能力的量化问题。

心理计量学理论中的一些概念可以用来评估人工智能系统的智能能力,以更量化的方式进行。Chollet的论文概述了几个关键的想法。

1. 测量能力(代表广泛的泛化和技能习得效率),而不是技能。能力不同于技能,因为它们会引起广泛的泛化。

2. 通过一系列任务而不是任何单一的任务来评估能力,这些任务对测试系统和系统开发者来说都是未知的。

3. 拥有关于可靠性、有效性、标准化和无偏差的明确标准。在这种情况下,可靠性意味着一个给定系统的测试结果应该在一段时间内和不同的研究小组之间是可重复的。有效性是指建立对特定测试目标的明确理解。标准化意味着在研究群体的子集中采用共同的基准。最后,免于偏见意味着测试不应该以与被评估能力正交的方式对测试者群体产生偏见。

计算机科学先驱艾伦.纽厄尔Allen Newell在20世纪70年代利用国际象棋的比喻,出色地捕捉到了解决个人任务不是有效的智慧测量方法的观点,已经成为人工智能的典范之一:

"我们已经从现有的工作(对人类的心理学研究)中知道,任务(国际象棋)涉及推理和搜索的形式以及复杂的感知和记忆过程。对于更一般的考虑,我们知道它还涉及计划、评价、手段分析和重新定义形势,以及几种学习变量--短期、事后分析、准备分析、从书本上学习等。"

这句话告诉我们的是,国际象棋本身并不涉及具体的认知能力。但是,拥有这些一般能力,就有可能解决国际象棋(以及更多的问题),从一般到具体是可以的,反之,从具体到一般就没有明确的路径。绝对精彩!

智慧的量化衡量标准

Chollet利用心理测量学的一些观点,得出了以下的智慧定义。

一个系统的智慧是衡量它的技能习得效率,在一个任务范围内,与先决条件,经验和泛化难度有关。

这个智慧的定义包括了先验元学习、记忆和流体智能的概念。从人工智能的角度来看,如果我们把两个系统从相似的知识前设开始,并且就一组事先不知道的任务经历相似的经验(比如练习时间),那么智慧程度较高的系统就是最终拥有更强技能的系统。另一种思考方式是,"更高智慧 "的系统在未来的情境空间中可以使用相同的信息 "覆盖更多的领域"。


来源:https://arxiv.org/abs/1911.01547

前面对智能的定义从理论上看很神奇,但如何将其纳入到AI系统的架构中呢?

智能系统将是一个产生特定技能与任务交互的人工智能程序。例如,一个游戏的神经网络生成和训练算法就是一个 "智能系统",它在一个游戏上训练运行结束后输出的推理模式的游戏特定网络就是一个 "技能程序"。一个能够观察一个任务并输出解题程序的程序合成引擎将是一个 "智能系统",而由此产生的能够处理这个任务未来输入网格的解题程序将是一个 "技能程序"。


来源:https://arxiv.org/abs/1911.01547

既然我们有了人工智能系统智能的规范定义,我们就需要一种方法来衡量它。

ARC

抽象与推理语料库(ARC)是由Chollet提出的一个数据集,旨在作为前几节所定义的那种智能的基准。从概念上讲,ARC可以看作是人工智能系统的心理测试,它试图评估的是泛化的质量效果,而不是在特定任务上的有效性。

ARC包括一个训练集和一个评估集。训练集有400个任务,而评价集有600个任务。评价集又分为公共评价集(400个任务)和私有评价集(200个任务)。所有任务都是唯一的,测试任务集和训练任务集是不相干的。给定一个具体任务,ARC测试界面如下图所示。


来源:https://arxiv.org/abs/1911.01547

ARC的初始版本已经在GitHub上发布。

我在文章的开头说,Chollet的《论智慧的测量》可以说是今年最重要的论文之一。论文中包含的一些观点或它的一些变量可以影响人工智能系统的设计,使其达到可测量和可比较的智能水平。实现Chollet的范式并不是一件容易的事情,但其中的一些想法绝对值得探讨。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

作者:Jesus Rodriguez

翻译:区块链Robin BTC:1Robin84SWtzSxnU1v8CE9rzQtcfUsGeN
微信:chanhai13;公众号:链学园
译文有编辑及删减,如有侵权,请联系译者删除
中文版权所有,转载需完整注明以上内容

—-

编译者/作者:区块链研究员

玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。

LOADING...
LOADING...