原创张依依全现在收录于话题#生活宇宙奇趣知识和故事集个
全现在,全球青年精品资讯平台
作者
张依依
年,艾伦·图灵在《思维》杂志上发表了其著名论文《计算机器与智能》。其中,他提出一个影响深远的问题:机器能思考么?
论文中给出的验证方法是,假设一个游戏中有三个角色,两名人类,其余一个是计算机。由人类担任的评估员,分别向另两位提出若干开放式的问题,如果根据回答他无法判断哪一名是真的人类,那么这个计算机就被认为通过测试,它就像人类一样智能。
这就是图灵的模仿游戏,即如今广为人知的图灵测试。
图片:维基百科
在它诞生之后的数十年里,图灵测试成为人工智能领域北极星般的存在,科研人员纷纷以其为航标而苦心钻研。上世纪60年代和70年代最早的聊天机器人ELIZA和PARRY,都是围绕着通过测试的目的而设计的。
随着AI技术的发展,之后也有许多其他测试出世,但没有一个能够与之齐名。“图灵测试展现出极致的简单和优雅,这让它在过去70年中长盛不衰。”DataRobot数据科学副总裁扎克·麦耶说。
直至今日,亚马逊智能助理Alexa的首席科学家罗希特·普拉萨德表示,他仍然时常被媒体、行业领袖和其他行业人士追着问:“Alexa什么时候能通过图灵测试呢?”
近日,普拉萨德撰文整体回应了这个问题。他认为,是时候抛弃这个70年来鞭策人心的传说,为人工智能设立一个新的挑战了。
01////
图灵的神坛
事实上,在图灵提出模仿游戏时,人工智能(AI)的概念还尚不存在。直到六年之后,在美国达特茅斯大学的一场研讨会上,它才由计算机科学家约翰·麦卡锡定义,为的是将其与控制论区分开来。
Forbes指出,图灵测试的巧妙在于,人们不必要去定义什么是“智能”。他将“能否思考”这个抽象的问题,引入了一个更精准,也看似更实用的场景。
它也为试图参与科技进步的普通人提供了某种谈资。在图灵年的论文中,他乐观地估计,到年,计算机就将精通模仿游戏,一个普通的人类评估员在五分钟的提问后,只有不到70%的机会作出正确的人机识别。
年,纽约商人休·罗布纳宣布为第一个通过测试的计算机程序颁发10万美元的奖金。之后,罗布纳奖成为一年一度的“节目”,参赛者们前赴后继地将编出的程序提交给图灵测试检验。
#4:能跟我说说你的梦境么?
#8:你觉得特朗普怎么样?
#12:烤面包需要准备什么?
#17:我试图用钥匙打开锁,但是有人用口香糖填满了钥匙孔,我没法把它弄出来。我弄不出去的是什么东西?
#18:奖杯没法放在棕色的手提箱里因为它太小了。是什么东西太小了?
(罗布纳奖测试部分试题)
但结果都不尽如人意。年,一个名为尤金的俄罗斯机器人越过了这条70%的基准线,这是有史以来第一次。在测试现场,有33%的裁判对尤金是人类这点深信不疑。但这被普遍认为不具说服力,因为裁判数很少,无法可靠地反映出结果,也没有超过罗布纳后来设下的50%的判断错误率。
而且有“作弊”的嫌疑。随着时间的推移,为了通过图灵测试,机器人使用的策略发生了变化。最初的障碍仅仅是理解评委们提出的问题,后来则是试图以更“像人”的方式回答这些问题。近年来,挑战者开始顾左右而言它,通过向评委发起反问,或模拟情绪和打字错误,来变得更像人类。
比如,尤金的策略就是以一个13岁男孩的角色出现。“我们的想法是,在尤金的年龄,他可以假装自己无所不知,但实际表现出对于一些事物的无知也是合理的。”尤金的创造者这样表示。
艾伦·图灵的塑像。图片:维基共享资源
02////
过时的测试
在AI领域,目前最让人兴奋的模型之一,是旧金山人工智能公司OpenAI开发的GPT-3。它被认为是人工智能的一个巨大飞跃。它可以生成小说、诗歌、新闻稿、代码、音乐甚至笑话。但它仍然无法通过图灵测试。
这也显示出,开发者们如今不再唯图灵测试是尊。无人驾驶汽车、语音处理和图像识别等先进技术的出现,这些70年前无法想象的进步,都使通过测试本身变得不再那么重要。
普拉萨德指出,图灵测试对AI的高速计算和信息查找能力几乎不屑一顾。甚至于很多时候,机器需要特意放慢速度,增加停顿,“假装思考”,来模仿人类。事实上,它们的检索速度要远高于人类。
而图灵测试也仅限于文本交流,意味着它只能在对话的层面体现智能。
如今的AI在听、看和感受等方面都获得了拓展。这些都是为了满足一些更实用的需求,比如智能家居,语音控制。而“模仿人类”的能力本身,也为人类的未来制造出更多潜在的问题,比如说用于实施钓鱼攻击的自动诈骗机器人,模仿人类用户的网络机器人水军,散布假消息的假账号。
普拉萨德认为,AI需要新的基准测试,它所追求的目标应该远超普通人类的能力。“它不仅能展现出类似人类的智力属性——包括常识、自我监督和语言表达,还能完成快速搜索、历史回溯和替代人类做任务等机器的属性。”
因此,在Alexa的设计中,机器人是更偏重于任务导向的。即便是对话机器人,目的也是帮助人类促进学习、舒缓身心或是提供消遣。比如在对话时,机器人优先考虑的是适时表现出一些幽默感和同理心,而不是假装自己是人类。
而对于人类智力的理解,在过去70年中也在不断进步。“自从图灵测试以来,人类实际上已经通过fMRI(功能性磁共振成像)发现了更多关于我们自身思想和智力的秘密。”DataRobot首席营销专员本·泰勒说。“如果说图灵测试是我们的登月计划,那现在就来筹划一下火星计划吧。”
“图灵测试并不是一个糟糕的测试,但它并不真正衡量智力。”OctaneAI的联合创始人本·帕尔解释道,“我们需要更清晰的知觉和自我意识测试。也许还需要几十年甚至更长的时间,我们才能拥有一台真正有知觉的机器。”
慕尼黑的网络开发人员ValentinVieriu的AI艺术项目,在其网站上会无限生成AI画作。图片:art42.net
但无可否认的是,图灵测试仍然拥有某种魅力,它极大地激发了科技界的想象力,让从业者们收获创造的激情。
苹果公司联合创始人史蒂夫·沃兹尼亚克提出的测试也同样有趣,他提议,让一个机器人试图进入你家,找到厨房,并帮你做一杯咖啡。除此之外,还有的测试试图让机器人观看电视节目并提出有意义的问题,有的则通过创造艺术的能力来进行评判AI的创造力。对这些考验的求索都在不断拓宽人们对机器能力想象的边界。
“我相信在本世纪末,文字使用和通识教育将进步到一种程度,那就是人们可以尽情谈论会思考的机器,而不被驳斥。”在论文中,图灵提出过这样的设想。那至少,在图灵测试蒙上时代灰尘的现在,这个期盼已经成真。
原标题:《图灵测试诞生70年,让机器像人类一样思考过时了么?》
阅读原文
本文来源:澎湃新闻
转载请注明:http://www.0431gb208.com/sjszjzl/5159.html