其中一个事件——Winograd 模式挑战的命名来自人工智能先驱 Terry Winograd(谷歌创始人拉里·佩奇和谢尔盖·布林的导师)。该事件使机器人参与一项有关语言理解与常识交叉的测试。任何一个曾经编程机器并帮助其理解语言的人都明白自然语言里每一个句子都是充满歧义的,经常可作多种解释。我们的大脑如此擅长理解语言以至于对此熟视无睹。拿「The large ball crashed right through the table because it was made of Styrofoam.」这个句子为例。严格来说,这个句子有歧义:词「it」可以指 the table,也可以指 the ball。人听到这句话一定认为「it」指的是 the table。这需要把材料科学的知识与语言理解结合起来。但这对机器而言遥不可及。三位专家,Hector Levesque、Ernest Davis 和 Leora Morgenstern,已经联合开发了一个类似的测试,语音识别公司 Nuance 许诺向第一个通过该测试的系统提供 25000 美元的现金奖励。
我们还希望新的图灵测试中包含更多其他项目。一个测试机器理解图像、视频、音频和文本理解能力的挑战是必要的。Nuance 公司的人工智能和自然语言处理实验室主任 Charles Ortiz, Jr. 提出了一个建构挑战以测试感知与物理动作,这两个智能行为包含的重要元素是原初的图灵测试所完全缺失的。此外,Allen 人工智能研究所的 Peter Clark 提议用与人类学生相同标准的科学考试和其他学科测试考验机器。
除了测试的内容,参会者还讨论了如何让测试结果变得更具说服力。例如,Guruduth Banavar 和他在 IBM 的同事强调,测试内容应该是计算机生成的。哈佛大学的 Stuart Shieber 强调了透明度:如果事件推动了该领域的发展,奖励应该只发给开源、可复制并且整个人工智能社区可以获得的系统。
在一次部分或完全自动测试中,让人工智能总结音频文件中的内容,叙述视频中发生的情节,即时翻译自然语言同时执行其他任务。这是为了构建一个客观的智能分数。其中,没有人监督的自动化测试是这一方法的重点。将人类从评估机器智能的过程中剔除是一个有点讽刺的事,但 IBM 的人工智能研究者 Murray Campbell(前「深蓝」开发成员)表示:对于人工智能的测试必须保证有效且可复现。建立一个算法来生成 AI 的智能分数也可以让研究者们不用再依赖于「肯定存在认知偏差」的人类智能,它可以像标尺一样具有统一的刻度。
优点:至少理论上客观公正。一旦 I-Athlon 进行了测试并给出了评分,计算机会得到相应的评分和加权对比。它的判断就像审查奥运会比赛冲线照片一样公正。这种测试的多样性也符合 IBM 研究者称之为「广义智能系统」的标准。