具有意识的AI机器落地分析
深度神经网络让AI有了最基本的抽象能力。有的人说AI在深度神经网络的赛道上已经走到了终点,接下来拥有意识的AI,必须要等到下一个AI技术的突破。
不过以我02年提出来街景地图,05年提出把GPS用于游戏(类似于pokemon go)的直觉。我预测在接下来的10年内就能诞生拥有意识的AI,而且仍然是以深度学习为基础的。
其实正确的说法是:基于单一深度神经网络的路已经走到了尽头。本来人脑的神经元也是按照功能分区的,有负责输入的神经区域,有输出的,也有处理大脑内部信息的。每种功能的训练方法也不一样,这就是为什么我们需要用不同的方法去学习。比如:通过反复练习来学习,通过逻辑思考来学习,通过感受来学习等等。所以下一步的打发需要是把采用不同方法训练出来的具有专有功能的深度神经网络结合在一起。
另外,具有意识并不是说一定要具有人这样的高级意识,你可以说一个草履虫趋利避害的行为也是意识。这里我不是想玩文字游戏。个人的预期10年内,能够实现高于现在最聪明的动物的,低于成年人的人工意识。其实我们真正需要的可能只是一个能常年陪伴自己身边,能听懂自己的话,也很听话的小东西。
而且具有意识的AI必须是运行在一个现实世界中的能够移动,能够感知世界,能够进行表达的机器上的。要注意机器比起人类的身体就具有太大的优势了,以及简化得多了。我们只需要给机器装上简单轮子,就能同时和人类行走在大部分区域中。只需要给机器装上一个屏幕,就能完成远超人类面孔和肢体语言的表达能力。所以说,实现一个和人类类似的AI系统,在复杂度上会远小于人类大脑。
下面是关于10年内能实现的具有意识的AI的大致框架:
- 感知模块
- 通过各种传感器来获取自己在环境中的位置,环境中有些什么物体以及这些物体的位置。最终这些信息会被转换成神经网络此才读得懂的编码保存下来(我叫这个编码为环境状态编码)。
- 处理其他传感器的数据(声音,IMU,Lidar等等),得到更多当前环境状态的编码。
- 目前的图像语音识别,语义分割,SLAM技术已经可以完成这项任务。前提是具有大量的训练数据。(我把传感器数据转换成环境状态编码的过程叫做抽象)。
- 这类技术的代表就是卷积网络(CNN)
- 表达模块
- 把某个环境状态编码转换成人能明白的信息:声音,图像。
- 把当前环境状态编码转换成控制信息:比如向什么方向移动。
- 现在出现的AI生成老婆,AI生成各种图像,视频换脸,AI生成故事等应用,能够说明在这个模块上,技术已经不存在瓶颈。前提是具有大量的训练数据。
- 这类技术的代表就是生成网络(GAN)
- 反射模块
- 另外以上两个模块的限制都在于训练数据。所以我们需要一种在线学习机制。这种机制可以不断从感知模块收集到各种奖励信号。基于得到的奖励,去调整表达模块的行为。这样就实现了从环境中得到训练。
- 比如到充电座充电就能得到奖励,进入温度大于某个值的区域就会得到惩罚,IMU数据判断为剧烈碰撞也会得到惩罚,触感传感器判断有人在抚摸可以得到奖励。机器能够在平衡各种奖励和惩罚后,做出一个最好的表达(移动,显示某个图像等)。最终你会看到机器在处于低电量的时候,就算冒着高温也会去充电座充电。在无头苍蝇乱闯一番后,能够学会什么区域是能去的,什么是不能的。你也可以给机器看一样东西,如果机器说出了这样东西单词,或者其他你想要的表达,你就抚摸一下机器。机器得到抚摸带来的奖励后,调整自己的行为,最终能学到很多你想教会机器的东西。
- 这类技术的代表就是强化学习(RL)。这个技术大量用于Alpha Go,等各种挑战人类玩家的游戏AI中。在游戏中,AI只能从游戏环境中学习,如果把AI装在一个具有输入和输出功能的机器中,AI就能从真实的世界中学习。
- 反射模块的输入是当前传感器数据通过感知模块得到的环境状态的编码,已经其他各种存储的环境状态的编码。输出是可以喂给表达模块,产生各种人类明白的表达信息的环境状态的编码。
个人计划
- 1.5年时间:感知模块的验证。
- 制作出在手机上就能完成的视觉场景感知功能demo。能够基于图像生成场景的模型,以及每个模型的语义。
- 2年时间:表达模块的验证。
- 在手机上能够用生成网络生成各种表情,人物,场景等等的demo。
- 1年时间:反射模块的验证。
- 在模拟环境中,验证基于环境状态编码的强化学习demo。
- 2年时间:在机器硬件上运行完整AI系统
- 和做硬件的人合作,制作带传感器,显示设备,制动设备,控制设备的机器。
- 和做自然语言处理的人合作加入声音和语言功能。
- 最终这个小机器可以在室内跟随我到处走,听我的指挥去某个房子,或者去某人或者某个物体的旁边。可以自己探索室内各种物体的属性,比如哪些是可以移动的。可以通过我的表情来学习做什么样的事情能让我高兴。还可以把我说的话存储,然后我想要回忆的时候,用图像和声音的形式表现出来等等。