端到端大模型到底是不是机器AI的终极目标
从马斯克公开讲话来看,马斯克是坚定认为端到端的视觉大模型就是机器学习的终极大杀器,靠这个就能实现机器世界的梦想。但是特斯拉在美国仍然会闯红灯甚至逆行,马斯克也不敢上来就推行完全无人的出租车,而且距离马斯克说的一万英里接管一次还差距遥远。
那么抛开具体的技术不谈,我们看看马斯克的特斯拉汽车的表现,通过学习人类老司机的驾驶行为,能不能快速上手驾驶功能呢?应该是的。但是学习人类老司机能保证不出错吗?当然不能,因为人类也犯错,特别是第一次走某些没见过的路口。所以国内的做法是对复杂场景提前扫图,有人说,你这是作弊!问题是如果是特斯拉走没见过的路口也是经常走错啊!而且关键的关键,如果纯粹靠机器自我学习,特斯拉会出现走错的路口下次还会走错,甚至走对的路口下次走反而会走错。而且怎么走错了?我们人类不知道!除非你加个“护栏”给它,否则它的表现就非常不稳定,有时候走对有时候走错。所以提前开图或者给程序加规则不失为一种简单易行的好方法。
由此我想到人形机器人,以后的人形机器人是要进家庭的,而家庭的场景是非常复杂的,尤其是我们中国人的家庭,东西南北中差异大,城市和乡村差异都极大,没有“护栏”会不会有极大的安全隐患呢?纯粹靠机器视觉自我学习?会不会出现道德甚至法律上的巨大争议事件呢?
综上所述,我个人认为混合传感器模式的自动驾驶或者机器人,由人类编写更多的行为规则,在中国是最适合的模式。尽管听起来没有马斯克的端到端大模型听着那么高大上。