你愿意照顾AI的一生吗?
2022年底发布的ChatGPT一路火热至今,真正使人工智能成为大众话题。人工智能的发展速度是以往任何科技所望尘莫及的,学习能力更是叹为观止,人们既期待人工智能带来的史无前例的机遇,又害怕其复杂而多变以致彻底失控。一时间,保守的学者呼吁暂停开发,谨慎的政府在完善立法,而思虑周全的机构组织则忙于归纳其漏洞和风险。最早使用“人工智能”这个词是在1956年的达特茅斯学院(Dartmouth College)会议上,先驱们相信不用一代人的时间就可实现人造的、媲美人脑的智慧。然而,人工智能在接下来几十年几乎停滞不前,直到并行计算技术发展并支持深度学习得到突破。逐渐地,人工智能默认等于机器学习,而机器学习默认等于深度神经网络。
现在,人工智能应用遍布各个领域。OpenAI推出的GPT store使每个人都可能做出属于自己的语言模型;自动驾驶技术让人工智能走出计算机,控制着一两吨的巨物;在工业领域,智能机器人、柔性制造蓄势待发,随时带来一场生产革命。人们猛然发现,70年前的那场会议并没有讨论人工智能是否安全。
想要探究某个人工智能应用,我们不仅看它呈现的效果(所谓的AI产品),还要看它是怎么来的。ENISA出版物《AI cybersecurity challenges》指出了人工智能开发的生命周期中各个节点,并逐一解释。我们在文章中看到了人工智能“应该”如何被开发。
无论用来实现任何目的,信息和数据已成为炙手可热的资源。厂商们有动机,也有能力以接近零成本获取海量数据,包括个人隐私数据。虽有现行法规如GDPR,网络安全法等对数据的获取做出限制,但人们的普遍忽视实在令人担忧。作家赫拉利说:“非洲和美洲原住民曾用宝贵的土地,从殖民者手中换来五颜六色的珠子,今天的我们正在用个人隐私数据,换取免费的电邮服务和可爱的猫咪视频。”法律法规滞后于技术发展的现实是客观存在的,如何平衡监管力度和AI发展速度,值得深思。
厂家需要知道其收集的数据的某些属性,如统计分布,以评估数据质量。然后把数据最终处理成能够输入计算模型的形式(通常是向量)。这些实现通常是依靠常规软件,而非人工智能。这些常规软件也许会被利用,使数据污染,或找到对抗样本。因而衍生的误导信息和虚假信息将成为全球面临的最大风险之一。
ENISA的另一篇文献指出,人工智能(指机器学习)无法做到百分百准确,因为百分百准确就是过拟合。就是说,无论概率多小,人工智能始终会产生错误预测。另一方面,越来越复杂的模型加上天文数字的参数使其难以被人理解,基本排除了调整参数修正错误的可能。
对于纯IT应用,这也许是可以接受的:使用者可以从容不迫地判断结果。但如果将人工智能用于控制,如自动驾驶或工业制造,则不能不提高警惕。因为错误就发生在一瞬间,结果可能不可挽回。除此之外,人工智能在伦理边界的模糊也备受争议。
我们能接触到的就是模型部署后的人工智能产品。既然失败不可避免,我们想知道它的统计概率。对于人工智能产品的测试,厂家更关心业务性能,而可能忽视安全和容错方面的测试。第三方机构的介入显得十分重要。
假设你使用自动驾驶,你打开自动驾驶功能时是在用人工智能产品,你关闭自动驾驶功能时是在做模型维护,因为模型在根据你的操作调整参数。这当然是厂家希望的。这里的问题和数据获取时一样,我们如何在获取便利的同时保护个人隐私?另外,模型维护可能是人们关注的盲区,我们只关心人工智能开发阶段的数据问题,却忽略了我们在使用时仍然在提供数据。
厂家(包括但不限于人工智能厂家)的商业目标往往不包含安全,这其实是使用者和资本的共同决定。既然不考虑安全都可以大卖,为什么在上面投入成本和精力?引入第三方机构平衡成本和风险显得尤为必要。而第三方机构应既了解技术,又识别威胁,使安全风险保持在可以被接受的水平。
ENISA把商业考虑放在生命周期的首位和末位,其实是希望厂家由始至终关注其目标。只有在最初目标里加入周全的安全考虑和预防机制,才能真正避免悲剧发生。
从17世纪中叶牛顿的三大运动定律,到20世纪初爱因斯坦的质能方程,科学家们总是希望用最简单的公式描述我们的物理世界。这些公式既明确又稳定,孕育了一波又一波科技进步。现代人工智能技术将计算框架和参数分开,其中框架是定义的,参数是通过案例反推的。这和古典方法完全不同,却以独特的解决思路达到新的高度,也带来新的难题。
这么看来,人工智能研发就像材料科学或者制药学,需要投入巨量人力和资金但不一定有产出。想想一个计算模型,如果它的预测不理想,我们该如何调整超参数呢?每个改动都需要重新训练参数,甚至数据处理都不一样了,可能需要额外获取数据。这时如果发生中断,前期的投入将得不到回报。
关注人工智能的生命周期不仅仅为了符合法规或道德,也为了减少弯路且快速开发。AI的一生如同人的一生,值得我们悉心照顾。 {:1_180:} 学AI,有钱途
页:
[1]