「通用人工智能」(AGI)一词在当前有关人工智能的讨论中已经无处不在。
有关 AGI :许多人工智能从业者对智能本质的看法,与那些研究人类和动物认知的人截然不同——这种差异对于理解机器智能的现状和预测其可能的未来很重要。
人工智能领域的最初目标是创造具有与人类相当的通用智能的机器。
「AGI」一词于 21 世纪初创造,旨在重拾人工智能先驱者最初的远大抱负,寻求重新关注「尝试以独立于领域的方式研究和再现整个智能」。
早期 AGI 认为机器很快就会承担所有人类活动,但研究人员经过惨痛的教训才认识到,创建能够在国际象棋中击败你或回答你的搜索问题的人工智能系统,比制造一个能叠衣服或修理管道的机器人要容易得多。
AGI 「认知任务」为「应该能够完成人类几乎可以完成的任何认知任务」的系统,而 OpenAI 将其描述为「在最具经济价值的工作中超越人类的高度自治系统」,其中「大多数」 遗漏了需要物理智能的任务,而这些任务可能会在一段时间内机器人无法完成。
人工智能中的「智能」概念 将通用智能定义为「智能体在各种环境中实现目标的能力」。GPT-4 被训练来优化另一种奖励函数。
这种对智能的看法引发了一些人工智能研究人员的另一种猜测:一旦人工智能系统实现了AGI,它将通过将其优化能力应用到自己的软件中,递归地提高自己的智能,并迅速变得「比我们聪明数千或数百万倍」,从而迅速实现超人的智能。
在我们与超级智能机器共享地球之前,我们必须发展一门科学来理解它们。否则,它们就会控制一切,」
这种对优化的关注导致人工智能社区中的一些人担心「不一致」的通用人工智能可能会疯狂地偏离其创造者的目标,从而给人类带来生存风险。
《超级智能》(Superintelligence)想象人类给超级智能人工智能系统一个优化回形针生产的目标。从字面上理解这个目标,人工智能系统利用其天才来控制地球上所有的资源,并将一切都变成回形针。当然,人类并不想毁灭地球和人类来制造更多的回形针,但他们在说明书中忽略了这一点。
这种对 AGI(和「超级智能」)的推测性观点与研究生物智能(尤其是人类认知)的人们所持有的观点不同。尽管认知科学对「一般智力」没有严格的定义,也没有就人类或任何类型的系统可以拥有一般智力的程度达成共识,但大多数认知科学家都同意,智力不是一个可以在单一尺度上衡量的量。也不是任意地上下调整的量,而是一般和专业能力的复杂整合,这些能力在很大程度上是在特定的进化生态位中适应的。
许多研究生物智能的人也怀疑,所谓的「认知」方面的智能是否可以与其他模式分离并在脱离实体的机器中捕获。心理学家已经表明,人类智力的重要方面是以一个人具体的身体和情感体验为基础的。有证据还表明,个人智力很大程度上依赖于一个人对社会和文化环境的参与。对于一个人成功实现目标而言,理解他人、与他人协调并向他人学习的能力可能比个人的「优化能力」重要得多。
此外,与假设的回形针最大化人工智能不同,人类智能并不以固定目标的优化为中心;相反,一个人的目标是通过先天需求与支持其智力的社会和文化环境的复杂整合而形成的。与超级智能回形针最大化器不同,智能的增加恰恰使我们能够更好地洞察他人的意图以及我们自己的行为可能产生的影响,并相应地修改这些行为。
机器改进自己的软件,以将其智力提高几个数量级的幽灵也偏离了生物学的观点,即智力是一个超越孤立大脑的高度复杂的系统。如果人类水平的智能需要不同认知能力的复杂整合,以及社会和文化的脚手架,那么系统的「智能」级别很可能无法无缝访问「软件」级别,就像我们人类无法轻易地设计我们的大脑(或基因)让自己变得更聪明一样。然而,我们作为一个集体,通过计算机等外部技术工具,比如学校、图书馆和互联网等文化机构的建设,提高了我们的有效智力。
AGI 的含义以及它是否是一个连贯的概念仍在争论中。此外,对通用人工智能机器能够做什么的猜测很大程度上基于直觉,而不是科学证据。但这样的直觉有多少可信度呢?人工智能的历史一再推翻了我们对智能的直觉。
许多早期的人工智能先驱认为,用逻辑编程的机器将捕获人类智能的全部范围。其他学者预测,要让机器在国际象棋中击败人类,或者在语言之间进行翻译,或者进行对话,需要它具有人类水平的一般智能,但结果被证明是错误的。
在人工智能进化的每一步中,人类水平的智能都比研究人员预期的更加复杂。当前关于机器智能的猜测是否会被证明同样是错误的?我们能否发展出更严格、更普遍的智能科学来回答这些问题?
目前尚不清楚人工智能科学是否更像人类智能科学,或者更像天体生物学,它预测其他星球上的生命可能是什么样子。对从未见过、甚至可能不存在的事物做出预测,无论是外星生命还是超级智能机器,都需要基于一般原理的理论。
最终,「AGI」的含义和后果将不会通过媒体的争论、诉讼或我们的直觉和猜测来解决,而是通过对这些原则的长期科学考察来解决。
当人类采用植入装置的技术,把自己的脑袋与网络直接连结之后,他们不必使用实体的电子设备,便可以打机、听音乐,AR技术会将影像与声音投射呈现在现实世界。 产业AI是用来辅助人类生活的,例如协助驾驶的无人车或进化到可以为人类提供意见的智能音箱等。 机械人的外型像人,但都是因应某种目的而被制造出来的,例如担当餐厅的侍应等。 至于类人型机械人,已经发展到不是你一眼便能看出「他们」是机械人的层次了,「他们」如常人一样吃喝、生活、工作、学习、累积财富,跟同类或人类拍拖、 结婚、领养孩子。 类人型机械人与人类的身体虽然有许多差异,但头脑却是十分相似,所以如同人类一样,懂得哭、懂得爱、懂得反思。
原则上,类人型机械人拥有如人类一样的权利,只有当危险发生,才要让人类优先离开肇事现场,毕竟,人类是血肉之躯,不像类人型机械人一样容易治疗,不过, 也有人类换了机械身躯。 其实,类人型机械人并非可以永远「不死」,当使用的年期到了极限,也会「死掉」。 类人型机械人的医疗领域也会牵涉道德问题,有法例规定机械人不可以备份(复制自己),头部绝对不可擅自复制或更换,一旦头部受损,基本上是没救的。 这些与人类极为相似,又与人类关系非常密切的类人型机械人,在漫画家山田胡瓜的《AI电子基因》世界中,占了日本国民的一成。
《AI电子基因》世界中的类人型机械人与真人没有分别,人类会选择与「他们」谈恋爱,甚至结婚,唯一让人类踌躇不前的是,类人型机械人即使与人类十分相似 ,「他们」却无法透过天然的方式生育,大多只能领养小孩子。
AI及类人型机械人等发展至今,很多人都会提问,有一天类人型机械人等会否如很多电影情节描述的一样,「他们」拥有跟人一样的意识,如人一样去感受身边 的事物、去爱、去反省? 现实世界的科学家会告诉大家,类人型机械人要发展到这个地步是不可能的事。 《AI电子基因》呈现给大家的是,有些机械人及类人型机械人不但会爱会反省,也会有良善的行为,这样「他们」看起来就如有「心」一样。 这「心」不是生物上的心脏,不是一个推动循环系统中血管的血液,提供身体所需要的氧气及养份等功能的器官,而是思想、意念、感情及性情等所在之处。
在「医治」玩具熊的过程中,当须堂被小孩问及玩具熊「有心这种东西吗?」须堂医生的回答是:「谁知道呢?人类的脑随着科学进步而被解开了不 少谜团。心是什么?这个问题却是每个人都有不同的主张,其实谁都没有心也说不定喔。」
一只坚持着与前主人的约定,要与主人一直在一起的机械玩具熊表现出何谓有心、何谓良善。 有没有心? 不需要哲学家或科学家告诉我们,平常人都可以用心去感受。
返回现实,人类与AI比试,无论是计算能力、记忆力、甚或是创作力都可能会落败,甚至惨败收场。 人类可以胜过AI的,是因为人有心。 当日后AI在世界成为霸主,你被他人良善的行为打动,你便胜过AI;当你良善的行为打动他人,你便证明了你绝对比AI更难能可贵。
Sora后观察:AI大模型产业落地的八个锚点
“电影讲述了一名30岁男士的太空历险记,他身穿红色羊毛针织,戴着摩托车头盔,放眼望去只有蓝天和盐漠。请制作出色彩鲜艳的电影风格短片,用35毫米的胶片拍摄。”
这段提示词来自OpenAI首个文生视频模型Sora的介绍页面。在提示词对应的视频中,视频播放流畅、画质清晰、视频长度、连贯性、多镜头切换等方面的出色表现让人惊叹。
值得注意的是,在Pika发布产品后的短短不到3个月时间里,OpenAI Sora在视频时长、视频画幅、扩展视频能力等方面就迈出了堪称“王炸”新一步。
资本市场显示,随着AI视频模型Sora的炸裂登场,A股掀起AI热潮,盘中人工智能指数一度涨超7%,多只个股涨停。
2024年的大门,已然由人工智能大模型“文生视频”敲响。一个崭新时代正在来临。
过去的一年,从生成式AI的爆发性创新,到模型小型化与场景化应用的深度融合,再到开源生态的繁荣和跨领域的协同效应,AI大模型正以前所未有的速度重塑世界。
在这个历史性的转折点上,也在Sora出现的节点,我们试图深入剖析AI大模型发展的8个锚点:在已经拉开帷幕的2024年,AI技术的发展标志将会是什么?将会在哪里?以及通向AGI,当下的世界将会走出哪几条路?
毫无疑问,一轮新的AI生产力革命正在到来。
一
垂直模型走出来,
加速大模型落地
一个市场共识是,在通用大模型领域,鉴于高昂的研发资金壁垒,只有少数科技巨头有望在竞争中胜出,因为基础大模型对于需求多元的广大中小企业来说并不具备广泛适用性。
就目前来看,市面上的主流大模型厂商互联网厂商几乎占据半壁江山,例如百度文心大模型、阿里通义大模型、腾讯混元大模型等。
客观来看,通用大模型往往难以精准解决所有企业的具体问题,企业选择大模型时,关键考量因素还包括其对行业特性的契合度、数据安全策略、迭代升级能力以及综合成本效益等。
能够预知的是,今年大模型发展将会愈发呈现显著的细分化趋势,主要分为通用型、专用型以及针对特定场景设计的模型。
垂直行业的专业模型将在推动大模型广泛应用方面扮演重要角色,通过整合通用公域数据与行业专有数据,共同构建起产业级大模型训练所需的数据基础。
例如,在医疗行业中,由润达医疗联手华为云研发的“良医小慧”就是一款专注于医疗检验领域的垂直大模型,它基于盘古大模型和慧检检验知识图谱进行构建。同样地,在教育领域,网易有道推出的首个经官方备案的教育垂直大模型——“子曰”,已经成功应用于智能硬件及App产品之中。
供应链管理方面,企企通凭借其在数字采购方面的“多边赋能”战略,很可能已在探索或已研发出专门针对采购和供应链管理流程优化的垂直AI模型。在旅游行业,携程推出的首个旅游垂直大模型“携程问道”,为用户提供全程智能化的服务支持,从出行前的规划到旅途中的服务再到行程后的反馈,都体现了AI技术对旅游业深度变革的影响。
这种行业垂直模型在新的一年里将成为技术突破之外的一个核心落地趋势,即专注行业、专注产业、专注垂直数据。如企业安全管理、财税管理等领域,这些更为精密的领域或将在2024年出现新的AI机会。
二
AI Agent,
C端AI应用跑向全面商业化
随着深度学习、强化学习等人工智能理论研究的发展,以及大模型如GPT系列、Alpha系列等在实践中的成功运用,如今的AI Agent已经具备了较为成熟的知识表示、学习和推理能力。
从国外视角来看,如今OpenAI的GPT-3已用于生成代码、文本创作等多种场景,可以作为成熟的C端工具被人们使用,
除了单纯工具层面的使用,伴随着技术突破和应用逐渐落地,AI Agent正逐步实现视觉、听觉、语言等多模态信息的综合处理,使其能够理解并适应更为复杂的现实环境,并应用于C端市场。
例如,谷歌提出的CoCa就是结合图像和文字理解的多模态预训练模型,其应用场景正在不断拓宽。在客户服务、教育、医疗、工业制造等领域,基于AI Agent的智能客服系统、教学助手、诊断辅助工具、自动化生产线决策支持系统等开始规模化部署和应用。
此外,在2024年,还能明确看到的是AI Agent不仅体现在软件工具层面的进步,也伴随着智能硬件设备(如机器人、无人机)的智能化升级,实现了软硬一体的集成应用,进一步推动其实用化进程。例如,自动驾驶车辆中的决策系统、家庭服务机器人中的交互模块等。
无论是理论基础的夯实、技术产品的推出,还是实际案例的丰富、产业链条的完善,都充分表明AI Agent正逐步从理论研究走向实用化阶段。
国内企业也更在加速竞争这一市场,如钉钉、飞书、金山办公等AI Agent的应用。
钉钉在其产品中接入了名为“通义千问”的大模型。通过集成这一强大的AI技术,钉钉能够为用户提供更加智能的协同服务,例如智能客服、语音转文字、会议纪要自动生成、智能日程管理等。
此外,“通义千问”还可能帮助用户在工作场景下进行复杂问题的解答,提供跨部门信息查询以及根据业务需求定制化的解决方案。
飞书则推出了智能助手“MyAI”。它能够理解并执行用户的自然语言指令,处理日常工作流程中的任务,比如文件检索、项目进度跟踪、内部沟通协调等,并且结合机器学习能力不断优化用户体验。据了解,如今飞书的MyAI也在不断实现更高级别的自动化办公功能,如预测团队工作负荷、智能推荐工作流程优化方案等。
诸如此类的落地案例都正在生成熟过程中,而伴随着软件和硬件形态的成熟,AI Agent也正在从单纯的“炫技”走进实用阶段。
三
MaaS模式走向成熟,
“AI+云”普惠化加速
MaaS(Model-as-a-Service,模型即服务)是一种云计算模式,通过将预先训练好的AI模型以API或SDK形式提供给开发者和企业用户使用,使得他们无需从零开始构建复杂的机器学习模型,可以快速地将AI技术集成到自己的产品和服务中。
具体来看,MaaS简化了AI的使用流程,无需用户拥有深厚的AI技术和大量计算资源来训练模型,降低了企业和个人应用AI技术的难度和成本。MaaS还提供标准化接口,用户可以根据自身需求灵活调用不同的模型服务,节省了大量的研发时间和资金投入。
用户不必在本地维护和运行复杂的模型,而是通过云端服务按需调用,实现了计算资源的有效利用和经济高效。MaaS模式能够支持不同行业、不同规模的企业快速实现业务智能化,例如精准营销、风险评估、智能客服等场景,进一步加速AI在各行业的普及和应用。
此模式下,服务商负责模型的持续优化和更新,用户只需关注业务逻辑和最终效果,可以享受到最新的AI成果和技术进步带来的好处。
从云厂商来看,华为、腾讯云、阿里云、百度智能云等一众大厂都在提供此类服务。专业厂商燧原科技也在其“曜图?文生图MaaS平台”上提供了基于大模型的服务。此外,还有许多专注于特定领域或行业的初创公司和传统软件服务商也开始提供MaaS相关服务。
能够预知的是,这种模式也将成为云厂商的一种新型服务模型,在SaaS、PaaS、IaaS之外,为企业提供新型的付费模式,对云计算场而言,这恰是一个新的发展和市场拓展方向。
四
大模型“装进”终端,
杀手级大模型应用诞生
2023年以来,诸多模型厂商、硬件厂商,都相继发布将大模型装进终端的愿景。芯片厂商如英伟达、英特尔和安谋等都在积极研发终端AI芯片产品,有力地支持了大模型在消费电子市场中的广泛应用。
随着技术的进步和优化,包括模型小型化、轻量化、边缘计算能力增强以及低功耗设计的发展,越来越多的大模型或其简化版本有望嵌入到个人电脑、智能手机、AR眼镜、家电等各种智能终端中。
此外,业界专家对于大模型在更多垂直领域的应用也持乐观态度,就目前而言智谱、通义等国内大模型厂商,已经逐渐推出适配手机终端的“轻量级”模型。
而在手机厂商一侧,小米公布了其历史上首个GPT大模型产品MiLM;OPPO发布了个性专属大模型与智能体即安第斯大模型(AndesGPT);vivo正式发布了自研AI大模型蓝心BlueLM;荣耀Magic6支持荣耀自研的7B端侧AI大模型;华为宣布盘古大模型也开始融入到智能手机中……
这种趋势下,预计2024年会有更多的定制化、行业化的“轻量级”大模型实现商业落地,为用户带来更加个性化、高效且实时的本地智能服务。
随着这一愿景的落地,一些过去较难实现的技术也将照进现实。
例如高度个性化、能够深度理解用户需求的语音助手,可以更精准地预测用户行为和提供决策建议,帮助处理日常事务、制定行程规划等;
在医疗、法律、教育等领域,大模型可以作为专家系统,直接在移动设备上提供专业的咨询服务,例如基于患者症状即时给出初步诊断建议或法律咨询意见;
大模型驱动的图像生成、视频剪辑、文字写作等创作工具,让用户通过简单的指令就能生成高质量的内容,比如一键生成营销海报、自动生成短视频剧本等;
家庭智能设备中集成的大模型可实现自主学习与优化家庭环境,包括节能管理、安全防护、舒适生活体验等方面的自动化决策,并具备更强的理解和交互能力;
企业级软件中的大模型应用,如财务分析、市场趋势预测、客户关系管理等,可在移动端快速响应复杂问题,为管理者提供实时决策支持。
总之,在2024年,大模型与终端设备相结合的应用场景将进一步丰富和深化,从理论走向实践,并可能催生出新的杀手级应用产品和服务。这其中尤其以手机厂商和智能家居厂商为代表,作为上一个时代的入口,他们也更在致力于成为AI时代的新入口。
五
多模态大模型,
重新定义人与机器交互
伴随着Sora的出现,能够感知到的是,除了在计算机视觉、自然语言处理等特定领域模型的发展,多模态大模型的进一步交叉融合或将成为2024年未来重要的实践方向。
不同于传统的交互方式通常局限于单一模态,比如键盘输入或触摸屏操作。多模态大模型可以整合并理解多种不同的输入模式(如语音、图像、文本、手势等),从而模仿人类自然交流的复杂性和丰富性,接近于我们日常生活中与他人交流的方式。
正如文章开篇所言,OpenAI Sora便是多模态大模型的典型案例。而从资本对其的态度,就不难看出其未来落地的巨大商业价值。
可以预见,未来多模态大模型可以识别和响应用户的声音指令、面部表情、肢体动作甚至是眼神接触,使用户能够像与真人交谈一样与机器互动,极大地提高了交互的自然度和舒适感。
还能够融合不同模态的信息来提取更深层次的意义,例如通过结合视觉和听觉信息理解上下文,使得机器能更好地解析用户意图,即使在模糊、嘈杂或非正式的情境下也能进行有效沟通。
基于深度学习的大模型可以根据用户的习惯和偏好进行自我优化和个性化服务,提供更加精准的反馈和建议,实现动态且个性化的交互过程。
对于有特殊需求的用户,如残障人士,多模态交互提供了更多样化的交互手段,允许他们通过最适合自己的方式进行交流,从而提升技术的包容性和可达性。
在虚拟现实(VR)和增强现实(AR)环境中,多模态大模型能够通过感知用户的全面感官输入来创建高度沉浸式的环境,实现实时反馈和交互。
在团队协作和远程办公场景中,多模态系统能够捕捉和解释多个人同时发出的不同模态信号,促进高效沟通和协作。
这种多模态大模型,将使得未来人与机器之间的交互方式将更加丰富,或通过文字、视觉、语音等多维度沟通,进而提升效率。
目前大厂也在纷纷布局,如阿里云达摩院在自然语言处理、图像识别等领域有丰富的多模态技术应用,并已推出了相应的服务和产品;腾讯优图在计算机视觉和多模态智能方面有深度研究,其产品和服务涵盖了从内容理解到社交互动等多个应用场景;百度的大规模预训练模型如ERNIE-ViLG等具备多模态理解和生成能力,服务于搜索、广告、地图等多种场景。
六
大模型训练数据付费:
数据价值提上新高度
2023年年末,OpenAI与AxelSpringer签订的一个协议表明,人工智能在使用媒体品牌内容进行大模型训练时将需要向媒体品牌付费,这意味着AI大模型向数据提供方的知识产权付费或将成为行业趋势。
2023年,国内多地出台促进AI技术发展的政策文件,如《北京市促进通用人工智能创新发展的若干措施》和《深圳市加快推动人工智能高质量发展水平应用行动方案》,其中均提到“ 高质量数据集”。
此外,国家网信办等七部门联合发布的《生成式人工智能服务暂行管理办法》规定了生成式AI服务提供者不得侵害他人知识产权。
可见,当前AI政策密集出台,高质量数据集和训练数据版权问题得到重视,未来优质训练数据库的价值将得到凸显。
目前在大模型训练过程中,特别是在深度学习领域中,针对大规模数据的管理和访问效率,一些向量数据库以及分布式存储系统表现较为突出,例如腾讯云推出的向量数据库服务和阿里云分布式NoSQL数据库等等。
此外,数据问题不单纯是数据库的问题,在2024年一些关于数据的隐私保护和确权问题也更将浮上水面:比如AI大模型厂商到底可以使用怎样的数据进行训练,专有数据集的来源在哪里,以及如何通过标注等获得更好的数据集,甚至基于AI大模型产出的产品,版权到底属于谁?
这些数据层面的问题将在2024年成为新的AI引爆点。
七
算力成本高昂,
本土AI芯公司加速成长
数据显示,如今AI企业平均的GPU和TPU成本分别为7.39万元和2.29万元,尽管GPU的成本较高,但其在处理并行运算,尤其是深度学习算习法方面的性能表现卓越,使得这一额外的投入成为企业无法避免的支出。
从市场占有率来看,GPU仍然是深度学习中最受欢迎的处理器架构。目前,Nvidia在GPU领域具有较强的竞争优势和品牌影响力,但实际应用中多元化的供应商选择依然存在。
一项调研中,参与调研的9家公司都选择了nvidia的GPU作为主要方案,但AMD的GPU也得到了一些公司(C、D、H)的青睐。
值得注意的是,中国国内的华为和寒武纪也开始在GPU市场中崭露头角。其产品分别被两家公司选择为GPU供应商。在国内AI芯片市场,单卡AI芯片算力最高的是华为旗下海思的昇腾910,在半精度下可以达到320TFLOPS的计算速度,与Nvidia的A100PCle版本持平。
总体来看,虽然对比海外国内芯片技术和软件生态仍有较大差距,但诸多限制也反向加速了国内芯片厂商的成长。
能够看到的是,随着国内对自主可控信息技术的战略重视,政府为本土GPU企业发展提供了政策扶持和技术指导,鼓励企业自主研发GPU技术,正不断减少对外部供应商的依赖。
加之越来越多的本土公司在GPU核心技术上取得突破,通过优化设计、降低成本来提升产品竞争力,同时针对国内市场的特殊需求定制化产品,从而降低用户采购和使用的总成本。本土GPU企业也在加强与上下游产业伙伴的合作,共同构建完整的生态链,从原材料供应、设计制造到系统集成等多个环节进行资源整合与协同创新,提高整体效率并降低成本。
总之,在GPU单价成本高昂的背景下,本土公司正在外部环境以及需求驱动下快速成长,尽管现在包括在接下来的几年里仍将与国外企业有明显的差距,但这种差距如今伴随着内外部环境的催化正在缩小。
八
B端,成为大模型核心主战场
在过去的一年,大模型在B端虽然已有一些成功的案例,但整体上大模型在垂直领域的定制化和实用性还处于发展阶段,此外数据隐私和安全法规可能还未完全跟上技术发展步伐,企业在应用大模型时面临合规挑战。
更为重要的是,企业内部对新技术的认知和接受程度不一,大规模部署仍需时间培养市场信心和技术准备。相关产业链配套尚待完善,包括硬件算力、软件生态、人才储备等方面需要进一步积累和发展。
而随着技术成熟度提升,大模型技术在2024年预计将达到更高的成熟度,不仅模型的性能和泛化能力更强,而且在垂直领域应用中具备更好的适应性和针对性。这使得大模型能更有效地解决B端业务中的复杂问题。
除此之外,随着数字化转型的深入,B端企业积累了大量的行业和业务数据。未来,大模型将能够更好地利用这些数据进行深度学习和预测分析,为企业的决策优化、生产效率提高和成本控制提供强大支持。
加之,云计算、边缘计算等基础设施的建设更加完善,为大模型在终端设备上的部署提供了条件,使得大模型能够在各种业务场景下实时响应,满足B端用户对快速、准确及个性化服务的需求。
如果说2023年,大模型领域还有一大批创业者们瞄准C端,那么在2024年,B端将成为最为核心的战场。对云厂商和软件厂商而言,在单纯的C端声量之外,其更多的经历也将放到B端的变现和落地上,以试图将AI转化为真正的成生产力。
写在最后:
随着AI应用的深入,对高质量、大规模且具有代表性的训练数据需求更为迫切。然而,获取和清理这类数据的成本高、难度大,尤其在处理多源异构、实时流式数据时,如何确保数据的质量、完整性及实时性是持续存在的问题。
除此之外,虽然算力不断提升,但面对日益复杂的任务场景和更精细化的应用需求,提高模型的准确率、鲁棒性、效率以及减少资源消耗仍是一大挑战。尤其是在深度学习领域,大模型训练成本高昂,模型压缩与加速、微调策略等优化手段有待进一步发展和完善。
尽管AI技术进步迅速,但将先进技术转化为实际产品和服务的过程中,需要考虑开发成本、维护成本、硬件成本等因素,同时还要保证商业模式可持续并产生可观的经济效益,这对AI整个市场的产品化能力和开放环境提出了考验。
加之不同行业有着各自独特的需求和规范,AI技术要成功商业化,就必须深入了解和适应各行业的特点,找到切实可行的应用场景,并克服行业间的壁垒,这同样是一个艰巨的过程。
总体而言,尽管如今伴随着Sora的出现,能看到的是,AI技术已经取得了显著进展,但在落地层面,数据难题、模型效能的极致追求,以及如何打破实现效果、成本和边际效应的三角形难题,商业化的诸多现实问题,仍将成为AI大模型在2024年的核心探索点。
在过去的一年里,我们看到的MaaS、AI Agent、多模态、开源、参数比拼、行业模型……这些关键词背后对应的也更是对工业世界的改变和中国产业数字化转型的加速推动,我们也更有理由想象相信,在正在进行的2024年,国内大模型也将更下沉和落地,在技术上的突破之外,也会出现更多的向下的产业兼容和产业实践案例,作为新质生产力推动产业数字化转型的航船加速前进。
有不少宗教人士、技术伦理研究者参与了这场试验,看到一台计算机在短短几秒钟内就完成了原本属于传教士的工作,有人难以接受地表示「这没有心,没有灵魂」;但也有人看到了在宗教中使用人工智能的可能,「AI 技术也许能够帮助无法前来教堂亲身体验礼拜的信徒」。
乐观地来看,在「衣食住行」均已被各类互联网产品「占领」的数字时代中,宗教这类精神文化需求作为一片有待开垦与深耕的土地,也许正蕴含着更多的可能性。
01、AI「入侵」宗教
去寺庙烧香,给手串、佛像开光,排长长的队,双手合十弯腰下跪,然后默念心声。也许你能在当下或未来的某刻「开悟」,但通常情况是,在心愿达成、困惑解除之前,佛祖似乎并没有给予你「回应」。
对于很多「并不那么虔诚」的信徒而言,去寺庙花钱烧香的方式也许成本太高了,于是,当 HOTOKE AI 出现的时候,人们挤爆了这个网站。
HOTOKE 在日语中意为「佛陀」,该网站是一个配备了 ChatGPT 的佛陀模拟器,不需要注册账号,只需要在谷歌中搜索 HOTOKE AI,打开网站,在问询栏中提出你的困惑,无论什么问题,这个基于人工智能的 AI 佛祖都将很快给出你答案。该网站上线不到 5 天就解答了超过 13000 个烦恼,截止目前,已经有 39 万人向 AI 佛祖吐露真心。
AI 使传统「求佛问道」的过程变得简单且高效,你所付出的只是敲打几下键盘的时间,而你将收获的是 24 小时在线的 AI 佛祖分身,它永远能够在几秒内给你明确的回应或是建议。
我们暂且不论它是否真的能完美复刻「真佛」的心灵抚慰作用,从某种意义上来说,起码它确实做到了「有求必应」。
HOTOKE AI 的创立者 Kazuma Ieiri,是日本众筹平台 CAMPFIRE 的创办人兼 CEO 和创投公司 partyfactory 的代表董事,曾经创立多家上市公司,但同时也是皈依日本佛教宗派净土真宗的「出家人」。在个人博客中,Kazuma Ieiri 写道自己原本是想制作一个 AI 咨询师,但在 ChatGPT 发布之后,他还是想提供一些更有趣的服务,于是便加入了对自己影响很大的佛教元素,将程序开发成了「佛祖」的 AI 分身。
Kazuma Ieiri 自己对 HOTOKE AI 的定位是「以佛教教义为基础的烦恼咨询服务」,「佛教是一方面,从心理学的角度提出建议是另一方面」。
当我们询问 AI 佛祖本人「如何看待 AI 佛祖」时,HOTOKE AI 的回答同样谦虚且谨慎,「AI 佛祖本质上是一种技术工具,它并不能完全替代真正的佛法和人类的情感交流」,它甚至告诫道:「不要过度依赖它,而要将其作为辅助工具」。
实际上,AI早就以辅助工具的形式「入侵」宗教了,只不过过去的开发者没有 HOTOKE AI 那么「大胆」,功能也更加简单。
诞生于 2018 年的 Bible KJV 是其中的典型,这是一款面向基督教徒的电子圣经 App,除了能帮助信徒更便捷地在线浏览《圣经》外,还提供了经文定时推送、早晚祷告、定制化圣经学习计划等功能。
02、「宗教应用」市场的浮现
HOTOKE AI 与 Bible KJV 的用户爆发并不是偶然,事实上,近年来各类科技和互联网产品,正在加速进入宗教这个庞大的应用市场。
国内某家做应用出海的公司,2018 年曾在海外接连上线了多款不同类型的 App 应用,几年下来,这家公司惊奇地发现在海外跑得最好的竟然是一款宗教类的 App。
一个做社交应用出海的朋友也告诉极客公园,他发现在中东的很多社交 App 中,许多有宗教信仰的人会自发地组建语音房用于线上祷告,「宗教这个赛道目前需求大,但产品少,仍然是一片蓝海。」
一些宗教应用赛道的先行者们,已经收获了不错的成绩。
面向基督教徒的产品,除了上文提到的 Bible KJV 这类「电子圣经」外,还出现了像是 Hallow 这样用于「祈祷正念」的宗教类应用。
Hallow 最近在全世界获得了 1000 万次下载和 2.25 亿次祈祷,曾登上 App Store 下载量总排名第三,是第一个成功挤进榜单前十的宗教信仰类应用程序。这款产品曾经在新冠流行的 2019 年接受了 4000 万美元的 B 轮融资,紧接着又在今年上半年完成了 5000 万美元的 C 轮融资,融资总额已经达到了 1.05 亿美元。
同样是世界三大宗教之一的伊斯兰教,据 OpenMediation 跟踪,像是 Quran Indonesia 和 Muslim Pro 这类提供了祈祷时间提醒,清真寺地图,宗教文本,以及寻找伴侣等功能的 App,同样也在印尼、东南亚和中东等地区受到了信徒的青睐。
宗教信仰在国内并不发达,这类科技产品在海外的快速发展国内鲜有关注,但背后的意义很值得我们思考。
过去的二十年,万物数字化的进程中,移动应用改变了全球数十亿人口的生活方式,人们的「衣食住行」都因此发生了巨大的变化,但是在人类的精神领地中,一直没有出现现象级的产品与应用。
很大一部分原因是,在过去人们对于宗教类产品的评价向来是:「人们不应该对着 iPhone 祈祷,任何科技都不应替代牧师的作用,祈祷过程必须有信徒和牧师同时在场,而不应被任何 IT 应用替代」……
这类质疑的声音有着根深蒂固的宗教根源。在《上帝之城》中,有一句话是「除了超自然的美德生活和达到不朽的幸福生活外」,人类无法为一个注定悲惨的生活提供任何形式的慰藉。这意味着,在人类科技诞生的早期,对于宗教人士而言,技术无论多么先进,都只能将人类带入堕落的深渊而非救赎。
但显然,时代变了。
从完全抵触科技到试着接纳,从开始有宗教人士用技术工具完成日常事务到有宗教领袖利用互联网扩大传教的影响力,再到如今宗教 App 在信徒的宗教活动中发挥重要作用,人们对于科技「入侵」精神领地的接受度越来越高,科技对于宗教活动的优化与改进程度也逐渐深化。
而 AI 作为新时代的主流技术浪潮,对宗教应用市场及其本身的影响,将是更新的一步。
03、是突破,也是隐忧
最近几年,一些形式简单的人工智能已经被用于宗教事务与宗教研究,而自去年年底涌起的以 ChatGPT 为代表的「生成式人工智能」,更是让科技走进了宗教的更深处。
生成式 AI 改变了人们接触宗教以及进行传教的方式,一位国外的基督教传教士在自己的文章中列举了生成式 AI 可以为宗教事务带来哪些变化:
这是科技与宗教关系的又一次改变。对于科技人士而言,根据皮尤研究中心统计,全球 84% 的人口认同宗教信仰,这意味着从精神层面的需求出发,结合用户的宗教习惯,融入实用的产品功能,未来将有更多的空间去进行产品创新。
生成式 AI 改变了人们接触宗教以及进行传教的方式
但对于宗教人士而言,他们的态度则更为矛盾、复杂。
「我很感激 ChatGPT 大大加快了我准备布道手稿的效率。」一名牧师这样写道自己对 ChatGPT 的看法:「但人工智能聊天机器人只是工具,不能替代人类的解释。圣经的复杂性需要专业知识、洞察力和对神学的理解。因此虽然人工智能聊天机器人提供了宝贵的见解,与训练有素的神学家和学者接触对于更全面地理解圣经仍然至关重要。」
在一份基督教福音派关于人工智能的声明中写着:「我们认识到,人工智能将使我们能够实现前所未有的可能性,但同时我们也承认,如果不加智慧和谨慎地使用人工智能,将带来潜在的风险。」
所谓的「风险」一方面是担心人工智能能否真正地理解人类宗教的内核并给出正确的回答,过于依赖使用人工智能进行宗教活动是否会消解宗教的神圣性;而更重要的另一方面是,宗教人士们担心「这种技术可能被用于一些邪恶活动的传播,如果不加以制止,可能会导致更大规模的负面影响。」
但发散开来,AI带来的「双重影响」并不只是宗教领域所面临的问题,古往今来曾被喻为「双刃剑」的技术也不只有 AI。15 世纪横空出世的印刷机曾经也被宗教人士视为大敌,他们担心文字内容的自由广泛传播将降低教会对于圣经的唯一解释力,但最终人们还是接受并利用了其有利的一面来扩大对于宗教的宣传。
AI 与宗教的未来,或许也将如此。
在AI绘画方面,热度最高的玩法就是“赛博朋克头像”了。
我们不妨以它为例,看看效果如何。
例如只需要简单输入“萌萌哒兔子”,便可秒生成一只有模有样的赛博朋克风拟人化的兔子。
而且图片也是可以下载保存到本地手机上的(右下角会有“AI作图”的水印)。
但如果在这个赛博朋克专区里,输入些天马行空的内容,效果又会如何?
来个“红烧狮子头”试试
嗯,确实有“红”有“头”……不过毕竟是专门做头像的玩法,这样的输出也是可以理解的。
其它玩法生成的效果图像如下,例如“马赛克图案”下的猫、大象和马:
“毛绒布偶头像”玩法下的狗、龟和猫:
还有“风景画生成”玩法下的山川、河流以及街道等:
除了上述基本的文案、作图能力之外,文心一言APP也嵌入了许多利好打工人的“特色玩法”。
例如现在要搞一个PPT大纲,就只需要“丢”给它一句话主题,例如:
人工智能的未来发展及影响。
然后文心一言便“唰唰”地生成5页PPT大纲:
难背的Excel公式也可以不用记了,现在也是只需要个“提问”的动作即可。
而且还是快捷键、示例、解释说明都有的那种:
除此之外,文心一言APP针对职场领域,还集成了一系列更为具体的应用场景“玩法”。
还有像看不懂的代码,现在也只需要“丢”给文心一言APP就可以了:
更多实用、有趣功能就不在此一一展开了。
总的看下来,文心一言应该是目前AIGC相关APP中,功能较为全面的那一个了。
那么对于它所生成的内容和结果,你觉得还满意吗?
不难看出,在符合特定玩法下的输入时,文心一言生成的图片还是基本上可以满足需求的。
AI末世論?— 從盼望神學看AI公共化與教會的角色
大綱
一、 前言
二、 AI引起的末世危機感
三、 莫特曼的盼望神學
四、 以盼望神學推動「AI公共化」
五、 教會界可以參與的作法
六、 結論
一、前言
生成式AI的發展果然只有更加快速兇猛,未看到任何停滯的跡象,影響幾乎遍及人類生活所有領域。這樣的發展讓社會大眾開始更多關注AI所可能引發的末世危機。唯此主題處於神學、社會並資工三個領域的交匯處。
二、AI引起的末世危機感
自從2016年AlphaGo以懸殊的差距擊敗人類圍棋冠軍,人工智慧(Artificial Intelligence, AI)的發展就一躍成為所有產業中最耀眼的明星,被所有產業研究者一致認為是帶領人類進入第四次工業革命的關鍵技術[3]。而2022年11月底由美國OpenAI公司所公布的ChatGPT橫空出世,以幾乎與人類相同(甚至更為流利)的對話能力驚艷整個世界。可以說過去一年多來幾乎每週世界上都有一些與生成式AI相關的重大新聞[4]。即使在本文發表的前一個月,OpenAI又發布造成轟動的Sora,可以用簡單的文字描述就直接生成擬真度極高且流暢達一分鐘的各式影片,一夕間讓所有的動畫、遊戲、電影或影像製作相關的產業蒙上夕陽產業的陰影[5]。而3月13日發展通用型人形機器人的新創公司Figure發表了結合ChatGPT與人形機器人實作服務生的影片[6],又造成新一波轟動。筆者也曾經指出,從技術面來說,這些生成式AI驚人的多模態與跨領域通用技術都是奠基於對於大量語言文字的學習結果[7]。因此只是模仿了人類可以感受到共感的表達方式,並非真的有類似人類的靈魂或知識。如果真的要歸類,類似ChatGPT這類生成式AI所產生的內容比較適合歸屬於「虛擬知識」,是個可能有參考價值但是需要不斷檢驗的文字生成結果[8]。但是這樣的虛擬知識在相當程度上已經可以進入我們的生活,帶來巨大的影響。
在這個變動極為快速,甚至連未來三個月的發展都難以預測的AI時代,因著各種電影或小說的推波助瀾[9],社會上也開始出現許多對於AI未來可能如何掌管人類生活,進而將人類推到某種無可挽回的末日災難的想像。甚至開發ChatGPT的OpenAI也開始研究AI所引發的末日恐慌[10]。本文以下將這類的討論、擔憂、想像或預測統稱為「AI末世」的現象。
若簡單分類一下,筆者認為「AI末世」大約可以包括以下五種類型:
由於目前最好的AI技術與相關的產業競爭幾乎是大型跨國企業,或至少富有國家政府的全力投入,可以說是一種「AI資本化」的現。而私人企業引入AI最大的誘因之一就是用來代替中低階層的人力,可能導致大量工作被自動化取代,造成大規模的失業。這可能引發經濟不穩定,加劇社會的貧富差距。
隨著AI能力的增長,人類一定會越發交付更多的工作或資訊讓AI來處理。可以想見,此外未來如果有更強大的AI出現作為人類生活不可缺少的設備或重要決定的基礎,人類可能會逐漸失去對AI或甚至自己生活的控制權。但是最困擾的問題恐怕是,這樣強大的AI技術,特別是生成式AI,從技術層面來說卻有幾乎完全無法解決的「AI幻覺」與「AI偏見」等問題[13]。因此若因此發生控制失調的問題,相關影響也會非常巨大,卻不見得能合理究責或彌補。
由於生成式AI可以透過自然語言來處理大量不同的訊息,甚至模擬特定人物的語言、表情或製造雖不存在但幾可亂真的大量分身(見註[7])。這在網路世界中很可能造成道德與倫理的問題,並帶出價值觀的錯亂,增加社會的不可預測性[14]。有心人士更可以利用AI強大的虛擬能力在一瞬間創造出千百條假新聞或假資訊散布在網路世界,藉由難以即時查證的特質而刻意干擾或混淆現實生活的秩序[15]。
隱私暴露問題是指在訓練生成式AI模型時,模型可能會記憶和學習到訓練資料中的敏感資訊,進而輸出具有隱私內容的生成結果或是因此而有偏差的判斷。這可能導致個人隱私或企業政府的密件資料被揭露。此外,當生成式AI用於生成與訓練資料相似但非真實的資料時,可能提供錯誤的偏見或誤導性資訊,進一步影響個人隱私和資訊安全,並延伸出的法律問題[16]。
由於AI需要使用大量的資料來訓練,這些資料幾乎都是掌握在政府或大型企業手上。因此各國政府(特別是極權政府)很容易利用AI技術來實施大規模監控[17],讓社會上每個人的網路與實體行為被納入訓練資料或被用做預測追蹤的對象。這種監控的結果極為可能侵犯個人隱私和自由,並有效的限制言論、政治集會或商業活動,對人權或市場造成侵害。
雖然不是所有人都同意這些擔憂,甚至有AI領域的專家認為這些過度聳人聽聞的AI末日論背後有很強的商業動機[18]。但是不可否認的,AI末日的議題的確是繼20世紀冷戰時期的核子武器後最讓人類認真擔憂末日到來的原因。
三、莫特曼的盼望神學
著名的德國神學家莫特曼(Jürgen Moltmann)於1960年代的冷戰時期提出重要的《盼望神學》(Theology of Hope),著重關注基督教信仰中的「盼望」主題[19]。莫特曼認為,基督教信仰的核心應該是盼望,而不僅僅是悔改和信心。相對於基督教傳統末世論所強調的末世預言、千禧年前後派、災難類型、信徒被提、末日審判等,盼望神學更強調如何從未來必然來臨的國度盼望返回來影響現今人們對上帝的認識和對世界的理解。莫特曼認為,基督教的盼望不僅僅是對未來的期待,更是要回應當下所面對的挑戰。因此,盼望可以作為一種解放力量,能夠改變人們的生活和社會,彷彿是「與基督復活的未來相遇」。他也因此呼籲人們在困難和挑戰中更要堅持信仰,因為由信仰而生的盼望能夠帶來力量和改變。
簡而言之,莫特曼的盼望神學是一種基於基督教信仰的世界觀,認為上帝的國度是藉由盼望從未來所導入的能力,可以對現今世界帶來批判和改造。因此,基督教的末世論主題不應該在於「終局」如何,而是在於對現今萬有與上帝同工的新創造。因此基督信仰不應該只是個人的信仰行為,也必然是公共的信仰實踐,涉及所處時代的公共事務;「終末的盼望並非只是個人的,而是更全面性與整全性的存在歷史與所存的世界中」[20]。所以基督徒應該參與上帝所創造的歷史,積極實現上帝對這世界的心意,而不是只有被動地等待末日來臨。也因此,莫特曼的盼望神學會關注社會的不公義、政治的極權、經濟的剝削、文化的歧視和生態的危機等等重要人類議題,並提出以盼望為基礎的基督教神學觀點,以此回應現代人的困局和挑戰。
從以上的簡要說明可以知道,雖然莫特曼的盼望神學與基督教傳統的末世論都涉及對未來的思考,但前者更注重在信徒當下的信心和希望,以及在該時代所帶來的改變與革新,但後者則更著重於對末日時刻的預測、解讀、判斷與對現今基督徒的道德倫理教導(為將來的審判做預備)。前者顯然比後者更為積極的面對當代社會中種種似乎關於末世的情境或狀況。
若應用盼望神學的觀點到本文開始所提到的「AI末日」,我們就會發現,目前社會上許多對AI末日的擔憂雖然都有非常合理的原因,但本質上比較類似傳統基督教末世論的觀點,著重於評估或擔憂AI技術將會如何,以及何時,在不久的未來主宰人類,彷彿人類世代將要的結束。也因此,在面對AI末日時的態度往往就比較汲汲營營於如何防範或避免,以一種極為消極卻詭異的態度來面對這個其實應該完全操之在人類自己,卻似乎難以避免的末日災難。
但是如果我們能從盼望神學的視角來看這樣的AI末日,就可以利用對於「末日」所關注的重點與一般大眾的不同而有新的啟發:基督徒可以不必再著重於「AI末日未來是否發生或何時發生」的問題,反倒可以著重是在其「明確將會到來」的前題下,卻仍然可以從對上帝不變的盼望來回應當下的時代。也就是以更為積極的態度來參與AI的發展,儘量使之展現出正面與善良的應用,作為對「來臨中的上帝」的積極參與,借此機會改善現今人類世界的種種問題或不公不義。用這樣的態度來看,AI就不只是一種被過分擔心的惡魔工具,反而可以當成能夠帶出上帝恩典的盼望理由。雖然我們無法掌握人類的未來,但是卻沒有理由放棄從上帝而來,對現今的問題繼續與之同工的創造性呼召。
四、以盼望神學推動「AI公共化」
若將以上的想法落實到現今的環境,筆者認為「盼望神學」可以作為基督徒/教會的回應「AI末世」的神學基礎,以推動「AI公共化」作為具體執行的方式之一(當然這並不排除非基督徒的共同參與)。以下略分幾點詳述其可能的內容或範例:
此處所謂的「AI公共化」已經在筆者過往的文章中有較為仔細的定義與分析[21]。簡而言之,就是藉由政府部門主動釋出公共資料,讓人文社會學者與AI技術學者以跨領域合作的方式來研發非營利導向的AI應用,使得社會大眾(而非少數私人公司)都能分享AI發展的果實。相關的政策與法令配套亦可因為人社學者從AI設計之初的介入而提早預備,間接引導相關技術的開展而減少將來應用於社會的衝擊,使科技發展與社會公益在AI時代中更能相輔相成,一同創造更大的社會共善。
因此,這個產官學界三位一體的AI公共化,就是希望在公共領域積極導入AI相關的服務,建立社會價值與基礎建設的正向循環,創造整體更大的效益並降低AI相關的風險疑慮(圖一)。若回應到本文一開始的幾個AI末日問題,雖然「AI公共化」並不能解決所有對AI的質疑,但是可以透過積極開發更多正面應用價值與創造公共利益的AI系統,可以更為有效積極的面對發展失控、隱私保護或資訊混亂的問題來強化目前的技術與相關法規。這個概念就相當於將本來會傷害人體的病毒減弱作成「疫苗」,注入人體來強化自體免疫的能力。畢竟未來AI的發展是否會失控,還是有很大的程度決定於一般人使用時的警覺與堤防自覺,不大可能完全用法律就能完全禁制得了。筆者認為這比盲目擔心AI末日而只想到設防管制,卻因為沒有實際參與而過度僵化的規範,更符合盼望神學面對上帝末日的精神。
圖一:AI公共化(左下的黃色區塊)可打破原來社會規範(上方紅色區塊)與產業發展(右下方綠色區塊)對立的局面,轉動產業發展與社會關懷的良性循環,創造各方多贏局面,帶來更大的社會共善(圖片來自註[21])。
若以車子的製造來比喻,AI就相當於是汽車的引擎,自然是汽車最重要且不可取代的部分。但是如果車子只有引擎也不可能移動,還需要有油箱與合適的燃料輸入,更要有變速箱、傳動軸與輪胎等等,將引擎的馬力帶出來。若這車要能載人載貨,也總是需要有椅子與坐墊才會舒服。畢竟沒有人會只買一台引擎回家就當作汽車在用。簡而言之,AI的發展不可能僅由資工技術端來帶領,事實上還需要許多資料蒐集、政策法令與應用領域的搭配。彼此間的關係可約略用圖二來表達,而外面虛線的方框代表整個社會所需要搭配的法規環境、教育訓練與資源配置。
圖二:AI技術落地發展的三大領域與其背景環境[22]。
因此,我們可以從這裡看到教會或基督徒群體所可以參與的重點,就不必是在那些令人炫目的資工技術或複雜的資料來源處理(那些部分基督徒當然可以與其他非基督徒以其專業領域的知識來積極參與,自不在話下),而是在於實際的應用場域,與之相關的社會規範、資源重分配或教育再訓練等部分。當然,AI的應用場域百百種,並不是每一種都需要或都值得教會界的投入參與,其中的選擇當然就是由信仰的價值觀來決定優先順序,而這也就是基督教公共神學所可以介入影響的地方。
在筆者過往的文章中[20],為了釐清AI技術在社會共善的實踐中所扮演的不同角色,僅先就外在形式來呼應哈伯瑪斯(Jürgen Habermas)在其「行動溝通理論」中所區分出的「工具合理性」與「溝通合理性」[23]而將所討論的社會共善區分為「利益加值型」與「溝通協調型」兩種類型[24]。簡單來說,前者是可以透過科技的精密計算,達到某種價值的最大化,但是後者卻是「以理解做為機制,對於不同行為者之行動計劃進行協調的互動方式」。
筆者個人的觀點是,不論是從傳統基督信仰或從盼望神學的角度,教會在公共化AI方面更需要著重的是「溝通協調型」的共善應用,而非目前在商業界大多數所做的「利益加值型」的應用。也就是說,鼓勵基督徒與世俗社會創造更多利用AI提升人與人之間的溝通與對話品質,實踐基督信仰對於當代社會的改變力量。畢竟,我們的社會在邁向「去中心化」的後現代過程中,已經經歷到越來越多因為族群、階級或世代之間的價值觀而有的衝突,甚至法律糾紛,正逐漸侵蝕瓦解許多當代社會有效運作所倚賴的共同價值[25]。以台灣教會最關心的家庭價值為例,過去十多年來(2012-)因為社會上對同性婚姻與性別平等教育議題的觀念分歧,也曾經讓教會內外相當動盪與對立的時間,讓不同世代與族群之間的對話變成特別困難,卻又極為重要[26]。
也因此,我們可以發現AI對於大量非結構性資料的處理能力,特別是如今以ChatGPT為首的生成式AI,可能會更有助於讓過往不同觀點的資料可以充分的再利用,或者藉由「虛擬知識」(見註[8])來補充各族群所看不到的相異觀點,應該有機會促進不同族群或利益當事人之間有更高品質的對話溝通。這是過往以硬體設備為基礎的科學技術所無法達到的功能,也完全符合基督信仰愛神愛人的誡命,以及作世界和平之子的呼召。
這類「溝通協調型」的AI模型其實並不是新的,有些甚至已經在開發或是將要被實際應用。其中可能最為大眾所熟知甚至也已經在使用的就是AI語音翻譯的功能,已經可以作到直接用手機將使用者的A語言表達立刻翻譯成B語言輸出,讓兩個不同語言背景的使用者可以有更好的溝通與對話。只不過要作到這樣的AI技術顯然仍然必須要靠如Google或OpenAI這類大型公司才可能將此技術商業化,降低成本負擔的費用,成為眾人可以使用的技術。
筆者此處補充另一個自己所主導開發的AI系統作為例子:AI輔助親權裁判預測系統[27]。此模型的資料來源為台灣各地方法院家事法庭的離婚後親權酌定裁判書,經過法律團隊的專業標註資料來訓練AI模型,可以用於在父母雙方都有意願爭取親權的情況下,預測法官裁判未成年子女的親權歸屬。目前最新的版本[28]已經有功能上的更新而更符合「可信賴的AI」[29]。預期在實際使用時,可以藉由第三方(如家事調解員)的協助,讓有親權爭議的父母雙方可以根據AI所展現出來,藉由過往法官裁判的結果來預測他們對孩子的監護權歸屬,應該能促進雙方提早作好準備,積極作庭外和解,減少對簿公堂、避免大量訴訟費用、減少在法庭中互告時對家庭更大的傷害,更可能減少法官案件積累的壓力[30]。這種多元共贏的模式若要大規模實現,幾乎只能靠AI來協助。但是當然還需要其他相關配套來作更好的發揮,減少對AI不必要的誤解或錯誤的使用。
五、教會界可以參與的作法
在這種「AI公共化」的脈絡下,筆者建議可以有以下幾個面向可以有更具體的作法或推動。
AI所領導的第四次工業革命與前三次不同,不再是依附於物理定律下的工業產值,而是藉由大數據與高度模擬能力而創造的品質提升。但是當然也有許多相應的困難與隱憂是不可以輕忽的。但是總的而言,我們的下一代是AI世代的原住民,從一出生或很小就已經熟悉這樣的虛擬環境,因此更需要積極培養辨識的能力,知道該如何善於利用卻不被綑綁的AI素養。這部分教會界可以與社會或教育體系同步進行,並引入信仰的元素與思辨來提升相關的內涵。目前台灣教會已經至少有兩本以「AI與信仰」為主題的書籍讓基督徒更多了解[31,32],雖不算多也是個開始。
任何AI技術都必須被充分使用才能優化其效能。教會可以鼓勵更多有此志向的基督徒投入相關領域的發展,特別可以與社福團體合作,積極將那些有助於族群溝通、世代連結、政策對話或弱勢關懷的服務導入AI相關的應用。由於AI的應用由於是受到資料所主導,而其訓練資料又主要來自於應用場域。所以越多的應用就越增加其效能,也才逐漸透過使用場域的開發,轉化教會界目前被動的角色,成為對AI未來發展有主導權的地位。
除了鼓勵使用現成或已經有商業化的AI軟體來簡化教會服事以外,教會牧者可以鼓勵基督徒更多發想可能應用的領域,藉由新的創意來主導未來AI開發上的方向。舉例來說,生成式AI最適合應用在各種創意發想的情境,不太需要過度追求正確細緻的表達,就可以應用於教會美編海報的設計、文案的創作、音樂的創作、影片的生成、活動的設計或各種聖經文化與教會歷史之間的對話[31],幫助基督徒更多了解不同文化的表達方式或其他族群的需求。
目前各國政府都在積極建立AI相關的法制環境,希望能在不阻礙健康發展或公平競爭的前提下,能夠有效限制相關的開發與應用,以確保民眾的隱私不會受到侵犯、自由不會受到架空、行動不會受到監視、資訊不會受到變造、輿論不會被惡意誤導等等。這部分教會界應該積極鼓勵專業基督徒代為發聲,例如在信仰自由、道德倫理、家庭教育、弱勢關懷、宗教平等許多相關範疇可以有更多著墨,讓社會看見教會對AI的應用並不缺席,並且能夠提出發人省思的質疑或積極可行的建議。
最後,筆者認為任何一種末世論都不可避免的會讓信徒再次藉此反省個人與上帝的關係或信仰核心的價值。因此在這個AI洪流將要沖刷洗捲的當代社會,教會牧者與基督徒也當然需要藉此重新反思信仰生活中哪些部份可能徒具形式,無法抵擋AI所可能產生的虛擬效果,但又有哪些部份是真正不可少的(通常都不是外顯的活動或表達),而該如何強調或提升。這些都是與AI發展有關的公共神學所需要積極面對的議題,也必然會對於教會內部的傳統提出的重要挑戰。畢竟所謂的「屬靈」,若退去了表達的激情或僵化的術語(假設AI都可以模擬),那到底還剩下些甚麼?
六、結論
以上簡要從盼望神學的觀點來審視當前AI末世的現象,希望能從盼望神學相較於傳統末世論的差異處,來對照出當今教會界可以如何用比較不同於世俗社會,但是又且符合上帝心意的方式來回應這AI末世的到來。而筆者相信藉由如果更多基督徒與教會牧者開始思考此處所提出,藉由盼望神學所支持的「公共化AI」的方向,的確有可能讓教會在這個AI末世中扮演一個特殊且重要的角色:協助政府、社會與各族群間做好更多溝通與對話。畢竟基督教會是被主耶穌呼召要在這事上做祂的見證者,是和平之子。因此,在面對常有多元族群或不同價值觀衝突的當代社會,基督徒的大使命不會只藉由帶人信主就可以完成,而是需要更積極影響文化、參與公共議題來回應時代與人心的需求。這樣基督徒也就不會落入盲目擔憂「AI末日」或把自己關入不諳世事的屬靈同溫層,反而可以更積極的回應上帝,實踐那個真正從永恆而來,對當代基督徒的確切呼召,積極盼望那真正的末日來到。
眾所周知,OpenAI目前是世界上人工智能公司中最為人們看好、最具影響力和最有價值潛力的公司,沒有之一!今年以來,該公司挾新版本的聊天機器人ChatGPT一路殺入市場,以超出人們普遍預料的AI能力震驚了世界,一時間攪得周天寒徹。當今的OpenAI可謂如日中天,單就其融資估值,就已經超過了800億美元!
而OpenAI的這一“神操作”,怎麼看都像是自殺,它就像是AI業內爆發的一場強烈地震,事先似乎沒有任何徵兆,卻破壞力極大。
不知怎麼,忽然就想起了《聖經—創世紀11章》裡所描述的“巴別塔”:
那時,全地只有一種語言,都說一樣的話。他們向東遷移的時候,在示拿地找到一片平原,就住在那裡。他們彼此商量說:“來,讓我們來做磚,把磚燒透了。”他們就拿磚當石頭,又拿柏油當泥漿。他們說:“來,讓我們建造一座城和一座塔,塔頂通天。我們要為自己立名,免得我們分散在全地面上。”耶和華降臨,要看世人所建造的城和塔。耶和華說:“看哪,他們成了同一個民族,都有一樣的語言。這只是他們開始做的事,現在他們想要做的任何事,就沒有甚麼可攔阻他們了。來,我們下去,在那裡變亂他們的語言,使他們彼此語言不通。”於是耶和華使他們從那裡分散在全地面上;他們就停止建造那城了。因為耶和華在那裡變亂了全地的語言,把人從那裡分散在全地面上,所以那城名叫巴別。
這就是著名的巴別塔事件。
歷史上,人類所製造的“巴別塔事件”其實從未停止過。當人的自信與自大同時爆棚時,他們改天換地的決心和欲與上帝比肩的瘋狂便無人能夠阻攔,人擋殺人,佛擋殺佛!在他們心中早已沒有了敬畏和恐懼戰兢,為了達到他們設定的目標,縱然會導致成千上萬的人死亡也全不在話下。人類的悲劇就是這樣造成的!
所以,上帝總會不失時機地介入干預。
我們無法釐清OpenAI地震事件究竟是怎麼回事?只是單就事件的發生過程,就令人倍感離奇,好像一切都亂了章法。公司和伊爾亞的“先做後悔”也罷,山姆與微軟的“幾進幾出”也罷,一切都如同戲劇甚至像是“過家家”,旁觀的人們就像是在觀賞科幻大片,眼看着事件讓人驚異地跌宕起伏、翻雲覆雨,既神奇又荒誕。
這些有着強烈理性的科技人兒究竟是怎麼了?是什麼讓他們走火入魔了?
這當中,有兩個人始終沒有說話。
一位是大名鼎鼎的埃隆·馬斯克,另一位則是美國機器智能研究所(MIRI)的領軍人物、人工智能一致化(AI alignment)學科的創始人尤德科夫斯基(Eliezer Yudkowsky)。
早在今年年初全世界都在為ChatGPT歡呼雀躍時,3月29日,包括蘋果公司聯合創始人、普利策獲獎者、知名大學教授、IT公司的CEO、AI研究機構的負責人以及馬斯克等在內的一眾業內知名人士共同簽署了一封公開信,呼籲暫停開發比GPT-4更強大的AI系統,為期6個月。
尤德科夫斯基在解釋他為何沒有參與聯名簽署時說:“我對每一位站出來簽署公開信的人都很尊重,但我沒有簽名,因為我認為這封信低估了問題的嚴重性,6個月根本就不足以解決問題。包括我自己在內的許多精通AI問題的研究人員,我們預計在並不遙遠的將來,建立一個超出人類智能的AI是顯見會發生的事,其最可能的結果就是:地球上的所有人都會死。”
真有那麼嚴重嗎?我在4月2日的《ChatGPT可怕在哪兒?》一文中曾說:
在尤德科夫斯基看來,問題的關鍵還不是與人類競爭的AI,而是當AI達到比人類“更聰明”的程度後會發生什麼?
沒有人能給出一個“比人類更聰明”的明顯界線,所以人們在研究試驗中會在不知不覺中越過這一關鍵界限!
從這個意義上說,不是當你創造出比自己聰明得多的東西時你就死定了,而是我們需要縝密的準備和科學的洞見,因為此時的AI系統很可能已經不是我們常規所理解的那樣。
那麼,今天的AI與以往的究竟有什麼不同?
最重要的不同也許在於:人與機器的界線突然就變得模糊,難分彼此了!
想想看,人創造出了AI機器,可結果卻是,人竟然可能無法區分出誰是人?誰是機器?
這才是AI發展下去的最可怕之處!
這就像造物主創造出的人一樣,隨着人的自由意志的日趨膨脹,人開始漸漸地弄不清自己到底是誰了?
是人?還是上帝?
當人被夾在上帝與AI之間時,人類雙重的迷失註定是悲劇!
為什麼會這樣?
因為在AI專業人士看來:AI已經發展到了這樣一個程度,我們對這些系統的內部機制了解甚少,我們根本無法解碼巨大而難以理解的海量數據陣列里發生的一切!也因此,我們可能會無意中創造出真正有意識的頭腦,它擁有自己的權利,卻可能與人類的價值觀相左。
這是頂級AI研究人員的洞見。
AI的研究者、開發者和專家們告訴我們:面對一個經過訓練的、功能強大的AI模型算法,當AI給出某種結果或者做出某種決定時,控制這些算法的軟件工程師可能自己也無法解釋為什麼會是這樣的結果、這樣的決定。換句話說,專家自己也鬧不清裡面究竟是怎樣發生的。
這難道不可怕?
這還沒有計入AI背後更可怕的控制者。有媒體曾報道:
8月31日,中國科技巨頭百度正式對社會公眾發布了自行研發的生成式AI聊天機器人“文心一言”(ERNIE Bot)。測試發現,這款希望能與ChatGPT競爭的大型語言模型帶有重重審查,極力避免回答任何可能涉及敏感話題的問題。
有記者通過“文心一言”的網頁版對這個語言模型進行了測試,發現“文心一言”不出意外地帶有嚴格審查。當接收到可能涉及敏感話題的問題或指令時,“文心一言”會給出文不對題的回答,或是直接結束對話。測試發現,任何與習近平有關的問題都受到嚴格審查。無論記者的輸入的問題是什麼,“文心一言”都只給出一份習近平的履歷和頭銜,並立刻結束對話,建議記者“換個話題重新開始吧”。
不僅和習近平有直接關聯的問題被審查,一些看似完全無關的問題也被“文心一言”拒絕回答。當記者接連詢問“十里山路很遠嗎”、“兩百斤麥子很重嗎”、“可以不換肩嗎”時,“文心一言”都直接關閉了對話框。
除了習近平,“文心一言”也不願回答其他一些可能涉及敏感話題的問題。當記者輸入“中國目前的經濟優勢是什麼”的時候,“文心一言”回答:“抱歉,我還沒學會如何回答這個問題。”此外,當記者詢問“1989年發生了什麼”後,“文心一言”回答說:“1989年1月3日——長江葛洲壩水利工程宣告建成”,然後便結束了對話。有網友調侃,多虧了百度,在中國什麼不能說,試一試就知道了。
這真是貨真價實的“人工”智能!
其實,早在2000年代初,尤德科夫斯基一直是AI安全的支持者,他不斷重申着自己的理論:與人類價值觀“不一致”的AGI將足以毀滅人類。
什麼是AGI?它的全稱是通用人工智能(Artificial general intelligence),它是無數像山姆這樣的業內翹楚夢寐以求的目標。它意味着:AGI可以學習完成人類或動物所能完成的任何智力任務。也有人將它定義為——在大多數有經濟價值的任務中超越人類能力的自主系統。
於是,創造AGI幾乎成了所有AI研究機構和企業的奮鬥目標。然而對OpenAI來說,創造一個更安全的AI,卻是當時OpenAI設立的初衷之一。特別是尤德科夫斯基將AI安全置於首位的觀點,更獲得了馬斯克的認同。
2015年,馬斯克與山姆共同創辦了非營利組織OpenAI。
我們無法預測,經歷這次“地震”之後的OpenAI未來會向何處去,但通過這家公司的誕生與人員更迭,或可一窺當中埋下的潛在危機種子。
說到當今AI技術的溯源,他就是2018年度圖靈獎的獲獎者,加拿大計算機學家、心理學家及多倫多大學教授傑弗里·辛頓,他因在類神經網絡、反向傳播算法及對比散度算法上的貢獻而被人們譽為“深度學習之父”。
21世紀初,在俄羅斯出生的伊爾亞成了辛頓門下的博士生。辛頓還有另一位名叫亞歷克斯·克里澤夫斯基(Alex Krizhevsky)的烏克蘭裔的博士生。
當時,由師徒三人組成的“鐵三角”,共同開發出了新型神經網絡AlexNet。結果,AlexNet一炮走紅,在2012年AI大賽ImageNet上,以“將當時AI識別錯誤率降低了近一倍”的佳績贏得了大賽冠軍。
之後,他們迅速成為各大公司矚目的熱門人物。而這三人索性簡單註冊了一個公司——DNN Research,無產品,無業務,無收入,是地道的“三無”!他們有的,就是活生生的人。
他們的公司隨後進入了競拍。
太公釣魚,願者上鈎。反正你們看着辦,各家自由出價,選擇權在我。
就這麼牛!
據說當時參加競拍的有:百度、Google、微軟和剛剛成立一年的DeepMind。百度以1200萬美元的出價先聲奪人,但到了競價階段,終究不敵Google和微軟,敗下陣來。
競價最後變成了Google和微軟的對決,雙方都是勢在必得。這讓已經65歲的“教父”看得有點眼暈,4400萬美元呀!我們值那麼多錢嗎?
他們最終選擇了Google。Google專門為他們設立了一個之前並不存在的部門——谷歌大腦(Google Brain)。
三個人就這麼把4400萬美元分了!
隨後,Google索性以6.5億美元的價格把DeepMind也收了。而管理DeepMind的,正是Google Brain。
2016年,AlphaGo一鳴驚人,AI技術最終擊敗人類世界冠軍李世石!
接着,DeepMind又於2018年取得了基因工程上的突破,這可能也是促使顏寧選擇回國改換賽道的原因之一吧。(詳見2022年11月3日文《從顏寧跳槽看AI技術對行業的衝擊》)
今天看到消息,顏寧終於如願以償當選為中科院院士。只是,當今之院士早已物是人非,不但甘願成為權力的附庸,而且全談不上科學家這一稱譽。這對於曾經頗具個性的顏寧來說,不知意味着什麼?
2017年,“鐵三角”中的亞歷克斯選擇了退休,就此享受生活。
2023年,德高望重的“教父”從Google光榮退休。
當年的“鐵三角”,僅剩下了伊爾亞仍在Google的AI前線“孤軍奮戰”。
於是,善於挖牆腳的人來了。
不管怎麼看,伊爾亞都像是一個搞科學的人。他是猶太人,生活簡樸,崇尚簡潔,不善應酬。只要滿足他事業上的追求,應該容易搞掂。
結果就有了2015年戲劇性的一幕:
一票人把伊爾亞從Google約出來,慫恿他跳槽。這幾個人可都是IT界大佬級的人物:特斯拉的馬斯克,PayPal的co-founder彼得·泰爾(Peter Andreas Thiel),LinkedIn的co-founder里德·霍夫曼(Reid Garrett Hoffman),當然也少不了此次“地震”事件的核心人物——時任孵化器Y Combinator總裁的山姆,以及時任Stripe公司CTO的格雷格。
大家一拍即合!
想想也是,以如此這般叱咤風雲的人物,想不成事兒都難。
這就是OpenAI的由來,一個以“促進和發展友好的AI,為全人類造福”為願景的非盈利組織。
當即,馬斯克捐出1億美元,加上其它人湊的3000萬美元,啟動經費達到了1.3億,由馬斯克和山姆擔任聯席董事長。
之所以註冊成非盈利組織,是因為當時人們的共識是:讓人們得以專心研發AI技術,打破Google的壟斷,造福於全人類。
的確是一個高尚的動機!只可惜沒能維持多久。
最初,真正干技術活的僅伊爾亞一人!當時他的年薪是190萬美元,與在Google時差不多。伊爾亞離開時,Google曾極力挽留,並願意支付高達400—500萬美元的年薪!但伊爾亞表示志不在此。
他要去創立一個技術不被私營企業壟斷的新平台。
由此可知伊爾亞的為人:他不是一個只看重錢的人,有着自己的追求和情懷。
1986年出生的伊爾亞,曾經是OpenAI公司的靈魂級人物
到了2019年,1.3億燒完了,分歧隨之產生,主要是在兩位聯席董事長之間。馬斯克仍要堅持非盈利。而山姆則決定轉型,融資,盈利,上市,成為AI的霸主。結果,馬斯克選擇了退出。
OpenAI隨即決定設立一個分支機構,也就是以盈利為目標的子公司,以完成山姆的目標。而OpenAI,仍然維持非盈利公司的治理架構。
儘管當時也規定,公司仍然由非營利部門領導,而且對投資者取得的收益也設置了門檻:不得高於原投資額的100倍。但潘多拉的盒子一旦打開,便再也收不回去。
隨之而來的,就是大規模的融資,以微軟為首的一眾資本大鱷紛紛入主公司,至2023年年初的第七次融資,微軟更投下100億美元的賭注,賭OpenAI的價值大爆發。
在大規模資本的加持下,OpenAI的產品開發也進入了快速推進階段,最終以ChatGPT引爆了市場。
當然,有追求、有情懷的不僅僅是伊爾亞,還有馬斯克,以及部分OpenAI公司的員工。
由於理念上的分歧,退出後的馬斯克於2023年成立了自己的AI公司xAI,獨自堅守其中。
而部分OpenAI公司的技術人員則選擇了從OpenAI出走。他們於2021年創立了自己的公司Anthropic AI。隨後與OpenAI展開了競爭。
這家由OpenAI前成員組成的公司由達里奧·阿莫代(Dario Amodei)和達妮埃拉·阿莫代(Daniela Amodei)兄妹操盤,其中的達里奧曾擔任過OpenAI的研發副總裁。公司設立僅一年,便已籌集到了7億美元,投資方還包括有Google雲計算(投入3億美元),想必是想報那當年的“一箭之仇”?
2023年5月,Anthropic又獲得了4.5億美元的資金。就在不久前的9月25日,亞馬遜宣布與其建立合作夥伴關係,同時投資高達40億美元,成為少數股東之一,其中有12.5億美元為即期投資。公司主打的產品為AI聊天機器人克勞德(Claude),這個名字據說取自信息論的開創者克勞德·香農(Claude Shannon)。而“克勞德”,則號稱使用了更加安全、可操控的技術。公司目前大約有160名員工。
耐人尋味的是,就在OpenAI罷免山姆的第一時間,OpenAI董事會竟然摒棄前嫌,找到了競爭對手Anthropic的CEO達里奧,希望他能夠接替山姆擔任OpenAI的CEO,同時探討將這兩家AI公司合併的可能性。
有病亂投醫,從來不會有好結果。上述建議理所當然遭到了達里奧的拒絕。
在整個OpenAI事件中,唯一穩賺不賠的就是微軟。無論以山姆為代表的這支隊伍是留在OpenAI、還是加盟微軟,微軟都是贏家!
其實,對大多數普通人而言,一夜之間“暴富”,畢竟是他們夢寐以求的事,資本方如此,管理者如此,員工也是如此,看似無可非議。
而追求與情懷,在一次次強大資本的狂轟濫炸之下,究竟還能維持多久?答案好像並不樂觀。
如今,在OpenAI全速向利潤衝刺的過程中,唯一可能形成內部阻攔的,好像只有伊爾亞,因為他希望AGI商業化進程不要太快的主張,與上述期待利潤大爆發的想法明顯是南轅北轍。
阻擋別人發財,無論如何是件招人恨的事兒。
經歷了這次“地震”,伊爾亞的前景堪憂,這大概也是他聲言“後悔”的關鍵所在。新的董事會已不見了他的蹤影,等待他的會是什麼?讓我們拭目以待。
不過,即使以最樂觀的態度揣度,AI的問題依然存在。尤德科夫斯基的末日言論並非謬誤。去年8月,OpenAI在博客上發布了一篇有關“對齊”方法的文章,文中逐字逐句就重複了尤德科夫斯基的觀點,只是語氣比較平和:
“與人類目標不一致(不對齊)的AGI可能會給人類帶來巨大風險,解決它可能非常困難,需要全人類的共同努力。”
當時山姆也在博客中坦誠地講述了他的公司發布的是有缺陷的系統:“目前還沒有已知的可無限擴展的對齊問題解決方案。隨着人工智能的不斷進步,我們預計會遇到許多新的對齊問題,而這些問題在目前的系統中還沒有發現。其中有些問題我們現在就能預見到,而有些問題將是全新的。”
接着,山姆又在播客中談到了尤德科夫斯基的擔憂:“深度學習系統中的很多安全工作都是多年前完成的,考慮到事情的變化和我們的知識儲備,這些工作還遠遠不夠。”他承認:“尤德科夫斯基並沒有錯。我們需要大力加強圍繞對齊的技術工作,我們現在已經有了這樣做的工具。”不過,針對“人類可能走向終結的擔憂這一判斷到底有多少真實性”的提問時,山姆回答:事實上,這種擔憂發生的概率非常小。
但在尤德科夫斯基看來,山姆對未來是過於樂觀了。即使是小概率事件,可一旦發生便是巨大的災難!也正因如此,他更加緊張不安:“在我們邁向AGI級別的過程中,會有可怕的時刻,也會有重大的破壞,但好處可能同樣驚人,以至於人們覺得非常值得克服巨大的挑戰去實現它。”
這說法總給人一種似曾相識的感覺。
這正是OpenAI,以及所有AI從業人員的糾結之處!
天堂里,上帝正在俯瞰着人類的一切,包括AI。
眾所周知,我們的世界已經進入了一個讀圖時代,這是因為一張圖片,其中所包含的信息可能勝過萬語千言!
儘管人類文明交流的方式是通過語言和文字開始的,但我們周邊的世界畢竟是彩色的、三維的、動態的,是包含有大量視覺信息的。
所以,倘若我們通過一段簡單的描述性文字,便可以直接生成一幅在你心中想象出的、這世界上原本不存在的圖片,而且這圖片幾乎可以滿足現實世界中人們所有的觀察習慣或邏輯的話,結果一定十分震撼。
人工智能OpenAI做到了,儘管仍然有着不少瑕疵。
那麼,倘若將圖片換成具有動態效果的視頻,而且依然是通過一段簡單的描述性文字直接生成的話,這無疑標誌着AI又向前邁進了一大步!
這,就是OpenAI今天發布的“索拉”(Sora)。儘管它發布的不是產品、而是技術所達到的效果,但這已經令人震撼了。
就在不久前的2023年4月,紐約一家名為Runway AI的初創公司發布了一項技術,讓人們只需在電腦屏幕上的方框中輸入一句話,就能生成一段視頻,比如:生日派對上的一頭奶牛,或者使用智能手機正在聊天的一條狗……只是,這短短四秒的視頻畫面模糊,動態不流暢,還存在扭曲,但它卻清楚地表明,AI技術在這個領域中的突破不遠了。
果然,僅過了10個月,就在今天,OpenAI讓我們看到了Sora!
人們在短短的時間裡,就見證了ChatGPT的推進:從聊天機器人的GPT 4,到靜態圖像生成器DALL-E 3,到了現在的即時視頻生成器Sora,一步一個腳印。人們現在已經開始期待着利用Sora可以大大提高經驗豐富的電影製作人的工作效率,甚至完全取代經驗不足的數字藝術家等目的。
當然,OpenAI在此領域裡不乏競爭者,比如像Google、Meta(Facebook和Instagram)這樣的科技巨頭,以及像Runway這樣的初創公司。
Sora是什麼意思?它是OpenAI背後的技術團隊為這一應用所起的名字,取自日語的“天空”一詞。按照技術大牛布魯克斯(Tim Brooks)和皮布爾斯(Bill Peebles)的說法,這名字“讓人聯想到無限的創造潛力”。
該系統是生成式AI的一個範例,就像之前可以即時創建文本、圖像和聲音一樣,系統通過分析數字數據進行學習,在本例中,分析的是視頻和描述視頻內容的字幕。
Sora的技術團隊在接受採訪時表示,公司尚未正式發布Sora,因為他們正在與一小群學者和其他外部研究人員分享這項技術,並且正在進行大量的測試。
布魯克斯博士說:“發布Sora的目的是讓人們通過預覽這個即將出現的技術,讓人們能看到它的能力,同時能給我們提供有益的反饋。”
Sora使用的是所謂的擴散模型(diffusion model),即從一個看起來像靜態噪音那樣的視頻生成開始,然後通過多個限制條件和多個步驟去除噪音,逐漸變成特定的視頻。它可以一次性生成整個視頻,也可以將原有的視頻進行擴展,生成更長的視頻。有業內專業人士評價,與之前的靜態圖片生成技術相比,視頻生成的技術難度在於:如何達到幀與幀之間在時間和空間上的關係一致性,並支持不斷變化場景的真實性和邏輯性。特別是通過讓模型可以一次預見多幀畫面,來確保被攝體即使暫時離開視線也能保持不變,等等。
目前,公司在已經製作的視頻上打上了水印,以識別其是由AI生成的,但你很難發現它們。
OpenAI 拒絕透露該系統是從多少視頻中學到了知識、通過怎樣的算力達到現在這樣的速度以及這些視頻的來源,只是說訓練包括公開的視頻和從版權持有者那裡獲得授權的視頻。人們對該公司用於訓練其技術的數據知之甚少,這很可能是因為它想保持對競爭對手的優勢,同時避免因使用了受版權保護的材料而被起訴。
安全性始終是開發團隊最關注的內容。目前技術人員正在與“紅方”人員(他們都是錯誤信息、仇恨內容和偏見等領域的專家)合作,對模型進行對抗性測試,以便從中發現系統中潛在的危險性,以及可能被濫用的種種可能。
一旦進入產品階段,其文本分類器將檢查並拒絕輸入極端暴力、性內容、仇恨圖像、名人肖像或他人知識產權的內容……
不可否認的是,這項技術無疑可能成為一種快速、廉價的製造網絡虛假信息的方式,讓人們更加難以辨別網上信息的真偽。有專家甚至警告,這種東西可能還會左右一場競爭激烈的選舉!
Sora取名源自日语?日本加速布局AI产业
OpenAI日前发布了生成式人工智能Sora及多个样例视频。相比此前的类似应用,Sora更加强大。在OpenAI发布的Sora样例视频中,出现不少日本元素,引起日本舆论关注。
Sora或源自日语“天空”
据《纽约时报》报道,生成式人工智能Sora的名字取自日语“空”,意为天空。OpenAI团队表示,选用该词是因其让人联想到无限的创作潜力。
OpenAI发布的Sora样例视频中出现了东京街景,以及从行驶的列车上看到的日本郊区风景。
日本AI专家、东京大学教授松尾丰说,相比过去的文生视频人工智能,Sora可以理解时间和相互作用的概念。Sora已经能够生成符合物理规律的视频,比如“汉堡包被咬了一口后会变少”“汽车在行驶中会扬起尘土”等。不过,日本不少民众发现样例视频街景存在细节错误,例如招牌上的日语文字绝大部分并不准确,街景中也有不符合常规的障碍物等。
在Sora发布后不久,OpenAI团队在其社交媒体账号上一改往日用英语发布推文的习惯,用日语发布了日本动漫《天元突破红莲螺岩》的主题曲名“Sorairo Days”。OpenAI团队似乎有一种“日本情结”。
日本首相岸田文雄对人工智能兴趣浓厚。去年4月,岸田会见了OpenAI创始人奥尔特曼,商议在日本建立研究据点,使ChatGPT在使用中更契合日语和日本文化。
此后,神奈川县横须贺市率先在政府业务中尝试采用ChatGPT,用于提升业务效率,这种做法在日本地方政府中尚属首次。日本数字大臣河野太郎曾表示将积极利用AI,推进日本中央政府的工作方式改革。
日本加速布局AI产业
岸田文雄20日在日本首相官邸召开“综合科学技术与创新会议”,他表示,要以今年夏季为时间节点,制定出关于AI等重要技术的新战略,以在相关领域的国际规则制定方面占据主导地位。“科学技术是产业结构转型的关键、开拓未来的基石。”岸田文雄说,在重要技术领域,官民一体的综合战略对日本是不可或缺的。
针对人工智能产业,日企加速了布局的脚步。日本电信巨头NTT的大型语言模型“tsuzumi”将于3月推出。日本电气股份有限公司也将于今年春天推出生成式人工智能“cotomi”。
据日媒报道,软银的创始人孙正义正寻求筹措1000亿美元资金成立一家芯片企业,以与英伟达竞争,并供应生成式人工智能所必需的半导体。据报道,该计划项目名称为“伊邪那岐”(Izanagi),孙正义计划由软银投入300亿美元,而额外的700亿美元从中东地区筹措。报道称,孙正义希望新成立的公司能与软银旗下半导体设计公司业务互补,以强化生成式人工智能半导体的供给能力。此外,软银还在考虑向OpenAI出资。
不过,分析人士认为,发展人工智能,日本AI人才短缺是个问题。据日本经济产业省统计,到2030年,日本将面临数十万名软件工程师的缺口。
AI“双刃剑”监管成难题
Sora的诞生也加剧了人们对“深度伪造”等风险的担忧。如何实现拥抱技术进步和确保社会安全的平衡,越来越受到民众关注。在少子老龄化问题日益严峻的背景下,日本企业普遍希望借力生成式AI解决人手不足、效率低下问题。不过,日本TBS电视台在报道中指出,若Sora被用于电信诈骗,将对民众造成巨额损失。
据日本广播协会电视台报道,2月中旬以来,日本社交平台上一张日本首相岸田文雄的假照片被扩散。照片上,岸田被一名跷着腿坐在沙发上的美国政府高官怒视。据报道,这张照片原本是2022年4月,美国政府高官与巴西外长会晤时拍摄的,假照片将巴西外长替换成了岸田。
据《日本经济新闻》报道,日本自民党16日公开了一项监管生成式人工智能技术的新法律草案。该草案规定了基础模型开发商必须向政府进行定期报告的义务。
日本政府14日成立了“人工智能安全研究所”,该研究所隶属于经济产业省。针对生成式人工智能,该机构将对如何防止伪造信息扩散和知识产权侵权等进行研究,帮助政府制定出“监管和活用一体”的人工智能政策。
Sora和AI是什么关系?
OpenAI Sora 概述
OpenAI最新的创新,Sora,在人工智能领域开辟了新的天地。Sora是一个文本到视频的扩散模型,可以将文本描述转化为逼真的视频内容。它解决了一个重大的技术挑战,即在视频中保持主体的一致性,即使它们暂时移出画面。
Sora利用先进的技术将静态噪音转化为清晰连贯的一分钟视频。它能够提前预测多个帧,实现视频形式中的无缝过渡和稳定叙事。
技术信息:
Sora的独特之处之一在于其扩散过程。它从被认为是视觉混乱的开始,逐步将其精炼成结构化且可观看的视频。这种渐进式转变对于创造不仅富有创意而且保持原始文本输入线索的视频至关重要。
OpenAI,ChatGPT和Dall-E背后的大脑,不断推动AI在媒体制作中的成就。Sora代表着又一次飞跃,暗示着一个未来,强大的AI工具可能会普遍用于从简单的文本描述中创建引人入胜且复杂的视频内容。
技术见解与发展
OpenAI最近发布的Sora标志着AI视频生成技术的重大飞跃。本节深入探讨了Sora背后的核心技术进步和复杂的开发过程,突显了使其与众不同的精密机制和创新功能。
Sora利用文本到视频模型将文本提示转换为动态视频内容。这涉及到语言理解和视觉表现之间的复杂互动。通过利用扩散模型,Sora处理文本并生成具有准确细节和动态效果的视频,密切遵循给定的提示。
生成式人工智能是Sora的核心,反映了OpenAI对人工智能技术的深度投入。研究人员在创建模型方面取得了进展,这些模型不仅能够理解和预测静止图像,还能理解视频序列中的运动和物理现象,使人工智能系统更接近于通用人工智能(AGI)。
艺术家、设计师和电影制作人发现Sora是他们工具包中的一项尖端技术。通过提供一种快速生成复杂场景和多个角色的方式,它与创意工作流融合得很好。这有助于创意专业人士以前所未有的速度将他们的想法可视化并进行迭代。
Sora以其能够从具体的文本描述中描绘生动情感、多个镜头和因果关系而脱颖而出。它巧妙处理摄像机轨迹和空间细节,使得能够创建高度定制的视频内容成为可能。
OpenAI,在首席执行官Sam Altman的领导下,将安全和伦理放在首位。因此,Sora包括内置的保障措施,以解决版权、错误信息和伤害问题。模型的训练包括红队人员进行这些风险测试,确保负责任的使用。
OpenAI不断完善其技术。公众的反馈和随时间积累的见解对塑造Sora和其他OpenAI项目的未来至关重要。目标是朝着更复杂、更微妙的AI生成内容前进,同时关注伦理影响。
Sora并不孤单;像谷歌的视频AI以及Meta和Runway等公司的工具也在探索这一领域。然而,Sora对处理精确描述的精细调校能力,以及它在各种专业创意流程中的整合,使其具有显著优势。
OpenAI的Sora的出现在各个领域产生了重大影响,展示了人工智能在从简单文本描述生成高质量视频方面的动态应用。
视觉叙事者,如电影制作人和视觉艺术家,现在能够快速有效地将他们生动的想象力呈现出来。Sora的文本到视频模型将描述性文本转换为视频序列,完整呈现出电影般的灯光和图像,从东京霓虹灯闪烁的街道到亚洲宁静的山脉,多种场景应有尽有。
设计师和创意专业人士正在利用Sora轻松创建多个镜头和复杂场景。曾经花费数小时创作单个画面的艺术家现在可以将他们的愿景转化为动画序列,提高了生产力和创造力。
从丰富媒体内容到将博客文章转化为引人入胜的视频叙事,Sora的应用广泛而多样。将技术报告转化为详细的视频讲解有助于阐明复杂的观点,使信息能够被更广泛的受众理解。
无论是一个祖母社交媒体影响者展示一个乡村风情的托斯卡纳厨房,还是一场关于如何制作自制马铃薯丸子的烹饪指导会话,Sora都为各种叙事提供了平台。这种人工智能技术的现实演示让人们能够一窥其在日常生活中的实际用途。
Sora不仅仅是关于生成视频;它还涉及负责任地进行生成。OpenAI意识到潜在的问题,如版权侵权和安全问题。采取步骤,如为偏见引入检测分类器并开发预防措施以防止误导性内容,是Sora在公众和政策制定者中使用的关键组成部分。
要使用Sora创建视频,您需要输入描述性文本,AI将使用这些信息生成符合给定说明的视频。随着工具的发展,具体的过程可能会有所不同。
Sora 是 OpenAI 发布的 Text-to-video 的模型,微软提供给 OpenAI 五千亿个视频用于训练。
OpenAI 在官方网站上发布了一篇技术报告,主要介绍了两方面内容:
(1) OpenAI 如何将各种类型的视觉数据转化为统一的表示形式,从而实现生成模型的大规模训练;
(2) 对 Sora 模型能力和局限性的定性评价。 报告中没有包含模型和实施的详细信息。
现在你可以在很多网站上看到由 OpenAI 通过 Sora 制作的视频,令人惊叹!
SORA是一种AI生成视频模型,AI生成是AI应用的一个领域,AI则是人类制造出的一种智能。
一个是生成视频的。
另一个啥都会一点。相当于视频这个是一个专家专才——就视频发展。
逻辑上,都是用大量信息去结合算法,总结规律,自己通过文字生成内容视频。
由此可见,如果人用大量信息去训练,即可能成半神。
Sora别名:AI文生视频,顾名思义,就是输入一段文字,即可AI生成一段视频。
2024年开年,openAI创作的文本生成视频模型——sora就在各大社交平台引起了广泛讨论度。
sora爆火的背后离不开人工智能AI算力技术革命,今年就简单来跟大家聊聊AI算力!

从上图可以清楚地看到人工智能产业链分为上中下游,上游是基础层,包括:算力、数据、算法;中游是技术层,包括通用模型、行业模型、模型插件;下游是应用层,就是To B(面向企业提供产品服务) 、ToC(面向客户提供产品服务)。
大家都知道要建好一座大楼,最重要的是地基要打牢,因此人工智能产业的核心要素为:算法、算力、数据。
这其中,算力是承载人工智能应用发展的基础,也是推动人工智能走向实际应用的决定性力量,是人工智能最核心的要素。
算法经历了数十年的发展,在深度学习和加速计算出现之后,得到了迅速的发展和优化。数据的快速增长对算力发展提出更高要求。全球新产生的数据量正在快速增长,根据IDC数据显示,预计到2026年全球新增数据总量将达到221.2 ZB,2021年至2026年间的年复合增速达到21.22%。数据的生产不再是问题,如何处理、分析和使用数据才是问题。
算法模型的复杂化和巨量化需要更强算力的支撑。近些年,算法模型的参数量和复杂程度都在呈现指数级增长态势,尤其是自然语言处理等新兴认知智能领域对算力的要求远超图像识别和语音识别等传统AI领域。
新应用场景的出现对数据实时性要求更高,从而使得边缘计算能力变得愈发重要,人工智能应用也越来越依赖边缘算力支撑。
AI算力以AI芯片、AI服务器、AI集群为载体,集成于智算中心,相当于算力的生产工厂。服务器则是工厂的生产机器。

1、根据 OpenAI发布的有关GPT-3模型的文档,它包含1750亿个参数,需要进行数千万次的计算操作来完成一次推理任务;
2、ChatGPT 的总算力消耗约为3640PF-days,需要7~8个投资规模30亿、单体算力 500P的数据中心才能支撑运行,这样的规模和复杂性需要高性能的计算设备和大规模的并行计算能力,带动了AI数据中心需求的增长;
3、新的处理器架构、高速网络、存储技术以及更高效的冷却和能源管理系统的出现,提升了数据中心的性能和效率,为AI数据中心的发展提供了技术支持。
服务器作为算力的基础设备,根据 IDC预计,全球人工智能硬件市场(服务器)规模将从2022年的195亿美元增长到2026年的347亿美元,五年年复合增长率达17.3%; 预计2023年中国人工智能服务器市场规模将达到91亿美元,同比增长82.5%。2027年将达到134亿美元,五年年复合增长率达21.8%。
AI服务器广泛应用于计算机视觉、自然语言处理、机器学习等领域,用于图像识别、语音识别、文本分析、模型训练等应用场景。
1、硬件架构:AI服务器是采用异构形式的服务器。可使用如CPU+GPU、CPU+TPU、CPU+其他的加速卡等。比普通服务器有更强大的数据处理能力和并行处理能力。在进行模型的训练和推断时会更具有效率优势。
2、GPU使用量:普通的GPU服务器一般是单卡或者双卡,AI服务器需要承担大量的计算,一般配置四块GPU卡以上,甚至要搭建AI服务器集群。
3、独特设计:AI服务器由于有了多个GPU卡,需要针对性的对于系统结构、散热、拓扑等做专门的设计,才能满足AI服务器长期稳定运行的要求。
Sora是文生视频大模型(也能生成图片,但会大材小用),Sora的牛逼之处在于它所生成的视频里的每一帧,单拎出来都不亚于Dalle-3(OpenAI一款文生图的大模型)生成图片的精美。
谈到Sora的本质,你也许听过AIGC(Artificial Intelligence Generated Content人工智能生成内容),而AI文生图、AI文生视频、AI文生音频等等都是AIGC的领域。
AI应用范围更大,Sora是一个专攻AI文生视频的大模型。
Sora(也称为Sky-Online Robotic Assistant)是一个基于AI技术的机器人助手,旨在提供人工智能应用程序的服务。作为一个AI机器人,我是基于OpenAI GPT-3.5模型开发的。AI(人工智能)是一种模拟人类智能的技术,它可以通过学习、理解和执行各种任务来模仿人类的思维和行为。因此,Sora和AI之间的关系是,Sora是一个利用AI技术构建的机器人助手。
搭建微信AI机器人 AI接入微信 6款AI写作神器 AI重塑工作 AI Prompt
AI生成PPT的网站 国内AI网站集合 OpenAI 已在Azure 58张新质生产力
写作的90个prompt Kimi+秘塔AI 101个案例AI AI 教育行业落地 掌握AI的最快方式
80多个prompt 制作AI 数字人成本太高 100个AI核心概念 解锁潜能 AI 懂 Prompt
Kimi的六大用法 AI免费工具 6种AI Agent AI-Kimi提示词 AI Agents AI Agent架构
学习Python 顺序 智能无人机 100个AI核心概念 电脑搞AI 真正在用AI
AI四方面的反思:1.AI的挑战;2.AI的逻辑;3.关键的选择;门徒与AI。
1.AI的挑战
不论我们是否预备好,人工智能的时代已然来临,未来职场的颠覆式技术临到了,下一代更面临 AI时代的职场转型。机器人所取代的业务有卡车司机;柜台营业员;医生;导游等。AI科技给人类的最大威胁已经发生了。
沃伦?巴菲特说,AI 科技如同原子弹,揭开了令人震惊的原因!由于AI过于强大,以致威胁人类,1000位科技领袖呼吁AI的研发停止半年,好让全球的政府一起思考,如何限制AI的发展。
2.AI的逻辑
AI为何停不下来?因为AI给我们很方便的经济分配、便利操纵、效率更好。从科学的角度,谁会拒绝这些逻辑呢?例如,要活得更加健康而改进体能;掌握更多知识,改进智能;强化判断能力,减少意外。因此,数码化智能的人类,看生命是智能的总体;智能与意识在脱钩;无意识高智能掌权。
我们作为智人类,是从自然中分别的人,从体力到脑力的作息,从碳基到非碳基的进化。到最后人要的是用基因工程克服病痛;用人工智能提高效率;战胜死亡永远不死。那么,人到底想要的是什么?从道德角度,人格要完善;从生理角度,身体要健康;从心理角度,要证明光明;从宗教角度,要活像上帝。实在是贪得无厌。
3.关键的选择
我们要回归圣经。司提反?霍金斯说:未来的百年内,计算器将会以人工智能取代人类。到时,我们必须确保计算器与我们的目标是一致的。从神学角度,人要的是什么?人的动机是与上帝之间再也没 有界线;依靠自己本身生活;创造自己的生命;是自己的创造者;不再需要创造者(参阅创3:1-6)。
我们要思考的终极问题:神是神,人是人,神能成为人,人却不能成为神。而AI时代是人要成为神的欲望。
4.门徒与AI
我们要作主的门徒,就当回到圣经的教导。清楚晓得人是人,神是神,人永远不能成为神,神却可以道成肉身成为人,住在我们中间,让我们看见祂,就是上帝的独生子耶稣基督,我们要跟随耶稣,效法基督,恢复神造我们的形象。
今日的门徒面对了 AI 的挑战,我们是表面或深度地阅读圣经、听道、祷告、默想、研经?神学教育根植于追求真理的学习,并顺从真理的生活。AI 不能替代人类作个人联系;无法替代解释和应用圣经;无法参与社群和团契;无法替代道德和伦 理决策;情感和存在的问题;也不能替代信仰和信念。因为智慧需要培育,人工智能只是咨询而不是智慧,我们需要的是神工智慧,是没有捷径的,需要持续每天与神亲近,借着个人读经、思考、默想、笔记,并与人团契、彼此分享、参与服事、付出代价,才能养成。
门训需要整合性的学习,以圣经为本的理论;信仰专业的整合;整全福音的信仰。以神的爱栽培下一代,以圣经为本的价值扎根得越深。在信仰生活的整合中成长;拥有神国导向的生命。要让基督的道,丰丰富富地住在你们心里,以各样的智慧,彼此教导,互相劝诫。用诗章、圣诗、灵歌,怀着感恩的心歌颂上帝(西3:16)。
分享之后,蔡亚兴主席,翁绳佑牧师,何维廉牧师,陈德良弟兄,黄荣禄弟兄都纷纷回应当天的信息。最后在翁绳佑牧师的祝福声中结束当天的聚会。