生命福音[73]智…

音频 三分钟

「耶和华神用地上的尘土造人,将生气吹在鼻孔里,他就成了有灵的活人,名叫亚当。」【创2: 7

虽然人工智能在许多领域中已经表现出令人惊叹的能力和智慧,但它仍然是由人类创造出来的高科技工具。它能够处理和分析大量的数据、模式和趋势,从而帮助人们更好地理解世界和做出决策。但是,它并没有真正的意识和感知能力,它不能像人类一样体验和理解情感,它也不能像人类一样自主思考和决策。

因此,在使用人工智能的时候,我们需要谨慎对待。我们需要认识到它的局限性,同时也需要牢记人类的价值和尊严。我们需要将人工智能作为一种工具,而不是将其看做是人类的替代品。它没有神的形像和样式,因此它永远无法替代人类的独特和神的形象之存在。

我们需要明智地利用人工智能,来服务于人类的利益和发展,同时也需要保护和尊重人类的尊严和权利。总之你永远记住:“人工智能”是人创造发明的高科技工具!它没有灵魂,它没有人的情感,它没有人的思想,它没有人的意志,它是没有生命的!它更没有神的形像和样式!

所以,当你在使用的时候,不要深入迷恋它,不要过度依赖它,也不要崇拜它!要存感恩的心,敬畏神的心来使用!它让我更惊叹神创造的伟大奇妙!它也让我更谦卑,我们懂得的东西实在太少了!它让我们更深深地感觉到,自己是何等有限呀!

与任何技术一样,人工智能技术也需要被审慎地应用,以确保它能够真正地造福人类。我们需要避免人工智能技术被用于不道德或不人道的目的,需要确保它的应用不会威胁到人类的尊严和价值。

人工智能是一种让计算机可以像人一样思考、理解、学习、感知和适应的技术。就像人脑可以通过感官来接收外界的信息,经过思考和分析后做出决策,人工智能也可以通过计算机程序来实现这些活动。

人工智能技术的应用非常广泛,可以用在很多方面,比如医疗、教育、交通等等,它对现代社会的影响也非常深远。ChatGPT 还可以根据我们的需求,进行多种语言、多领域的任务处理,成为我们的超级助理。应有尽有,有无限发挥空间。

有了 ChatGPT 在你身边,相当于你有「无数」个智慧的所罗门王,成为你的私人助理,成为你的智囊团。你遇到任何问题,任何困难,都可以随时随地的咨询。

神按照的形像和样式创造了人类,赋予了我们聪明智慧和创造力。正是由于这些创造性,人类发明了各种工具和科技,使我们的生活变得更加便利和舒适。不仅如此,神还赐予我们责任和权力来管理所创造的一切。我们可以运用高科技工具来管理和治理地球上的自然资源,保护环境,促进人类的进步和发展。

我们应该珍惜神赐予我们的聪明智慧和创造力,善用科技工具来管理和利用神所创造的一切,让世界更加美好,让我们自己成为神的真正仆人和管家。

总之:神创造宇宙,神创造万有,神也创造人类!神按照的形像样式创造人类,但人也有创造性!人会创造发明工具!人也会使用工具!神给人聪明智慧,也希望人能善用高科技工具,来治理管理所创造的万有!感谢神 ! 奉主蒙恩 ! 阿们 !

以PPP模式获得智…

      智慧城市什么时候来?虽然终究会到来,但它不会一夕成真,不会在你起床的时候突然惊喜发现已经身在智慧城市里,所谓城市智慧化往往是在你不注意的地方开始小小地起步,当你某天回神才发现,一个如此完整的智慧城市服务系统,已经无缝嵌入你的生活。

  日前,科技部发布消息称,根据财政部“政府与社会资本合作(PPP)综合信息平台项目库”发布的最新季报,截至今年6月末,科技领域的入库项目20个,其中示范项目9个,主要集中在智慧城市建设方面。

伴随着智慧城市建设的快速推进,PPP模式在信息系统、信息基础设施建设等方面的应用将不断增加。此外,鉴于大数据、云计算在高阶段智慧城市建设中的作用日渐凸显,未来仍要在提高网络能力和产业链整合度方面加大投入。

在迪威视讯智慧城市事业部相关负责人认为,随着PPP项目的持续推进,智慧城市行业的景气度将继续维持。智慧城市投资将逐渐由单一的硬件基础设施投资,向多元的软硬件一体化投资方式上过渡。政府部门对智慧城市项目中软件技术实力和所提供的核心功能将有越来越高的要求。拥有大数据、云计算等核心能力的企业将在PPP迅速落地的2017年获得较快增长。

种种迹象表明,产业界众多企业正在寻找合适的机会,以PPP的模式获得智慧城市项目建设权。今年上半年,迪威视讯即以联合体投标形式中标作为江苏省PPP省级试点的丹阳市智慧城市项目(规模1.47亿元)。

而根据已经公布的“智慧城市+PPP”项目中标情况分析,多家ICT上市公司出现在中标企业列表。如易华录获得山东省烟台市蓬莱市等PPP项目运营权,银江股份获得湖南省湘潭市等PPP安防项目运营权。佳都科技、高新兴、万达信息、赛为智能、中国电信等公司也获得部分PPP项目订单及运营权。

积极探索透过PPP创新模式推动中国新型智慧城市建设

“PPP模式不仅解决了智慧城市项目投资大、回款慢等制约,也使企业由原先单个项目投标方转变为总包集成商角色,从而可以整合各方面资源和数据,提高项目质量、建设和运营效率。”前述迪威视讯受访人表示,迪威视讯正在成为国内领先的智慧城市综合服务商,并逐渐从项目建设型转向项目运营型,对外输出服务与运营,积累经营型资产,在为政府的城市管理和服务提供信息化手段和平台支撑的同时,又为包括农业、旅游、教育等在内的产业互联网+提供平台服务和支撑。

数据显示,中国100%的副省级以上城市、89%的地级及以上城市、47%的县级及以上城市都在推进智慧城市建设。“十三五”期间,我国还将开展100个新型智慧城市试点工作。

智慧城市类项目在第三批示范项目中比重有很大的提升,得到了国家及财政部的重视,未来的市场规模将进一步扩大。从细分领域分析,智慧城市的项目大多数以政府综合应用为主要的建设方向,公安及交通领域占比较大。在区域分布上,我国智慧城市类PPP项目在地域间分布不均,山东、贵州、河南、云南、安徽、内蒙等省份的项目数量占比较高。

智慧城市发展需要经历四个阶段:数字化、网络化、智能化、智慧化。从国内大中城市的发展情况来看,大多数城市已经完成了智慧城市建设第一、二阶段的任务,即数字化、网络化任务,部分城市已向智能化、智慧化阶段迈进。

智能化阶段,体现在智能收费、智能交通、智能工厂等诸多方面;智慧化阶段是万物互联阶段,城市各部分功能在人类智慧的驱使下优化运行,实现城市智慧化,基本建成智慧城市。

在受访者看来,大数据、云计算等核心技术在高阶段智慧城市建设中的作用不容忽视。这些高科技可向政府等公共部门提供公共资源管理、智能交通、平安城市、智慧政务等服务。通过AI、云计算等技术高效采集、有效整合、充分运用政府数据和社会数据,健全政府运用大数据的工作机制,并将运用大数据作为提高政府治理能力的重要手段,不断提高政府服务和监管的针对性、有效性。

受访者认为,现阶段,政府对智慧城市的诉求主要是为了解决日益紧张的能源消耗、污染问题、城市安全问题,因此,未来智能交通、智能家居、智能路灯等涉及民生方面的相关应用将是发展重点。

走下神坛的智慧城市

当工业革命残留的利益和价值消耗殆尽,人类不得不向贫乏的资源“节衣缩食”,互联网,这个改变人类命运的第二个奇迹出现了,它的出现,使智慧城市走下神坛,进入普罗大众的日常生活之中。

提到智慧城市,你会想到什么,是得到智慧女神雅典娜庇佑的圣城雅典,还是科幻电影中令人乍舌的未来科技之都?

曾几何时,“智慧城市”仅仅作为神话或传说的一部分存在于我们的想象之中。在人类进化历史与追求文明进步的长河中,渺小柔弱的人类,从十五世纪兴起的著名航海大发现中,第一次寻找到开拓自己的意义,创造了导致现今世界政治、经济、文化、艺术格局的惊天巨变。

数百年之后的今天,当工业革命残留的利益和价值消耗殆尽,人类不得不向贫乏的资源“节衣缩食”,互联网,这个改变人类命运的第二个奇迹出现了,它的出现,使智慧城市走下神坛,进入普罗大众的日常生活之中。

如今,全世界都在推动智慧城市的建设,中国智慧城市建设试点名单上的城市已经增至200左右。四川省自贡市近年来也在积极推动“智慧自贡”的创建,他们知道,创建智慧城市并不是追求一个终极目标,而是改强调发展速度的资源依赖模式为优化资源配置的可持续发展模式,提升社会效率及城市未来发展潜力。

自贡市政府与成都市数之联科技有限公司携手,将互联网思维运用于政府的管理和服务、企业的生存和发展、居民的生产与生活等各个方面,实现城市各领域高效、智能和精细化的管理、运行和服务,特别是加强政务、交通、通讯、水和能源等核心系统之间的综合集成,降低能耗,实现城市基础设施和运行的智能化。

同时,他们开放包容的网络和数据基础设施,激发市民普遍参与,优化建设和运行城市,使自贡市民成为“智慧自贡”的城市管理者、设计者、建设者和维护者。

现在,我们可以通过电脑和手机购买需要的商品,发布信息交流思想,获知发生在世界上每个角落的事情,而这只是智慧生活的起步阶段,在不远的未来,依托我们生活的智慧城市,从生活琐事到人生大事,都可以通过个人终端,在家动动手指就完美解决。

这一切,都有赖于物联网、云计算、大数据等新一代信息通信技术的深度应用。而正是大数据的应用,使极为庞杂的冗余数据变废为宝,使肉眼看不到的运算规律变成人们可以感知的生活指南。

在智慧城市的建设者中,涌现出一批拥有坚定信心和卓越技术的“工程师”,他们掌握着“互联网+”的秘籍,为人们迈向智慧生活而孜孜不倦的研究和探索。中国大数据领军人物周涛教授说,大数据的应用实在是太广泛了,任何一个垂直行业都有说不尽的大数据应用。

他所创办的数之联科技有限公司,专业挖掘数据12年,拥有10余个自主专利,300多篇相关研究论文,正是这些“工程师”的努力,使神话变为现实,使智慧城市走下神坛,助力中国走向大数据时代。

智慧城市矗立于“神之领域”,让城市更“聪明”,生活更“营养”    

021年是“十四五”的开局之年,发展智慧城市已成为提升治理能力、加强城市管理、培育数字经济的新路径,城市管理者观念正从重建向建设运营并重转变,因而智慧城市运营也将成为政企数字化转型的必然要求。最近几年,智慧城市在中国是一个比较热的词。

那么什么是智慧城市呢?简单来讲就是将信息技术嵌入到城市功能体的所有功能当中,让我们的人居环境更加美好,解决城市病的问题。通常当人们想到智慧城市时,首先想到的是信息、通讯、电信基础设施。对我们来说,智慧城市是以人为本的发展,是打造绿色空间、建设智能电网。随着智慧城市理念的不断发展,最终会在很大程度上依托于技术。比如我们都会拥有个性化的应用软件,为我们设定每天和每周的碳排放足迹,每个人都能为建设更好更宜居的城市做贡献。

高大伟说:“网络空间维度为我们城市未来的发展方向提供了数据的积累,通过强大的算法使用数据,将人工智能置于数学与数据的交汇点上,量子力学当中的量子计算与量子通信领域也将通过科技进步创造出前所未有的复杂世界。同时密切关注神经科学及计算机技术的交叉领域带来的科技改变,这将对于我们的社会演变产生重大的影响。”

据世界银行测算,一个百万人口以上的“智慧城市”的建设,在投入不变的情况下,实施全方位的智慧管理,将能增加城市的发展红利2.5到3倍,这意味着“智慧城市”可促进实现4倍左右的可持续发展目标,并引领未来世界城市的发展方向。

基于“智慧+互联+协同”智慧城市概念的提出,是推进先进信息技术应用与全新城市运营理念的融合,从而推动城市规划建设上台阶,城市公共服务上水平,为创新城市运营模式提出新方法、新思路。智慧城市既可以大大提升城市管理水平,亦可以带动相关产业的发展,形成一个新的智慧城市产业群。

那么什么样的城市是智慧城市呢、智慧城市的建设标准又是什么、如何建设一个大众满意的智慧城市、我更认同的一种关于智慧城市的解释是:它是在无线城市和数字城市基础上的另一个网络城市,再在终端设备嵌入智能分析技术并互联互通,整个城市就好像是一台巨型智能电脑,它能按照规定程序自动让都市生活变得更加便捷高效。

深智城(深圳智能城市)作为深圳市智慧城市建设的重要平台和抓手,以“服务发展大局、服务国企改革、服务社会民生、服务智慧城市建设、适时外溢发展”为定位,依托于深智城与华为的紧密协作,华为企业BG集成服务部部长陈悦表示:“面向未来,华为将继续秉承开放、共赢的态度,把辅助运营能力和平台开放出来,聚合越来越多的生态伙伴,携手为行业客户提供更专业的运营服务,助力行业客户数字化转型成功!”

据了解,已经有众多科技企业小米、科大讯飞、格力、TCL、微美全息等在围绕5G、宽带无线专网、车联网、云计算、大数据、物联网等领域,开展大数据中心建设、智慧城市场景应用等相关业务。其中微美全息的核心业务就是用于软件工程、媒体制造服务、云和大数据的全息AR技术。智慧城市逐步走深向实,未来将重点在体制机制、发展思路、互动形式方面产生跃升。即将出现的变化包括:治理思路改变——从“城市数字化”到“数字化城市”;阶段重点改变——从“建设智慧城市”到“运营智慧城市”;互动形式升级——从“人与人的联接”到“万物互联”。

科技是创造新世界的元素,目前生活的世界已经成型为五个战略维度,全世界面对着新冠肺炎疫情的情况之下,进一步强化了网络空间维度重要性。随着时代发展,我们的城市将无处不“智慧”。

耶路撒冷:全球智慧城市的研發工廠

以色列是全球著名的軟體及新創大國,其最大城市耶路撒冷是座什麼樣的智慧城市?

她有百家爭鳴的新創產業,先搶全世界智慧城市商機。「很多新創公司以先進的科技,包括AI,去理解城市建設及民眾生活的需求,並提供產品,」一家來自耶路撒冷、參加2018年2月底在台拉維夫舉辦的城市創新博覽會(Muni-Expo Urban Innovation)的新創公司「ZenCity」老闆觀察。

根據美國顧問公司弗若斯特和沙利文預測,截至2020年,「智慧城市」市場商機將超過46兆台幣(1.5兆美元)。其中包含大小智慧城市的所需的科技產品,如一般熟知的LED智慧路燈系統、會自動分類、發報過滿訊息的智慧垃圾桶、智慧停車系統等,而這些商機,將讓耶路撒冷的新創公司,大賺國際城市的錢。

回到耶路撒冷,她邁向智慧城市的第一步,卻不是裝設節能路燈或是聰明的垃圾桶,而是大規模發展全城無線網路,甚至期望達到毫米波普及(Millimeter Wave, 5G 無線通訊發展的關鍵,應用包括電子通訊、軍用通訊、科學研究、醫療,目前僅有紐約、倫敦、舊金山、雪梨等城市發展)

北京迈向全域场景开放智慧城市2.0阶段

  中新网北京9月20日电 (记者 杜燕)北京市数字经济快速发展,全球数字经济标杆城市建设取得积极成效。2021年北京数字经济增加值规模达1.6万亿元,占全市GDP比重的40.4%,2022年上半年数字经济增加值达8381.3亿元,占全市GDP比重上升至43.3%,保持了良好发展势头。北京不断拓展数字应用,搭建新场景新业态,已迈向全域场景开放的智慧城市2.0阶段。

今天,北京市经济和信息化局相关负责人在一场发布会上介绍,近年来,北京坚持“两区”数字经济工作与全球数字经济标杆城市建设“一盘棋”协同推进。今年上半年,北京市实现数字经济增加值8381.3亿元,占全市GDP比重43.3%,保持了良好发展势头。在“两区”全产业链开放、全环节改革的工作部署下,深入对标RCEP、DEPA等国际协定规则,于今年5月底印发北京市数字经济全产业链开放发展22条改革措施,在各部门各区的通力协作下,目前已取得阶段性进展。

数据资产价值逐步显现

北京数据要素化进程提速增效,要素市场化改革取得突破。北京国际大数据交易所建成数据交易平台,目前数据交易参与主体333家,入驻平台及引入各类数据产品量1253个,产生数据交易合约1774个,数据交易调用7.73亿笔。北数所数据资产登记中心于今年7月正式揭牌,形成首批数据资产试点评估报告。成立全国首个国际数据交易联盟,现已入驻数据服务与合作单位150余家。此外,实现微软等外资企业跨国商务合同签署电子签名互认,引导京东方集团于今年3月发行国内首单数字经济概念公司债券。北京数据资产价值逐步显现,数据跨境流动服务成效明显。

迈向智慧城市2.0阶段

数字仿真、人工智能、虚拟现实、5G、8K、裸眼3D等多种数字技术在北京冬奥会开幕式和各项赛事中成功应用。北京不断拓展数字应用,搭建新场景新业态。

负责人表示,北京已迈向全域场景开放的智慧城市2.0阶段。位于亦庄的北京高级别自动驾驶示范区搭建城市级工程试验平台,开放国内首个出行服务商业化试点,“政策友好型”自动驾驶营商环境初步成形,在完成60平方公里范围的道路智能化设施部署基础上,现已全面启动3.0阶段建设阶段,将逐步扩展至全市500平方公里范围。

城市空间计算操作系统工程完成海淀区百万平米试点建设,打造城市、园区、商圈3类示范场景。

数字化社区建设以“回天地区大型社区治理样本”“高水平建设城市副中心”为重点,加速数智赋能基层社区数字化治理模式创新。

“长安链”构建国内自主可控、开源开放的软硬一体化区块链技术体系,打造产学研共建共享创新模式和长安链生态联盟,吸引多家央企集团和头部企业加入。

北京还筹建互联网3.0示范区,推进元宇宙体验中心建设,发布数字人国际标准,推动在文旅领域的应用率先落地。

优化数字经济营商环境

北京优化数字经济营商环境,加强高水平对外开放合作。负责人表示,数字经济促进条例即将进行人大常委会二审,数字消费等多项细分领域促进政策出台实施;成立全国首家数字经济标准化技术委员会;推进设立总规模100亿元的北京数字经济产业基金。

北京还持续培育类海外营商环境,国内首个以经济技术合作为主题的国家级对德合作园区——中德产业园出台三年行动计划,梳理投资便利化、研发创新、金融发展等领域20余项政策,目前已集聚70余家重点德资企业;中日国际合作产业园结合日本高端产业和制造优势,打造特色产业创新协作园区,已入驻外资项目45家。

此外,北京高水平举办全球数字经济大会,目前大会已在京举办两届,打造国际重要交流合作平台。2022全球数字经济大会发起设立北京国际数字经济治理研究院、中国数字经济发展和治理学术年会,发布研究报告、产业政策、标杆案例和宣言倡议等40余项,创新成果60项,带动数字消费近70亿元。

负责人表示,下一步,北京将深入探索数字经济改革发展模式,充分释放“两区”政策红利,加快打造新型应用场景,秉承开放心态吸引全球优秀理念、人才和项目落地,积极培育具有引领力、创新力的标杆企业,助推“两区”和全球数字经济标杆城市建设。(完)

智慧城市

科大国创智慧城市解决方案是在通信网、互联网、物联网三张网络的基础上,打造科大国创“15632”智慧城市体系,通过分层建设,达到平台能力及应用的可成长、可扩充,创造面向未来的智慧城市体系框架。

一个云数据中心

基于开放架构,为城市建设融合、开放、安全的云数据中心,整合、共享和利用各类城市信息资源,提升政府服务与决策效率和合理性。

五大库

人口库、法人库、地理信息库、宏观经济库及综合信息库。

六大平台

数据交换共享平台、流程平台、地理服务平台、能力开放平台、大数据分析平台、应用使能平台。
通过数据交换共享平台获取智慧城市所需的各类数据,以流程平台提供智慧应用的流程驱动引擎、地理服务平台提供智慧应用的位置服务,并通过能力开放平台,将智慧城市所具备的数据能力、平台能力和业务能力进行封装、打包提供给业务应用开发者,使其更便利地调用智慧城市接口,共同为客户提供智慧城市整体解决方案。大数据分析平台提供大数据分析、挖掘及人工智能支撑。应用使能平台,为城市智慧应用提供资源获取自动化、软件开发自动化、运维管理自动化的服务。

三大类智慧应用

智慧民生包括智慧交通、智慧旅游、智慧民政、智慧医疗、智慧教育、智慧停车等。
智慧政务包括互联网+政务、数据铁笼、应急指挥、公共信用、智慧环保、智慧执法、智慧检务、智慧规划、智慧城管等。
智慧产业包括智能制造、智慧灯杆、智慧物流、智慧园区等。

两大支撑体系

运营支撑体系从组织、制度、规程和技术来保障智慧城市平稳运行,数据治理体系从数据角度出发梳理和整理智慧城市运行过程中各类数据,确保智慧城市高效。

芯片

集成电路英语:integrated circuit,缩写作 IC;或称微电路(microcircuit)、微芯片(microchip)、晶片/芯片(chip)在电子学中是一种将电路(主要包括半导体设备,也包括被动组件等)小型化的方式,并时常制造在半导体晶圆表面上。
电路制造在半导体芯片表面上的集成电路又称薄膜(thin-film)集成电路。另有一种厚膜(thick-film)集成电路(hybrid integrated circuit)是由独立半导体设备和被动组件,集成到衬底或线路板所构成的小型化电路
从1949年到1957年,维尔纳·雅各比(Werner Jacobi)、杰弗里·杜默(Jeffrey Dummer)、西德尼·达林顿(Sidney Darlington)、樽井康夫(Yasuo Tarui)都开发了原型,但现代集成电路是由杰克·基尔比在1958年发明的。其因此荣获2000年诺贝尔物理奖,但同时间也发展出近代实用的集成电路的罗伯特·诺伊斯,却早于1990年就过世。
晶体管发明并大量生产之后,各式固态半导体组件如二极管晶体管等大量使用,取代了真空管在电路中的功能与角色。到了20世纪中后期半导体制造技术进步,使得集成电路成为可能。相对于手工组装电路使用个别的分立电子组件,集成电路可以把很大数量的微晶体管集成到一个小芯片,是一个巨大的进步。集成电路的规模生产能力,可靠性,电路设计的模块化方法确保了快速采用标准化集成电路代替了设计使用离散晶体管。
集成电路对于离散晶体管有两个主要优势:成本和性能。成本低是由于芯片把所有的组件通过照相平版技术,作为一个单位印刷,而不是在一个时间只制作一个晶体管。性能高是由于组件快速开关,消耗更低能量,因为组件很小且彼此靠近。2006年,芯片面积从几平方毫米到350 mm²,每mm²可以达到一百万个晶体管。
第一个集成电路雏形是由杰克·基尔比于1958年完成的,其中包括一个双极性晶体管,三个电阻和一个电容器
根据一个芯片上集成的微电子器件的数量,集成电路可以分为以下几类:
  • 小型集成电路(SSI英文全名为Small Scale Integration)逻辑门10个以下或晶体管100个以下。
  • 中型集成电路(MSI英文全名为Medium Scale Integration)逻辑门11~100个或 晶体管101~1k个。
  • 大规模集成电路(LSI英文全名为Large Scale Integration)逻辑门101~1k个或 晶体管1,001~10k个。
  • 超大规模集成电路(VLSI英文全名为Very large scale integration)逻辑门1,001~10k个或 晶体管10,001~100k个。
  • 极大规模集成电路(ULSI英文全名为Ultra Large Scale Integration)逻辑门10,001~1M个或 晶体管100,001~10M个。
  • GLSI(英文全名为Giga Scale Integration)逻辑门1,000,001个以上或晶体管10,000,001个以上。

集成电路的发展

最先进的集成电路微处理器或多核处理器的核心,可以控制计算机手机到数字微波炉的一切。虽然设计开发一个复杂集成电路的成本非常高,但是当分散到通常以百万计的产品上,每个集成电路的成本最小化。集成电路的性能很高,因为小尺寸带来短路径,使得低功率逻辑电路可以在快速开关速度应用。
这些年来,集成电路持续向更小的外型尺寸发展,使得每个芯片可以封装更多的电路。这样增加了每单位面积容量,可以降低成本和增加功能,见摩尔定律,集成电路中的晶体管数量,每1.5年增加一倍。总之,随着外形尺寸缩小,几乎所有的指标改善了,单位成本和开关功率消耗下降,速度提高。但是,集成纳米级别设备的IC也存在问题,主要是泄漏电流。因此,对于最终用户的速度和功率消耗增加非常明显,制造商面临使用更好几何学的尖锐挑战。这个过程和在未来几年所期望的进步,在半导体国际技术路线图中有很好的描述。
仅仅在其开发后半个世纪,集成电路变得无处不在,计算机、手机和其他数字电器成为社会结构不可缺少的一部分。这是因为,现代计算、交流、制造和交通系统,包括互联网,全都依赖于集成电路的存在。甚至很多学者认为有集成电路带来的数字革命是人类历史中最重要的事件。IC的成熟将会带来科技的大跃进,不论是在设计的技术上,或是半导体的工艺突破,两者都是息息相关。 

分类

集成电路的分类方法很多,依照电路属模拟数字,可以分为:模拟集成电路数字集成电路和混合信号集成电路(模拟和数字在一个芯片上)。
数字集成电路可以包含任何东西,在几平方毫米上有从几千到百万的逻辑门触发器、多任务器和其他电路。这些电路的小尺寸使得与板级集成相比,有更高速度,更低功耗(参见低功耗设计)并降低了制造成本。这些数字IC,以微处理器、数字信号处理器微控制器为代表,工作中使用二进制,处理1和0信号。
模拟集成电路有,例如传感器、电源控制电路和运放,处理模拟信号。完成放大滤波解调混频的功能等。通过使用专家所设计、具有良好特性的模拟集成电路,减轻了电路设计师的重担,不需凡事再由基础的一个个晶体管处设计起。
集成电路可以把模拟和数字电路集成在一个单芯片上,以做出如模拟数字转换器和数字模拟转换器等器件。这种电路提供更小的尺寸和更低的成本,但是对于信号冲突必须小心。 [1] 

制造

参见:半导体器件制造和集成电路设计
从20世纪30年代开始,元素周期表中的化学元素中的半导体被研究者如贝尔实验室威廉·肖克利(William Shockley)认为是固态真空管的最可能的原料。从氧化铜,再到,原料在20世纪40到50年代被系统的研究。尽管元素周期表的一些III-V价化合物如砷化镓应用于特殊用途如:发光二极管激光太阳能电池和最高速集成电路,单晶硅成为集成电路主流的基层。创造无缺陷晶体的方法用去了数十年的时间。
半导体集成电路工艺,包括以下步骤,并重复使用:
使用单晶硅晶圆(或III-V族,如砷化镓)用作基层,然后使用光刻、掺杂、CMP等技术制成MOSFETBJT等组件,再利用薄膜和CMP技术制成导线,如此便完成芯片制作。因产品性能需求及成本考量,导线可分为铝工艺(以溅镀为主)和铜工艺(以电镀为主参见Damascene)。主要的工艺技术可以分为以下几大类:黄光微影、刻蚀、扩散、薄膜、平坦化制成、金属化制成。
IC由很多重叠的层组成,每层由视频技术定义,通常用不同的颜色表示。一些层标明在哪里不同的掺杂剂扩散进基层(成为扩散层),一些定义哪里额外的离子灌输(灌输层),一些定义导体(多晶硅或金属层),一些定义传导层之间的连接(过孔或接触层)。所有的组件由这些层的特定组合构成。
  • 在一个自排列(CMOS)过程中,所有门层(多晶硅或金属)穿过扩散层的地方形成晶体管。
  • 电阻结构,电阻结构的长宽比,结合表面电阻系数,决定电阻。
  • 电容结构,由于尺寸限制,在IC上只能产生很小的电容。
  • 更为少见的电感结构,可以制作芯片载电感或由回旋器模拟。
因为CMOS设备只引导电流在逻辑门之间转换,CMOS设备比双极型组件(如双极性晶体管)消耗的电流少很多。透过电路的设计,将多颗的晶体管管画在硅晶圆上,就可以画出不同作用的集成电路。
随机存取存储器是最常见类型的集成电路,所以密度最高的设备是存储器,但即使是微处理器上也有存储器。尽管结构非常复杂-几十年来芯片宽度一直减少-但集成电路的层依然比宽度薄很多。组件层的制作非常像照相过程。虽然可见光谱中的光波不能用来曝光组件层,因为他们太大了。高频光子(通常是紫外线)被用来创造每层的图案。因为每个特征都非常小,对于一个正在调试制造过程的过程工程师来说,电子显微镜是必要工具。
在使用自动测试设备(ATE)包装前,每个设备都要进行测试。测试过程称为晶圆测试或晶圆探通。晶圆被切割成矩形块,每个被称为晶片(“die”)。每个好的die被焊在“pads”上的铝线或金线,连接到封装内,pads通常在die的边上。封装之后,设备在晶圆探通中使用的相同或相似的ATE上进行终检。测试成本可以达到低成本 产品的制造成本的25%,但是对于低产出,大型和/或高成本的设备,可以忽略不计。
在2005年,一个制造厂(通常称为半导体工厂,常简称fab,指fabrication facility)建设费用要超过10亿美元,因为大部分操作是自动化的。 [1] 
制造过程
芯片制作完整过程包括芯片设计、晶片制作、封装制作、测试等几个环节,其中晶片制作过程尤为的复杂。
首先是芯片设计,根据设计的需求,生成的“图样”
芯片的原料晶圆
晶圆的成分是硅,硅是由石英沙所精练出来的,晶圆便是硅元素加以纯化(99.999%),接着是将这些纯硅制成硅晶棒,成为制造集成电路的石英半导体的材料,将其切片就是芯片制作具体所需要的晶圆。晶圆越薄,生产的成本越低,但对工艺就要求的越高。
晶圆涂膜
晶圆涂膜能抵抗氧化以及耐温能力,其材料为光阻的一种。
光刻工艺的基本流程如图1 [2]  所示。首先是在晶圆(或衬底)表面涂上一层光刻胶并烘干。烘干后的晶圆被传送到光刻机里面。光线透过一个掩模把掩模上的图形投影在晶圆表面的光刻胶上,实现曝光,激发光化学反应。对曝光后的晶圆进行第二次烘烤,即所谓的曝光后烘烤,后烘烤使得光化学反应更充分。最后,把显影液喷洒到晶圆表面的光刻胶上,对曝光图形显影。显影后,掩模上的图形就被存留在了光刻胶上。涂胶、烘烤和显影都是在匀胶显影机中完成的,曝光是在光刻机中完成的。匀胶显影机和光刻机一般都是联机作业的,晶圆通过机械手在各单元和机器之间传送。整个曝光显影系统是封闭的,晶圆不直接暴露在周围环境中,以减少环境中有害成分对光刻胶和光化学反应的影响 [2]  
图1:现代光刻工艺的基本流程和光刻后的检测步骤图1:现代光刻工艺的基本流程和光刻后的检测步骤
该过程使用了对紫外光敏感的化学物质,即遇紫外光则变软。通过控制遮光物的位置可以得到芯片的外形。在硅晶片涂上光致抗蚀剂,使得其遇紫外光就会溶解。这时可以用上第一份遮光物,使得紫外光直射的部分被溶解,这溶解部分接着可用溶剂将其冲走。这样剩下的部分就与遮光物的形状一样了,而这效果正是我们所要的。这样就得到我们所需要的二氧化硅层。
掺加杂质
将晶圆中植入离子,生成相应的P、N类半导体。
具体工艺是是从硅片上暴露的区域开始,放入化学离子混合液中。这一工艺将改变搀杂区的导电方式,使每个晶体管可以通、断、或携带数据。简单的芯片可以只用一层,但复杂的芯片通常有很多层,这时候将该流程不断的重复,不同层可通过开启窗口联接起来。这一点类似多层PCB板的制作原理。 更为复杂的芯片可能需要多个二氧化硅层,这时候通过重复光刻以及上面流程来实现,形成一个立体的结构。
晶圆测试
经过上面的几道工艺之后,晶圆上就形成了一个个格状的晶粒。通过针测的方式对每个晶粒进行电气特性检测。一般每个芯片的拥有的晶粒数量是庞大的,组织一次针测试模式是非常复杂的过程,这要求了在生产的时候尽量是同等芯片规格构造的型号的大批量的生产。数量越大相对成本就会越低,这也是为什么主流芯片器件造价低的一个因素。
封装
将制造完成晶圆固定,绑定引脚,按照需求去制作成各种不同的封装形式,这就是同种芯片内核可以有不同的封装形式的原因。比如:DIP、QFP、PLCC、QFN等等。这里主要是由用户的应用习惯、应用环境、市场形式等外围因素来决定的。
测试、包装
经过上述工艺流程以后,芯片制作就已经全部完成了,这一步骤是将芯片进行测试、剔除不良品,以及包装型号
芯片命名方式一般都是:字母+数字+字母
前面的字母是芯片厂商或是某个芯片系列的缩写。像MC开始的多半是摩托罗拉的,MAX开始的多半是美信的。
中间的数字是功能型号。像MC7805和LM7805,从7805上可以看出它们的功能都是输出5V,只是厂家不一样。
后面的字母多半是封装信息,要看厂商提供的资料才能知道具体字母代表什么封装。
74系列是标准的TTL逻辑器件的通用名称,例如74LS00、74LS02等等,单从74来看看不出是什么公司的产品。不同公司会在74前面加前缀,例如SN74LS00等。

相关拓展

一个完整的IC型号一般都至少必须包含以下四个部分:
前缀(首标)—–很多可以推测是哪家公司产品。
器件名称—-一般可以推断产品的功能(memory可以得知其容量)。
温度等级—–区分商业级,工业级,军级等。一般情况下,C表示民用级,Ⅰ表示工业级,E表示扩展工业级,A表示航空级,M表示军品级。
封装—-指出产品的封装和管脚数有些IC型号还会有其它内容:
速率—-如memory,MCU,DSP,FPGA 等产品都有速率区别,如-5,-6之类数字表示。
工艺结构—-如通用数字IC有COMS和TL两种,常用字母C,T来表示。
是否环保—–一般在型号的末尾会有一个字母来表示是否环保,如z,R,+等。
包装—–显示该物料是以何种包装运输的,如tube,T/R,rail,tray等。
版本号—-显示该产品修改的次数,一般以M为第一版本。

IC命名、封装常识与命名规则:

温度范围:
C=0℃至60℃(商业级);I=-20℃至85℃(工业级);E=-40℃至85℃(扩展工业级);A=-40℃至82℃(航空级);M=-55℃至125℃(军品级)
封装类型:
A—SSOP;B—CERQUAD;C-TO-200,TQFP﹔D—陶瓷铜顶;E—QSOP;F—陶瓷SOP;H—SBGAJ-陶瓷DIP;K—TO-3;L—LCC,M—MQFP;N——窄DIP﹔N—DIP;;Q—PLCC;R一窄陶瓷DIP (300mil);S—TO-52,T—TO5,TO-99,TO-100﹔U—TSSOP,uMAX,SOT;W—宽体小外型(300mil)﹔ X—SC-60(3P,5P,6P)﹔ Y―窄体铜顶;Z—TO-92,MQUAD;D—裸片;/PR-增强型塑封﹔/W-晶圆。
管脚数:
A—8;B—10﹔C—12,192;D—14;E—16;F——22,256;G—4;H—4;I—28 ;J—2;K—5,68;L—40;M—6,48;N—18;O—42;P—20﹔Q—2,100﹔R—3,843;S——4,80;T—6,160;U—60;V—8(圆形)﹔ W—10(圆形)﹔X—36;Y—8(圆形)﹔Z—10(圆形)。
注:接口类产品四个字母后缀的第一个字母是E,则表示该器件具备抗静电功能

封装技术的发展

编辑 播报

最早的集成电路使用陶瓷扁平封装,这种封装很多年来因为可靠性和小尺寸继续被军方使用。商用电路封装很快转变到双列直插封装,开始是陶瓷,之后是塑料。20世纪80年代,VLSI电路的针脚超过了DIP封装的应用限制,最后导致插针网格数组和芯片载体的出现。
表面贴着封装在20世纪80年代初期出现,该年代后期开始流行。它使用更细的脚间距,引脚形状为海鸥翼型或J型。以Small-Outline Integrated Circuit(SOIC)为例,比相等的DIP面积少30-50%,厚度少70%。这种封装在两个长边有海鸥翼型引脚突出,引脚间距为0.05英寸。
Small-Outline Integrated Circuit(SOIC)和PLCC封装。20世纪90年代,尽管PGA封装依然经常用于高端微处理器。PQFP和thin small-outline package(TSOP)成为高引脚数设备的通常封装。Intel和AMD的高端微处理从PGA(Pine Grid Array)封装转到了平面网格阵列封装(Land Grid Array,LGA)封装。
球栅数组封装封装从20世纪70年代开始出现,90年代开发了比其他封装有更多管脚数的覆晶球栅数组封装封装。在FCBGA封装中,晶片(die)被上下翻转(flipped)安装,通过与PCB相似的基层而不是线与封装上的焊球连接。FCBGA封装使得输入输出信号阵列(称为I/O区域)分布在整个芯片的表面,而不是限制于芯片的外围。如今的市场,封装也已经是独立出来的一环,封装的技术也会影响到产品的质量及良率。 

集成电路芯片封装概述

封装概念:

狭义:利用膜技术及微细加工技术,将芯片及其他要素在框架或基板上布置、粘贴固定及连接,引出接线端子并通过可塑性绝缘介质灌封固定,构成整体立体结构的工艺。
广义:将封装体与基板连接固定,装配成完整的系统或电子设备,并确保整个系统综合性能的工程。

芯片封装实现的功能:

1、传递功能;2、传递电路信号;3、提供散热途径;4、结构保护与支持。

封装工程的技术层次:

封装工程始于集成电路芯片制成之后,包括集成电路芯片的粘贴固定、互连、封装、密封保护、与电路板的连接、系统组合,直到最终产品完成之前的所有过程。
第一层次:又称为芯片层次的封装,是指把集成电路芯片与封装基板或引脚架之间的粘贴固定、电路连线与封装保护的工艺,使之成为易于取放输送,并可与下一层次组装进行连接的模块(组件)元件。
第二层次:将数个第-层次完成的封装与其他电子元器件组成- -个电路卡的工艺。第三层次:将数个第二层次完成的封装组装的电路卡组合成在一个主电路板上使之成为一个部件或子系统的工艺。
第四层次:将数个子系统组装成为一个完整电子产品的工艺过程。
在芯片.上的集成电路元器件间的连线工艺也称为零级层次的封装,因此封装工程也可以用五个层次区分。

封装的分类:

1、按封装集成电路芯片的数目:单芯片封装(scP)和多芯片封装(MCP);
2、按密封材料区分:高分子材料(塑料)和陶瓷;
3、按器件与电路板互连方式:引脚插入型(PTH)和表面贴装型(SMT)4、按引脚分布形态:单边引脚、双边引脚、四边引脚和底部引脚;
SMT器件有L型、J型、I型的金属引脚。
SIP :单列式封装 SQP:小型化封装 MCP:金属罐式封装 DIP:双列式封装 CSP:芯片尺寸封装QFP: 四边扁平封装 PGA:点阵式封装 BGA:球栅阵列式封装LCCC: 无引线陶瓷芯片载体
芯片是一种集成电路,由大量的晶体管构成。不同的芯片有不同的集成规模,大到几亿;小到几十、几百个晶体管。晶体管有两种状态,开和关,用1、0来表示。多个晶体管产生的多个1与0的信号,这些信号被设定成特定的功能(即指令和数据),来表示或处理字母、数字、颜色和图形等。芯片加电以后,首先产生一个启动指令,来启动芯片,以后就不断接受新指令和数据,来完成功能。

中国芯片

编辑 播报

相关政策

2020年8月,国务院印发《新时期促进集成电路产业和软件产业高质量发展的若干政策》,让本已十分火热的国产芯片行业再添重磅利好。 [3] 
据美国消费者新闻与商业频道网站8月10日报道,中国公布一系列政策来帮助提振国内半导体行业。大部分激励措施的焦点是减税。例如,经营期在15年以上、生产的集成电路线宽小于28纳米(含)的制造商将被免征长达10年的企业所得税。对于芯片制造商来说,优惠期自获利年度起计算。新政策还关注融资问题,鼓励公司在科创板等以科技股为主的证券交易板块上市。 [4] 

发展历史

1965-1978年 创业期
1965年,第一批国内研制的晶体管和数字电路在河北半导体研究所鉴定成功。
1968年,上海无线电十四厂首家制成PMOS(P型金属-氧化物-半导体)集成电路。
1970年,背景878厂、上无十九厂建成投产。
1972年,中国第一块PMOS型LSI电路在四川永川一四二四研究所制。
1976年,中科院计算所采用中科院109厂(现中科院微电子研究所)研制的ECL(发射极耦合逻辑电路),研制成功1000万次大型电子计算机。 [5] 
1978-1989年 探索前进期
1980年,中国第一条3英寸线在878厂投入运行。
1982年,江苏无锡724厂从东芝引进电视机集成电路生产线,这是中国第一次从国外引进集成电路技术;
国务院成立电子计算机和大规模集成电路领导小组,制定了中国IC发展规划,提出“六五”期间要对半导体工业进行技术改造。
1985年,第一块64K DRAM 在无锡国营724厂试制成功。
1988年,上无十四厂建成了我国第一条4英寸线。
1989年,机电部在无锡召开“八五”集成电路发展战略研讨会,提出振兴集成电路的发展战略;
724厂和永川半导体研究所无锡分所合并成立了中国华晶电子集团公司。 [5] 
1990-2000年 重点建设期
1990年,国务院决定实施“908”工程。
1991年,首都钢铁公司和日本NEC公司成立中外合资公司——首钢NEC电子有限公司。
1992年,上海飞利浦公司建成了我国第一条5英寸线。
1993年,第一块256K DRAM在中国华晶电子集团公司试制成功。
1994年,首钢日电公司建成了我国第一条6英寸线。
1995年,国务院决定继续实施集成电路专项工程(“909”工程),集中建设我国第一条8英寸生产线。
1996年,英特尔公司投资在上海建设封测厂。
1997年,由上海华虹集团与日本NEC公司合资组建上海华虹NEC电子有限公司,主要承担“909”主体工程超大规模集成电路芯片生产线项目建设。
1998年,华晶与上华合作生产MOS 圆片合约签定,开始了中国大陆的Foundry时代;由北京有色金属研究总院半导体材料国家工程研究中心承担的我国第一条8英寸硅单晶抛光生产线建成投产。
1999年,上海华虹NEC的第一条8英寸生产线正式建成投产。 [5] 
2000-2011年 发展加速期
2000年,中芯国际在上海成立,国务院18号文件加大对集成电路的扶持力度。
2002年,中国第一款批量投产的通用CPU芯片“龙芯一号”研制成功。
2003年,台积电(上海)有限公司落户上海。
2004年,中国大陆第一条12英寸线在北京投入生产。
2006年,设立“国家重大科技专项”;无锡海力士意法半导体正式投产。
2008年,中星微电子手机多媒体芯片全球销量突破1亿枚。
2009年,国家“核高基”重大专项进入申报与实施阶段。
2011年,《关于印发进一步鼓励软件产业和继承电路产业发展若干政策的通知》。 [5] 
2012年-2019年高质量发展期
2012年,《集成电路产业“十二五”发展规划》发布;韩国三星70亿美元一期投资闪存芯片项目落户西安。
2013年,紫光收购展讯通信、锐迪科;大陆IC设计公司进入10亿美元俱乐部。
2014年,《国家集成电路产业发展推进纲要》正式发布实施;“国家集成电路产业发展投资基金”(大基金)成立。
2015年,长电科技以7.8亿美元收购星科金朋公司;中芯国际28纳米产品实现量产。
2016年,大基金、紫光投资长江储存;第一台全部采用国产处理器构建的超级计算机“神威太湖之光”获世界超算冠军。
2017年,长江存储一期项目封顶;存储器产线建设全面开启;全球首家AI芯片独角兽初创公司成立;华为发布全球第一款人工智能芯片麒麟970
2018年,紫光量产32层3D NAND(零突破)。
2019年,华为旗下海思发布全球首款5G SoC芯片海思麒麟990,采用了全球先进的7纳米工艺;64层3D NAND闪存芯片实现量产;中芯国际14纳米工艺量产。 [5] 
2021年7月,首款采用自主指令系统LoongArch设计的处理器芯片,龙芯3A5000正式发布 [12] 

挑战

2020年8月7日,华为常务董事、华为消费者业务CEO余承东中国信息化百人会2020年峰会上的演讲中说,受管制影响,下半年发售的Mate 40所搭载的麒麟9000芯片,或将是华为自研的麒麟芯片的最后一代。
以制造为主的芯片下游,是我国集成电路产业最薄弱的环节。由于工艺复杂,芯片制造涉及到从学界到产业界在材料、工程、物理、化学、光学等方面的长期积累,这些短板短期内难以补足。 [6] 
任正非早就表示:华为很像一架被打得千疮百孔的飞机,正在加紧补洞,现在大多数洞已经补好,还有一些比较重要的洞,需要两三年才能完全克服。
随着禁令愈加严苛,要补的洞越来越多, [10]  余承东是承认,当初只做设计不做生产是个错误,除了补洞更要拓展新的领地。
华为和合作伙伴正在朝这个方向走去——华为的计划是做IDM业内人士对投中网表示。 [10]  IDM,是芯片领域的一种设计生产模式,从芯片设计、制造、封装测试覆盖整个产业链 [10]  一方面,华为正在从芯片设计向上游延伸。余承东曾表示,华为将全方位扎根,突破物理学材料学基础研究和精密制造。 [10]  华为消费者业务成立专门部门做屏幕驱动芯片,进军屏幕行业。早前,网络爆出华为在内部开启塔山计划预备建设一条完全没有美国技术的45nm的芯片生产线,同时还在探索合作建立28nm的自主技术芯片生产线。
据流传的资料显示,这项计划包括EDA设计、材料、材料的生产制造、工艺、设计、半导体制造、芯片封测等在内的各个半导体产业关键环节,实现半导体技术的全面自主可控 [10] 

外媒声音

1、日本《日经亚洲评论》8月12日文章称,中国招聘了100多名前台积电工程师以力争获得芯片(产业)领军地位 。作为全世界最大的芯片代工企业,台积电成为中国(大陆)求贤若渴的芯片项目的首要目标。
高德纳咨询半导体分析师罗杰·盛(音)说:“中国芯片人才依然奇缺,因为该国正在同时开展许多大型项目。人才不足是制约半导体发展的瓶颈。 [7] 
2、华为消费者业务CEO余承东近日承认,由于美国对华为的第二轮制裁,到9月16日华为麒麟高端芯片就将用光库存。在芯片危机上华为如何破局,美国CNBC网站11日分析称,华为有5个选择,但同时“所有5个选择都面临重大挑战”。 [8] 
3、德国《经济周刊》表示,以半导体行业为例,尽管中国芯片需求达到全球60%,但中国自产的只有13%。路透社称,美国对华为打压加剧,中国则力推经济内循环,力争在高科技领域不受制于人。 [8] 
4、美国消费者新闻与商业频道网站8月10日报道指出,中国计划到2020年将半导体自给率提高到40%,到2025年提高到70%。 [4] 
瑞士米拉博证券公司技术、媒体和电信研究主管尼尔·坎普林在电子邮件中告诉消费者新闻与商业频道记者:“我认为,这场新的技术冷战正是中国攀爬技术曲线、积极开发本土技术的原因。” [4] 
欧亚集团地缘-技术业务负责人保罗·特廖洛说:“新政策中列出的优惠待遇将在某些领域起到帮助作用,但从短期看,对中国半导体企业向价值链上游攀升和提高全球竞争力帮助有限。” [4] 

相关新闻

编辑 播报

2020年8月13日消息,国务院近日印发《新时期促进集成电路产业和软件产业高质量发展的若干政策》,让本已十分火热的国产芯片行业再添重磅利好。重磅政策激活万亿市场,“新经济”“新基建”催生新机遇。“新需求”爆发,国产芯片迎黄金发展期。 [3] 
2020年8月10日,据美国消费者新闻与商业频道网站日报道,中国公布了一系列政策来帮助提振国内半导体行业。大部分激励措施的焦点是减税。 [4] 
2022年2月8日,欧盟公布《芯片法案》。 [11] 

芯片短缺加剧,三星等巨头关闭在美部分产能

—中国国产化加速
在美国多次扰乱全球芯片供应链之后,芯片供不应求的局面正在不断蔓延。在大众、通用等多家汽车制造商因芯片短缺而被迫宣布减产之后,近期美国科技巨头苹果似乎也因为芯片供应不足,而将停止生产iPhone 12 mini。 [9] 
雪上加霜的是,在全球芯片供应短缺不断加剧之际,三星、英飞凌和恩智浦等多个芯片制造商却关闭了其在美国的部分产能,这是怎么回事呢? 
周四(2月18日)MarketWatch最新报道显示,受到暴风雪极端天气的侵袭,部分在美芯片公司因设施受到影响而被迫停产,这可能会加剧芯片短缺的问题,从而间接影响到该国汽车制造商的产量。
报道显示,全球最大的芯片制造商之一——韩国三星电子的发言人表示,该公司在美国德州奥斯汀有2家工厂,而本周二当地政府已经要求该公司关闭这2家工厂。据悉,奥斯汀工厂约占三星芯片总产能的28%。其发言人称,三星将尽快恢复生产,不过必须等待电力供应恢复。
据悉,此前德州约有380万名居民被断电。为了尽快解决这一问题,德州政府周四发布了天然气对外销售禁令,要求天然气生产商将天然气卖给本州电厂。德州电网运营商Ercot的高管Dan Woodfin在接受采访时称,天然气供应不足是其难以恢复供电的原因之一。
而在德州大量人口出现断电问题之际,工厂的用电需求自然无法优先得到满足。报道显示,三星并非被要求关闭芯片工厂的企业,恩智浦和英飞凌等芯片巨头也因电力供应中断而关闭了在当地的工厂。 [9] 
与此同时,中国芯片国产化的进程则在不断加速。周四最新消息显示,百度在其最新公布的财报中首次披露了其芯片进展。该财报显示,百度自主研发的昆仑2芯片即将量产,以提升百度智能云的算力优势。 

产业技术问题

编辑 播报

2022年6月27日,在第二十四届中国科协年会闭幕式上,中国科协隆重发布10个对产业发展具有引领作用的产业技术问题,其中包括“ 如何实现存算一体芯片工程化和产业化? ” 

大裁员危机空前!芯片涨价,会是英特尔的急救良方吗?

互联网那些事 匠心计划创作者,优质科技领域创作者,活力创作者

性能与成本不相匹配,进入尴尬期的先进制程工艺又将何去何从?

邻章 优质科技领域创

传闻台积电想涨价,但苹果说NO!

小刀马 科技领域创作者

跨世纪的复仇之战

今年5月韩国的半导体出口同比减少30%,显示器减少21.5%,手机减少33.9%。二季度营业利润只有6.5万亿韩元,同比大减56.3%。7月13日,李在镕在三星社长紧急会议上称,三星必须做最坏的打算了。世上没无缘无故的爱,也没无缘无故的恨,李在镕明白,日本复仇的时候到了。

ca7.159 存…

需 2 分钟

01. 两个大消息,同时来袭,整个科技圈都被刷屏了。

第一个大消息:

华为麒麟芯片,阿里倚天芯片之后,中国第三款顶级芯片今天终于面世。

与前两款更难能可贵的是,这次突破的芯片,与以往的芯片领域都不同。这次是我国乃至全球芯片领域的一个重大突破!全新的一款芯片!

全世界第一款!独属于我们中国!

这个芯片就是全球首款基于DRAM的3D键合堆叠的存算一体芯片!

你没看错!存算一体芯片!正式诞生了!

并且是由我们中国第一个研发出来的,比美国,日本,韩国,比这三大芯片强国更快一步面世!

可能很多人还不知道存算一体芯片!有多厉害,不知道这个对于我们中国,以及我们中国科技圈,意味着什么:

1,“ 存 ”代表存储,“ 算 ”代表计算,算力。

细心的人应该有注意,我们平时使用的智能手机,笔记本电脑,台式电脑,以及智能电视机,各种智能电子产品。

只要使用了一段时间,一年,两年等等,里面的内存就会自动“ 缩小 ”。比如你的手机,或者电脑是100G的内存,用了一年后,哪怕全部格式化,恢复出厂设置,你也会发现,内存不够100G了。

这种“ 损耗 ”!在今天之前,是任何一个电子产品都无法避免的。

最主要的原因就是:在我们平时使用手机或者电脑的时候,运行的时候,其实都是一边存储我们的内容,操作;一边又不断的高轮度的开启强大的计算能力,运算能力;

每天大频繁的进行数据搬运,计算;给这些电子产品带来了巨大的能量消耗。最主要的一个体现就是,

我们如果同时打开了几个游戏,或者几十个网页,我们的智能产品立即就会提示功耗过高、性能、内存、温度,等等的预警。。

美国,日本,韩国,中国,欧盟;无数大国都在拼命研发,都想第一个攻克这个难题。

在马云没退休前,,

02. 原因,很简单。就跟第一个研发出电脑系统的美国一样。

任何新技术,新科技,只要哪个国家是第一个研发出来的,就立即拥有着绝对的国际话语权、定价权。。

特别是在当今全球几十亿人都在使用电脑,手机的大背景下;谁都知道,第一个研发出这个技术的国家,将获得多么巨大的利益。。

从上世纪90年代至今,以美国,韩国,日本为首的半导体,芯片强国,一年又一年无数的科学家,海量的资金,铺天盖地的都在往这方面堆人才!

虽然,大家都还没有研发出来,但是无论是美国,日本,韩国还是欧洲,大量科学家公认的一个点已经确认:

存算一体芯片是目前解决以上问题的最佳途径——它类似于人脑,将数据存储单元和计算单元融合为一体,能够最大幅度的减少我们的智能产品,包括手机,电脑等等设备,在运行的时候,数据搬运的时候,降低损耗!

从而起到极大的提高智能产品的计算力和能效。

当然,降低了损耗,也就意味着我们手上的电子产品,以后性能能够用的更持久。

知道是一回事,但要想攻克存算一体这个新的技术,却是极其艰难。。

有多难?你们看一看美国,日本,韩国等等技术大国,过去几十年业界对存算一体芯片的研究就知道了。

这个技术攻克的太艰难了。哪怕是美国投入如此众多的科学家,都进展无比无比缓慢。

3,天佑中国,我们竟然率先攻克了。

受限于技术不能公开的原因,马云的阿里达摩院没有将具体攻克这项存算一体化芯片的技术,公布出来。

但,马云的阿里刚刚已经正式向全球发出了宣告!

新突破!

世界第一款存算一体芯片!诞生了!!

毫无疑问!马云的阿里达摩院率先完成了这项技术的攻克!我们中国现在成为了全球第一个攻克此项技术的国家!

不用怀疑,在全球都没有人研发成功的背景下,我们的这个技术,百分百是属于自己自研!自主创新!

全球首款存算一体芯片!来了!

性能提升10倍以上,效能比提升高达300倍!

真的不敢相信,华为被美国封杀之后,我都快绝望了。本以为至少要到2025年才有可能,我们中国再次诞生世界顶级,一流的芯片。

没想到,今天马云的阿里竟然给了我们如此巨大的惊喜!

真是天佑中国!!

可能很多人对马云的阿里达摩院了解不多,我简单说一下:

1、达摩院由马云的阿里巴巴于2017年创办,迄今为止三年多,已经烧了1000多亿现金!(看似今天简简单单的一个技术突破,背后的付出又有多少人知道呢?)

1000多亿的资金研发投入,在最近三年多,我们中国民营企业里面投入的研发费里,仅次于华为,位居中国第二。

2、你们能想到的顶级卡脖子技术、前言技术,很多很多都在里面设立了专项研究实验室。

包括量子技术、AI人工智能驾驶、芯片、关键技术可应用(如数据库)的架构,等等。

截止目前,达摩院已正式建立14个顶级实验室。我给你们看一个图,你们就知道这些领域,对于我们中国的科技有多么大的帮助。

3、除此之外,达摩院还在杭州、北京、上海、新加坡、以色列、西雅图、硅谷等全球8个地区设立了科技研究中心。

每一个实验室、研究中心,都收拢着无数来自全球各个领域的顶尖大拿、科学家;

仅世界各大名校的教授级别人物就高达30多人,而达到世界顶级的IEEE Fellow 级别的科学家,更是聚集了10多人。

有人说,今天这个技术的诞生,可能是运气。

其实,这世间哪有那么多运气,特别是在做不得一丝假的科技面前,看似一个技术的简单突破;

这背后,谁又知道人家付出了多少,谁又知道又有多少科学家,在日日夜夜的熬夜研发,拼命为国家,为我们的科技突破默默的做了多少贡献。

03. 第二个大消息:浙大刚刚传来大消息。

一项重大的医疗科学技术攻克了。软骨、关节修复术!!

我把简单的要点说一下:

浙江大学基础医学系教授欧阳宏伟,带领的团队最近攻克了一项关键技术。

研发出一种“ 关节油漆 ”,当细胞接触并吸收“ 油漆 ”后,就会诞生新的软骨。受损关节也可得到修复,全程只需三四周。

什么意思呢?

就是我们每个人身上,手、脚,都有很多关节。

一般随着人的年纪越来越大,劳累越来越多,身上的关节都会出现不同程度的磨损。

特别是我们的膝盖,手腕这些使用频繁的关节。很多人都会出现软骨损伤。

以前,碰到这种情况,要么我们就不管,要么就只能等严重水肿之后,或者出现严重疼痛之后去打消炎针,或者去医院动手术修复。

而现在浙大传来的这个大消息,则意味着此次研发的“关节油漆”,有望解决上述问题。

目前进行的实验中,以兔实验和猪实验为主,经“油漆”处理后,此前存在缺损的兔和猪的软骨表面,均可恢复光滑。

按照研发者的介绍:

它的原理是通过抑制软骨细胞凋亡、维持软骨细胞表型,并保留部分软骨缺损中糖胺聚糖的含量。

简单来说,这个技术的突破,意味着我国第一个用于关节软骨缺损的仿生组分的组织粘合剂即将要诞生了。

如果后续实验顺利,那就意味着我国医疗技术,将再次攻克了一个卡脖子的技术!!

写在最后:

芯片技术!医疗技术!两个重大领域,同时迎来重大突破!

在目前我们面临美国科技封锁、技术封锁的大背景下,真的是天佑中国!真的是来之不易。。

今天!让我们向每一位为中国科技、中国关键技术领域做出贡献的科学家,研究者、工作人员,表示感谢。

谢谢,你们的默默付出!!

时至今日,我依然忘不了中国科技进程,最早期时留下的这一段话:

1937年10月,日军占领清华园!

赵忠尧与梁思成一起冒死潜返清华取回这50毫克的镭元素;随后赵忠尧则扮成难民,跟着逃难的人一起千里跋涉前往长沙。

35岁的赵忠尧抱着咸菜坛子,里面藏着中国当时唯一的50克镭元素!

整整走路,走了一个多月,从北京走到长沙。

年轻的赵先生,变成了一个蓬头垢面的乞丐……胸前后背,都挂着鲜红的血印子。

直到走到长沙,真正见到了清华校长,这个“ 乞丐 ”的手还紧紧的抱着坛子。。

历经千万险阻,躲避日军的四处追查,最终将这个关系中国科技命运的“ 坛子 ”,安全的带到了长沙。

他叫赵忠尧,是我们中国的原子能之父!

中国第一颗原子弹爆炸

中国第一枚氢弹爆炸

中国第一艘核潜艇入水

中国第一座核电站破土动工

一半以上的技术都来自于他与他的学生。

不知道为什么,今天看到祖国的科技蓬勃发展,历史性的一下子出现两个重大领域的突破,自然而然的脑海里就想起了赵老先生。。

这就像一种传承!一种爱国的精神,科技的精神,钻研的精髓,一代又一代,源远流长!

朋友们,今天我写下这篇文章,没有其他意思。只是想清楚的告诉大家。

科技的崛起、进步之路,虽没有一兵、一炮、一枪;但对于一国之影响,一国之命运,却起着无可替代的重大作用!

我国科技进程早期的时候,日本围堵我们;如今我们科技进步了一些,美国又开始围堵;但这就是大国竞争、科技竞争!!

真的非常非常残酷!与国有关,有你,与我,我们每一个人都息息相关。。

今天,虽然我们两个关键领域的技术都突破了;但我深深的明白,这还远远不够。

美国对于我们科技的封锁,依然还没有解除。

中国,加油!中国科技,加油!

吾辈当自强!

c2.149 AI…

2 分钟

2017年,正值AI+医疗行业大热,在人工智能领域沉淀了十余年的马春娥和丈夫毛新生,怀着帮助医生更高效的诊断病人的初衷,共同创立了数坤科技,一头扎进AI影像领域。

短短四年内,数坤科技获得多轮资本加持,背后站着红杉资本、远毅资本等机构,并且即将要敲开IPO的大门。

9月21日,数坤科技正式向港交所提交招股书,拟在香港主板挂牌上市,摩根大通、美银证券、中银国际证券为其联席保荐人。

灼识数据显示,中国的人工智能医学影像解决方案市场预期将进入爆发式增长期,从2020年的不到10亿元增加至2025年的442亿元,并预计于2030 年进一步增加至人民币1554亿元。

在这个千亿赛道,数坤科技做对了什么?又将会交出一份怎样的答卷?

夫妻档创业,瞄准AI医疗影像

马春娥在毕业之后就加入了IBM从事云计算、人工智能等工作,并且一呆就是十年。

在IBM工作的时候,马春娥接触到了很多行业,医疗这个更人性化、更需要温暖和关爱的行业吸引了她,于是在2017年,马春娥就和丈夫毛新生一起创办了数坤科技,开启了人生的新阶段。

创立之初,数坤科技选择了一条差异化的发展路线,并没有切入竞争激烈的玩家众多的肺结节检测、乳腺癌筛查等红海领域,而是从鲜有人问津的心脑血管疾病入手,推出针对心血管疾病的人工智能诊断产品。

相比可见的其他影像AI产品,心脑血管AI的准入门槛更高,技术挑战更大,行业内的玩家很少,马春娥认为选择选择这类疾病切入,可以更好地满足医患需求。

中国医学影像数据量以每年约30%的速度增长,而与此同时,医生人数却以每年6%的速度增长,医学影像发分析复杂且耗时,人工智能的出现有望解决医疗资源不均以及医学影像分析效率低下的问题。

成立仅仅4年的公司数坤科技,正在通过产品、技术、市场占有率等方面构建核心竞争力。数坤科技借助自主开发的数字人体人工智能技术平台,读取医学影像以了解人体,分析病变并为医生生成辅助诊断报告。

通过打造数字医生产品组合,数坤科技致力于分析医学影像数据,帮助医生提升诊断效率。目前,产品在国内已获得超1200家医院使用。

截至最后实际可行日期,中国所有三甲医院、三级医院及二级医院分别有超过30%、超过20%及约5%采用及安装数坤科技的产品。

根据灼识报告的数据显示,数坤科技在治疗领域覆盖范围上,位居全球第一。公司数字医生管线产品覆盖大部分关键治疗领域,数字医生产品组合包括12款产品及25款候选产品,涵盖心脏、大脑、腹 部、胸部和肌肉骨骼系统,并针对若干全球最普遍及致命的疾病领域,涉及的治疗领域占医学影像使用场景的80%以上。

明星资本加持,融资超20亿

马春娥和毛新生有着多年的专业技术背景和科技管理经验,使得这家公司成立之初便被资本看好。

毛新生曾是IBM中国创新研究院高管,曾担任IBM中国开发中心的首席技术官,积累了许多语言自动识别、AI、云计算和大数据行业的经验,离开IBM后,还曾创立了幼教平台智慧树;马春娥曾荣获“Best of IBM”大奖,IBM杰出技术贡献奖,拥有多项国际专利。

从2017年成立以来,数坤科技共经历了多轮融资,展示出了强大的吸金能力,目前融资总额超20亿元。在成立当年,就获得了来自远毅资本的2200万元的天使轮融资。

今年8月,数坤科技宣布完成新一轮7亿元融资,投资方包括高盛资管、春华资本、红杉资本中国基金、远毅资本、简街亚洲、锐智资本、WT 聚焦中国基金、未来启创基金。招股书数据显示,在本轮融资后,数坤科技的投后估值达到了94亿人民币。

这体现了资本对AI医疗赛道投资价值的认可。也验证了人工智能医疗行业的巨大前景。

“人到了40岁的时候,会觉得生命是倒过来过的,会想在接下来的生命当中,用自己喜欢的方式去做一些自己喜欢的事情。”对于毛新生而言,从IBM离职创业是一个新的出发点。

招股书显示,在IPO前,公司创始人马春娥和董事长毛新生二人共持股约34.24%,华盖资本持有数坤科技10.22%的股份,为最大机构投资方。远毅资本、五源资本、红杉中国、创世伙伴和启明创投分别持有9.12%、9.11%、8.62%、8.53%和3.64%的股份。

值得注意的是,招股书显示,2019年的数坤科技仅有一位客户,产生的收入才80万,依赖单一客户并且商业化缓慢;如今不到两年,客户群体得到拓展,产生收入达到了3760万元。

产生这个变化的重要原因在于数坤科技三类证的获批。2020年11月,数坤冠脉CT造影图像血管狭窄辅助分诊软件(“数坤心血管AI”),正式获批中国国家药品监督管理局医疗器械三类证,这是心脏冠脉狭窄AI辅助诊断领域的全球首张医疗器械注册证。

这意味着数坤科技的产品真正开始大规模商用,公司迅速开启商业化,并将其产品由“AI+CTA”向“数字人体”拓宽,布局医疗AI诊断全赛道。

据《中国心血管病报告》显示,我国心血管病患病率及死亡率呈持续攀升态势,现患人数2.9亿,这为我国公共卫生及健康事业带来严峻挑战,数坤科技的数字心冠脉AI产品CoronaryDoc在推出后可以迅速占据市场。

身处黄金赛道,

AI医疗公司掀起上市浪潮

今年以来,国内掀起了AI医疗公司上市的浪潮。除了数坤科技,科亚医疗、鹰瞳科技、推想医疗等行业相关公司也先后递交了上市申请表。

受可支配收入增加及公众健康意识提升所推动,中国的医疗健康支出由2015年的人民币40975亿元增加至2020年的人民币72306亿元,复合年增长率为12.0%。

AI医疗赛道也获得了前所未有的关注,在政策和资本的加持下,行业迎来了新的发展机会。

数坤科技的招股书显示,2020年以及截至2021年6月31日的六个月,公司的收入分别为2477万元、5262万元;毛利分别为2068万元、4433万元。同期,毛利率分别为83.5%、84.2%。

人工智能正在改变医疗健康服务,AI医疗赛道属于热门赛道,前景可期。不过,一方面是市场的火热,但另一方面,烧钱严重、竞争激烈也为这个赛道的玩家带来更多的不确定性。

去年11月,依图科技递表科创板,但由于其上市一直受阻,冲刺AI第一股无望。随着二级市场的“输血”通道关闭,烧钱较为板块严重的依图医疗自然也沦为弃子。今年8月,依图科技“断臂求生”,将旗下的医疗版块依图医疗并入深睿医疗,成为我国影像AI有史以来规模最大的并购事件。

即便有着出色的营收和完善的产品矩阵,数坤科技依然处于亏损状态。不过这也是行业的通病,人工智能医学影像解决方案的存在能够在很大程度上解决目前医疗行业所面临的一些问题,但由于研发成本高昂,短时间内很难实现收支平衡。

从数坤科技的招股书中可以看出,截至2019年、2020年、2021年上半年,数坤科技研发开支分别为4268.9万元、6293.3万元、8118.8万元,经调整净亏损分别为6941.6万元、7474.8万元、7516.5万元,亏损不断扩大。

2021世界人工智能大会上,红杉资本全球执行合伙人沈南鹏在主题演讲中曾表示:“数坤科技是全球首家获批冠脉狭窄AI辅助诊断注册证的科技公司,可以将医生原本耗时30分钟的冠脉诊断压缩至2-3分钟,他们在心脑血管CT诊断、肝脏核磁诊断方面开发的人工智能产品,已进入了超过800家医院,大幅提高了影像科医生的工作效率。”

在医疗AI影像领域风起云涌的下半场,头部企业的优势将会愈发的明显,上市对于这些企业来讲只是一个开始,未来在资本市场的表现也值得期待。

AI圣经-Ian …

青山遮不住,毕竟东流去 

深度学习这个术语自 2006 年被正式提出后,在最近 10 年得到了巨大发展。它使人工智能(AI)产生了革命性的突破,让我们切实地领略到人工智能给人类生活带来改变的潜力。

该书包括 3 个部分,

第 1 部分介绍基本的数学工具和机器学习的概念,它们是深度学习的预备知识。

第 2 部分系统深入地讲解现今已成熟的深度学习方法和技术。

第 3 部分讨论某些具有前瞻性的方向和想法,它们被公认为是深度学习未来的研究重点。因此,该书适用于不同层次的读者。我本人在阅读该书时受到启发良多,大有裨益,并采用该书作为教材在北京大学讲授深度学习课程。本书脉络图如下所示:

这是一本涵盖深度学习技术细节的教科书,它告诉我们深度学习集技术、科学与艺术于一体,牵涉统计、优化、矩阵、算法、编程、分布式计算等多个领域。书中同时也蕴含了作者对深度学习的理解和思考,处处闪烁着深刻的思想,耐人回味。第 1 章关于深度学习的思想、历史发展等论述尤为透彻而精辟。

“人工智能的真正挑战在于解决那些对人来说很容易执行、很难形式化描述的任务,比如识别人们所说的话或图像中的脸。对于这些问题,我们人类往往可以凭直觉轻易地解决”。为了应对这些挑战,他们提出让计算机从经验中学习,并根据层次化的概念体系来理解世界,而每个概念通过与某些相对简单的概念之间的关系来定义。由此,作者给出了深度学习的定义:“层次化的概念让计算机构建较简单的概念来学习复杂概念。如果绘制出表示这些概念如何建立在彼此之上的一幅图,我们将得到一张‘深’(层次很多)的图。由此,我们称这种方法为AI深度学习 。

“如今神经科学在深度学习研究中的作用被削弱,主要原因是我们根本没有足够的关于大脑的信息作为指导去使用它。要获得对被大脑实际使用算法的深刻理解,我们需要有能力同时监测(至少是)数千相连神经元的活动。我们不能够做到这一点,所以我们甚至连大脑最简单、最深入研究的部分都还远远没有理解”。值得注意的是,我国有些专家热衷倡导人工智能与脑科学或认知学科的交叉研究,推动国家在所谓的“类脑智能”等领域投入大量资源。且不论我国是否真有同时精通人工智能和脑科学或认知心理学的学者,至少对交叉领域,我们都应该怀着务实、理性的求是态度。唯有如此,我们才有可能在这一波人工智能发展浪潮中有所作为,而不是又成为一群观潮人。

“媒体报道经常强调深度学习与大脑的相似性。的确,深度学习研究者比其他机器学习领域(如核方法或贝叶斯统计)的研究者更可能地引用大脑作为参考,但大家不应该认为深度学习在尝试模拟大脑。现代深度学习从许多领域获取灵感,特别是应用数学的基本内容如线性代数、概率论、信息论和数值优化。尽管一些深度学习的研究人员引用神经科学作为重要的灵感来源,然而其他学者完全不关心神经科学”。的确,对于广大青年学者和一线的工程师来说,我们完全可以不用因为不懂神经(或脑)科学而对深度学习、人工智能踯躅不前。数学模型、计算方法和应用驱动才是我们研究人工智能的可行之道。深度学习和人工智能不是飘悬在我们头顶的框架,而是立足于我们脚下的技术。我们诚然可以从哲学层面或角度来欣赏科学与技术,但过度地从哲学层面来研究科学问题只会导致一些空洞的名词。

关于人工神经网络在 20 世纪 90 年代中期的衰落,作者分析到:“基于神经网络和其他AI技术的创业公司开始寻求投资,其做法野心勃勃但不切实际。当AI研究不能实现这些不合理的期望时,投资者也就感到失望。同时,机器学习的其他领域取得了进步。比如,核方法和图模型都在很多重要任务上实现了很好的效果。这两个因素导致了神经网络热潮的第二次衰退,并一直持续到 2007 年”。“其兴也悖焉,其亡也忽焉”。这个教训也同样值得当今基于深度学习的创业界、工业界和学术界等警醒。

深度学习发展与《深度学习》概览

引言

当人类第一次构思可编程计算机时,就已经在思考计算机能否变得智能 (尽管这距造出第一台计算机还有一百多年)(Lovelace, 1842)。如今,人工智能 (artificial intelligence, AI) 已经成为一个具有众多实际应用和活跃研究课题的领域,并且正在蓬勃发展。我们期望通过智能软件自动地处理常规劳动、理解语音或图像、帮助医学诊断和支持基础科学研究。

在人工智能的早期,那些对人类智力来说非常困难、但对计算机来说相对简单的问题得到迅速解决,比如,那些可以通过一系列形式化的数学规则来描述的问题。人工智能的真正挑战在于解决那些对人来说很容易执行、但很难形式化描述的任务,如识别人们所说的话或图像中的脸。对于这些问题,我们人类往往可以凭借直觉轻易地解决。

针对这些比较直观的问题,本书讨论一种解决方案。该方案可以让计算机从经验中学习,并根据层次化的概念体系来理解世界,而每个概念则通过与某些相对简单的概念之间的关系来定义。让计算机从经验获取知识,可以避免由人类来给计算机形式化地指定它需要的所有知识。层次化的概念让计算机构建较简单的概念来学习复杂概念。如果绘制出表示这些概念如何建立在彼此之上的图,我们将得到一张“深”(层次很多) 的图。基于这个原因,我们称这种方法为 AI 深度学习(deep learning)。

AI 许多早期的成功发生在相对朴素且形式化的环境中,而且不要求计算机具备很多关于世界的知识。例如,IBM 的深蓝 (Deep Blue) 国际象棋系统在 1997 年击败了世界冠军Garry Kasparov(Hsu, 2002)。显然国际象棋是一个非常简单的领域,因为它仅含有 64 个位置并只能以严格限制的方式移动 32 个棋子。设计一种成功的国际象棋策略是巨大的成就,但向计算机描述棋子及其允许的走法并不是这一挑战的困难所在。国际象棋完全可以由一个非常简短的、完全形式化的规则列表来描述,并可以容易地由程序员事先准备好。

具有讽刺意义的是,抽象和形式化的任务对人类而言是最困难的脑力任务之一,但对计算机而言却属于最容易的。计算机早就能够打败人类最好的国际象棋选手,但直到最近计算机才在识别对象或语音任务中达到人类平均水平。一个人的日常生活需要关于世界的巨量知识。很多这方面的知识是主观的、直观的,因此很难通过形式化的方式表达清楚。计算机需要获取同样的知识才能表现出智能。人工智能的一个关键挑战就是如何将这些非形式化的知识传达给计算机。

一些人工智能项目力求将关于世界的知识用形式化的语言进行硬编码 (hard-code)。计算机可以使用逻辑推理规则来自动地理解这些形式化语言中的声明。这就是众所周知的人工智能的知识库方法。然而,这些项目最终都没有取得重大的成功。其中最著名的项目是 Cyc (Lenat and Guha, 1989)。Cyc 包括一个推断引擎和一个使用 CycL 语言描述的声明数据库。这些声明是由人类监督者输入的。这是一个笨拙的过程。人们设法设计出足够复杂的形式化规则来精确地描述世界。例如,Cyc 不能理解一个关于名为 Fred 的人在早上剃须的故事 (Linde, 1992)。它的推理引擎检测到故事中的不一致性:它知道人体的构成不包含电气零件,但由于 Fred 正拿着一个电动剃须刀,它认为实体——“正在剃须的 Fred”含有电气部件。因此,它产生了这样的疑问——Fred 在刮胡子的时候是否仍然是一个人。

依靠硬编码的知识体系面临的困难表明,AI 系统需要具备自己获取知识的能力,即从原始数据中提取模式的能力。这种能力称为机器学习(machine learning)。引入机器学习使计算机能够解决涉及现实世界知识的问题,并能做出看似主观的决策。比如,一个称为逻辑回归 (logistic regression) 的简单机器学习算法可以决定是否建议剖腹产 (Mor-Yosef et al., 1990)。而同样是简单机器学习算法的朴素贝叶斯(naive Bayes) 则可以区分垃圾电子邮件和合法电子邮件。

这些简单的机器学习算法的性能在很大程度上依赖于给定数据的表示 (representation)。例如,当逻辑回归用于判断产妇是否适合剖腹产时,AI 系统不会直接检查患者。相反,医生需要告诉系统几条相关的信息,诸如是否存在子宫疤痕。表示患者的每条信息称为一个特征。逻辑回归学习病人的这些特征如何与各种结果相关联。然而,它丝毫不能影响该特征定义的方式。如果将病人的 MRI(核磁共振) 扫描而不是医生正式的报告作为逻辑回归的输入,它将无法做出有用的预测。MRI 扫描的单一像素与分娩过程中并发症之间的相关性微乎其微。

在整个计算机科学乃至日常生活中,对表示的依赖都是一个普遍现象。在计算机科学中,如果数据集合被精巧地结构化并被智能地索引,那么诸如搜索之类的操作的处理速度就可以成指数级地加快。人们可以很容易地在阿拉伯数字的表示下进行算术运算,但在罗马数字的表示下,运算会比较耗时。因此,毫不奇怪,表示的选择会对机器学习算法的性能产生巨大的影响。

许多人工智能任务都可以通过以下方式解决:先提取一个合适的特征集,然后将这些特征提供给简单的机器学习算法。例如,对于通过声音鉴别说话者的任务来说,一个有用的特征是对其声道大小的估计。这个特征为判断说话者是男性、女性还是儿童提供了有力线索。

然而,对于许多任务来说,我们很难知道应该提取哪些特征。例如,假设我们想编写一个程序来检测照片中的车。我们知道,汽车有轮子,所以我们可能会想用车轮的存在与否作为特征。遗憾的是,我们难以准确地根据像素值来描述车轮看上去像什么。虽然车轮具有简单的几何形状,但它的图像可能会因场景而异,如落在车轮上的阴影、太阳照亮的车轮的金属零件、汽车的挡泥板或者遮挡的车轮一部分的前景物体等。

解决这个问题的途径之一是使用机器学习来发掘表示本身,而不仅仅把表示映射到输出。

这种方法我们称之为表示学习(representation learning)。学习到的表示往往比手动设计的表示表现得更好。并且它们只需最少的人工干预,就能让AI系统迅速适应新的任务。表示学习算法只需几分钟就可以为简单的任务发现一个很好的特征集,对于复杂任务则需要几小时到几个月。手动为一个复杂的任务设计特征需要耗费大量的人工、时间和精力,甚至需要花费整个社群研究人员几十年的时间。

表示学习算法的典型例子是自编码器(autoencoder)。自编码器由一个编码器(encoder) 函数和一个解码器(decoder) 函数组合而成。编码器函数将输入数据转换为一种不同的表示,而解码器函数则将这个新的表示转换回原来的形式。我们期望当输入数据经过编码器和解码器之后尽可能多地保留信息,同时希望新的表示有各种好的特性,这也是自编码器的训练目标。为了实现不同的特性,我们可以设计不同形式的自编码器。

当设计特征或设计用于学习特征的算法时,我们的目标通常是分离出能解释观察数据的变差因素(factors of variation)。在此背景下,“因素”这个词仅指代影响的不同来源;因素通常不是乘性组合。这些因素通常是不能被直接观察到的量。相反,它们可能是现实世界中观察不到的物体或者不可观测的力,但会影响可观测的量。为了对观察到的数据提供有用的简化解释或推断其原因,它们还可能以概念的形式存在于人类的思维中。它们可以被看作数据的概念或者抽象,帮助我们了解这些数据的丰富多样性。当分析语音记录时,变差因素包括说话者的年龄、性别、他们的口音和他们正在说的词语。当分析汽车的图像时,变差因素包括汽车的位置、它的颜色、太阳的角度和亮度。

在许多现实的人工智能应用中,困难主要源于多个变差因素同时影响着我们能够观察到的每一个数据。比如,在一张包含红色汽车的图片中,其单个像素在夜间可能会非常接近黑色。汽车轮廓的形状取决于视角。大多数应用需要我们理清变差因素并忽略我们不关心的因素。

显然,从原始数据中提取如此高层次、抽象的特征是非常困难的。许多诸如说话口音这样的变差因素,只能通过对数据进行复杂的、接近人类水平的理解来辨识。这几乎与获得原问题的表示一样困难,因此,乍一看,表示学习似乎并不能帮助我们。

深度学习(deep learning) 通过其他较简单的表示来表达复杂表示,解决了表示学习中的核心问题。

深度学习让计算机通过较简单的概念构建复杂的概念。图 1.2 展示了深度学习系统如何通过组合较简单的概念 (例如角和轮廓,它们反过来由边线定义) 来表示图像中人的概念。深度学习模型的典型例子是前馈深度网络或或多层感知机(multilayer perceptron, MLP)。多层感知机仅仅是一个将一组输入值映射到输出值的数学函数。该函数由许多较简单的函数复合而成。我们可以认为不同数学函数的每一次应用都为输入提供了新的表示。

学习数据的正确表示的想法是解释深度学习的一个视角。另一个视角是深度促使计算机学习一个多步骤的计算机程序。每一层表示都可以被认为是并行执行另一组指令之后计算机的存储器状态。更深的网络可以按顺序执行更多的指令。顺序指令提供了极大的能力,因为后面的指令可以参考早期指令的结果。从这个角度上看,在某层激活函数里,并非所有信息都蕴涵着解释输入的变差因素。表示还存储着状态信息,用于帮助程序理解输入。这里的状态信息类似于传统计算机程序中的计数器或指针。它与具体的输入内容无关,但有助于模型组织其处理过程。

图 1.2 深度学习模型的示意图。计算机难以理解原始感观输入数据的含义,如表示为像素值集合的图像。将一组像素映射到对象标识的函数非常复杂。如果直接处理,学习或评估此映射似乎是不可能的。深度学习将所需的复杂映射分解为一系列嵌套的简单映射 (每个由模型的不同层描述) 来解决这一难题。输入展示在可见层(visible layer),这样命名的原因是因为它包含我们能观察到的变量。然后是一系列从图像中提取越来越多抽象特征的隐藏层(hidden layer)。因为它们的值不在数据中给出,所以将这些层称为“隐藏层”; 模型必须确定哪些概念有利于解释观察数据中的关系。这里的图像是每个隐藏单元表示的特征的可视化。给定像素,第 1 层可以轻易地通过比较相邻像素的亮度来识别边缘。有了第 1 隐藏层描述的边缘,第 2 隐藏层可以容易地搜索可识别为角和扩展轮廓的边集合。给定第 2 隐藏层中关于角和轮廓的图像描述,第 3 隐藏层可以找到轮廓和角的特定集合来检测特定对象的整个部分。最后,根据图像描述中包含的对象部分,可以识别图像中存在的对象 (经 Zeiler and Fergus (2014) 许可引用此图)

目前主要有两种度量模型深度的方式。一种方式是基于评估架构所需执行的顺序指令的数目。假设我们将模型表示为给定输入后,计算对应输出的流程图,则可以将这张流程图中的最长路径视为模型的深度。正如两个使用不同语言编写的等价程序将具有不同的长度,相同的函数可以被绘制为具有不同深度的流程图,其深度取决于我们可以用来作为一个步骤的函数。图 1.3 说明了语言的选择如何给相同的架构两个不同的衡量。

图 1.3 将输入映射到输出的计算图表的示意图,其中每个节点执行一个操作。深度是从输入到输出的最长路径的长度,但这取决于可能的计算步骤的定义。这些图中所示的计算是逻辑回归模型的输出,σ(wTx),其中σ是 logistic sigmoid 函数。如果使用加法、乘法和 logistic sigmoid 作为计算机语言的元素,那么这个模型深度为 3;如果将逻辑回归视为元素本身,那么这个模型深度为 1

另一种是在深度概率模型中使用的方法,它不是将计算图的深度视为模型深度,而是将描述概念彼此如何关联的图的深度视为模型深度。在这种情况下,计算每个概念表示的计算流程图的深度可能比概念本身的图更深。这是因为系统对较简单概念的理解在给出更复杂概念的信息后可以进一步精细化。例如,一个 AI 系统观察其中一只眼睛在阴影中的脸部图像时,它最初可能只看到一只眼睛。但当检测到脸部的存在后,系统可以推断第二只眼睛也可能是存在的。在这种情况下,概念的图仅包括两层 (关于眼睛的层和关于脸的层),但如果我们细化每个概念的估计将需要额外的 n 次计算,那么计算的图将包含 2n 层。

由于并不总是清楚计算图的深度和概率模型图的深度哪一个是最有意义的,并且由于不同的人选择不同的最小元素集来构建相应的图,所以就像计算机程序的长度不存在单一的正确值一样,架构的深度也不存在单一的正确值。另外,也不存在模型多么深才能被修饰为“深” 的共识。但相比传统机器学习,深度学习研究的模型涉及更多学到功能或学到概念的组合,这点毋庸置疑。

总之,这本书的主题 —— 深度学习是通向人工智能的途径之一。具体来说,它是机器学习的一种,一种能够使计算机系统从经验和数据中得到提高的技术。我们坚信机器学习可以构建出在复杂实际环境下运行的 AI 系统,并且是唯一切实可行的方法。深度学习是一种特定类型的机器学习,具有强大的能力和灵活性,它将大千世界表示为嵌套的层次概念体系 (由较简单概念间的联系定义复杂概念、从一般抽象概括到高级抽象表示)。图 1.4 说明了这些不同的 AI 学科之间的关系。图 1.5 展示了每个学科如何工作的高层次原理。

图 1.4 维恩图展示了深度学习既是一种表示学习,也是一种机器学习,可以用于许多 (但不是全部)AI 方法。维恩图的每个部分包括一个 AI 技术的实例

图 1.5 流程图展示了 AI 系统的不同部分如何在不同的 AI 学科中彼此相关。阴影框表示能从数据中学习的组件

1.1 本书面向的读者

本书对各类读者都有一定的用处,但主要是为两类受众而写的。其中,一类受众是学习机器学习的大学生 (本科或研究生),包括那些已经开始职业生涯的深度学习和人工智能研究者。另一类受众是没有机器学习或统计背景,但希望能快速地掌握这方面知识,并在他们的产品或平台中使用深度学习的软件工程师。现已证明,深度学习在许多软件领域都是有用的,包括计算机视觉、语音和音频处理、自然语言处理、机器人技术、生物信息学和化学、电子游戏、搜索引擎、网络广告和金融。

为了更好地服务各类读者,我们将本书组织为 3 个部分。第 1 部分介绍基本的数学工具和机器学习的概念。第 2 部分介绍最成熟的深度学习算法,这些技术基本上已经得到解决。第 3 部分讨论某些具有展望性的想法,它们被广泛地认为是深度学习未来的研究重点。

读者可以随意跳过不感兴趣或与自己背景不相关的部分。熟悉线性代数、概率和基本机器学习概念的读者可以跳过第 1 部分。若读者只是想实现一个能工作的系统,则不需要阅读超出第 2 部分的内容。为了帮助读者选择章节,图 1.6 给出了本书高层组织结构的流程图。

图 1.6 本书的高层组织结构的流程图。从一章到另一章的箭头表示前一章是理解后一章的必备内容

我们假设所有读者都具备计算机科学背景。也假设读者熟悉编程,并且对计算的性能问题、复杂性理论、入门级微积分和一些图论术语有基本的了解。

《深度学习》英文版配套网站是 www.deeplearningbook.org。网站上提供了各种补充材料,包括练习、讲义幻灯片、错误更正以及其他应该对读者和讲师有用的资源。

《深度学习》中文版的读者,可访问人民邮电出版社异步社区网站 www.epubit.com.cn,获取更多图书信息。

1.2 深度学习的历史趋势

通过历史背景了解深度学习是最简单的方式。这里我们仅指出深度学习的几个关键趋势,而不是提供其详细的历史:

  • 深度学习有着悠久而丰富的历史,但随着许多不同哲学观点的渐渐消逝,与之对应的名称也渐渐尘封。

  • 随着可用的训练数据量不断增加,深度学习变得更加有用。

  • 随着时间的推移,针对深度学习的计算机软硬件基础设施都有所改善,深度学习模型的规模也随之增长。

  • 随着时间的推移,深度学习已经解决日益复杂的应用,并且精度不断提高。

1.2.1 神经网络的众多名称和命运变迁

我们期待这本书的许多读者都听说过深度学习这一激动人心的新技术,并对一本书提及一个新兴领域的“历史”而感到惊讶。事实上,深度学习的历史可以追溯到 20 世纪 40 年代。深度学习看似是一个全新的领域,只不过因为在目前流行的前几年它还是相对冷门的,同时也因为它被赋予了许多不同的名称 (其中大部分已经不再使用),最近才成为众所周知的“深度学习”。这个领域已经更换了很多名称,它反映了不同的研究人员和不同观点的影响。

全面地讲述深度学习的历史超出了本书的范围。然而,一些基本的背景对理解深度学习是有用的。一般认为,迄今为止深度学习已经经历了 3 次发展浪潮:20 世纪 40 年代到 60 年代,深度学习的雏形出现在控制论(cybernetics) 中;20 世纪 80 年代到 90 年代,深度学习表现为联结主义(connectionism);直到 2006 年,才真正以深度学习之名复兴。图 1.7 给出了定量的展示。

我们今天知道的一些最早的学习算法,旨在模拟生物学习的计算模型,即大脑怎样学习或为什么能学习的模型。其结果是深度学习以人工神经网络(artificial neural network, ANN) 之名而淡去。彼时,深度学习模型被认为是受生物大脑 (无论人类大脑或其他动物的大脑) 所启发而设计出来的系统。尽管有些机器学习的神经网络有时被用来理解大脑功能 (Hinton and Shallice, 1991),但它们一般都没有设计成生物功能的真实模型。深度学习的神经观点受两个主要思想启发:一个想法是,大脑作为例子证明智能行为是可能的,因此,概念上,建立智能的直接途径是逆向大脑背后的计算原理,并复制其功能;另一种看法是,理解大脑和人类智能背后的原理也非常有趣,因此机器学习模型除了解决工程应用的能力,如果能让人类对这些基本的科学问题有进一步的认识,也将会很有用。

图 1.7 根据 Google 图书中短语“控制论”“联结主义”或“神经网络”频率衡量的人工神经网络研究的历史浪潮 ( 图中展示了 3 次浪潮的前两次,第 3 次最近才出现)。第 1 次浪潮开始于 20 世纪 40 年代到 20 世纪 60 年代的控制论,随着生物学习理论的发展 (McCulloch and Pitts, 1943; Hebb, 1949) 和第一个模型的实现 (如感知机 (Rosenblatt, 1958)),能实现单个神经元的训练。第 2 次浪潮开始于 1980—1995 年间的联结主义方法,可以使用反向传播 (Rumelhart et al., 1986a) 训练具有一两个隐藏层的神经网络。当前第 3 次浪潮,也就是深度学习,大约始于 2006 年 (Hinton et al., 2006a; Bengio et al., 2007a; Ranzato et al., 2007a),并且于 2016 年以图书的形式出现。另外,前两次浪潮类似地出现在书中的时间比相应的科学活动晚得多。

现代术语“深度学习”超越了目前机器学习模型的神经科学观点。它诉诸于学习多层次组合这一更普遍的原理,这一原理也可以应用于那些并非受神经科学启发的机器学习框架。

现代深度学习最早的前身是从神经科学的角度出发的简单线性模型。这些模型设计为使用一组 n 个输入 x1,··· ,xn,并将它们与一个输出 y 相关联。这些模型希望学习一组权重 w1,··· ,wn,并计算它们的输出 f(x,w) = x1w1 + ··· + xnwn。如图 1.7 所示,第一次神经网络研究浪潮称为控制论。

McCulloch-Pitts 神经元 (McCulloch and Pitts, 1943) 是脑功能的早期模型。该线性模型通过检验函数 f(x,w) 的正负来识别两种不同类别的输入。显然,模型的权重需要正确设置后才能使模型的输出对应于期望的类别。这些权重可以由操作人员设定。20 世纪 50 年代,感知机 (Rosenblatt, 1956, 1958) 成为第一个能根据每个类别的输入样本来学习权重的模型。大约在同一时期,自适应线性单元(adaptive linear element, ADALINE) 简单地返回函数f(x)本身的值来预测一个实数 (Widrow and Hoff, 1960),并且它还可以学习从数据预测这些数。

这些简单的学习算法大大影响了机器学习的现代景象。用于调节 ADALINE 权重的训练算法是被称为随机梯度下降(stochastic gradient descent) 的一种特例。稍加改进后的随机梯度下降算法仍然是当今深度学习的主要训练算法。

基于感知机和 ADALINE 中使用的函数 f(x,w) 的模型称为线性模型(linear model)。尽管在许多情况下,这些模型以不同于原始模型的方式进行训练,但仍是目前最广泛使用的机器学习模型。

线性模型有很多局限性。最著名的是,它们无法学习异或 (XOR) 函数,即 f([0,1],w) = 1 和 f([1,0],w) = 1,但 f([1,1],w) = 0 和 f([0,0],w) = 0。观察到线性模型这个缺陷的批评者对受生物学启发的学习普遍地产生了抵触 (Minsky and Papert, 1969)。这导致了神经网络热潮的第一次大衰退。

现在,神经科学被视为深度学习研究的一个重要灵感来源,但它已不再是该领域的主要指导。

如今神经科学在深度学习研究中的作用被削弱,主要原因是我们根本没有足够的关于大脑的信息来作为指导去使用它。要获得对被大脑实际使用算法的深刻理解,我们需要有能力同时监测 (至少是) 数千相连神经元的活动。我们不能够做到这一点,所以我们甚至连大脑最简单、最深入研究的部分都还远远没有理解 (Olshausen and Field, 2005)。

神经科学已经给了我们依靠单一深度学习算法解决许多不同任务的理由。神经学家们发现,如果将雪貂的大脑重新连接,使视觉信号传送到听觉区域,它们可以学会用大脑的听觉处理区域去“看”(Von Melchner et al., 2000)。这暗示着大多数哺乳动物的大脑使用单一的算法就可以解决其大脑可以解决的大部分不同任务。在这个假设之前,机器学习研究是比较分散的,研究人员在不同的社群研究自然语言处理、计算机视觉、运动规划和语音识别。如今,这些应用社群仍然是独立的,但是对于深度学习研究团体来说,同时研究许多甚至所有这些应用领域是很常见的。

我们能够从神经科学得到一些粗略的指南。仅通过计算单元之间的相互作用而变得智能的基本思想是受大脑启发的。新认知机 (Fukushima, 1980) 受哺乳动物视觉系统的结构启发,引入了一个处理图片的强大模型架构,它后来成为了现代卷积网络的基础 (LeCun et al., 1998c)(参见第 9.10 节)。目前大多数神经网络是基于一个称为整流线性单元(rectified linear unit) 的神经单元模型。原始认知机 (Fukushima, 1975) 受我们关于大脑功能知识的启发,引入了一个更复杂的版本。简化的现代版通过吸收来自不同观点的思想而形成,Nair and Hinton (2010b) 和 Glorot et al.(2011a) 援引神经科学作为影响,Jarrett et al. (2009a) 援引更多面向工程的影响。虽然神经科学是灵感的重要来源,但它不需要被视为刚性指导。我们知道,真实的神经元计算着与现代整流线性单元非常不同的函数,但更接近真实神经网络的系统并没有导致机器学习性能的提升。此外,虽然神经科学已经成功地启发了一些神经网络架构,但我们对用于神经科学的生物学习还没有足够多的了解,因此也就不能为训练这些架构用的学习算法提供太多的借鉴。

媒体报道经常强调深度学习与大脑的相似性。的确,深度学习研究者比其他机器学习领域 (如核方法或贝叶斯统计) 的研究者更可能地引用大脑作为影响,但是大家不应该认为深度学习在尝试模拟大脑。现代深度学习从许多领域获取灵感,特别是应用数学的基本内容,如线性代数、概率论、信息论和数值优化。尽管一些深度学习的研究人员引用神经科学作为灵感的重要来源,然而其他学者完全不关心神经科学。

值得注意的是,了解大脑是如何在算法层面上工作的尝试确实存在且发展良好。这项尝试主要被称为“计算神经科学”,并且是独立于深度学习的领域。研究人员在两个领域之间来回研究是很常见的。深度学习领域主要关注如何构建计算机系统,从而成功解决需要智能才能解决的任务,而计算神经科学领域主要关注构建大脑如何真实工作的、比较精确的模型。

20 世纪 80 年代,神经网络研究的第二次浪潮在很大程度上是伴随一个被称为联结主义(connectionism) 或并行分布处理( parallel distributed processing) 潮流而出现的 (Rumelhart et al.,1986d; McClelland et al., 1995)。联结主义是在认知科学的背景下出现的。认知科学是理解思维的跨学科途径,即它融合多个不同的分析层次。20 世纪 80 年代初期,大多数认知科学家研究符号推理模型。尽管这很流行,但符号模型很难解释大脑如何真正使用神经元实现推理功能。

联结主义者开始研究真正基于神经系统实现的认知模型 (Touretzky and Minton, 1985),其中很多复苏的想法可以追溯到心理学家 Donald Hebb 在 20 世纪 40 年代的工作 (Hebb, 1949)。

联结主义的中心思想是,当网络将大量简单的计算单元连接在一起时可以实现智能行为。这种见解同样适用于生物神经系统中的神经元,因为它和计算模型中隐藏单元起着类似的作用。

在 20 世纪 80 年代的联结主义期间形成的几个关键概念在今天的深度学习中仍然是非常重要的。

其中一个概念是分布式表示(distributed representation)(Hinton et al., 1986)。其思想是:系统的每一个输入都应该由多个特征表示,并且每一个特征都应该参与到多个可能输入的表示。例如,假设我们有一个能够识别红色、绿色或蓝色的汽车、卡车和鸟类的视觉系统,表示这些输入的其中一个方法是将 9 个可能的组合:红卡车、红汽车、红鸟、绿卡车等使用单独的神经元或隐藏单元激活。这需要 9 个不同的神经元,并且每个神经必须独立地学习颜色和对象身份的概念。改善这种情况的方法之一是使用分布式表示,即用 3 个神经元描述颜色,3 个神经元描述对象身份。这仅仅需要 6 个神经元而不是 9 个,并且描述红色的神经元能够从汽车、卡车和鸟类的图像中学习红色,而不仅仅是从一个特定类别的图像中学习。分布式表示的概念是本书的核心,我们将在第 15 章中更加详细地描述。

联结主义潮流的另一个重要成就是反向传播在训练具有内部表示的深度神经网络中的成功使用以及反向传播算法的普及 (Rumelhart et al., 1986c; LeCun, 1987)。这个算法虽然曾黯然失色且不再流行,但截至写书之时,它仍是训练深度模型的主导方法。

20 世纪 90 年代,研究人员在使用神经网络进行序列建模的方面取得了重要进展。Hochreiter (1991b) 和 Bengio et al. (1994b) 指出了对长序列进行建模的一些根本性数学难题,这将在第 10.7 节中描述。Hochreiter 和 Schmidhuber(1997) 引入长短期记忆(long shortterm memory, LSTM) 网络来解决这些难题。如今,LSTM 在许多序列建模任务中广泛应用,包括 Google 的许多自然语言处理任务。

神经网络研究的第二次浪潮一直持续到 20 世纪 90 年代中期。基于神经网络和其他AI技术的创业公司开始寻求投资,其做法野心勃勃但不切实际。当AI研究不能实现这些不合理的期望时,投资者感到失望。同时,机器学习的其他领域取得了进步。比如,核方法 (Boser et al., 1992; Cortes and Vapnik, 1995; Sch¨olkopf et al., 1999) 和图模型 (Jordan, 1998) 都在很多重要任务上实现了很好的效果。这两个因素导致了神经网络热潮的第二次衰退,并一直持续到 2007 年。

在此期间,神经网络继续在某些任务上获得令人印象深刻的表现 (LeCun et al., 1998c; Bengio et al., 2001a)。加拿大高级研究所 (CIFAR) 通过其神经计算和自适应感知 (NCAP) 研究计划帮助维持神经网络研究。该计划联合了分别由 Geoffrey Hinton、Yoshua Bengio和 Yann LeCun 领导的多伦多大学、蒙特利尔大学和纽约大学的机器学习研究小组。这个多学科的 CIFAR NCAP 研究计划还包括了神经科学家、人类和计算机视觉专家。

在那个时候,人们普遍认为深度网络是难以训练的。现在我们知道,20 世纪 80 年代就存在的算法能工作得非常好,但是直到 2006 年前后都没有体现出来。这可能仅仅由于其计算代价太高,而以当时可用的硬件难以进行足够的实验。

神经网络研究的第三次浪潮始于 2006 年的突破。Geoffrey Hinton 表明名为“深度信念网络”的神经网络可以使用一种称为“贪婪逐层预训练”的策略来有效地训练 (Hinton et al., 2006a),我们将在第 15.1 节中更详细地描述。其他 CIFAR 附属研究小组很快表明,同样的策略可以被用来训练许多其他类型的深度网络 (Bengio and LeCun, 2007a; Ranzato et al., 2007b),并能系统地帮助提高在测试样例上的泛化能力。神经网络研究的这一次浪潮普及了“深度学习”这一术语,强调研究者现在有能力训练以前不可能训练的比较深的神经网络,并着力于深度的理论重要性上 (Bengio and LeCun, 2007b; Delalleau and Bengio, 2011; Pascanu et al., 2014a; Montufar et al., 2014)。此时,深度神经网络已经优于与之竞争的基于其他机器学习技术以及手工设计功能的 AI 系统。在写这本书的时候,神经网络的第三次发展浪潮仍在继续,尽管深度学习的研究重点在这一段时间内发生了巨大变化。第三次浪潮已开始着眼于新的无监督学习技术和深度模型在小数据集的泛化能力,但目前更多的兴趣点仍是比较传统的监督学习算法和深度模型充分利用大型标注数据集的能力。

1.2.2 与日俱增的数据量

人们可能想问,既然人工神经网络的第一个实验在 20 世纪 50 年代就完成了,但为什么深度学习直到最近才被认为是关键技术?自 20 世纪 90 年代以来,深度学习就已经成功用于商业应用,但通常被视为一种只有专家才可以使用的艺术而不是一种技术,这种观点一直持续到最近。确实,要从一个深度学习算法获得良好的性能需要一些技巧。幸运的是,随着训练数据的增加,所需的技巧正在减少。目前在复杂的任务中达到人类水平的学习算法,与 20 世纪 80 年代努力解决玩具问题 (toy problem) 的学习算法几乎是一样的,尽管我们使用这些算法训练的模型经历了变革,即简化了极深架构的训练。最重要的新进展是,现在我们有了这些算法得以成功训练所需的资源。图 1.8 展示了基准数据集的大小如何随着时间的推移而显著增加。

图 1.8 与日俱增的数据量。20 世纪初,统计学家使用数百或数千的手动制作的度量来研究数据集 (Garson, 1900; Gosset, 1908; Anderson, 1935; Fisher, 1936)。20 世纪 50 年代到 80 年代,受生物启发的机器学习开拓者通常使用小的合成数据集,如低分辨率的字母位图,设计为在低计算成本下表明神经网络能够学习特定功能 (Widrow and Hoff, 1960; Rumelhart et al., 1986b)。20 世纪 80 年代和 90 年代,机器学习变得更偏统计,并开始利用包含成千上万个样本的更大数据集,如手写扫描数字的 MNIST 数据集 (如图 1.9 所示)(LeCun et al., 1998c)。在 21 世纪的第一个 10 年里,相同大小更复杂的数据集持续出现,如 CIFAR-10 数据集 (Krizhevsky and Hinton, 2009)。在这 10 年结束和接下来的 5 年,明显更大的数据集 (包含数万到数千万的样例) 完全改变了深度学习可能实现的事。这些数据集包括公共 Street View House Numbers 数据集 (Netzer et al., 2011)、各种版本的 ImageNet 数据集 (Deng et al., 2009, 2010a; Russakovsky et al., 2014a) 以及 Sports-1M 数据集 (Karpathy et al., 2014)。在图顶部,我们看到翻译句子的数据集通常远大于其他数据集,如根据 Canadian Hansard 制作的 IBM 数据集 (Brown et al., 1990) 和 WMT 2014 英法数据集 (Schwenk, 2014)

这种趋势是由社会日益数字化驱动的。由于我们的活动越来越多地发生在计算机上,我们做什么也越来越多地被记录。由于计算机越来越多地联网在一起,这些记录变得更容易集中管理,并更容易将它们整理成适于机器学习应用的数据集。因为统计估计的主要负担 (观察少量数据以在新数据上泛化) 已经减轻,“大数据”时代使机器学习更加容易。截至 2016 年,一个粗略的经验法则是,监督深度学习算法在每类给定约 5000 个标注样本情况下一般将达到可以接受的性能,当至少有 1000 万个标注样本的数据集用于训练时,它将达到或超过人类表现。此外,在更小的数据集上获得成功是一个重要的研究领域,为此我们应特别侧重于如何通过无监督或半监督学习充分利用大量的未标注样本。

图 1.9 MNIST 数据集的输入样例。“NIST”代表国家标准和技术研究所 (National Institute of Standards and Technology),是最初收集这些数据的机构。“M”代表“修改的 (Modified)”,为更容易地与机器学习算法一起使用,数据已经过预处理。MNIST 数据集包括手写数字的扫描和相关标签 (描述每个图像中包含 0∼9 中哪个数字)。这个简单的分类问题是深度学习研究中最简单和最广泛使用的测试之一。尽管现代技术很容易解决这个问题,它仍然很受欢迎。Geoffrey Hinton 将其描述为“机器学习的果蝇”,这意味着机器学习研究人员可以在受控的实验室条件下研究他们的算法,就像生物学家经常研究果蝇一样

1.2.3 与日俱增的模型规模

20 世纪 80 年代,神经网络只能取得相对较小的成功,而现在神经网络非常成功的另一个重要原因是我们现在拥有的计算资源可以运行更大的模型。联结主义的主要见解之一是,当动物的许多神经元一起工作时会变得聪明。单独神经元或小集合的神经元不是特别有用。

生物神经元不是特别稠密地连接在一起。如图 1.10 所示,几十年来,我们的机器学习模型中每个神经元的连接数量已经与哺乳动物的大脑在同一数量级上。

图 1.10 与日俱增的每个神经元的连接数。最初,人工神经网络中神经元之间的连接数受限于硬件能力。而现在,神经元之间的连接数大多是出于设计考虑。一些人工神经网络中每个神经元的连接数与猫一样多,并且对于其他神经网络来说,每个神经元的连接数与较小哺乳动物 (如小鼠) 一样多,这种情况是非常普遍的。甚至人类大脑每个神经元的连接数也没有过高的数量。生物神经网络规模来自 Wikipedia (2015)

1. 自适应线性单元 (Widrow and Hoff, 1960);2. 神经认知机 (Fukushima, 1980);3. GPU- 加速卷积网络 (Chellapilla et al., 2006);4. 深度玻尔兹曼机 (Salakhutdinov and Hinton, 2009a);5. 无监督卷积网络 (Jarrett et al., 2009b);6. GPU- 加速多层感知机 (Ciresan et al., 2010);7. 分布式自编码器 (Le et al., 2012);8. Multi-GPU 卷积网络

(Krizhevsky et al., 2012a);9. COTS HPC 无监督卷积网络 (Coates et al., 2013);10. GoogLeNet (Szegedy et al., 2014a)

如图 1.11 所示,就神经元的总数目而言,直到最近神经网络都是惊人的小。自从隐藏单元引入以来,人工神经网络的规模大约每 2.4 年扩大一倍。这种增长是由更大内存、更快的计算机和更大的可用数据集驱动的。更大的网络能够在更复杂的任务中实现更高的精度。这种趋势看起来将持续数十年。除非有能力迅速扩展新技术,否则至少要到 21 世纪 50 年代,人工神经网络才能具备与人脑相同数量级的神经元。生物神经元表示的功能可能比目前的人工神经元所表示的更复杂,因此生物神经网络可能比图中描绘的甚至要更大。

图 1.11 与日俱增的神经网络规模。自从引入隐藏单元,人工神经网络的规模大约每 2.4 年翻一倍。生物神经网络规模来自 Wikipedia (2015)

1. 感知机 (Rosenblatt, 1958, 1962);2. 自适应线性单元 (Widrow and Hoff, 1960);3. 神经认知机 (Fukushima, 1980);4. 早期后向传播网络 (Rumelhart et al., 1986b);5. 用于语音识别的循环神经网络 (Robinson and Fallside, 1991);6. 用于语音识别的多层感知机 (Bengio et al., 1991);7. 均匀场 sigmoid 信念网络 (Saul et al., 1996);8. LeNet5 (LeCun et al., 1998c);9. 回声状态网络 (Jaeger and Haas, 2004);10. 深度信念网络 (Hinton et al., 2006a);11. GPU- 加速卷积网络 (Chellapilla et al., 2006);12. 深度玻尔兹曼机 (Salakhutdinov and Hinton, 2009a);13. GPU加速深度信念网络 (Raina et al., 2009a);14. 无监督卷积网络 (Jarrett et al., 2009b);15. GPU- 加速多层感知机 (Ciresan et al., 2010);16. OMP-1 网络 (Coates and Ng, 2011);17. 分布式自编码器 (Le et al., 2012);18. MultiGPU 卷积网络 (Krizhevsky et al., 2012a);19. COTS HPC 无监督卷积网络 (Coates et al., 2013);20. GoogLeNet (Szegedy et al., 2014a)

现在看来,神经元数量比一个水蛭还少的神经网络不能解决复杂的人工智能问题,这是不足为奇的。即使现在的网络,从计算系统角度来看它可能相当大,但实际上它比相对原始的脊椎动物 (如青蛙) 的神经系统还要小。

由于更快的 CPU、通用 GPU 的出现 (在第 12.1.2 节中讨论)、更快的网络连接和更好的分布式计算的软件基础设施,模型规模随着时间的推移不断增加是深度学习历史中最重要的趋势之一。人们普遍预计这种趋势将很好地持续到未来。

1.2.4 与日俱增的精度、复杂度和对现实世界的冲击

20 世纪 80 年代以来,深度学习提供精确识别和预测的能力一直在提高。而且,深度学习持续成功地应用于越来越广泛的实际问题中。

最早的深度模型被用来识别裁剪紧凑且非常小的图像中的单个对象 (Rumelhart et al., 1986d)。此后,神经网络可以处理的图像尺寸逐渐增加。现代对象识别网络能处理丰富的高分辨率照片,并且不需要在被识别的对象附近进行裁剪 (Krizhevsky et al., 2012b)。类似地,最早的网络只能识别两种对象 (或在某些情况下,单类对象的存在与否),而这些现代网络通常能够识别至少1000个不同类别的对象。对象识别中最大的比赛是每年举行的 ImageNet 大型视觉识别挑战 (ILSVRC)。深度学习迅速崛起的激动人心的一幕是卷积网络第一次大幅赢得这一挑战,它将最高水准的前 5 错误率从 26.1% 降到 15.3% (Krizhevsky et al., 2012b),这意味着该卷积网络针对每个图像的可能类别生成一个顺序列表,除了 15.3% 的测试样本,其他测试样本的正确类标都出现在此列表中的前 5 项里。此后,深度卷积网络连续地赢得这些比赛,截至写作本书时,深度学习的最新结果将这个比赛中的前 5 错误率降到了 3.6%,如图 1.12 所示。

图 1.12 日益降低的错误率。由于深度网络达到了在 ImageNet 大规模视觉识别挑战中竞争所必需的规模,它们每年都能赢得胜利,并且产生越来越低的错误率。数据来源于 Russakovsky et al. (2014b) 和 He et al. (2015)

深度学习也对语音识别产生了巨大影响。语音识别在 20 世纪 90 年代得到提高后,直到约 2000 年都停滞不前。深度学习的引入 (Dahl et al., 2010; Deng et al., 2010b; Seide et al., 2011; Hinton et al., 2012a) 使得语音识别错误率陡然下降,有些错误率甚至降低了一半。我们将在第 12.3 节更详细地探讨这个历史。

深度网络在行人检测和图像分割中也取得了引人注目的成功 (Sermanet et al., 2013; Farabet et al., 2013; Couprie et al., 2013),并且在交通标志分类上取得了超越人类的表现 (Ciresan et al., 2012)。

在深度网络的规模和精度有所提高的同时,它们可以解决的任务也日益复杂。Goodfellow et al. (2014d) 表明,神经网络可以学习输出描述图像的整个字符序列,而不是仅仅识别单个对象。此前,人们普遍认为,这种学习需要对序列中的单个元素进行标注 (Gulcehre and Bengio, 2013)。循环神经网络,如之前提到的 LSTM 序列模型,现在用于对序列和其他序列之间的关系进行建模,而不是仅仅固定输入之间的关系。这种序列到序列的学习似乎引领着另一个应用的颠覆性发展,即机器翻译 (Sutskever et al., 2014; Bahdanau et al., 2015)。

这种复杂性日益增加的趋势已将其推向逻辑结论,即神经图灵机 (Graves et al., 2014) 的引入,它能学习读取存储单元和向存储单元写入任意内容。这样的神经网络可以从期望行为的样本中学习简单的程序。例如,从杂乱和排好序的样本中学习对一系列数进行排序。这种自我编程技术正处于起步阶段,但原则上未来可以适用于几乎所有的任务。

深度学习的另一个最大的成就是其在强化学习(reinforcement learning) 领域的扩展。在强化学习中,一个自主的智能体必须在没有人类操作者指导的情况下,通过试错来学习执行任务。DeepMind 表明,基于深度学习的强化学习系统能够学会玩 Atari 视频游戏,并在多种任务中可与人类匹敌 (Mnih et al., 2015)。深度学习也显著改善了机器人强化学习的性能 (Finn et al., 2015)。

许多深度学习应用都是高利润的。现在深度学习被许多顶级的技术公司使用,包括 Google、Microsoft、Facebook、IBM、Baidu、Apple、Adobe、Netflix、NVIDIA 和 NEC 等。

深度学习的进步也严重依赖于软件基础架构的进展。软件库如 Theano (Bergstra et al., 2010a; Bastien et al., 2012a)、PyLearn2 (Goodfellow et al., 2013e)、Torch (Collobert et al., 2011b)、DistBelief (Dean et al., 2012)、Caffe (Jia, 2013)、MXNet (Chen et al., 2015) 和 TensorFlow (Abadi et al., 2015) 都能支持重要的研究项目或商业产品。

深度学习也为其他科学做出了贡献。用于对象识别的现代卷积网络为神经科学家们提供了可以研究的视觉处理模型 (DiCarlo, 2013)。深度学习也为处理海量数据以及在科学领域做出有效的预测提供了非常有用的工具。它已成功地用于预测分子如何相互作用、从而帮助制药公司设计新的药物 (Dahl et al., 2014),搜索亚原子粒子 (Baldi et al., 2014),以及自动解析用于构建人脑三维图的显微镜图像 (Knowles-Barley et al., 2014) 等多个场合。我们期待深度学习未来能够出现在越来越多的科学领域中。

总之,深度学习是机器学习的一种方法。在过去几十年的发展中,它大量借鉴了我们关于人脑、统计学和应用数学的知识。近年来,得益于更强大的计算机、更大的数据集和能够训练更深网络的技术,深度学习的普及性和实用性都有了极大的发展。未来几年,深度学习更是充满了进一步提高并应用到新领域的挑战和机遇。

不写代码的人也完全可以看。为了方便读者阅读,作者特别绘制了本书的内容组织结构图,指出了全书20章内容之间的相关关系,如图所示。读者可以根据自己的背景或需要,随意挑选阅读。

c8.2 投资趋势…

2035年,自动驾驶汽车会取代过去的汽车,占领我们的街道。人工智能(AI),会取代人力,就像当初汽车取代马车一样。这就是一个,百年才会发生的转变。

好,让我们再来回顾一下历史:工业革命。

工业革命是一个过程,伟大的改变也是一个过程。但为什么工业革命会发生呢?因为他们:

因为这些企业家,他们带领了工业革命,因为企业家的精神造就了工业革命。所以改变世界只需要几个人,他们都是英雄,当时的英雄。

亨利福特的量产汽车工厂,将大量汽车带入我们生活。但汽车要大量使用,需要大量石油,于是洛克菲勒的企业供应了石油。

这两个人的结合,才会有汽车产业的雏形。

爱迪生的电力企业,让电走入千家万户,这世界没有电,还能运转吗?所以一个人的热情,足以改变世界。

J.P摩根,这人就更重要了,他为所有的企业提供大量的投资和贷款。正因为有了他的资金支持,大量推动革命的企业,才得以继续发展。

那接下来我们来看看,在1960年全世界最重要的公司。

第一名,汽车

第二名,石油

第三名,汽车

第四名,电力能源

第五名,钢铝

接下来的也都是石油公司。

换句话说,1960年全世界最大的公司基本上是两类:汽车和能源。在那个年代,投资这两类公司,你就投资了未来。

当年,美国64%的人是农民,在日本,90%的人是农民。而现在,美国的农民是2%。所以工作的定义也随着工业革命为之改变了。

当年很多人对于工作的定义,就是好好种地当农民。而现在98%的人,对于工作的定义,是工业和服务业,农业已经被改变掉了。

改变是持续进行的。而人类继工业革命后的下一步革命。毫无疑问的,是信息革命。

网络的流量和网络公司的市值,完全成正比的等同暴增。这足以证明,过去这二三十年来,互联网是最大的投资趋势和发展方向。

各位,做投资必须要宏观看待问题。赚钱不难,只要你有宏观概念,投资公司,每年的净利润,是44%,而且还在不断成长。更看重宏观.

而今天,2019年市值十大的公司:微软、亚马逊、苹果、谷歌、脸书、阿里巴巴、腾讯,全都是网络公司。全世界市值十大的公司里,有七家是网络公司。

30年前,投资网络就行了,哪有那么复杂,你太复杂的话,反而赚不到钱。做事情简单化,去了解那个追根究底的原理。所以各位,不要太复杂。那下一个蓝海在那里?未来30年,或者说30年后,世界排名前十大的公司都有哪些?各位不用想的太复杂。30年后,世界市值排名前十大的公司里,一定有大量的AI公司。

就像今天,排名十大的公司里,有7家是网络公司一样。未来,是AI的未来,是人工智能的未来。亚马逊、谷歌、阿里巴巴、腾讯,这些正在不断朝AI发展的网络公司,30年后还会不会有他们的身影?

人工智能(AI)将是人类历史上最大的革命。AI革命,将比过去的农业革命、工业革命,全都要来的更大更广泛。

各位,处理器的运算能力,记忆体的储存能力,互联网的传输能力,在这30年来,都成长了100万倍。30年来,成长的幅度是这样,那再过30年呢?

再过30年,再成长一百万倍。也就是说再过30年,AI将比现在再聪明一百万倍。

但我们人类30年后,会比现在聪明100万倍吗?显然不可能嘛。但是30年后的人工智能,就会比现在的人工智能,聪明100万倍。你别不信,电脑会超过人脑,AI智慧会超过人类的智慧。

人类正常的智商(IQ),都在100左右,罕见的天才爱因斯坦190,达芬奇205。那么请问,未来AI的智商,会是多少呢?

30年后,AI的智商将会是10000。你们有谁听过哪个人的智商是10000的?人不可能,但是“人工智能”可能。一万智商的AI,再天才的人都没法比。

当然人类与AI最大的差别不在智商,而在情感与创造。情感与创造是智商再高的AI都无法做到的。但未来在很多方面,AI都将比你,比我,都做得更好,或者说好得多。

这是必然发生的,而且AI最强的能力,其实是预测。将AI用在预测领域,前景非常好。很多AI预测的领域,都比人类好,尤其是精准预测。AI就是未来的精准预测水晶球。

接着我们再来看机器人的成长:

这些机器人不止是数量会成长,他们里面的AI也会随之大幅成长。而机器人并不一定就长得像个“机器人”,有时候一个盒子,一个智能音箱,也能发展一个“机器人”,来为人类提供全方位的服务。

未来你去麦当劳,都将是机器人点餐,麦当劳里不会有人。而且这些机器人都是高度智慧的,他们会对你进行,进行我上面说的,精准预测。当你走进这家店时,他就知道你的“大数据”,他就知道你想要的是什么。你是要咖啡还是热巧克力?或者你刚打完篮球,走进麦当劳,AI会直接给你冰冻饮料。

当然还有另一种更棒的情况是,当你坐进无人驾驶车里时,只要说一声去麦当劳。随后AI会帮你处理好一切,当你的车停在麦当劳窗口时,你的东西就已经送到了。

AI,并不是单个的个体,他是一个结合大数据的万物互联的整体系统。所以我可以很大胆的告诉大家:2040年之后,机器人的数量,将超过人类的人口数量。

台湾有2300万人对不对?台湾人不算多,但如果你们台湾有更多聪明的机器人,来帮助你们生产产品,你们台湾人就不必做工厂那些工人工作。你们只要做设计就好了,生产工作交给机器人来做。如果你们机器人使用效率够高,参与设计的人数够多,就能够在一定的领域取得领先优势。台湾需要AI来帮助你们,需要超级智慧来帮助你们。这是一个非常强大的趋势。

接下来另一个趋势,物联网(IOT,Internet of Things)。

未来世界,一切的东西都是IOT,都是彼此相互连通,相互关联的。这样让处理的效率更高,更快速。但要达成这样的高效率生活,需要多少晶片来帮助你?需要多聪明的AI来帮助你?

未来不止是你和物品的沟通,物品和物品间也会相互沟通。是的,物品间的相互沟通也会在物联网的时代成为很普遍的事。物联网的市场,到了2035年,规模将比现在大1亿倍,那么你说,什么是未来?

未来在这里:

竖轴代表价值,横轴代表时间

底部的黄色,代表农业,其价值与时间的比例一目了然;灰色代表工业,紫色代表互联网,也就是我们正处的时代;而未来最有价值的东西,是属于蓝色的,是属于AI的。

如果你投资一家公司,两家公司,你可能投资对了,也可能投资错了。但你投资的是趋势的话,你一定会赢的。投资趋势,比投资公司更重要。你或许会觉得我孙正义比其他人厉害,但并不是,我做的其实很简单:就是投资趋势。

所以软银公司,现在在干什么呢?主要做三件事:

1、主攻人工智能(AI)

2、投资独角兽公司

3、创造协同价值

创建了软银,来投资马云的阿里巴巴,投资了雅虎,是有获利,但也犯了很多错。

没有投资亚马逊,这是错啊,一个很大的错。我曾经和杰夫贝佐斯,一对一,面对面的谈过出价一亿美元收购亚马逊30%的股份,但杰夫坚持1.3亿。就因为这3000万美元,没谈拢,错过了亚马逊。今天亚马逊的市值是8700亿美元,30%的股份就是2600亿。因为3000万美元,而错过了2600亿美元。没有投资他,犯了一个大错。但投资趋势,永远不会错。

目前软银已投资的企业,其中也不乏中国企业:作业帮、瓜子、字节跳动、滴滴等。软银希望带给世界的,是AI的革命。而他们,就是引领AI革命的伟大企业家,他们正在改变世界。就如同上个世纪改变世界的企业家们一样,一场新的革命即将到来。

未来的自动驾驶汽车,安全高效,车祸大幅降低:

未来的世界,AI帮助我们解决疾病问题:

AI机器人参与的救援与救护行动,AI同样也可以做到陪伴与照护老人:

AI所提供的安全食物,让食物生产变得更安全,更可追溯:

AI所带给我们与众不同的快乐,智能算法将会知道你更喜欢哪种快乐:

AI不是要和人类竞争,AI是要帮助人类让生活变得更好更安全,这个就是未来的世界。软银,也致力于打造这样一个世界。

大数据对人们生活的…

大数据逐渐渗透我们的日常生活与每个角落,随着2020年的到来,大数据对我们每个人的重要性日益增长,影响和改变我们的生活,这也意味着大数据将成为一个时代。

生活更便利

大数据让生活更加便利,很多人都能感觉到在出行交通、购物、生活缴费等方面有了很大的改变。

安全有保障

公安局利用人工智能技术对千亿级各类结构化数据进行分析,对特殊群体进行智能定性和危险行为精准预测,有效开展诈骗预警和犯罪事先预判,实现事后处置到事前的防范,随着预警系统的建立,保护了人民的财产安全。

居民小区也运用“互联网+智慧社区”的方式为市民建立一道安全保障,入住人员进行实名制管理,并且对进入人员实现可控管理,小区居民在智慧社区平台实名注册登记及人像信息采集后,便可通过手机、身份证刷卡和刷脸进行开门。大数据为市民提供方便、安全的小区进出系统的同时,还为我市公安、综治部门提供了小区门禁出入人员记录、开门影像保存信息。这些信息能让相关部门对城市运行状态进行全面感知、态势预测、事件预警,为事故的溯源提供有力保障。

未来还有更多的改变

交通、购物、就医、旅游、安全……过去数年间,大数据应用其实就是信息化社会发展的一个重要阶段,而大数据的应用则给经济和社会生活带来了深刻的影响。

随着大数据的融合发展,智能化的综合网络 ,一大批新的就业形态和就业方式将被催生,商业交易方式、政府管理模式、社会管理结构也会发生变化。同时,大数据也让人们对于未来有着无限期待。

大数据智能整合data一步到位

Data是一家以大数据为基础,并智能应用于整合营销的大数据公司。汇聚多平台采集的海量数据,通过大数据技术的分析及预测能力为企业提供智能化的数据分析、运营优化、投放决策、精准营销、竞品分析等整合营销服务。已广泛服务于全国各省市及汽车、快销、金融、教育、房产等各行业。

五大产品矩阵

(1)DMarket超级数据市场

基于4亿月度活跃用户,8亿基础用户数据,运用分类、关联、聚类算法,结合地域、年龄、收入等2000+多维度关键词,搭建精准用户画像数据库,提供客户动态ID MAP(动态轨迹),从而为客户提供多种形式的市场数据支撑服务。

(2)TalkVIP精准外呼平台

Talkvip精准外呼平台是以移动互联网大数据为基础的精准云外呼平台。独有的智能算法模型将全网6亿+活跃数据进行分析,通过AI算法集群运算,精筛细选,为商家提供目标用户群体。

(3)See广告精准投放平台

See广告精准投放平台是“基于效果”的精准营销宣传平台。可根据广告主的投放需求,凭借所覆盖的海量媒体资源,通过精准的用户画像系统和强大的数据分析能力,智能匹配出最优化的投放策略,为广告主打造 “高效”、“可靠”、“省钱”的营销系统。

(4)Insight行业分析平台

Insight是数据量最丰富,分析最权威的APP行业分析平台。全行业数据标签精细划分,为客户提供行业宏观研究、微观运营分析、未来趋势研究、机会风险分析、市场切入建议和投资可行建议全生命周期的综合性服务,帮助从业者更好的决策产品方向、营销策略和投资决策等。

(5)LinkUser虚拟商品城

Linkuser提供视频会员、手机充值卡、Q币充值、游戏币、游戏礼包、装备道具、流量、话费充值等多品种虚拟线上交易业务,通过虚拟商品丰富合作伙伴的积分平台,建立与用户连接通道,辅助各平台积分消耗,活跃会员。

如今,大数据正以稳定的步伐渗透到各个行业的领域之中,未来,我们生活中所接触到的大数据的应用会越来越多。不论企业还是个人,唯有借力于大数据,高效地利用所获得到的信息,发展才能保持强劲动力,生生不息,大数据时代来临,它正在改变我们的生活。

世界就是一个数据时…

认识大数据之后,世界却不可避免地分为大数据时代、小数据时代。

谈论核心价值之前,我们先来看看什么是大数据:

很多人这样理解大数据“大数据就是大规模的数据”,这个说法真的准确吗?

其实“大规模”只是指数据的量而言,数据量大,但并不代表着数据一定有可以被深度学习算法利用的价值。例如:地球绕太阳运转的过程中,每一秒钟记录一次地球相对太阳的运动速度、位置,可以得到大量数据。可如果只有这样的数据,其实并没有太多可以挖掘的价值!

关于大数据这里我们参阅马丁·希尔伯特的总结,今天我们常说的大数据其实是在2000年后,因为信息交换、信息存储、信息处理三个方面能力的大幅增长而产生的数据:

信息交换:

据估算,从1986年到2007年这20年间,地球上每天可以通过既有信息通道交换的信息数量增长了约217倍,这些信息的数字化程度,则从1986年的约20%增长到2007年的约99.9%。在数字化信息爆炸式增长的过程里,每个参与信息交换的节点都可以在短时间内接收并存储大量数据。

信息存储:

全球信息存储能力大约每3年翻一番。从1986年到2007年这20年间,全球信息存储能力增加了约120倍,所存储信息的数字化程度也从1986年的约1%增长到2007年的约94%。1986年时,即便用上我们所有的信息载体、存储手段,我们也不过能存储全世界所交换信息的大约1%,而2007年这个数字已经增长到大约16%。信息存储能力的增加为我们利用大数据提供了近乎无限的想象空间。

信息处理:

有了海量的信息获取能力和信息存储能力,我们也必须有对这些信息进行整理、加工和分析的能力。谷歌、Facebook等公司在数据量逐渐增大的同时,也相应建立了灵活、强大的分布式数据处理集群。

信息交换 信息存储 信息处理

大数据具有数据规模大、数据类别复杂、数据处理速度快、数据真实性高、数据蕴藏价值的特点,对于大数据的处理和挖掘很大程度上需要依赖于云计算平台的分布式处理、分布式数据库、云存储和虚拟化技术。

关于大数据的应用和价值:

我们先来看一则新闻聊天机器人竟自创语言“对话” 脸书将其紧急关停,大数据被认为是人工智能的一部分,大数据也被称之为“人工智能的基石”。目前的深度学习主要是建立在大数据的基础上,即对大数据进行训练,并从中归纳出可以被计算机运用在类似数据上的知识或规律。

实际上无论是人工智能还是云计算的蓬勃发展,离不开海量数据的支撑,云计算、大数据、人工智能也被称之为“铁三角”的关系。

实际上无论是人工智能还是云计算的蓬勃发展,离不开海量数据的支撑,云计算、大数据、人工智能也被称之为“铁三角”的关系。

其实,大数据已经无所不在!

当你热议互联网杀熟的时候,背后可能是大数据要背锅;

当你在某个平台上提交你的信息,也许紧接着你还会收到保险公司、借贷机构等热情轰炸;

当你在淘宝、京东、头条、携程等逛逛看看的时候,你会发现这些app越来越懂你,因为他们会越来越精准的推送给你喜欢的产品、感兴趣新闻话题;

基于大数据,电商会在大促之前做好需求预测,提前布局仓库存储;

基于大数据,谷歌、高德、百度等地图工具服务商能够提供越来越精准的数据拟合;

基于大数据,航空公司通过分析温度、响声、振幅、飞行时间等研究来进行设备故障的预防。

大数据往往可以取代传统意义上的抽样调查,大数据混合了来自多个数据源的多维度信息。

大数据的价值在于数据分析以及分析基础上的数据挖掘和智能决策,通过对数据的分析,发现数据的变化以及各数据间的相关性、挖掘以往被忽视的规律、获得具有洞察力和新价值的东西,实现对人类行为的预测,从而可以有针对性地做出商业决策。

大数据可能告诉我们,未来会发生什么,但也许并不能解释背后的原因;
大数据帮助产品更好的了解用户、服务用户,但其实背后的大数据本身已经成为一款产品;
大数据在大数据时代正在迅速膨胀,有有利一面,但同时背后可能隐藏着“蝴蝶效应”的隐患!

 “大数据”是近年来IT行业的热词,大数据在各个行业的应用逐渐变得广泛起来,如2014年的两会,我们听得最多的也是大数据分析,那么,什么是大数据呢,什么是大数据概念呢,大数据概念怎么理解呢,一起来看看吧。

大数据的定义。大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
互联网是个神奇的大网,大数据开发也是一种模式,你如果真想了解大数据,可以来这里,这个手机的开始数字是一八七中间的是三儿零最后的是一四二五零,按照顺序组合起来就可以找到,我想说的是,除非你想做或者了解这方面的内容,如果只是凑热闹的话,就不要来了。

大数据的采集。科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、 GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集也不再是技术问题,只是面对如此众多的数据,我们怎样才能找到 其内在规律。

大数据的特点。数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。

大数据的挖掘和处理。大数据必然无法用人脑来推算、估测,或者用单台的计算机进行处理,必须采用分布式计算架构,依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术,因此,大数据的挖掘和处理必须用到云技术。

大数据的应用。大数据可应用于各行各业,将人们收集到的庞大数据进行分析整理,实现资讯的有效利用。举个本专业的例子,比如在奶牛基因层面寻找与产奶量相 关的主效基因,我们可以首先对奶牛全基因组进行扫描,尽管我们获得了所有表型信息和基因信息,但是由于数据量庞大,这就需要采用大数据技术,进行分析比 对,挖掘主效基因。例子还有很多。

大数据的意义和前景。总的来说,大数据是对大量、动态、能持续的数据,通过运用新系统、新工具、新模型的挖掘,从而获得具有洞察力和新价值的东西。以前, 面对庞大的数据,我们可能会一叶障目、可见一斑,因此不能了解到事物的真正本质,从而在科学工作中得到错误的推断,而大数据时代的来临,一切真相将会展现 在我么面前。

想来有趣,在网上购物、订外卖、手机支付已成为很多人日常生活的一部分,可穿戴设备、智能家居设备等风头正旺的现在,我们每天的吃饭、睡觉、工作,甚至娱乐产生的“数据”都会通过某种手段被保留和集中起来。根据IBM调研的说法,人类每天生成的数据涵盖我们发送的文本、上传的照片、各类传感器数据、设备与设备之间的通信的所有信息等,相当于从地球到月球的距离。

将这样量级的数据称为“大数据”可一点也不为过。最早提出“大数据”时代到来的全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”今天我们就来说说大数据。

一、什么是大数据

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理的分析方法;而研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

我们这里主要采用第三种定义,即所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策的目的资讯。

湖畔大学曾鸣老师曾列举的的大数据与传统的数据最大的差别是:在线、实时与全貌。

①在线:首先大数据必须是永远是在线的,而且在线的还得是热备份的,不是冷备份的,不是放在磁带里的,是随时能调用的。不在线的数据不是大数据,因为你根本没时间把它导出来使用。只有在线的数据才能马上被计算、被使用。

②实时:大数据必须实时反应。我们上淘宝输入一个商品,后台必须在10亿件商品当中,瞬间进行呈现。如果要等一个小时才呈现,我相信没有人再上淘宝。十亿件商品、几百万个卖家、一亿的消费者,瞬间完成匹配呈现,这才叫大数据。

③全貌:大数据还有一个最大的特征,它不再是样本思维,它是一个全体思维。以前一提到数据,人们第一个反应是样本、抽样,但是大数据不再抽样,不再调用部分,我们要的是所有可能的数据,它是一个全貌。其实叫全数据比大数据更准确。

二、大数据对企业有什么好处

“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。据统计,企业内部的经营交易信息、互联网中的商品物流信息、人与人交互信息、位置信息等数据,每2~3年时间就会成倍增长。

而信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。这些数据蕴含着巨大的商业价值,但是企业所关注的通常只占在总数据量的2%~4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。

对于一般的企业而言,大数据的作用主要表现在两个方面:

1.帮助企业了解用户

大数据通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。典型的例子就是电商。像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期的时候,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。

大数据也可以对业绩产生直接影响。它的效率和准确性,远远超过传统的用户调研。除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。

2.帮助企业了解自己

除了帮助了解用户之外,大数据还能帮助了解自己。企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。总而言之,“知己知彼,百战百胜”。大数据,就是为决策服务的。

三、大数据有什么特点

大数据的特点有4个层面:

1.Volume(海量化):数据体量巨大。从TB级别,跃升到PB级别;

2.Variety(多样化):数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据;

3.Velocity(时效性):处理速度快,1秒定律,从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化;

4.Value(价值密度):大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报

四、大数据的开发

1.数据采集

数据采集有线上和线下两种方式,线上一般通过爬虫,通过抓取或者通过已有应用系统的采集。

在这个阶段,我们可以做一个大数据采集平台,依托自动爬虫(使用Python或者Node.js制作爬虫软件),ETL工具、或者自定义的抽取转换引擎,从文件中、数据库中、网页中专项爬取数据。如果这一步通过自动化系统来做的话,可以很方便的管理所有的原始数据,并且从数据的开始对数据进行标签采集,可以规范开发人员的工作,同时目标数据源可以更方便的管理。

数据采集的难点在于多数据源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。还有本地文件、excel统计文档、甚至是doc文件。如何将它们规整、有方案地整理进我们的大数据流程中也是必不可缺的一环。

2.数据汇聚

数据的汇聚是大数据流程最关键的一步,你可以在这里加上数据标准化,你也可以在这里做数据清洗,数据合并,还可以在这一步将数据存档,将确认可用的数据经过可监控的流程进行整理归类,这里产出的所有数据就是整个公司的数据资产,到了一定的量就是一笔固定资产。

数据汇聚的难点在于如何标准化数据,例如表名标准化,表的标签分类,表的用途,数据的量,是否有数据增量?数据是否可用?

这些需要在业务上下很大的功夫,必要时还要引入智能化处理,例如根据内容训练结果自动打标签,自动分配推荐表名、表字段名等,还有如何从原始数据中导入数据等。

3.数据转化与映射

经过数据汇聚的数据资产如何提供给具体的使用方使用?在这一步,主要就是考虑数据如何应用,如何将两、三个数据表转换成一张能够提供服务的数据。然后定期更新增量。

经过前面的那几步,在这一步难点并不太多了,如何转换数据与如何清洗数据、标准数据无二,将两个字段的值转换成一个字段,或者根据多个可用表统计出一张图表数据等等。

4.数据应用

数据的应用方式很多,有对外的、有对内的,如果拥有了前期的大量数据资产,是通过restful API提供给用户?还是提供流式引擎 KAFKA 给应用消费? 或者直接组成专题数据,供自己的应用查询?这里对数据资产的要求比较高,所以前期的工作做好了,这里的自由度很高。

五、大数据、数据分析和数据挖掘的区别

大数据、数据分析、数据挖掘的区别是,大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,数据分析就是进行做出针对性的分析和诊断,大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断:

1.大数据

指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2.数据分析

是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。

3.数据挖掘

又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。

大数据是范围比较广的数据分析和数据挖掘。按照数据分析的流程来说,数据挖掘工作较数据分析工作靠前些,二者又有重合的地方,数据挖掘侧重数据的清洗和梳理。数据分析处于数据处理的最末端,是最后阶段。数据分析和数据挖掘的分界、概念比较模糊,模糊的意思是二者很难区分。大数据概念更为广泛,是把创新的思维、信息技术、统计学等等技术的综合体,每个人限于学术背景、技术背景,概述的都不一样。

六、大数据的应用

数据在行业中的应用的越来越广泛,我们先看看大数据在当下有怎样的杰出表现:

1.大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;电力企业会通过大数据实时做数据的监测和预测,让我们更好、更方便做这种电力的调度;

2.医疗中更是有着比较广泛的应用,现在的基因工程以及疾病的预测分析和每个病人的手术方案等等,可能都会用到大数据。 大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;

3.大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;

4.大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品;

5.大数据帮助娱乐行业预测歌手,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;另外电影其实都是需要渲染的,之前每渲染一分钟可能就需要上千台机器、可能需要一两个月,现在通过云计算、大数据的方式,可能渲染一个一分钟的电影镜头就缩短成了一秒或者两秒。

6.大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;

七、大数据的展望

其实,除了以上大数据的应用外,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。

比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。

而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。

未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。

大数据并不是一种概念,而是一种方法论,一句话概括,就是通过分析和挖掘全量的非抽样的数据辅助决策。

技术连接一切,数据改变生活!

1 人赞同了该回答

在这个大数据、机器学习、区块链的时代,什么是大数据?这个问题已经是老生常谈的了。关于此问题,探码科技的CEO曾接受全球大数据联盟的采访时,有一个深入的回答,并对大数据如何改变人们的生活做了浅显易懂的回复。

详情:小球访谈|大数据如何改变人们的生活? | 探码大数据 | 探码科技【官网】

我其实是挺反对大数据概念的滥用的,比如两会大数据分析的报道,其实就是百度的搜索关键词的统计,你可能都不知道他是基于数据全集统计的还是抽样统计。我和一位数据库公司老总在谈数据的重要性的时候他的一个观点我很认同,传统的数据仓库,一堆数据在要盘阵里趴着,这为叫大数据,大数据就需要对这些趴着的数据不停的排列、重组、统计、分析,依靠你的模型从数据出发为决策提供支撑,这才是大数据。

所以我理解的大数据是随着信息技术的发展,数据的积累越来越迅速,处理速度也越来越快,对数据从不同维度运用不同模型进行分析处理,而最终使数据为我们的决策服务。至于其存在的形式,无非就是楼上说的sql和非结构化数据等,没有什么特别的。

大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。

如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

典型案例

1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少,枪支、物资多少……有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并取得这场重要战役的胜利。

什么是大数据,什么是大数据概念?

现如今,我们身边很多人对一些热门的新技术、新趋势往往趋之若鹜却又很难说得透彻,比如大数据,如果被问大数据和你有什么关系,估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然,在聊天时不会显得很“土鳖”;二是在工作和生活环境中,真正能参与实践的大数据案例实在太少了,所以大家没有机会花时间去知其所以然。

  我希望有些不一样,所以对该如何去认识大数据进行了一番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆积起来形成毫无价值的转述或评论,我很真诚的希望进入事物探寻本质。

  如果你说大数据就是数据大,或者侃侃而谈4个V,也许很有深度的谈到BI或预测的价值,又或者拿Google和Amazon举例,技术流可能会聊起Hadoop和Cloud Computing,不管对错,只是无法勾勒对大数据的整体认识,不说是片面,但至少有些管窥蠡测、隔衣瘙痒了。……也许,“解构”是最好的方法。

怎样结构大数据?

首先,我认为大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。如果你对大数据开发感兴趣,想系统学习大数据或是大数据分析的话,可以戳我加入大数据技术学习交流群,了解课程,获取学习资源

第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

和大数据相关的理论

特征定义

最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

业界(IBM 最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。

其实这些V并不能真正说清楚大数据的所有特征,下面这张图对大数据的一些相关特性做出了有效的说明。

古语云:三分技术,七分数据,得数据者得天下。先不论谁说的,但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。

那么,什么是大数据思维?维克托·迈尔-舍恩伯格认为,1-需要全部数据样本而不是抽样;2-关注效率而不是精确度;3-关注相关性而不是因果关系。

阿里巴巴的王坚对于大数据也有一些独特的见解,比如,

“今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。”

“非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。”

“你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。”

特别是最后一点,我是非常认同的,大数据的真正价值在于创造,在于填补无数个还未实现过的空白。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。

价值探讨

大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。

如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。

Target的例子是一个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。如果,我们通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。

不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。

从大数据的价值链条来分析,存在三种模式:

1- 手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。

2- 没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。

3- 既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。

未来在大数据领域最具有价值的是两种事物:1-拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;2-还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。

Wal-Mart作为零售行业的巨头,他们的分析人员会对每个阶段的销售记录进行了全面的分析,有一次他们无意中发现虽不相关但很有价值的数据,在美国的飓风来临季节,超市的蛋挞和抵御飓风物品竟然销量都有大幅增加,于是他们做了一个明智决策,就是将蛋挞的销售位置移到了飓风物品销售区域旁边,看起来是为了方便用户挑选,但是没有想到蛋挞的销量因此又提高了很多。

还有一个有趣的例子,1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少,枪支、物资多少……有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并取得这场重要战役的胜利。

这些例子真实的反映在各行各业,探求数据价值取决于把握数据的人,关键是人的数据思维;与其说是大数据创造了价值,不如说是大数据思维触发了新的价值增长。

现在和未来

我们先看看大数据在当下有怎样的杰出表现:

大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;

大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;

大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;

大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;

大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;

大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;

大数据帮助娱乐行业预测歌手,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;

大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品。

其实,这些还远远不够,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。

比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”

Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。

而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。

未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。

比如,建立个人的数据中心,将每个人的日常生活习惯,身体体征,社会网络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒,将除了思维外的一切都储存下来,这些数据可以被充分的利用:

医疗机构将实时的监测用户的身体健康状况;

教育机构更有针对的制定用户喜欢的教育培训计划;

服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务;

社交网络能为你提供合适的交友对象,并为志同道合的人群组织各种聚会活动;

政府能在用户的心理健康出现问题时有效的干预,防范自杀,刑事案件的发生;

金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划;

道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排;

当然,上面的一切看起来都很美好,但是否是以牺牲了用户的自由为前提呢?只能说当新鲜事物带来了革新的同时也同样带来了“病菌”。比如,在手机未普及前,大家喜欢聚在一起聊天,自从手机普及后特别是有了互联网,大家不用聚在一起也可以随时随地的聊天,只是“病菌”滋生了另外一种情形,大家慢慢习惯了和手机共渡时光,人与人之间情感交流仿佛永远隔着一张“网”。

大数据隐私

你或许并不敏感,当你在不同的网站上注册了个人信息后,可能这些信息已经被扩散出去了,当你莫名其妙的接到各种邮件,电话,短信的滋扰时,你不会想到自己的电话号码,邮箱,生日,购买记录,收入水平,家庭住址,亲朋好友等私人信息早就被各种商业机构非法存储或贱卖给其它任何有需要的企业或个人了。

  更可怕的是,这些信息你永远无法删除,它们永远存在于互联网的某些你不知道的角落。除非你更换掉自己的所有信息,但是这代价太大了。

  用户隐私问题一直是大数据应用难以绕开的一个问题,如被央视曝光过的分众无线、罗维邓白氏以及网易邮箱都涉及侵犯用户隐私。目前,中国并没有专门的法律法规来界定用户隐私,处理相关问题时多采用其他相关法规条例来解释。但随着民众隐私意识的日益增强,合法合规地获取数据、分析数据和应用数据,是进行大数据分析时必须遵循的原则。

  说到隐私被侵犯,爱德华斯诺登应该占据一席之地,这位前美国中央情报局(CIA)雇员一手引爆了美国“棱镜计划”(PRISM)的内幕消息。“棱镜”项目是一项由美国国家安全局(NSA)自2007年起开始实施的绝密电子监听计划,年耗资近2000亿美元,用于监听全美电话通话记录,据称还可以使情报人员通过“后门”进入9家主要科技公司的服务器,包括微软、雅虎、谷歌、Facebook、PalTalk、美国在线、Skype、YouTube、苹果。这个事件引发了人们对政府使用大数据时对公民隐私侵犯的担心。

再看看我们身边,当微博,微信,QQ空间这些社交平台肆意的吞噬着数亿用户的各种信息时,你就不要指望你还有隐私权了,就算你在某个地方删除了,但也许这些信息已经被其他人转载或保存了,更有可能已经被百度或Google存为快照,早就提供给任意用户搜索了。

因此在大数据的背景下,很多人都在积极的抵制无底线的数字化,这种大数据和个体之间的博弈还会一直继续下去……

专家给予了我们一些如何有效保护大数据背景下隐私权的建议:1-减少信息的数字化;2-隐私权立法;3-数字隐私权基础设施(类似DRM数字版权管理);4-人类改变认知(接受忽略过去);5-创造良性的信息生态;6-语境化。

但是这些都很难立即见效或者有实质性的改善。

比如,现在有一种职业叫删帖人,专门负责帮人到各大网站删帖,删除评论。其实这些人就是通过黑客技术侵入各大网站,破获管理员的密码然后进行手工定向删除。只不过他们保护的不是客户的隐私,而大多是丑闻。还有一种职业叫人肉专家,他们负责从互联网上找到一个与他们根本就无关系用户的任意信息。这是很可怕的事情,也就是说,如果有人想找到你,只需要两个条件:1-你上过网,留下过痕迹;2-你的亲朋好友或仅仅是认识你的人上过网,留下过你的痕迹。这两个条件满足其一,人肉专家就可以很轻松的找到你,可能还知道你现在正在某个餐厅和谁一起共进晚餐。

当很多互联网企业意识到隐私对于用户的重要性时,为了继续得到用户的信任,他们采取了很多办法,比如google承诺仅保留用户的搜索记录9个月,浏览器厂商提供了无痕冲浪模式,社交网站拒绝公共搜索引擎的爬虫进入,并将提供出去的数据全部采取匿名方式处理等。

在这种复杂的环境里面,很多人依然没有建立对于信息隐私的保护意识,让自己一直处于被滋扰,被精心设计,被利用,被监视的处境中。可是,我们能做的几乎微乎其微,因为个人隐私数据已经无法由我们自己掌控了,就像一首诗里说到的:“如果你现在继续麻木,那就别指望这麻木能抵挡得住被”扒光”那一刻的惊恐和绝望……”

和大数据相关的技术

云技术

大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。

云计算思想的起源是麦卡锡在上世纪60年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。

如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。

业内是这么形容两者的关系:没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。

那么大数据到底需要哪些云计算技术呢?

这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。

云计算和大数据之间的关系可以用下面的一张图来说明,两者之间结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。

如果将云计算与大数据进行一些比较,最明显的区分在两个方面:

第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。

第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。

分布式处理技术

分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。

以Hadoop(Yahoo)为例进行说明,Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。

而MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式,在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。

再来看看Hadoop的特性,第一,它是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。其次,Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

你也可以这么理解Hadoop的构成,Hadoop=HDFS(文件系统,数据存储技术相关) HBase(数据库) MapReduce(数据处理) ……Others

Hadoop用到的一些技术有:

HDFS: Hadoop分布式文件系统(Distributed File System) – HDFS (HadoopDistributed File System)

MapReduce:并行计算框架

HBase: 类似Google BigTable的分布式NoSQL列数据库。

Hive:数据仓库工具,由Facebook贡献。

Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

Pig:大数据分析平台,为用户提供多种接口。

Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。

Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。

说了这么多,举个实际的例子,虽然这个例子有些陈旧,但是淘宝的海量数据技术架构还是有助于我们理解对于大数据的运作处理机制:

淘宝的海量数据产品技术架构分为五个层次,从上至下来看它们分别是:数据源,计算层,存储层,查询层和产品层。

数据来源层。存放着淘宝各店的交易数据。在数据源层产生的数据,通过DataX,DbSync和Timetunel准实时的传输到下面第2点所述的“云梯”。

计算层。在这个计算层内,淘宝采用的是Hadoop集群,这个集群,我们暂且称之为云梯,是计算层的主要组成部分。在云梯上,系统每天会对数据产品进行不同的MapReduce计算。

存储层。在这一层,淘宝采用了两个东西,一个使MyFox,一个是Prom。MyFox是基于MySQL的分布式关系型数据库的集群,Prom是基于Hadoop Hbase技术的一个NoSQL的存储集群。

查询层。在这一层中,Glider是以HTTP协议对外提供restful方式的接口。数据产品通过一个唯一的URL来获取到它想要的数据。同时,数据查询即是通过MyFox来查询的。

最后一层是产品层,这个就不用解释了。

存储技术

大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。

提到存储,有一个著名的摩尔定律相信大家都听过:18个月集成电路的复杂性就增加一倍。所以,存储器的成本大约每18-24个月就下降一半。成本的不断下降也造就了大数据的可存储性。

比如,Google大约管理着超过50万台服务器和100万块硬盘,而且Google还在不断的扩大计算能力和存储能力,其中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上进行的,这大大降低了其服务成本,因此可以将更多的资金投入到技术的研发当中。

以Amazon举例,Amazon S3 是一种面向 Internet 的存储服务。该服务旨在让开发人员能更轻松的进行网络规模计算。Amazon S3 提供一个简明的 Web 服务界面,用户可通过它随时在 Web 上的任何位置存储和检索的任意大小的数据。此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的基础设施,Amazon 用它来运行其全球的网站网络。再看看S3的设计指标:在特定年度内为数据元提供 99.999999999% 的耐久性和 99.99% 的可用性,并能够承受两个设施中的数据同时丢失。

S3很成功也确实卓有成效,S3云的存储对象已达到万亿级别,而且性能表现相当良好。S3云已经拥万亿跨地域存储对象,同时AWS的对象执行请求也达到百万的峰值数量。目前全球范围内已经有数以十万计的企业在通过AWS运行自己的全部或者部分日常业务。这些企业用户遍布190多个国家,几乎世界上的每个角落都有Amazon用户的身影。

感知技术

大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,RFID技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。

而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除了地理位置信息被广泛的应用外,一些新的感知手段也开始登上舞台,比如,最新的”iPhone 5S”在home键内嵌指纹传感器,新型手机可通过呼气直接检测燃烧脂肪量,用于手机的嗅觉传感器面世可以监测从空气污染到危险的化学药品,微软正在研发可感知用户当前心情智能手机技术,谷歌眼镜InSight新技术可通过衣着进行人物识别。

除此之外,还有很多与感知相关的技术革新让我们耳目一新:比如,牙齿传感器实时监控口腔活动及饮食状况,婴儿穿戴设备可用大数据去养育宝宝,Intel正研发3D笔记本摄像头可追踪眼球读懂情绪,日本公司开发新型可监控用户心率的纺织材料,业界正在尝试将生物测定技术引入支付领域等。

  其实,这些感知被逐渐捕获的过程就是就世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了。

  就像一句名言所说,“人类以前延续的是文明,现在传承的是信息。”

大数据的实践

互联网的大数据

  互联网上的数据每年增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。据IDC预测,到2020年全球将总共拥有35ZB的数据量。互联网是大数据发展的前哨阵地,随着WEB2.0时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享以及记录并回忆。

互联网上的大数据很难清晰的界定分类界限,我们先看看BAT的大数据:

百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。

阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。

腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。

在信息技术更为发达的美国,除了行业知名的类似Google,Facebook外,已经涌现了很多大数据类型的公司,它们专门经营数据产品,比如:

Metamarkets:这家公司对Twitter、支付、签到和一些与互联网相关的问题进行了分析,为客户提供了很好的数据分析支持。

Tableau:他们的精力主要集中于将海量数据以可视化的方式展现出来。Tableau为数字媒体提供了一个新的展示数据的方式。他们提供了一个免费工具,任何人在没有编程知识背景的情况下都能制造出数据专用图表。这个软件还能对数据进行分析,并提供有价值的建议。

ParAccel:他们向美国执法机构提供了数据分析,比如对15000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。他们是犯罪的预言者。

QlikTech:QlikTech旗下的Qlikview是一个商业智能领域的自主服务工具,能够应用于科学研究和艺术等领域。为了帮助开发者对这些数据进行分析,QlikTech提供了对原始数据进行可视化处理等功能的工具。

GoodData:GoodData希望帮助客户从数据中挖掘财富。这家创业公司主要面向商业用户和IT企业高管,提供数据存储、性能报告、数据分析等工具。

TellApart:TellApart和电商公司进行合作,他们会根据用户的浏览行为等数据进行分析,通过锁定潜在买家方式提高电商企业的收入。

DataSift:DataSift主要收集并分析社交网络媒体上的数据,并帮助品牌公司掌握突发新闻的舆论点,并制定有针对性的营销方案。这家公司还和Twitter有合作协议,使得自己变成了行业中为数不多可以分析早期tweet的创业公司。

Datahero:公司的目标是将复杂的数据变得更加简单明了,方便普通人去理解和想象。

举了很多例子,这里简要归纳一下,在互联网大数据的典型代表性包括:

1-用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等)

2-用户消费数据(精准营销、信用记录分析、活动促销、理财等)

3-用户地理位置数据(O2O推广,商家推荐,交友推荐等)

4-互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等)

5-用户社交等UGC数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)

政府的大数据

近期,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。

在国内,政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门里面看起来是单一的,静态的。但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。

具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2012年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。

另外,作为国家的管理者,政府应该有勇气将手中的数据逐步开放,供给更多有能力的机构组织或个人来分析并加以利用,以加速造福人类。比如,美国政府就筹建了一个http://data.gov网站,这是奥巴马任期内的一个重要举措:要求政府公开透明,而核心就是实现政府机构的数据公开。截止目前,已经开放了有91054 个datasets;349citizen-developed apps;137 mobile apps;175 agencies and subagencies;87 galleries;295 Government APIs。

企业的大数据

企业的CXO们最关注的还是报表曲线的背后能有怎样的信息,他该做怎样的决策,其实这一切都需要通过数据来传递和支撑。在理想的世界中,大数据是巨大的杠杆,可以改变公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

那么,哪些传统企业最需要大数据服务呢?抛砖引玉,先举几个例子:1) 对大量消费者提供产品或服务的企业(精准营销);2) 做小而美模式的中长尾企业(服务转型);3) 面临互联网压力之下必须转型的传统企业(生死存亡)。

对于企业的大数据,还有一种预测:随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。这里尤其有两个明显的现象:1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;2) 能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

对于提供大数据服务的企业来说,他们等待的是合作机会,就像微软史密斯说的:“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”

然而,一直做企业服务的巨头将优势不在,不得不眼看新兴互联网企业加入战局,开启残酷竞争模式。为何会出现这种局面?从 IT 产业的发展来看,第一代 IT 巨头大多是 ToB 的,比如 IBM、Microsoft、Oracle、SAP、HP这类传统 IT 企业;第二代 IT 巨头大多是ToC 的,比如 Yahoo、Google、Amazon、Facebook 这类互联网企业。大数据到来前,这两类公司彼此之间基本是井水不犯河水;但在当前这个大数据时代,这两类公司已经开始直接竞争。比如 Amazon 已经开始提供云模式的数据仓库服务,直接抢占 IBM、Oracle 的市场。这个现象出现的本质原因是:在互联网巨头的带动下,传统 IT 巨头的客户普遍开始从事电子商务业务,正是由于客户进入了互联网,所以传统 IT 巨头们不情愿地被拖入了互联网领域。如果他们不进入互联网,他们业务必将萎缩。在进入互联网后,他们又必须将云技术,大数据等互联网最具有优势的技术通过封装打造成自己的产品再提供给企业。

以IBM举例,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”IBM积极的提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)

另外一家亟待通过云和大数据战略而复苏的巨头公司HP也推出了自己的产品:HAVEn,一个可以自由扩展伸缩的大数据解决方案。这个解决方案由HP Autonomy、HP Vertica、HP ArcSight 和惠普运营管理(HP OperationsManagement)四大技术组成。还支持Hadoop这样通用的技术。HAVEn不是一个软件平台,而是一个生态环境。四大组成部分满足不同的应用场景需要,Autonomy解决音视频识别的重要解决方案;Vertica解决数据处理的速度和效率的方案;ArcSight解决机器的记录信息处理,帮助企业获得更高安全级别的管理;运营管理解决的不仅仅是外部数据的处理,而是包括了IT基础设施产生的数据。

个人的大数据这个概念

个人的大数据概念很少有人提及,简单来说,就是与个人相关联的各种有价值数据信息被有效采集后,可由本人授权提供第三方进行处理和使用,并获得第三方提供的数据服务。

举个例子来说明会更清晰一些:

未来,每个用户可以在互联网上注册个人的数据中心,以存储个人的大数据信息。用户可确定哪些个人数据可被采集,并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数据,比如,牙齿监控数据,心率数据,体温数据,视力数据,记忆能力,地理位置信息,社会关系数据,运动数据,饮食数据,购物数据等等。

用户可以将其中的牙齿监测数据授权给XX牙科诊所使用,由他们监控和使用这些数据,进而为用户制定有效的牙齿防治和维护计划;也可以将个人的运动数据授权提供给某运动健身机构,由他们监测自己的身体运动机能,并有针对的制定和调整个人的运动计划;还可以将个人的消费数据授权给金融理财机构,由他们帮你制定合理的理财计划并对收益进行预测。当然,其中有一部分个人数据是无需个人授权即可提供给国家相关部门进行实时监控的,比如罪案预防监控中心可以实时的监控本地区每个人的情绪和心理状态,以预防自杀和犯罪的发生。

以个人为中心的大数据有这么一些特性:

1、数据仅留存在个人中心,其它第三方机构只被授权使用(数据有一定的使用期限),且必须接受用后即焚的监管。

2、采集个人数据应该明确分类,除了国家立法明确要求接受监控的数据外,其它类型数据都由用户自己决定是否被采集。

3、数据的使用将只能由用户进行授权,数据中心可帮助监控个人数据的整个生命周期。

展望过于美好,也许实现个人数据中心将遥遥无期,也许这还不是解决个人数据隐私的最好方法,也许业界对大数据的无限渴求会阻止数据个人中心的实现,但是随着数据越来越多,在缺乏监管之后,必然会有一场激烈的博弈:到底是数据重要还是隐私重要;是以商业为中心还是以个人为中心。