交通行业的大数据战略--2014智能交通大讲堂第二期讲话实录

来源:深圳市交通运输委员会
发布时间:2014-09-01
字号:【 【打印此页】

  主办单位:深圳市交通运输委员会

  承办单位:深圳市智能交通行业协会

  主题:交通行业的大数据战略

  时间:2014年8月29日

  地点:深圳安全教育基地

清华大学深圳研究生院副教授李志恒:《交通大数据离我们还有多远》

  做IT的,我就问一个问题,什么叫做广域网,什么叫做局域网,广域网和局域网的区别?局部的东西叫做局域网,远的东西叫做广域网。广域网是怎样来?局域网是怎么来?这还是很深一个事情。从电信行业来的,原来无论铜揽还是什么都好,我们传送所谓数据或者语音,我们想怎么做?我们想把这个容量扩容一下,一种方法就是多加一条线,我只有一根线情况下怎么办?人们开始想办法解决这个问题。怎么解决?逻辑。我把物理东西逻辑化,这样我就可以传送了,这个时候产生一个概念叫做广域网,广域网思路就是这样来的。

  局域网怎么来?如果我在一个房屋里,我要在两台机器之间共享我的数据,怎么办?传统做法是什么?原来叫做磁盘,当时有1M就已经很大了。但我要传10M怎么办?这个时候就想了,我是不是有一根线,在线上传输呢?我做所谓线与线之间传输,于是乎一帮人造就了所谓局域网的概念,然后局域网中间又把以太网、无线这些东西都弄出来了。

  我们只有理解“交通”最基本概念,才有交通大数据。

  交通是人在现代社会很基础的需求。交通定义最基本东西叫做出行,这个出行是在我们整个交通概念上来说的话,这是一个单独的、我们英语翻译过来叫旅行,但我们翻译过来不能说旅行,旅行在这里面有一点奢侈,所以叫做出行。

  一个城市要建设基础是什么?我们先要有城市规划,然后到交通规划,到交通运营管理,这些都需要数据支撑。

  城市最主要的对交通的影响是什么?叫做用地规模。那么未来交通展望是什么?应该是这样,我作为一个人,我每一次时空转移叫出行,每一次出行有目的,这叫时空转移。所以针对这个主体,我所谓的供给方,供给方是什么?就是现在所有交通设施,即我们提供的交通工具,满足精确意义下所谓的出行。

  我们现在所有交通,是不是感觉很麻烦,你到一个公交站,我突然说这个车马上在你眼前了,这个时候不算太难,因为这中间有个基本分布概念在这里面,真正对于交通来说,我想一是数据。二是宏观意义上和概念下这种共同需求关系。三是从运营层面上讲共同的需求。

  交通系统对于我们来说做什么?你看从学术角度来说,我们有一个目标,化。这个优化什么?供给对于需求的精确化下的大数据,这是叫做交通。如果我们拿不到一个数据,我们可以做其他的数据分析工作吗?做不到。所以我们针对交通来说,它本身就是一个基于人时空转移出行下,供给与需求的基本意义上的所谓的优化,这是对交通。第二个在什么情况下如何优化?我们现在讲的是基于数据情况下的优化。

  大数据真正产生有两个标准:第一是一波人。我刚才讲广域网、局域网也好都是一波人在玩,大家都在琢磨,在做事情的时候发现有一些东西可用,这就是数据分析。而且数据分析要突显不是一个,而是大规模数据下的数据分析集合,不是在一种分析基础上做出来的。第二、谷歌。目前来看,全世界来说,做大数据分析的大哥大就是谷歌。它拿到的数据基本上涵盖方方面面,而且我们想象不到的数据都在里面。其他就是量,这个量大到什么程度?发展比例是怎么样,现在信息量也是处于暴涨,特别是智能手机。

  奔5的年代,我们那个时候讲密集型,是那个年代的信息。后来在讲数据库,你看大数据来了,原来讲的东西发展了。为什么发展?我们现在有需求,这些技术不能满足这些需求。我们现在发展什么技术?云技术、分布式、数据挖掘系统等等这些技术都在这里面。

  这里面产生技术最多的工作是什么?还是谷歌,因为他有需求,我真正有那么多数据在这里,苹果的数据量还不如谷歌大。现在谷歌数据爆一下,就会出现谷歌反应,文件系统反应。针对于这种分析优化系统,怎样存储更合理?我们现在很多叫,你们现在玩的一些文件系统,都有了更深系统,它满足大数据分析后的大数据系统,这是一个需求。大数据怎么来的呢?在这个基础上,在这个里程碑意义下,我们又造就什么新技术?这些概念下技术的推进必然会更联想到大数据发展。

  我一直在讲需求和供给的驱动性,有了需求才有供给,各种各样的东西出来。也就是说我在这种理论研究基础上,在技术发展基础上,怎么实践基础上,公平发展,而且会越来越快。

  我们提出交通大数据,反过来讲,交通大数据理论基础是什么?从时间来看,因为所有工作都是时间过程,你不可能说我兜一圈再做这个事情,这中间就会怎样,所以说要体验这样一个价值概念。

  关于大数据应用,谷歌拿到这个数据突然发现,一些我们认为不相关的事情,突然相关了。我们认为一些不可能预测的事情,发现可以预测了。我们交通也讲,交通大数据来了以后,我突然发现,我只要拿一个智能手机,我只要打开这个手机,我坐公交肯定不用等,这就是他的好处。

  讲出行,讲供给跟需求,我们的交通大数据,有没有?肯定有。举一个例子,刚才说广域网和局域网。我们现在讲追根溯源有一个时间节点,2001年在北京,北京针对于交通做一个大梳理,北京市梳理了所有系统概念,假设在做公安系统的时候,现在所有名词、基本类似系统,基本上从那个时候出现、确定的。

  我们说说大数据,交通大数据,交通在手这也是一个里程碑,这种里程碑意义是大数据驱动下的。所以说,我们现在回忆这些系统的时候,跟原始定义的交通,突然发现误解还是很多的。

  关于交通,所有你可以看到的地方,针对与智能交通意义下信息系统框架,有三个:人、车、路,此外,各个国家都要把通讯放在一个系统,做最后管理,这就是所谓的信息系统。我们为什么会有这样一个系统?比如说框架这个概念, 当时90年代末,智能手机出来了吗?没有。当时手机可以干什么?打电话、发短信,不能上网。所以说需求上,那个时候整体概念还叫信息收集、信息的处理、信息的应用。应用包括两个方面,第一给管理把系统进行最优,第二给公众看看路上什么情况?仅此而已,也就是看路上的情况。交通在手,好就好在比这个要好,我可以看路程具体情况之外,我还可以综合情况看看。原来就是看看路情况,北京市做得最新,叫做圈车,北京市环境规划保护法形成几个圈,所以我们叫做圈车。

  人、车、路概念意义下系统信息收集、信息整理、信息应用、信息处理等等过来了之后,这些信息化,比如说今天在门口看到有一辆车做检测,检测很优越,但我们在说这个时候,我们就讲大数据。首先一个概念,在数据方面还没有到大数据的量,没有达到这个量就不行了。

  我们现在讲的意义上,我们是把它一个出行,给看作一个出行整体意义下的所谓交通管理和交通各种各样的状况。这个时候跟我们个人需求会产生比较大的数据量,这是肯定的。比如说卖一辆车,这个公交叫做柔性公交,可能在网站上都可以看到。头一天晚上这个城市所有人都注册,所有人都说我几点几分从哪里到哪里,好,这个时候就开始算,这个时候大数据就是我们的目标,交委然后在这个时间段就出公交车。这个时候你就会突然发现,这个需求和供给是基本最优的。

  现在交通大数据不是个人信息意义下的大数据,而是所谓叫类似于叫终端意义下的交通数据采集,跟它的这个意义下的优化。所以说现在叫什么?我想现在我们这种采集数据量,也不够大,我们现在比如说像交委,有实时公交,深圳通有实时公交系统用卡数据,这里面能否感应?可以。这算大数据吗?算。但我们再反过来讲,我们要真正做交通大数据,必须要搬到最根本的东西来做才可以。

  大数据传统意义上采集什么?深圳有多少万人口,2000多万,出行需求大概多少?谁也不会说多少多少,比如说50万,40万,出行方式,公交占60%、50%,目标是90%。现在意义上交通大数据,传统意义上的数据,整体这些,所以车就是这些,路也是这些,其他就是中间这一块,这是现在做的。

  我们现在大数据我们也能做各种各样概念,这是什么概念?我们现在量不够大。

  我们现在都在使用手机,乔布斯聪明就在于把手持的东西做到PC化,PC化是什么?无处不面对信息,无处不采集信息,无处不在的信息,无处不发的信息,包括天天搞的微信等这些都是。这些东西对交通有什么影响?当我们无处不信息的时候,你突然发现我们无处都在追求信息的时代也需要追求交通。

  大数据最初本质就是,你看不到相关性情况下,它是有相关性的,这叫做大数据。因为人有种经验,我们有时候显然看到界面是这样,反过头来看,我们看不到这个界面的时候,突然有一堆数据支撑,这就是正常的。大数据是针对于现在情况下的交通大数据、共产主义,就是在我们身边的事情。

  反过来再讲交通是什么概念,交通叫什么?时空转移,是有目的,有需求的时空转移,时间、空间的转移。这个时候时空转移就在数据里面,你的轨迹就在数据里面,你的需求轨迹就在数据里面。这就是什么叫做大数据,就是依据这个,以什么为切入点,以轨迹为切入点,这就叫做时空转移,时间转移到轨迹,时空转移的轨迹数据意义上,这就是交通数据。这个时候交通需求和交通供给可优化性,比刚才讲的这些,就是另外一个层级。

  我们下一代交通叫什么?针对个人叫什么?学术话叫出行,物流上有一个供给、供应,现在在交通意义上来说,国际上提出一个叫做出行交通,出行满足是对个体需求的。

  什么叫做大数据?不仅仅是这些优势,还有大数据污染、能耗、其他方方面面的概念,都在这个意义上作为大数据这个概念,这就是基本上我们所说基于出行量意义下的交通大数据,或者说面向管理者,面向于个人,然后出行的可能各种各样的说法,各种各样的概念可以收集大数据其他方方面面。

  车联网这个已经开始做了,为什么呢?是美国人天天开车,他们现在做这个事情,在车上装上保证安全,这个叫国家体系化大政方针,所有车都安装上这个东西。就是说某一个阶段年轻人不坐,老年人坐,某一个阶段上,我车上装高位刹车灯,刹车的时候可以看高位刹车,高位防撞,美国人有,中国人没有。所以说在车的意义下精细化太多,不仅仅保证安全,而且车上很多东西,因为我们这些车除了GPS,其他不能装的,装了是不行的,车也不能改装。现在意义上来说,会把这些东西,提供到开放。

傲数据技术有限公司CEO贾西贝:《大数据思维与技术在数据开放中的应用》

  今天跟大家分享主要是大数据在数据开放方面的应用。

  大家都说大数据,有一个很显然的问题就是,什么是大数据?包括深圳做的科创委做的大数据规划,许市长批复也是说什么是大数据,什么样的公司,什么样的产业属于大数据,这个要有一个定义。但非常遗憾,说实话,在业界没有一个大多数都同意的定义。

  在狭义上来说什么是大数据?要体现大,必须是数据量非常大,大到什么程度,叫做大数据,大到用传统数据库技术都管不起来的数据才叫做大数据,这是非常形象的意义。实际上在社会上的大数据,绝大部分使用都不是这个名义,如果用这个定义大家就想想,我们在这个行业也有大数据,我们在企业也有大数据,恐怕这个非常少,谷歌行业有,交通行业可能有,但一般行业,一般企业,其实是没有大数据。

  大家讲大数据往往不是这样讲,一讲大数据大家会讲3V、4V,这里面3V这其实是一个V,数据量非常大,数据非常复杂,处理技术需要的技术非常复杂,这个时候用传统的手段也处理不了,这不是结构化数据,也不是分析数据,这个数据也是大数据,这也是说3V的时候,会讲的一个“V”,就是数据来源不一样,会更加复杂。而且,有时候是因为数据库特别有价值,因为其价值大,这也是大数据,所以这样的话,实际上这是一个广泛的定义。

  问题过来了,如果单纯不是数据量大就是大数据,那么大数据产业包括什么呢?如果放得太宽,就变成所有IT公司都是大数据公司,因为所有系统里面都有数据,如果不是数据量大,有数据处理,就是大数据,我想在座的每个人都可以说我们公司都是大数据公司,所以这里面需要对大数据产业分割。

  2013年的时候美国1920年创刊的一个老牌经济杂志——哈佛商业评论有中文版的,它分析一个大数据产业,写一篇文章“谁来引领中国大数据产业”,这里面把大数据分成五个层面。数据收集,这是大家比较熟悉,像大数据最早产生于谷歌,就在这里,百度、腾讯都是在这个里面,他们的数据量是非常大,特别有价值。

  再往下看,光有数据还不行,这个数据还要整理、梳好,这一段要数据整理或者提高数据质量。这里列出来三家公司,这是我们华傲公司,这是英特尔,这家公司原来是数据集成软件,这是最好的一家公司,所以这些公司可以把数据资产整理出来,如果数据资产散落还不行。

  第三部分是数据存储与管理,这是原来做数据库的模式,大家看像数据库的IBM等公司,还有数据仓库的老大都在这里面,这是传统数据库技术的公司,他们现在也赶上传统数据库处理仓库,这里面有像MPP数据库。

  如果大家真的关注大数据人一定知道这两家公司,这两家公司虽然说都是创业成立时间不长,但大数据时代他们的作用,至少我个人认为,应该比IBM还要大。这两家公司什么来历?现在大数据主要就是来自于谷歌,后来更多集成在这个平台上,主要创始人就是谷歌的创始人,他把很大一部分骨干,都放在这个公司,他现在做的发行版,做在新一代核心内下一代大数据需求,这个系统我们认为这是全球最好之一。

  数据整理加工环节就相当于炼油环节,你炼油之前,要把你采集的油储存起来,这是存储与管理,这个很重要,大数据起源是在这个基础上起源的。

  然后再炼油,然后把数据变成钱,最后就需要数据分析,相当于加油站,变成钱。这个时候就反映大数据两个趋势,一个是数据资源化,利用数据资源,积累数据资源。另外一个是数据资产化,数据资产化如果用最形象的话来说,就是互联网行业特别时髦一句话,叫数据变现。在互联网里面,绝大部分赚钱模式都是流量变现,无论阿里巴巴还是百度,本质上是把流量变成钱,倒流。在数据时代,我们就要把数据变现,那么就需要做数据资产管理。

  下面讲的部分就是结合数据资源化、资产化趋势,来说明我们在一个城市,在一个行业,一个企业如何积累、管理数据资产,如何把数据变现。数据变现其中一个最重要手段之一,可以让数据变现是什么?数据开放,这是我们协会比较关注一个话题。

  数据资源化。比如说一个城市有什么数据资产,如何积累起来,如何管理起来,就是开采和提炼话题。我们做这个行业,经常会发现,说在你意想不到的时候,在你最意想不到的行业里面,最意想不到的企业里面你发现了,可能有时候是最大数据或者说非常大量的数据。

  数据从何而来问题,大家看到这个例子是阿里巴巴和腾讯,他们成立了很多数据,就相当于鄂尔多斯,是一个资源占有者。但这个资源绝对不是老天爷给的,人家阿里、腾讯都是通过自己的创新,自己的技术,非常辛辛苦苦积累起来,跟一个城市也是一样。

  在这里也做一个大胆预测,我觉得大数据时代,可能中国的数据资源最富饶的城市,还是有可能在深圳。因为你想我们几个行业都在这里,这里就沉淀很多数据资源。

  深圳是大数据资源的城市,我们有一个中农,中农数据就在收集这个数据,在市场上有一个信息量,把这些数据收集起来。但还有一个更聪明的办法,这是传统做的也很成功,我们拿了一个很重要的奖励。在前海做农产品指数,除了这个还有更好的办法,大家想想,如何收集交易信息,有什么更好办法,仔细看看这个图片,这个图里面都有——探头。

  大数据是在大家意想不到的地方找出来的,养出来的。所以总结看这些客户就象刚才这一位朋友说,就是处处皆有大数据,在这个行业大家都可以想想,都有一个绝世高手,养这些数据的IT人。这些数据出来之后,单独价值都不大,如果把他们糅合在一起价值才大,最典型就是阿里巴巴。

  阿里巴巴,还有一个做互联网金融行业客户,做支付的,他们跟阿里巴巴很像,我们都知道阿里巴巴有一个支付宝,他们也有支付宝,但阿里在支付数据,再加上电商交易数据,再加上物流数据,融合在一起,就做的一个小微贷,余额宝,马云说有一千亿,但现在来看不止,这一家客户只有一个支付数据,他价值也不小。

  这里有一个公司,X是一个数据极,Y是一个数据极,如果这两个数据极融合一起就是一千亿,所以这么大一点这个符号,可能就是一千亿。

  大家回头想想刚才所说这些数据,把他们融合起来,我们再发挥最狂野想象,一定可以创造出很多意想不到的东西,这是我今天所说数据怎么来,这里面没有太多技术类,这是大数据思维。

  下面讲就是技术。这相当于滚雪球,这个雪球可以越滚越大。这个数据都能有这个思维,都可以想象出来,都可以找到,但是这里面很多数据,我们需要把数据存储起来,管理起来。如果方法不当,可能成本非常高,导致数据管理成本跟数据产生价值不成正比。

  我们看大数据时代现在都讲大数据,给我们开始什么技术?如何管理大数据资产,第一件事情,DBMIS,我们在工业里面赚钱,最核心就是操作系统和数据库管理系统,造就了全世界第二、第三大数据公司。而操作系统微软主要钱不是在操作系统可以赚,最赚钱对微软来说是数据库和office,第一是office,第二就是数据库,数据库非常赚钱,数据库存储是非常赚钱的行业。那传统上,这里面涉及前一些互联网公司,特别是阿里巴巴喊得特别猛的口号,叫做去IOE,为什么去IOE,去I,就是IBM,O就是Oracle,E就是EMC,要把这三家公司去掉。

  举一个例子,我一个客户是中国航空,他用几十万块钱,做了一个集成,上面硬件几十万块钱,上面有一个存储大数据,用了传统的软件,结果一算,这上面授权费需要一千多万,几十万的硬件,因为现在硬件经常用一些大家都可以用PC化的硬件,要配一千多万的授权费,就是对方发一个密码过来就是一千多万,国航数据都那么大,如果把这个想象成百度、阿里、腾讯,想一想需要买这个是多大?所以这不是要去IOE,而是真的要去,如果不去真没有利润了。因为大数据时代,关于数据里面的价值,密度比较低,但数据量比较大,但Oracle不会因为你数据量大,就给你打很大的折扣,或者授权就可以便宜了,没有这个事,所以大数据时代第一个解决就是成本,当然这里面还有数据量。

  微软首席信息官说,全世界99.95%的大数据资源都被浪费了,同意吗?我估计经过前面的图片,大家注意了,如果这些数据保存起来很大,这里面也有一些,在交通行业,不知道视频存储一般多长时间,在座很多交通专家,我猜也可能是一个月,关于交通监控视频。

  我们做的一个公安行业,公安行业国家法律规定,视频要储存一个月,我们还调研客户,事实上也就是存储一个月。现在大家都觉得城市每个角落都有摄像头,公安摄像,但显然这些数据都被扔掉了。你想这个数据你存一个月都扔掉了,一个犯罪分子特别厉害,让你三年发现不了,再找监控录像就没有了,你可能特别把一些特别重要的提炼出来,为什么不存储好?还是成本,技术很难存储那么大的数据,而且也没有什么利用,即使可以利用,但成本也受不了。

  下面看电信行业,这个更加熟悉,今天也有电信行业的专家。电信行业的数据一般存4-6个月,然后信用数据,我所知现在还没有存。我们用什么技术把它们存起来?现在是用大规模集成存储技术,这个技术有代表性的就是开源的技术,但远不止它,我们知道几大IT巨头里面都有这些技术,这些东西只不过没有什么影响力,现在还局限在技术里。

  这个大数据技术是什么?实际上拿交通做对比,这相当于一辆很好的车,甚至是一辆跑车,这辆跑车可以坐的人特别少,就两个人,性能很强劲。现在一个大数据,可以造出来这样一个车,这是火车,而且可以拉很多车厢。

  但这里头大数据刚刚出来的时候,有很多问题。你想这一辆火车,在铁路上运煤的火车,他启动的时候非常困难,不像这辆法拉利跑车,一下子就启动了。大数据时代技术也一样,所以高产量的大数据技术,是吞吐率,但反应时间非常低,形象话说你做一个查询,在这辆火车里面,即使只放五个东西,你可能需要三分钟才能查出来,在这里就是0.1秒,但你不要忘了,你在这里放100个东西,查出来的时间也可能就是5分钟,但你在这里,对不起,你放不下,如果缩小一点,也没有办法在短时间内查出来,所以传统适用于批量产量的数据应用,但这个事情正在改善。最近2、3年大数据有一个焦点,就是把它在不损失运载量的情况下跟它一样,具体细节就不讲。每个巨头,像互联网、传统IT在这里做什么,这些细节也不讲。

  这里面除了发生这些,大家可以看到的工业界这些事情,这里面要升级到技术上,比如说从算法上要做改变。举一些例子,比如说现在我们的大数据,经常说一个大数据量,加机器,一下加到20、50、60台没有问题,现在扩展到4万台,但这个时候有一个问题,你加机器之后,用电量、机房面积、空调等这些成本都会上来,我们没有时间好好想想,能否更多挖潜,而不是扩容。这是我们搞技术要研究的事情,这里面需要靠算法解决,如果挖潜这需要技术——压缩,如果压缩需要时间,时间很长,这不可能,所以压缩是无解压查询的个性化压缩技术,细节不说,总的不说。聚合,增量。比如说增量大家看,大数据每天变化量很小,总量大,你能否让计算使其增加变大情况下,而原来存量数据不变,这也是可以融入一个技术,细节就不多说。

  大数据将来是一个内存。大家看这个图,这个图里面,Oracle2013年推出32个T,世界最大SGI有四个,现在已经进入大内存年代。我去见SAP中国技术负责人的时候,他讲过在SAP内部做了,试验系统里面可以每个节点都有内存,20台可以处理1.3个P的数据,不要讲大数据现在很大,完全可以在内存里面。所以紧接着大数据时代,我觉得发生一件事情,其实很多人都认同,是大数据时代要进入内存计算时代。这体现在哪里?SAP,Oracle推出大内存机,EMC推出这个,也是一个分布式大内存,现在行业的Spark,这是在去年大数据论坛,大家都认为这是下一代大数据的技术。

  刚才说数量问题解决了,但还有质量问题,要解决数据孤岛的问题,刚才说数据需要跨界融入,不融合不行,跨界融合要解决,把数据融合起来,这个细节我就不说。相当于这是世界上大数据或者一个企业大数据,这每一个节点里面都有一个企业,或者是一个药品经营企业,这里面有卖多少种药,对不起,说不清楚。

  但还可以解决一个问题,就是数据体检。光融合起来不行,你还要看这个数据质量如何,坏数据会产生坏结果,如果垃圾进来是垃圾,那么垃圾进来出去一定是垃圾,而且还是扩大好几倍垃圾,因为在数据过程中会扩大,一些臭会扩散,这就是数据库能量倍增原理。

  如何解决数据垃圾问题?要对数据产生交换,融合之前最好有一个标准,要不同企业,不同部门,不同系统,可以用同一套语言说话、沟通,不能说大家相互之间连翻译都没有,这对制定数据标准非常重要。

  去年我们做了一项国家标准和一项地方标准,这里面我们做标准还有一些独到的创新方法。传统做标准都是自顶向下,我们创新的自底向上的标准,说白了就是从数据里面发现,这些方法靠大数据分析,在大的特别多的数据里面寻找大数据潜藏规律,实际上是大多数人的习惯写法,我们做数据不要让大多数人都改变习惯。就像我们做系统,如果你研究一套跟人的操作习惯完全不同的,就没有办法用。做标准的时候也不要去颠覆从前,尽量少改变,所以发现大多数人习惯写法,这个可能是一个非常好的标准基础。

  那么如何发现,用数据的一些规律。《大数据时代》这本书,卖了10个亿,但其实就是卖两个观点,一个就是重视相关性,不重视因果性。说白了,就是大数据里面那么多相关性,在这里面找到制定标准,细节不多说。

  自顶向下,其实全世界数据方面标准并不太多,尽管有好几万的标准,这里面真正数据标准几千个,还没有过万,所以这里面有很多空白需要填。我们也跟深圳标准技术委员会,标准技术研究员成立一个深圳数据标准联盟,后面有兴趣可以跟我们联系,这个联盟现在还在发起阶段。

  最后一个问题就是,数据里面有错误,还需要修改,就像炼油厂,或者洗衣店,但矿往往还是一个贫矿。数据检查可能有很多问题,数据里面可能出现质量问题,如何去检测呢?如何把它提高上来,这是我们需要解决的。

  融合起来做大数据时代,把数据资产管理好需要什么?需要这样一个八卦图,我们叫数量和质量、管理的融合,数量管理是为了解决这三个“V”的问题,质量是为了解决这两个“V”的问题,revist说的是数据的真实性,还有一个就是说如何在数据中提取价值,这是质量管理需要解决的问题。

  我们这个平台叫做Yotta,Yotta是国内目前当中最大的数据单位,大家都知道PE,Yotta现在还没有用上,全世界信息总量是JB,现在是两个JB,全世界数据总量。但为什么要叫做Yotta,他们想象全世界最大数据都是TB级,现在大家现在已经讨论PE级了,但我相信再过几十年这个大家也没有办法叫了。

  如何把数据资产变现,其实做这个分析特别多,比如说这群人如何分析,分析出来要把这些人分成一堆一堆,每一群人是什么样的,他们要干什么,可以做选址,可以做什么选址呢?像在星巴克喝咖啡,还有可以做广告牌选址,还可以做广告牌立在哪里,分众传媒在电梯间立广告,他上面应该显示内容是什么?我经常在我家电梯间里面看到婴儿奶粉的广告,说实话还真的有可能这栋楼没有婴儿,如果真的没有婴儿,他这个广告效果也就没效,所以这就是选址作用。放在政府里面,还可以做什么选址?社康中心,幼儿园选址,还有学位分配。群体分析非常大好处就是没有隐私性。个体分析,把每个人分析清楚,可以干什么?做诚信,信用分析,现在互联网金融那么火,还可以干什么?可穿戴设备数据,可以做健康分析,细节不多说。

  实际上我们在做一个处理5V,基于Yotta质量管理,还有这个平台,这个平台是帮客户加强运营数据资产管理的平台和项目,主要做是像织网工程、智慧城市等里面大数据资产管理,包括银行业的数据管理。

  其实前面我也把问题都讲了,数据开放。当一个城市把数据资产积累管理起来庞大有价值的数据资产之后,他可以自己用,可以给政府用,就像交委的“交通在手”,实际上给交委用,但还有一个用处可以开放给大众。这方面其实有时候群众智慧很厉害,现在安卓很多创业公司只是苦于一件事情——没有数据源,可能编程非常好,但没有数据源。这个有美国的经验,奥巴马做一个网站把数据开放出来,让大家来做这些事情。这里面比如说中航,把数据开放出来,可能中航有更多很好的想象力,这一块就是数据开放的本源性。深圳在织网工程里面也进行这方面的探索,这个研究我们也在做,把全社会数据开放出来,这里面对老百姓非常需要的,比如说交通数据量,气象数据量,特别是气象数据量,我觉得有气象数据谁都可以做一个墨迹天气。

  互动环节

  主持人:深圳市神州路路通网络科技有限公司CEO李剑

  互动嘉宾:

  中兴通讯股份有限公司政企事业部交通行业总监 张慧总监

  中国电信深圳分公司政企部技术总监 李辉遒博士

  智慧中国研究院常务副院长兼香港分院院长 黄卜夫博士

  清华大学深圳研究生院副教授、清华大学智能交通联合实验室主任 李志恒博士

  华傲技术数据有限公司CEO 贾西贝博士

  李剑:第一个主题数据开放服务商业化驱动力和商业前景,我想首先还是有请贾西贝博士,发表一下您的观点。

  贾西贝:其实数据开放这个事和驱动力,第一驱动力就是一个潮流,奥巴马折腾的事,大数据的书也写了这个,国内政府也有创新的动机,这是第一,但不是最主要。 第二、我觉得最主要动力,应该是利益驱动。利益驱动就是看数据开放出来,能给提供数据人创造什么好处。

  主持李剑:中兴通讯张总,因为中兴通讯是大数据设备的提供商,有请张总。

  张慧:中兴通讯公司从早在十几年前就开始从事交通方面工作,数年前从深圳地铁开始通讯集成,我们逐渐从地铁,铁路,公路,包括前几个月在国航做APP。

  主持李剑:现在可以通过WIFI。

  张慧:对,其他主要还是着重在做通讯集成,只有在公共交通上,我们面向应用,然后大数据,因为我们本身公司也对大数据本身也有产品,也有相应支撑,对于在这个之上,我们做一些交通应用。

  作为厂家来说,我们当然希望这个产业链越长越好,越丰富越好,目前看到这些大数据应用,大部分还是封闭在交通系统里面。政府作为交通系统以外,大量从互联网企业,交通领域里面来,这是不可抗逆的趋势。企业除了自己采集数据以外,其实在交通领域里面大量数据被藏在系统里面。

  其实交通领域里面,我理解有很多数据可以开放。一些最具有价值是实时数据,我觉得实时路况,施工状况、道路占用情况。

  作为企业来说,我们一能希望数据越开放,我们做的事情就越细,可以做一些开放平台,专门做数据整合。

  黄卜夫:现在讲大数据,原来在小数据时代人工智能数据挖潜、数据组合,希望通过对数据分析实现其中资本化,它并没有对于“大”这个字进行体现。

  我研究的对象是智慧城市,交通体系是智慧城市其中一个垂直体系。实际上智慧城市城市、大数据,这两个都是非常热门的词。原来智慧城市里面最大问题是什么?数据孤岛。这是一个问题,我们如何打破,异构多源,如何打破不同来源的数据,而且在数据之间能够进行融合,这是大数据面临技术问题。

  黄卜夫:商业化。首先第一点,在前端来说,刚才贾博士讲了很多,业务驱动。首先我们要真的是有这个内在的市场需求,业务需求,回过头来才需要技术支撑,否则光有技术没有市场需求,这是空的。在交通层面,我们可能需要现在讲到是规划、运营、优化,怎样在这几个不同环节里面,能够统一在一个平台里面,用优化、数据分析的工具可以将它们进行实现,大数据这是一个很好的工具。那么后端是什么?是技术推动。中间还有中端,如何将我们在大数据形成一些算法,很好应用起来,必须跟行业的平台,整个智慧城市综合运营平台有机结合。

  主持李剑:谢谢黄博士,作为智慧城市,我们还有一项基础服务,如果没有中国电信,我相信这个世界的数据就不能联通起来,这一点我们有请中国电信李辉遒博士谈谈。

  李辉遒:对于智能交通大数据,我就想到几个字:势必开放,鼓励创新,政府引导,商业化运作。

  主持李剑:但中国电信的数据好像从来不开放,而且从来不开放的。

  李辉遒:两年前出一个关于信息安全的法规,当时非常严格,非常苛刻,苛刻到把所有短信端口封掉,因为要优化吧,使得连正常短信都收不到,当时紧急安抚很多大客户。

  我去年在市民大讲堂讲过的例子,当时有一个轰动全国的事情,在长春有一个小孩2、3个月被盗,当时车的型号,车牌等所有信息都知道情况下,但这辆车都找不到,后来这个人自首才找到。他自首去的,并不是我们去拦下来,所以大家很莫名其妙,所以社会反响非常强烈,说我们做那么多天网工程,为什么没有抓到这个人,而且这些线索非常明显。

  过几个月不久,在美国波斯顿发生爆炸,基于这些人的手机视频,或者一些媒体视频,没有任何线索情况下,根本不知道是谁,没有任何线索情况下,才不到一个礼拜就把兄弟俩人抓住了。

  我并不是说中国跟美国有什么差距,我们想说在天网工程,如果可以用视频分析技术,那么大概结果就不一样,我们可以很快把嫌疑人锁定了。所以我觉得可以做到商业化,技术发展是非常有必要。因为我们在做一些项目的时候,就听同事跟我们讲,也是类似视频分析,虽然现在做人脸识别很成熟,但实际应用不太多。

  主持李剑:李志恒教授,您是智能交通系统研究者,我觉得您最有发言权、开放性,我觉得开放性对于企业来说最重要,对社会最重要,对老百姓最重要。

  李志恒:开放性这件事情这是一个必然趋势。

  主持李剑:这是必然,因为今天人人都是信息源的时候。说到商业模式,贾博士你应该展望一下,未来有什么商业模式。

  贾西贝: 所以数据的一个商业模式,第一个是需要可以准确预测到,数据上可以创造多大价值。数据大不是问题,关键这个数据要有价值。

  还有样板作用非常重要,这样可以像阿里巴巴,马云一样在中国创造中小企业生态,所有自由者,所有中小企业,什么事情都不用干了,你给我供应数据我给你钱,非常好的赚钱方式。

  我们这个商业模式,刚才业介绍了,我们长处可以帮助企业积累、管理并运营数据资产。就是两个商业模式,你是甲方我是乙方,我绝对可以把你数据搞好,我赚钱就可以了。第二个我用我养数据的数据思维,我用我的技术帮你把数据养起来,帮把你数据积累起来,用我平台帮你管理起来,我用思维科学家分析,帮你把数据赚钱,然后拿着这个钱大家分成。

  主持李剑:谢谢,黄博士,商业化这一块,您有什么观念?

  黄卜夫:讲到可能商业模式,需要涉及到这个做智慧城市的模式,我们就很好解决这个问题。因为我们现在做这个模式是,这一块的整个城市运营是我们公司运行,也就是说整个所有里面的数据,我都掌握。

  我们整个数据最后产生,有三个对象。第一个对象,是人。第二个价值政府的运营层面,怎么将需要的信息,能够在茫茫信息海洋里面挖出来,以便于它对工作更好实施。第三个是公众。

  观众:中兴交通如何整合整个智能交通大数据?

  张慧:交通领域里面,包括在路面上有很多采集设备,包括线圈,还有交通控制一些信息,把这些交通信息全部收集上来,对于这些信息进行综合的交通状态的研判,经过研判做一些交通诱导,交通应急指挥,交通管理工作,交通运营管理,交通运输,包括出租车、公交等,对于这些信息进行收集,分析,呈现,提供给我们管理部门进行应用。在这个之上,我们会融合各个部门的数据,提供一些面向公众出行服务。

  观众:如何把数据变成价值化变现,但我关注事情是什么?安全性问题,如何保证?

  贾西贝:一是品德和意识问题,有没有用心做这件事情。二是人和制度问题,三是技术问题,

  主持李剑:有请各位嘉宾用一句话对今天主题做一个总结,大数据到底是什么?

  张慧:大数据是未来交通幸福源泉。

  李辉遒:如果去衡量大数据是否成功,可能会用很多数据来衡量,但衡量一个城市智慧城市程度,晚上可以安全在路上走,可以一个人在路上走,那么这个城市就是安全,这跟数据没有关系,不用具体来衡量。如果我们出行可以自己选择交通工具去我们想去的地方,那么这个城市就是智慧的。大数据最后结果在于无形,在于人感受。

  黄卜夫:大数据是开启智能的钥匙,有这把钥匙就可以接近跟拥有我们的智能。

  贾西贝:大数据是大钱、大幸福、大科学。稍微展开来讲,作为企业界大数据是大钱,绝对值得赚;作为政府要把大数据作为大幸福,最后使每个老百姓都幸福;大数据对于研究者来说,大数据还是大科学,大数据在我看来绝对是大科学。

  李志恒:大数据目前来说是未来十年拉动经济的动力,在这方面可以跟我们贾西贝博士所说,数据就是金钱,以后就是拼数据的时代。

./t20141203_5276523_ext.htm