如何应对大数据行业落地难题

参与嘉宾:

SAS中国销售及渠道总监王波

思科数据中心及虚拟化团队解决方案架构师何涛

IBM 软件部信息管理软件大数据销售总监洪建勋

英特尔(中国)有限公司数据中心软件部高级工程师郎琦

北京汇金科技股份有限公司副总裁王舜林

方正国际医疗卫生事业部资源咨询顾问高晖

主持人:在此之前,我与国内一些ISV交流过时问到,你们怎么看大数据?有没有基于大数据技术做相应的开发?回答并不令我失望。他们说其实已就大数据在进行相应的开发;但是,大数据离行业真实应用其实还有段距离。我相信在座的六位嘉宾对此有同感。
今天,英特尔、SAS、思科来自厂商级别的负责人演讲,其中的目标之一就是招募大数据的合作伙伴。为此论坛同时邀请了两位来自行业的方案商。那么方案商对大数据落地行业有什么样的理解呢?

王舜林:汇金科技是专业的软件公司,软件产品在行业有不错的应用。我们有通用的软件产品IDP系列中间件,基本涵盖了数据处理的各个环节。从数据的抽取到数据的传输同步备份,包括数据的分析处理等一系列产品,在特定的行业有很好的应用。在行业应用方面,我们主要聚焦于金融行业、政府及大型企业的应用方面。
关于大数据落地问题,实际上在我们的关注大数据的时间算是比较早。2012年被称之为大数据元年,我认为大数据时代真的来了。之前这只是一个名词,但到今天显然已经落地了。也看到,今天在场的厂商都有了成熟的落地的解决方案。高晖:作为医院HIT的行业里面,大数据也是一个新命题。我们看好这个发展前景。如何让大数据的生态圈在医疗行业尤其是医疗卫生信息化如何形成一个闭环,上下游都能良好的合作,其实需要很好的进行探讨。
我们理解存在问题。一是数据标准化的问题。当然医疗行业数据标准化是个全球性问题。因为医疗尤其是临床信息这块的数据相当复杂,跟一般商业企业行业区别很大。大家都知道临床方面的就诊信息如何要做成结构化数据,有一个完全与别的行业不同的独特的方法。医疗行业大部分是用的POST后关系型树状数据库为多。当然现在Oracle、 IBM也推出基于关系型而开发的后关系型数据库,这是存储;最主要的是数据结构化处理在国内还处于初级阶段。在美国做得比较好的HV3的标准在国内做得不太好。
数据标准做不好,那么数据的采集和使用就存疑。国内的大部分医疗行业厂商做的是运营管理软件,做临床信息软件的少,做临床决策分析的就更少。所以在应用层面做Big data的应用结果分析的更少。


另外,我们认为基于语义搜索引擎是个难点。大家都知道,百度、Google等都有这样的技术,甚至于“棱镜门”事件也是基于语义的搜索。
医疗行业基于语义的分析引擎即使在欧美发达国家也是很难解决的问题。因为医疗行为很复杂,判断的路径复杂而长,需要很复杂的分析方法,不是靠简单的因果关系就能作判断。且是基于社会学等不是纯技术所能解决的。
我们知道现在医院关注几个决策方面的问题。一是医疗安全。与安全相关的指标怎么从大数据来采集。比如判断抗生素是否合理,与之配套有许多的指标,而这些指标都需要数据挖掘数据钻取,才能得到综合分析来判断这个抗生素用到患者身上是否合理。或者采集一个样本在这个地域内针对某类诊断手术的患者使用的抗生素的规律,及未来采取什么措施进行控制等。当然医院也会分析医疗质量诊断行为等,比如给患者开什么样的处方等都是医院管理者非常关心的问题。
在管理方面。现在医院都跟一个小的上市公司一样。像我们做的北大人民医院项目,医院的收入二十多亿,也有可能更大四五十亿,这么大的盘子。医院院长作为CEO,又要管人管物管钱,如果没有一个好的可视化平台帮助他,没法管。
并且医院跟企业还不一样,特殊之处在于它是企业化运作,行政化管理,所以院长希望得到更好的分析工具。所以我们了解目前在医疗包括政府有很大的需求,比如医疗保险,定保依据就是大数据。国外就是这么做的,为什么国内做不了?社保也在谈总额分包,为什么?因为他们没有专业人员做分析。医院都是自负盈亏肯定不会帮着社保说话,他们之间是博弈的关系。所以大数据应用在这个行业应用前景非常好,但是“都是关在玻璃盒子里的苍蝇”,前途一片光明,但是找不到出路,我们还是希望跟在座的好的上下游厂商合作。能够把中国市场做大。其实市场潜力还是非常大的,我们也做了很多的落地工作。

王舜林:像英特尔等大公司都有很好的产品,和我们这些面对直接用户的方案商提供了合作机会,可以加速推进大数据中国的落地。
我们其实也在做基于大数据方面的尝试。在金融行业更多做的是基于大数据做如风险控制方面,二是定向营销方面,比如给客户经理提供精准的营销信息等。我们还给大型的工矿企业安全生产与应急的解决方案,这个系统里沉淀了大量关于安全生产的相关数据,这些数据包括日常生产的结构化数据及监控等非结构化数据,包括如何进行整合,为安全生产提供预警信息,为发生事故应急时提供专家咨询信息等。
其实,第一大数据不是因果关系为目的,而是寻求关联。数据是客观存在,从中找出价值。但要能够找出关联关系提出价值,数据源很重要。
现在国内大家认为做得好的大数据案例是互联网、金融,但这些不具代表性。他们所有的数据都在自己的系统,没有外部数据源,二是他们的数据主要是客户信息,交易信息而行为信息等相对较少。我们面临为客户创造更多价值需要从更多数据源,从不同的数据类型,尤其是非结构化数据中,找出相关联性。另外,大数据里面价值密度非常低,怎么从中找到价值的东西需要做全样分析而不是样本分析也是关键。

观众:我们面对客户会遇到很敏感的问题,就是隐私。刚才几位谈到如何分析采集数据的同时,如何确立数据的隐私性和公共性是不是得到了大家的认可。通俗来说,比如通过硬件平台提供商把我们的数据分析出来通过软件服务商将不同的类型整合出来。但是如何保证这些数据来源的隐私性。有没有一些规则能保证这些数据我们合法地获得?

何涛:关于数据源及隐私,这个是非常敏感的问题。在国外也没有特别规范。我们看到国外的金融的案例,信用卡如何防欺骗。没有设密码可直接刷的信用卡防止(冒刷)。
老美跟运营商有合作,比如90%以外的刷卡用户,在刷卡时移动电话都在身边,会做Big data的分析。上传数据后分析,刷卡时手机是不是在身边。这些界定起来也是隐私信息。
所以,目前我还没有看到比较私密性的这种(管理)方法。当然在数据信息内部如何保证这些隐私外泄,这是另外一个方向,有各种技术。比如在数据中心内部,有存储加密技术,有流量转发交换机与交换机之间的加密技术,可防止这些敏感信息外泄。但从法规看,目前还没有看到相关的规则出台。
王舜林:至少在目前我们的立法还没有跟进。一般标准化立法一定是滞后于技术。技术必须得发展到一定程度经过积累,然后探索出一套方法。
面对数据源的问题,所有的数据分析都要解决合法地合理地利益共享,以解决数据共享的问题。这时候,大家就需要做一些共享的协议,通过合作有偿或者相互之间签保密协议等方式。在立法没有出来之前,我们在合作过程中进行这样的共享。
(关于未来的发展趋势)金融、政府都是数据比较敏感的行业,客户谨慎地运作大数据尝试。一两年后,可能会从尝试变成一种依赖。尤其是金融行业,互联网金融本身对金融带来很大冲击。为了应对这种革命性的变化,大数据相关技术应用起到很大的作用。

洪建勋:数据源的获得只要是合法的手段是没问题的。但是如果去偷去买那就不行。比如用手机就意味着暴露隐私,除非不用;用QQ也一样。本身QQ就是免费使用,如何因宕机而进行索赔?
当你在选择运营商的服务时,等于就自愿地把自己的隐私给暴露释放出去。作为一个企业,不能把数据直接贩卖。数据的获取是有行业之间的相关规范的,有自律性。不能随便贩卖。还有一些技术手段,硬件层面防火墙、存储、数据库等,到最后最怕的是监守自盗。以前就发生过,数据管理员更改日志,将数据拿出去卖。IBM也有技术防止这个情况。用技术手段来做最后的限制。

王波:我们在展现上提到可视化。展现上不是很复杂有难度的问题。对国内IT企业来说报表是最容易完成的项目。我们提倡一方面讲大数据分析数据挖掘,但同时要考虑。结果要用什么样的方法展现出来,最为我们所认可和接受。
对于决策层来讲,过去我们都讲决策支持,但一天你给他看20多个报表,没有人知道到底应该从中关注哪些指标。所以,我们把数据的科学与可视化技术结合在一起,这是未来的方向。
不管是在数据分析还是别的领域可视化是一个持续发展的科学。这是我们强调在展现层面要做的事情。
这可能跟大数据没有直接的关联,但是一个有力的组成部分。可视化发展跟很多前沿技术结合,比如人机互动界面。这些一定跟大数据云计算技术结合,可视化是其中消费数据必不可少的环节。SAS最核心的还在于分析,最终结果要为消费数据提供一个直观而易于操作的方式。

郎琦:从硬件层面有加密技术,这不是跟Hadoop直接相关。数据的流转一定是在企业内部流转,无论是银行、电信运营商还是医院,都有保密数据的责任。
做为IT厂商,在做项目过程中有机会接触这些数据,一个控制的手段是道德。比如项目经理说给英特尔10万条样例数据做表结构,那么这10万条数据是可以看到,但是不可以流出去的。数据源只能在企业内部测试。其二如果数据出现了买卖。我们通过法律手段解决。
个人隐私放在互联网上是可接受的信息泄露。如微博ID、个人喜好、旅游的倾向性、家庭成员状况。如果知道我有多少存款、家庭成员多少、住在什么位置,或者车开了几年了是不是马上要换车,那我马上就急了。现在大家可容忍的是保险公司打电话询问保险理财。

英特尔认为,现在的大数据生态链还不够强大。客户需求对大数据能够干什么还不是很明晰。这是一个循序渐进的过程。三年后,大数据就会普遍得到应用。现在只是比较领先的行业在动手做。

何涛:思科原来不做软件,现在也向软件及服务转变。思科的高级服务部门在猛招人,以提供数据中心云计算的服务,比如consulting顾问式服务,整体云计算规划的服务。
除了底层的架构平台,在端到端的云计算、Big data架构中唯一没做的是存储。思科在Big data扮演更后端的角色,需要非常优秀的软件解决方案提供商去发现用户的需求。
如何让云计算数据中心更有效,如何让Big data运行的更好?思科希望和国内所有的软件解决方案提供商合作。做出端到端的硬件解决方案,可落地避免任何风险,经过软硬件厂商统一进行测试后的集成化的解决方案。
Big data跟网络是分不开的。在“万物互联”时代,思科有前端的传感器,有中间的数据网络传输,数据中心整网的架构也做,计算平台服务器也做。

洪建勋:IBM非常关注的是大数据的时时性问题。大数据时时这块已落地。在“911”发生前其实看到很多数据源,但来不及分析。那时,美国相关的部门找到IBM来研究。所以我们有时时流分析技术。通过这个技术09年实现商业化。在国内移动电网都用它做时时分析预测。如网络的时时分析管理优化。在南网也在落地,通过时时分析保证电网波动最小。

上一篇: Gartner:64%的企业今年会考虑大数据项目
下一篇: Zettaset努力为Hadoop大数据加密