注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

杨鸿智-后现代理论医学博客

《后现代医学》、《正反馈医学》、《自体原位器官重构技术》

 
 
 

日志

 
 
关于我

这是一个宣传后现代理论医学的博客.后现代理论医学是以系统理论为指导的新医学.该理论认为,在生命组织中干细胞是决定机体功能状态最基本的因素.通过调节机体内环境和为干细胞提供再生所需要的物质和能量,就可以使干细胞在患者体内原位再生,实现器官重构,使器质性病变得到治疗.现在,已经在北京医药信息学会内成立了后现代理论医学专业委员会,杨鸿智是主任委员.

网易考拉推荐

(3)“大数据”的含义  

2013-07-13 10:38:24|  分类: 干细胞病 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

3)“大数据”的含义

作者:Michael Stonebraker

2012921

http://article.yeeyan.org/view/267061/352297

 

一个有趣的现象:相当一部分计算机学团体已重新制定了其研究课题、加盟到了“大数据”营销大旗麾下。由此来看,大数据显然已成为最时髦的术语。本人在数据库领域侵淫多年(根据定义,数据库就是处理大数据的),特撰写一套四篇博文来解释本人对“大数据”的理解,并论述我对研究课题的意见。

 

在我涉及的领域里,大数据有如下四种含义:

 

大数据量、“小分析学”。此处的目标是对极大量的数据集使用SQL。对大数据集,没有人会用“Select *”来查询因为其返回太子节(terabyte)的数据使接收者无法应付。替代方案,则是对海量数据把注意力放在SQL的分析功能上,如countsummaxminavg等,可辅之以group_by。我将此称作“小分析学”,以便把这个用例(use case)区别于下面的场合。

对大量数据使用大分析学。“大分析学”在此的含义是:对海量数据施用数据聚类(clustering)、回归分析、机器学习、以及其他更为复杂的分析手段。目前,用户倾向于采用统计学软件包如RSPSSSAS等来实现。其他方案是使用线性代数软件包,例如:ScalaPackArpack。最后,也有大量自行开发的代码在使用中。

 

大速度。其含义是:对电子交易、实时网页广告投放、实时客户针对营销、移动社交网络等应用,能够吸收并处理“灭火水龙带”式的数据涌入。此用例在大型网站公司和华尔街盛行,二者都倾向于自行开发。

 

大多样性。许多企业面临整合日益扩大的多种数据源,而数据格式千差万别,例如:电子表格、网页、XML、传统的关系型数据库等。许多企业认为这是最头疼的问题。从历史上来说,萃取、转置、加载(ETL)供应商在此市场上对有限的数据源曾提供服务。

小结:大数据可意味着:大量、大速度、大多样性。在本文其余部分,我专门讨论大量数据的小分析学。尔后的三篇博文将论及其他三个领域。

 

大量数据、小分析学

 

我了解至少五个用于生产中的多皮字节(petabyte)数据仓库、运行在三个不同的商业产品之上。无疑,还有几十个类似的系统。所有系统都采用“不共享”式的服务器群(server farm),通常有超过100个“强力”节点,节点的硬件故障通过重复备份故障转移来恢复,工作量由上文所述的SQL分析手段完成。所有系统都反映说,在维护大配置运行时遇到操作方面的挑战、希望数据库系统能有新的功能。各系统的首要问题是实现资源弹性(即:向100台服务器上再添加50台,自动把数据重新分区以包括新服务器,在过程中无需停机或中断查询)。另外,更好的资源管理也是普遍的需求。在此,多个成本中心共享着同一套资源,各中心都要求各得其所。专家(例如Curt Monash)经常认同某些此类数据仓库。

 

此用例的第二个解决方案似乎是采用Hive/Hadoop。我了解若干个多皮字节资料库采用这一技术,最著名的是Facebook。如前例,多半还有几十个系统,我也知道许多IT公司在用此方案开发原型。最近的文献中有不少论文,记录了Hadoop与并行式数据库系统相比的低效率。一般来说,效率下降差不多是一个数量级。这转化为:相同的硬件配置反应时间要慢一个数量级、或者需增加一个数量级的硬件才能保持同样的性能。假如选择了后者,则是要购买大批设备、消耗大量电力。正如我之前和Jeremy Kepner撰写的博文所详细论述的,本人对此解决方案兴趣索然。

 

另外,谷歌及其他大型网站似乎在使用自行开发的软件来运行大规模配置、处理这类工作量。某些很像商业数据库系统,例如F1;有些则很不相同,例如BigTable

 

展望未来,我认为主要挑战是保持100%的上线时间(无论如何永不停机)。当然,这是个操作型的挑战难题。另外,这将需要在安装新硬件、新软件补丁和下一轮供应商软件版本时不停机。更困难的是:数据迁移不造成停机。

 

此外,我预测SQL供应商将全部迁移到列式数据存储,因为列式比行式要快得多。实际上,所有行式数据库供应商为了保持竞争力,将不得不逐步将其产品转换为列式存储。这对某些遗留系统供应商将可能是个迁移方面的挑战。

 

最后一点,高级存储技术此领域中有巨大的机会,包括压缩与加密。抽样(sampling)以降低查询成本也值得引起注意。

 

披露

 

除在麻省理工学院担任兼职教授之外,本文作者Michael Stonebraker与四家新创公司有关,这些公司或者是数据库技术的厂家、或者是客户。

 

 

大数据时代的具体概念

发布日期 2013/6/17 16:36:56

http://www.gbs.cn/info/detail/54-23691.html

 

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及...事、金融、通信等 行业存在多时,真正引起人们的关注却是因为近年来互联网和信息行业的发展。

 

“大数据”在互联网行业指的是:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用GT来衡量,大数 据的起始计量单位至少是P ( 1000T)

 

大数据到底有多大? 一组名为“互联网上一天”的数据告诉我们:一天之中,互 联网产生的全部内容可以刻满1.68亿张DVD ;发出的邮件有2940亿封之多(相当于 美国两年的纸质信件数量发出的社区帖子达200万个(相当于《时代》杂志770 年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……截止2012年,数据量已经从TB ( 1024GB=1TB )级别跃升到PB (1024TB=1PB )EB ( 1024PB=1EB )乃至 ZB ( 1024EB=1ZB )级别。国际数据公 司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB2009年的数据 量为0.8ZB2010年增长至1.2ZB2011年的数量更是高达1.82ZB,相当于全球 每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数 据量是200PB,全人类历史上说过的所有话的数据量大约是5EBIBM的研究称, 整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了 2020 年,全世界所产生的数据规模将达到今天的44倍。

 

 

[周报全文]大数据相关概念的界定与简析

20130301 15:05

作者:逸凡

http://www.cnw.com.cn/weekly/htm2013/20130301_264892.shtml

 

摘要:

 

通过对大数据相关概念进行明确界定,企业可以正确地规划自己的数据体系,并且对传统的技术方法与新兴的技术方法进行合适的定位。

 

摩托罗拉83年历史上最重要的几个瞬间 没落到崛起

相关白皮书:

 

存储魔术师”SVC--虚拟整合存储解决方案

 

充分整合现有不同类型、不同品牌的存储资源,实现存储容量共享,提升利用率达30,降低存储需求达20...

 

IT技术迅猛发展,新技术层出不穷,但业界却普遍对许多基本概念产生混淆。在当今最为流行的大数据领域也出现了这样的情况。结构化数据、非结构化数据等概念被频繁引用,各方却往往各执一词。对数据概念的混淆已经在很大程度上影响了企业对其数据体系进行清晰、正确的规划。本文的作者从实际工作出发,试图对一些关键的大数据相关概念给出明确的定义,并进行简要的解析。

 

一、按数据特征分类

 

结构化数据

定义:目前其实专指的是关系模型数据,即以关系型数据库表形式管理的数据。绝大多数的企业业务数据都以此格式进行存放。

 

简析:虽然从专业角度讲,结构化就是关系模型的说法并不准确。但针对目前业内现状,还是将其定义为关系模型数据最为妥当。因为它清晰而准确地代表了我们传统意义上最熟悉的企业业务数据,基本没有歧义。

 

半结构化数据

定义:半结构化与非结构化常常一同被提及,两者其实专指所有其他“非”结构化数据。但如果想更加清晰地描述,可以将“半结构化数据”定义为:那些非关系模型的、有基本固定结构模式的数据。例如应用日志文件、XML文档、JSON文档和电子邮件等。

 

简析:从专业的角度讲,上述结构化与半结构化数据都属结构化数据,但建议目前还是采用本定义为妥,否则会引起更大混淆。

 

非结构化数据

定义:除去结构化与半结构化的所有数据,即没有固定结构模式的数据。例如WORDPDFPPTEXL文档,以及各种格式的图片和视频等。

 

简析:区分半结构化与非结构化数据的意义在于,目前在企业内对两者的处理方法(包括存储、访问与分析)是不同的。非结构化数据大多采用内容管理的方法,但对半结构化数据基本没有有效管理方法。

 

事实上,结构化、半结构化与非结构化数据的区分,只是按数据格式进行分类,并且由来已久。严格地讲,结构化与半结构化数据都是有基本固定结构模式的数据(即专业意义上的结构化数据)。但目前业界的情况是,将其中的关系模型数据单独定义为结构化数据,这对企业数据管理现状是可取的,并具有一定的现实意义。

 

另外,半结构化与非结构化数据与目前流行的大数据之间只是有领域重叠的关系。从本质上来讲,两者并无必然关系。业界有将大数据认同为半结构化与非结构化数据的说法,只是因为大数据技术最先是在半结构化数据领域发挥作用。上面的认识误区是将数据处理技术与数据格式概念混淆,这是不正确的。

 

二、按数据处理技术分类

 

大数据(技术)

定义:大数据是最近几年兴起的概念,业界普遍将其定义为具有4V(数据量大Volume、变化速度快Velocity、多类型Variety与价值密度低Value)特征的数据。实际上,大数据的概念准确地讲应该是指大数据技术,指对海量数据不同于SQL体系的、新的、低成本的处理技术,而不是指数据格式或者其他。

 

简析:业界对大数据的定义最为混乱,大致有以下几个误区:有将大数据等同于半结构/非结构化数据的,而实际上大数据技术只是最先在半结构化数据领域发挥作用,现在已经渗透到多结构领域;有将大数据等同于Hadoop的,而实际上Hadoop只是在掀起大数据热潮方面发挥了巨大作用;有说大数据就是除企业业务数据库之外的所有数据,但却有很多企业用大数据方法有效地分析与存储某些业务数据。

 

另外,被内容管理手段管理起来的数据又该如何界定呢?有人说大数据就是互联网特征的数据,那传统企业就没有大数据了吗?有人说大数据就是量很大的数据,这更是无法界定了。其实,仔细分析,还是将其定义为数据处理技术最为准确。除SQL体系与内容管理技术外,大数据技术目前具有很丰富的内容。除此之外,大数据技术一定是强调低成本的。

 

■关系数据库技术

定义:与数据格式分类中的关系模型相比,这里是指SQL处理体系。

 

简析:关系型数据库技术依然是企业数据管理的核心,大数据技术的定位需要进一步地考虑与研究。

 

内容管理技术

定义:主要是指企业对非结构化数据,也包括部分结构化数据按“内容”特征组织、管理与访问的处理方法,是企业目前除关系型数据库技术之外,最常用的另一重要的技术方法与工具。

 

简析:是企业目前处理非结构化数据最主要的手段,企业对半结构化数据目前基本没有什么有效管理与利用。

 

其他技术

定义:企业还可能采用如低成本的分布式文件系统、MySQL联邦、海量内存数据管理技术,以及介于HadoopSQL体系之间的新技术(适用于历史数据管理)等其他数据管理技术。这些技术部分可以归入大数据技术的范畴。

 

简析:互联网行业常用的MySQL联邦是采用关系模型的结构化数据,但却不能等同于分布式关系型数据库。因为它牺牲了完整关系型数据库全局的一致性、完整性保证,却获得了更优秀的扩展性。因此它也属于大数据技术。

 

除此之外,分布式文件系统使企业对海量小文件管理有了新的方法,也属于大数据技术;低成本海量内存数据管理技术使交易系统的能力进一步实现低成本的提升,也属于大数据技术。可见,大数据技术是面向结构化、半结构化与非结构化数据的,而不只是针对半结构化数据。

因此,大数据更多的是指技术方法,而不是指数据格式,是指除SQL体系与内容管理技术之外,新出现的一些数据管理技术。而大数据所谓的“大”并没有相关的标准。在大数据技术中,Hadoop只是最重要的一个,而不是唯一的一个。

 

大数据技术可以应对的数据类型中,企业目前还没有有效管理和处理的半结构化数据,只是其最早发挥作用的部分。而实际上,它还可以应对包括结构化、半结构化与非结构化在内的所有数据类型。

 

总之,须要再次澄清和明确的是,大数据技术一定要是低成本的,否则没有立足点。同时,关系型数据库技术仍然是企业数据管理的核心。内容管理是目前企业组织、存储与访问非结构化数据的主要手段,如果引入大数据技术来处理非结构化数据,除更低成本的考虑外,应该是指内容管理技术尚未涉及的数据分析领域。例如图片、视频分析,但这距离银行等行业的实际需求应该还比较遥远。

 

企业IT人员对以上概念应该明确界定,可将其数据类型分为“结构化”、“半结构化”和“非结构化”三种。同时,企业可以将数据处理方法划分为“关系数据库技术”、“大数据技术”、“内容管理技术”及其他。在清晰地概念定义基础上,企业不但可以正确地规划自己的数据体系,并且可以对传统和新兴的技术方法进行合适的定位。(更多内容详见: http://www.cnw.com.cn/P/4700

 

 

定义大数据:浅显易懂的大数据入门

作者:王隆生

2012-08-23 10:06

http://database.ctocio.com.cn/288/12411788.shtml

 

IT专家网 数据库频道】当前,众多企业都面对从四面八方涌来的数据流的冲击。涓涓细流汇成大河,而科技企业、专家、分析师和技术顾问们纷纷将这条数据之河定义为大数据。但是,在这些众说纷纭的大数据定义中,不乏大量的常见误解。大量的企业都面临着挑战,需要辨别具有价值的数据流,挖掘这些价值,协助企业做出最佳决策以形成强大的竞争优势。

 

 “大数据”这一术语的内涵远远超越了“大”或是“数据”的含义。大数据的确体现为数量庞大,但它仍有更多特性有待了解。在Forrester分析师布赖恩?霍普金斯(Brian Hopkins)和鲍里斯?埃韦尔松(Boris Evelson)撰写的《首席信息官,请用大数据扩展数字视野》报告中,他们提出大数据的4项典型特征——海量(Volume)、多样性(Variety)、高速(Velocity)和易变性(Variability)。下文将简要介绍这些特性,并重点阐述大数据对前瞻性商界领袖的重大意义。

 

海量

 

企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。

 

此外,各种意想不到的来源都能产生数据。例如,从巴塞罗那至沙特首府利雅得的单程航行中,一架商用喷气飞机上收集的传感器数据量将超过1PB。当用一次飞行的数据量乘以每天所有飞行的航班数,数据总量将非常惊人。

 

多样性

 

一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。

 

高速

 

高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。

 

根据IMS Research研究机构关于数据创建速度的调查,通过跟踪可联网设备的激活量,发现联网设备增长的第二波浪潮正在加速到来。本轮增长后,将涌现更多新型可联网设备增长的浪潮。据预测,到2020年全球将拥有220亿部互联网连接设备。

 

易变性

 

大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。

 

新型分析法

 

“大数据”这一术语也与从数据中获得价值所采用的分析法类型相关。由于出现从既有及新兴数据类型中获得商业智能的需求,对现有应用系统造成极大压力,迫使企业寻求新的解决方案。创建新的分析应用进行多结构数据分析,通常需要进行专业资源和工具的战略性投资。

 

对于企业,大数据既是机遇也是威胁。那些能够管理复杂数据并从中获得精准商业洞察力的企业将拥有超越竞争对手的重要优势。反之,那些不能精明管理数据的企业将在竞争中处于劣势。( 作者:Teradata行业执行顾问王隆生)

相关文章

 

 

  评论这张
 
阅读(249)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017