未解决
此帖子已超过 5 年
2 Intern
•
4K 消息
0
3074
【分享】EMC大数据咨询服务简介
各公司都在努力挖掘有关他们业务的令人信服的见解,以赢得竞争优势。他们在探索具有独特见解的问题,例如:
• 谁是我最有价值的客户?
• 哪些是我最重要的产品?
• 什么是我最成功的营销活动?
过去,IT 和企业用户只能使用可用企业信息中的一小部分来尝试回答那些重要问题。
大量类型复杂的新数据(即“大数据”)现在已可用并且随时可供访问,同时还可提供有关客户、产品和运营的创新见解。这些新的数据源(Web 活动、移动或位置数据以及社交信息)再加上传统数据源,提供了达到当前无法实现的业务洞察水平的机会。借助这些新的数据源,企业用户不再局限于仅通过财务指标来衡量成功与否,而是可以考虑客户、产品和营销活动对业务的整体贡献,从而超越其业界同行。
要制定大数据战略以利用这些新的业务见解,就意味着您不能只考虑数据量。一个成功的大数据战略必须考虑获得信息的速度、信息的多样性和复杂性:
• 数量:数据量达到若干 PB
• 速度:实时生成和接收信息进行分析
• 多样性:表格、文档、电子邮件、计量、网络、视频、图像和音频
• 复杂性:每种数据类型都有不同的标准、领域规则和存储格式
EMC 大数据咨询服务帮助客户发现适当的大数据业务机会并制定全面的路线图来利用该机会。EMC 咨询服务经验证的分步式方法将确保大数据管理和体系结构能够解决因种类繁多的数据格式、获得数据的速度以及信息资产的复杂性而产生的问题。许多现有的工具、平台和方法都可能需要升级才能发挥大数据的业务潜力。
步骤 1:选择最适合的优先业务机会
EMC 大数据咨询服务的第一步是确定大数据和分析可以在哪些方面以及如何支持您的组织。我们使用经验证的分析估值方法来确定具有以下特点的战略性业务计划:
• 跨职能部门
• 提供有吸引力的业务价值
• 具有可衡量的目标
• 具有明确规定的交付期限
步骤 2:构建驱动下一代业务智能和分析的使用情形
需要有涵盖报告、控制面板、临时查询和分析的全面用户体验,以支持通过大数据实现的更及时的决策制定。EMC 咨询服务利用使用情形方法,确定新的大数据源对您的业务智能 (BI) 和分析系统的影响。我们将:
• 评估您当前的 BI 和分析环境
• 记录大数据对您的 BI 和分析环境的影响
• 将您当前的功能映射到 EMC 大数据成熟曲线
步骤 3:为更灵活的数据平台创建概念性体系结构
以 OLTP 为中心的传统关系数据库管理系统从未针对大数据进行设计。传统数据管道无法满足大数据分析的需求。快速增长的数据量将传统数据管道推向了面临崩溃的边缘,迫使组织使用数据的摘要和样本。结果就是从数据到分析的周期时间长达数周,而不是几小时,因此分析的质量也受到影响。基于大规模并行处理 (MPP) 的新数据仓库提供可扩展、灵活的数据仓库平台,能够挖掘结构化和非结构化大数据的业务价值。EMC 咨询服务将帮助您制定计划,以支持快速接收新的结构化和非结构化大数据源。我们将帮助您创建灵活、可扩展的平台,以适应变化。我们将:
• 评估您当前的数据仓库环境并记录大数据对它的影响
• 评估您当前的 ETL 环境并记录大数据对它的影响
• 创建具有以下特点的灵活数据仓库体系结构:
– 可扩展并且能够快速接收新的数据源
– 具有灵活的数据模型以挖掘动态洞察
– 将 ETL 与 ELT 相结合以增强数据浓缩功能
步骤 4:评估数据质量、管理和安全措施的就绪性
您的数据必须能够提供您的业务的可靠视图。组织需要一个将数据视为一种资产而不是一项开支的“业务计划”。此数据业务计划必须涵盖数据质量、治理和安全措施,并同时开拓内部数据以及第三方数据源。一个全面的、设计合理的计划将会(在运营过程中)持续不断地监控、增强和确保组织的战略数据存储的安全性、准确性和完整性,并制定数据规程、政策和组织纪律。EMC 咨询服务将:
• 确定您的数据质量、治理和安全成熟度的级别
• 记录大数据对数据质量和数据治理过程的影响
步骤 5:制定应用云功能的愿景
云体系结构可能会影响您的企业信息管理功能。它为自助式 BI 和分析提供了机会,从而支持短窗业务机会。它可以为围绕特定主题领域或业务机会进行的分析提供集成式协作。如果使用得当,它可以加快实现“数据货币化”。为了帮助利用云体系结构实现数据管理功能的转型,EMC 咨询服务将:
• 针对您面临的大数据挑战审核云功能和实现方法
• 将您当前的功能映射到 EMC 云成熟曲线
• 确定云可能会产生实质影响的特定体系结构和运营领域,并记录有关以下项的云建议:
– 数据仓库体系结构和操作
– 报告、业务智能和用户体验
– 高级分析部署
– 数据质量管理
步骤 6:将调查结果整合到阶段式路线图中
EMC 咨询服务将为您构建一个全面的转型路线图,重点为已划分优先级的关键业务计划提供支持。该路线图针对您特有的组织和技术要求及功能量身定制,并解决之前用于有效提供大数据服务的五大企业信息管理维度。我们将提供面向管理层的演示,其中包含您当前功能的详细评估,以及用于解决大数据咨询服务的每个步骤中所发现问题的建议。
有关详细信息,请访问 http://china.emc.com/consulting或联系EMC 咨询代表:400-650-6006。
liulei_it
2 Intern
2 Intern
•
3.2K 消息
0
2013年6月20日 20:00
估计目前这项业务还是针对非常有资金的企业构建的私有云基础上的大数据吧,是否也有可能搞出基于公有云的大数据咨询业务呢?估计能自己购买搭建的企业还是少啊,更多的是一些成长型企业,让他们也能享受 大数据的好处呢?
zhouzengchao
2 Intern
2 Intern
•
1.4K 消息
0
2013年6月20日 22:00
以太网已经成为未来数据中心网络基础架构的主要二层技术,改造主要针对I/O Consolidation实现Lossless network,从而能够承载storage I/O。
速度方面,未来几年服务器的接入以10Gbps为主,100/400Gbps的以太网也已经在roadmap中。公有云提供的服务主要是针对公众以及一些小型企业,或者用于offload某些大型企业的非私有应用(即对安全性要求不高)。不太可能会有在Internet上直接传PB级数据量的可能性,到【公有云服务提供商】的PB级数据也只可能是由来自数以亿计的网民以分散的方式提供。
liulei_it
2 Intern
2 Intern
•
3.2K 消息
0
2013年6月20日 22:00
如此,看来以太网真的要进行改造了。
Roger_Wu
2 Intern
2 Intern
•
4K 消息
0
2013年6月20日 22:00
咨询公司收费都是很厉害的。EMC的大数据方案还是会集中在Greenplum上。公有云的方案我相信未来EMC也会提供,本身Hadoop (Pivotal HD的核心组件)也是一个开放云平台。
事实上利用公有云实施大数据应用不少企业已经自己在做了,虽然还只是雏形,或者说只是大数据分析的一部分。比如著名的纽约时报(New York Times)案例:他们以Hadoop工具,在24小时内运用100台Amazon EC2服务器(instance),将旧报纸文章扫描件上传至S3平台,通过EC2执行转档程序,快速转换1100万份文章及图片成PDF格式,并产生1.5TB的资料存于S3平台。事实上纽约时报在第一次转换后发现PDF有错误,重新执行了一次转换,所以在24小时内做了两次1100万笔文档的转换动作。
不过有时候大数据需要分析的数据相当大,甚至真的达到数PB,那如果是公有云的话,对网络基础设施的要求就非常高了,即使是双线百兆宽带(200Mb/s),算一算传输1PB数据的时间就需要497天,这一限制对用户和公有云数据中心的网络要求可说是一个相当大的挑战。
zhouzengchao
2 Intern
2 Intern
•
1.4K 消息
0
2013年6月21日 00:00
说到I/O Consolidation,我还想在吐一点:Google、Facebook这种公司早就开始I/O Consolidation了,只不过更彻底,因为完全摒弃了SAN和Storage设备。服务器就用local storage,核心的东西是分布式控制器,多部分实现在虚拟机上,Hypervisor可以是vmware或KVM等,扩容量和性能直接加server node就可以了,控制器会把新加的计算和存储资源池化,可用于整个集群内的所有workload,伸展性几乎是无限的。不过非IT企业一般玩不了,因为他们不可能雇那么多PhD来搞非核心业务,所以针对这种需求,已经有公司开始把这种体系结构Solution化来卖了!
zhouzengchao
2 Intern
2 Intern
•
1.4K 消息
0
2013年6月21日 00:00
FC是为Storage I/O设计的,主要用于承载SCSI command。SCSI协议本身没有很好的错误恢复机制,所以要求lossless transport network ,这也是为什么以前会选择FC而不是Ethernet作为SAN transport。iSCSI不受重用的原因之一也是因为Ethernet本身不够稳定,需要上层TCP这种high overhead protocol来弥补。
目前FCoE是I/O Consolidation的方向,因为已经能够构建Lossless Etherent,主要是在L2差错控制(PAUSE机制)上做了改进;L3也实现了TRILL这种MAC-Routing技术来消除环路,避免STP的介入造成资源浪费和性能损失。IB(Infiniband)也是I/O Consolidation的一种选择,只不过还不够普及,目前主要用于HPC领域的Inter-Cluster communication,因为这对延迟要求很高。Isilon Inner-Cluster communication 就是IB连接。
对于general network traffic,就 必要使用FC了,成本也太高,目前还是Etherent最普及。
UCS只是一台服务器,可能在服务器技术方面有自己独特的优势(这块属于服务器方面,不懂),另外一个关键点就是它能很好的与Cisco Unified Fabric结合,对网络虚拟化支持是端到端的,非常强悍!
liulei_it
2 Intern
2 Intern
•
3.2K 消息
0
2013年6月21日 00:00
如果全部使用FC架构也好吧,改造需要多大的成本阿。那么UCS是不是就是属于这个类型的产品呢?
liulei_it
2 Intern
2 Intern
•
3.2K 消息
0
2013年6月21日 01:00
谢谢超哥的精彩讲解,数据从一开始的Local到用SAN连接专用的storage最后又变成了local storage。返朴归真啦。
Wyman_chen
38 消息
0
2013年6月23日 04:00
一本关于云计算Hadoop的书在前言里写道:
古时候,人们用牛来拉重物,当一头牛拉不动一根圆木的时候,他们不曾想过培育个头更大的牛。同样,我们也不需要尝试更大的计算机,
而是应该开发更多的计算系统。
这句话是很有意义的
请其他高科技企业来帮忙研究和发展业务,可以帮企业节省不少研究资金,少浪费钱,这不是什么新鲜事了,EMC估计也是看中了这块市场,未来空间还很大,中国的企业还只是停留在基础设施建设阶段,各种胡乱砸钱,老外最开心了,眼睛尖点的,就把大数据炒得天花乱坠。看看IBM他们也在搞数据分析,广告里吹牛得厉害,分析什么时候商店来的人多,顾客都喜欢买什么,都会买多数量,然后制定生产计划,减少浪费什么的,还帮助警察分析罪犯何时会犯罪,会在哪里犯案,减少犯罪率等,现在很多大公司都拿大数据来做数据分析未来,明摆了要做看相先生。
zhuzhu281306
631 消息
0
2013年6月23日 17:00
嘿,EMC自己搞了个大数据成熟曲线出来啊,厉害。
zhuzhu281306
631 消息
0
2013年6月24日 21:00
GP的内部数据流和外部是隔离的,内部的大数据流量是通过内部交换机实现的,其实也类似于IB,不过就是摆放了2台交换机,只做集群内部数据传输而已,这样就可以隔离流量,从而实现TB级的数据传输。
UCS就是cisco的刀片服务器了,里面配上cisco的定制化交换机,更有优势而已。
zhuzhu281306
631 消息
0
2013年6月24日 21:00
希望EMC也能有全套产品,而不单单是集中在偏向底层的数据仓库层面。
把ETL、可视化都给整合了,出一个整套解决方案更好