客户案例 > 上海六院迁云项目
客户案例 > 上海六院迁云项目
上海六院迁云项目
发布时间:2018-12-12
用户遇到的问题:
上海六院在研究室目前的IT环境还是传统的VMware平台,该平台现有的资源有限,目前只能满足部分研究者的计算需求。对于更复杂的项目将无法满足科研需求,比如即将规划的“科研大数据项目”。
进院方技术专家多次探讨,关于本院的科研大数据项目希望运行在更加灵活可靠的公有云平台。这样以解决目前面对的设备与技术瓶颈和成本困境。
公有云能为客户提供更全面的大数据托管服务,比我们在本地自行构建大数据平台更加快速、更加经济和高效。
在此富通为上海六院科研大数据项目推荐使用AWS的MapReduce服务。
Amazon Elastic MapReduce (Amazon EMR) 是一种能让企业、研究人员、数据分析师和开发人员轻松和经济高效地处理大量数据的 Web 服务。
Amazon EMR 提供的托管 Hadoop 框架可以让您快速、轻松、经济高效地在多个动态可扩展的 Amazon EC2 实例中处理大量数据。您还可以运行其他常用的分布式框架(例如 EMR 中的 Apache Spark、HBase、Presto和 Flink),以及与其他 AWS 数据存储服务(例如 Amazon S3 和 Amazon DynamoDB)中的数据进行交互。EMR Notebooks 基于热门的 Jupyter Notebook,可为即席查询和探索性分析提供开发和协作环境。
EMR 能够安全可靠地处理广泛的大数据使用案例,包括日志分析、Web 索引、数据转换 (ETL)、机器学习、财务分析、科学模拟和生物信息。
上海六院科研大数据项目选择上云理由包括:
本地数据中心扩容需要购买大量的硬件,并且无法实现更好的融合。
需要更多的建设场地,更多的电力成本和维护成本。
对于复杂的大数据平台的建设需要更多周期。
为维护大数据平台所聘用的更专业的运维人员。
Amazon可以帮助客户快速的创建自己的大数据分析平台
大量的弹性计算资源,数据流分析,数据处理能力,集群式数据库以及动态的自动弹性伸缩都是客户无法在本地去实现的。
只需几分钟即可启动 EMR 集群。您不必担心节点预置、集群设置、Hadoop 配置或集群优化。EMR 自会处理这些任务,让您可以集中精力进行分析。
数据共享更加方便,公有云所提供强大的对象存储功能为我们数据存储提供无限的可用空间,并且安全性也优于本地自建的分布式或单一存储系统。
公有云的资源按需付费,并且关闭的计算资源暂不扣费的原为企业节省了更多的成本,部分资源也可以免费使用(如:网络基础服务无需付费)等。
由此可见上海第六人民医院将他们科研大数据项目的数据和应用中心资源向云上迁移,这样为他们的科研项目带来极大的好处,因为云提供了一整套云计算服务,以及大数据服务,远比上海第六人民医院自行构建数据中心更快、更经济地提供大型、可扩展的计算服务能力。使用Amazon Web Service(AWS)云服务可以帮助上海第六人民医院构建所需要的几乎所有大数据分析应用程序,并支持客户所需的任何工作负载。因此,我们会帮助该院的科研大数据项目设计一套适合的业务场景。
解决方案 :
上海六院科研大数据项目的应用平台要建立在Amazon的公有云之上,使用Amazon的EMR托管服务平台上建立Hadoop集群。EMR的Hadoop集群是 Amazon Elastic Compute Cloud (Amazon EC2) 实例的集合。
关于Hadoop集群中的每个实例称作节点。集群中的每个节点都有一个角色,称作节点类型。Amazon EMR 还在每个节点类型上安装不同的软件组件,在分布式应用Hadoop中为每个节点赋予一个角色。
Amazon EMR 中的节点类型有:
主节点:该节点管理集群,它通过运行软件组件来协调在其他节点之间分配数据和任务的过程以便进行处理。主节点跟踪任务的状态并监控集群的健康状况。每个集群具有一个主节点,并且可以创建仅包含主节点的单节点集群。
核心节点:该节点具有运行任务并在集群上的 Hadoop 分布式文件系统 (HDFS) 中存储数据的软件组件。多节点集群至少具有一个核心节点。
任务节点:该节点具有仅运行任务但不在 HDFS 中存储数据的软件组件。任务节点是可选的。
如下图所示:
通常,在 Amazon EMR 中处理数据时,输入以文件形式存储在底层文件系统(如 Amazon S3 或 HDFS)中的数据。数据从处理序列中的一个步骤传递到下一个。最后一步将输出数据写入指定位置,如 Amazon S3 存储桶。
数据处理框架层是用于分析和处理数据的引擎。可在 YARN 上运行并具有自己的资源管理功能的框架有很多。不同框架适用于不同类型的处理需求,如批处理、交互式处理、内存中处理、流式处理等。框架的选择因使用案例而定。这影响到应用程序层 (用于与要处理的数据交互的层) 可用的语言和接口。Hadoop MapReduce和Spark 是可用于Amazon EMR 的主处理框架
Hadoop MapReduce 是一种用于分布式计算的开源编程模型。它通过处理 (除 Map-Reduce 功能外的) 所有逻辑简化了编写平行分布式应用程序的过程。Map 函数将数据映射到一系列称为中间结果的键值对上。Reduce 函数则汇总这些中间结果、应用其他计算法并生成最终输出。有多个可用于 MapReduce 的框架,如可自动生成 Map 和 Reduce 程序的 Hive。
如下图是为上海六院科研大数据项目在Amazon的平台设计模型:
客户价值 :
随着第六人民医院业务的发展,业务量的增大,可通过灵活的扩容物理资源,增加可提供服务的能力,不需要对业务系统有任何变更,实现业务的平滑扩展。