广电领域升级换代中的新兴存储体 - 公司新闻 - 北京正兴华泰数码影视技术有限公司
 您当前的位置: 首页 >> 公司新闻
 
 
广电领域升级换代中的新兴存储体
来源:北京正兴华泰数码影视技术有限公司 发布时间:2015-08-13 查看次数: 76

广电领域升级换代中的新兴存储体
——“龙存”带外架构分布式大规模集群存储


作者:北京正兴华泰数码影视技术有限公司   龙存事业部总经理 刘珉  技术总监 钱小韵
关键词:存储 带外架构 分布式集群存储


推动技术的发展,推动业务的创新
所有有价值的技术都是为业务服务的。反之,所有业务的创新,又因新技术的出现而得以实现和发展。新的存储技术与广电的关系也正是如此。“LoongStore龙存分布式大规模集群存储”代表着存储领域的最新一代技术,正与广电领域广大客户一并前行。

广电的发展和变化
如今的广电正步入全台网络化、IP化、云化时代。伴随着移动媒体(手机、iPad)、互联网媒体、各种LED屏等新视频媒体的层出不穷,以及各种新兴应用,微博、微信、手机视频、手机电视、互联网视频,互联网电视、iPad应用、户外视频等,逐渐形成了新媒体形态。
就目前互联网视频用户数量已经与传统电视媒体的用户数量相当,足以说明,如今广电面临的是新媒体与传统媒体并存的时代。而媒体融合与整合是基础,面临的就是如何通过新技术,来满足新业务,并构建未来的发展。
如今广电的另一个特点就是数据量的大爆发。从标清时代进入高清时代,而4K技术又接踵而至,面临的数据量是成几何级数的增长。真人秀季播节目在电视台比比皆是,几十个机位同时记录现场画面,多种拍摄手法并用,每天采集的数据量都是空前的。面对如此庞大的数据量,迫切需要更新换代新兴存储体,来满足业务的增长和需求。
无论是面临IP化、新媒体,还是大数据爆发的时代,构建一套可以融合、共享,并具有对未来弹性增长而按需匹配的基础存储体,无疑是件基础再基础不过的事情了。

广电领域正在升级换代新兴存储体
在与多家电视台的走访和合作中发现,电视台已经清楚的认识到了今后发展的变化与成长性。在电视台里运行了多年的FC/SAN架构的存储体,无论在运维,还是后续业务突飞猛进的发展中,已经越来越不能满足新型业务形态的发展和需要。所以各电视台纷纷了解和采纳新兴的存储体—分布式大规模集群存储。
该架构的存储体,最早应用于互联网行业,本身就是面对海量数据、大量客户并发访问等应用特性应运而生。并在互联网领域、高性能计算、数字电影等领域应用多年,取得了非常优异的应用效果。
广电领域在面对融合媒体平台建设,智慧媒体平台建设以及云平台建设中,纷纷采用了该架构的新兴存储体。同时在全台网和非编网改造中,也采用这种架构的存储体。可见,在广电领域正在进行着新兴存储体的更新换代,来应对和面向电视台业务发展的新方向。

新兴存储体的变化和优势
那么电视台为什么会选用分布式大规模集群存储这种新兴的存储体做为更新换代的产品呢,我们就要从存储的演变和发展进行了解。

第一代存储体DAS(Direct Attached Storage直接连接存储)
 
从这张图,我们可以清楚地看到,我们的存储就是硬盘,与主机直接相连。后来发现存储空间不够了,就通过SCSI线,在服务器外面连接磁盘柜来扩容。后来又发现空间还是不够(受SCSI外接设备限制),在服务器和磁盘柜中都增加了控制器,以扩大连接外设数量,来扩容。这样,在DAS年代,磁盘柜最终被广泛应用。但是,依然可以清清楚地看出服务器与磁盘柜之间仍然采用的是SCSI线来连接,也就意味着,无论怎样扩容,都是单台服务器连接存储设备。也就是说,其他计算机设备只能通过与存储设备相连的服务器来共享存储空间。这样的解决方案,到了网络时代显然是落后了。

第二代存储体 SAN(Storage Area Network存储区域网)
 
这个是颠覆性的发展,以前是服务器通过SCSI连接磁盘阵列,如今的变化是,存储设备通过网络与服务器连接。这样的好处是,所有的服务器都可以接入这个网络,做到了存储设备共享,实现了存储区域网(SAN)。这个存储区域网是后续所有存储网络接入的基础。但到目前为止,存储设备仅增加了网络接入接口,还是不够智能,没有发挥存储设备本身的能力,所以后续有了NAS的出现。

第三代存储体 NAS(Network Attached Storage网络附加存储)

这张图与SAN架构图突出的区别的是存储设备不再是个单纯的存储空间加网络接口,而是一台存储服务器(或称NAS服务器)来实现存储功能。它里面有操作系统,有文件系统,有许多服务器自身的功能。好处是减轻了应用服务器的工作压力,应用服务器仅需在目录层与其文件系统建立连接即可。至于后续存储的负责均衡、数据备份、数据安全种种关于存储应该做的事由NAS服务器完成。这样,就把应用服务器解放出来,去做其应该做的任务(应用服务器本身应该处理的各种业务程序,而非存储应完成的工作)。
网络附加存储(NAS),主意就是智能存储体增加网络功能,而不是一个单纯可以连接存储体的网络(SAN)。NAS存储设备与SAN存储设备在实际使用中,NAS是带文件系统的存储体,与其连接,通过软件直接挂载就可以使用了。而SAN存储设备(块设备),要服务器挂载存储体后,再格式化,并独享已挂载空间。而NAS设备可以共多个服务器同时挂载并共享存储空间。

第四代存储体 分布式大规模集群存储(Distributed Scale-Out Cluster Storage)
NAS是单机设备,但随着数据量爆炸式增长,存储性能需要线性增加的时候,单机版的NAS已经很难应付业务的成长性。更加弹性、性能更加优越、布置更加灵活、性价比更好的分布式大规模集群存储应运而生,是海量数据时代的最佳解决方案。
分布式大规模集群存储(也称集群NAS),就是将存储任务分配给许多相同的智能存储设备(NAS服务器),并由众多存储设备协同工作,来提供海量数据时代的存储空间及性能要求。更加具象的就是,所有应用服务器可以通过网络直接连接到一个存储设备的集群,而存储设备集群对外表象是一个统一命名存储空间。而具体存储工作无需应用服务器关注,它们会自己协同工作,统一管理,统一对外服务。
这种架构的好处是在分布式大规模集群存储系统中,你可以非常弹性的增加存储设备扩容空间并提高存储性能。每个存储设备都提供空间和性能的对外服务,这样所有使用这个存储集群的应用服务器可以共享到所有存储设备的空间和性能。这样就可以实现空间无限扩容,性能无限增加的理想应用。
面对众多的专用存储设备,分布式大规模集群存储系统架构在性能更优、架构更开放的X86服务器之上。这样,存储设备在价格和性能上达到了空前的性价比优势,在后续维护上更廉价更简单。同时伴随着X86服务器性能的日新月异的更新,存储系统的性能也随之不断提高。

带外架构的分布式大规模集群存储可以给广电应用带来什么
在分布式大规模集群存储系统中,还有两种架构,全对称式架构和非对称式架构(带外架构),“龙存”就是属于后一种。

全对称式架构:每个存储设备对等对外提供服务,每个存储设备即提供数据的存储空间又完成数据的管理任务。就是一台X86服务器的存储设备,既要提供数据的读/写操作“体力活”,又要提供数据的切片、分发、整合等“脑力活”,等于一台X86的存储设备既干“脑力活”又干“体力活”,一“人”多职。

非对称式架构(带外架构):把每个存储设备的“脑力活”提取出来,让专职设备“元数据服务器集群”去完成,这样就解放了存储设备。存储设备可以全力以赴对外提供数据的读/写操作“体力活”,大大提高了存储设备对外提供读/写服务时的性能。同时因增加了新的“大脑”功能,可以实现使用者在“横向”和“纵向”两个方向上的性能线性扩容增长,实现无限扩展使用空间和存储整体性能的理想应用状态。这就是“龙存”最初的设想。
(带外架构拓扑图)
 
所谓“横向”X轴——指存储空间的增长和存储系统整体对外提供读/写混合带宽的增加。所谓“纵向”Y轴——在存储空间和读/写带宽满足使用者的前提下,随着使用者人数的增加和文件数据量的增加,而实现大用户数并发性能和海量文件检索性能的“纵向”性能提高,而非扩容存储容量。
“带外架构”可以实现在“横向”上增加存储服务器数量来扩容,扩容同时,可以得到读/写混合带宽的线性增长。在“纵向”上增加元数据服务器数量,来提升大用户数并发访问的能力和海量文件检索的能力。
 
是不是“大脑”元数据服务器集群会成为瓶颈和热点呢?!答案:不会!因为“大脑”元数据服务器本身已经集群化,可以有多个“大脑”并发运行。另外,运行中,使用者仅在开始与存储服务器集群建立连接时会通过“大脑”来确认,我的数据“放到哪”,“从哪取”,而“大脑”会发出指令,告诉使用者“去哪放”,“从哪拿”。然后,使用者就会和存储服务器集群直接打交道了,这样“大脑”并不会在后续读/写过程中形成瓶颈和热点(如图所示)。
 
相反,因为使用者与存储服务器集群直接打交道,反而形成了“多对多”的并行运行模式,多个使用者对多台存储服务器,摒弃了全对称架构中(集群NAS),使用者需与指定的存储服务器打交道。如果数据不在指定存储服务器上,要通过指定存储服务器与其它存储服务器打交道,这样会在指定存储服务器上形成热点。而非对称架构的使用者没有指定存储服务器的这种运行方式,实现了与存储服务器间无热点、无瓶颈、大并发的使用效果。也就是说“使用者越多,则速度越快”,这就是“带外架构”的优势和特点。与常理般的用户数量越多速度越慢恰恰相反。用户越多,越能体现其性能,越能突显性能优越。“龙存”就是这种带外架构的分布式集群存储系统。
(带外架构并行运行连接示意图)
 
“龙存”为何选择开发“带外架构”的分布式大规模集群存储呢?
“龙存”的核心研发团队,来自中科院计算所,是高性能计算和分布式大规模集群存储领域研究的核心成员。经过多年的研究和对存储系统发展的研判,并比对全球存储领域各知名厂商的产品分析,最终认为,伴随大数据时代的到来,唯有最新的带外架构的分布式大规模集群存储系统,才可以充分满足用户未来的需求。包括海量文件检索,爆炸式数据增长所需的空间,高并发客户访问,以及存储整体对外提供大的读写带宽的需求。并可以灵活、弹性的布置自己的存储系统,是一个完美的大数据时代的存储解决方案,才最终选定了“带外架构的分布式大规模集群存储架构”。并完全独立开发,没有应用任何开源程序,完全自主知识产品。这样的好处是,在开源上,也许开发速度和进程快,但可以调节和改变的参数也就十几个到二十几个。而自主开发,可以实现上百个参数调整和设定,可以完全掌控存储的性能。这也就是“龙存”系统速度快到让存储专家吃惊的原因(可以实现单硬盘读/写混合速度50MB/s)。这样“龙存”系统从第一行代码就是自己编写,实现了100%自主知识产权,并可以随时按照客户需求定制开发。由于有非常先进的存储算法和自主研发的基础,“龙存”始终保持着存储领域速度第一的优异性能。以“龙存”存储系统为例,目前可以支持1000PB级存储容量,2000亿个文件管理,40000个节点并发访问,数百GB的聚合带宽,其规模目前在中国无人企及。
在“龙存”实际客户中,人人网通过“龙存”系统管理着超过600亿的小文件。在CNTV“龙存”管理着10PB的数据。在环球数码有2000台数字电影终端同时在“龙存”上做渲染。在用友软件有1800台虚拟机同时读取“龙存”系统。在大庆油田有2000台刀片服务器,6个月长时间不间断,同时计算并随机高负荷的调取“龙存”系统上的数据,读写带宽长时间在10GB以上。
自从2007年“龙存”产品开发出来,至今为我们客户管理着几百PB规模的数据量。很多大型客户长期运行在10GB以上的读/写聚合带宽,对于海量文件和大用户数并发访问都提供了非常卓越和稳定的服务,没有一起数据丢失。在客户多次升级改造中,依然选用“龙存”系统,充分说明了其性能卓越,系统安全稳定,是用户存储系统的理想选择和具有极高的实际应用价值。
因为“带外架构”的分布式大规模集群存储系统,在“横向”X轴和“纵向”Y轴上都可以非常灵活的扩容。使用者则可以非常灵活和有弹性的增加自己所需要的性能,满足业务的飞速发展。应对业务的创新与变化,实现随机应变,按需所配的理想应用。
在广电领域里,IP化已经是大势所趋。面对数据量爆炸式增长,可以在“横向”上增加存储服务器数量来实现无限扩容。在新媒体平台、融合媒体平台、智慧媒体平台、云平台、全台网、非编网等诸多平台的建设中,在面对新媒体海量文件的增长,面对面临更多的人共享和使用平台,可以在“纵向”上增加元数据服务器数量,来满足对大用户数并发访问和海量文件检索性能的需求,而实现为广电IP系统中数据共享基础建设奠定坚实的基础。

未来软件定义存储,如今已成现实
伴随存储的发展,存储硬件设备已经开始采用通用设备了(X86存储服务器),这样,我们其实可以把存储硬件和软件剥离开来。存储软件,可以通过先进的算法,起到组织和协调所有存储硬件设备,并让这些硬件设备发挥出最佳效率的作用。同时将SAN存储设备(块设备)与NAS分布式存储系统(文件存储设备)整合在一套存储系统中,把以往老旧存储设备与新存储设备整合,这些都可以通过存储软件实现。
所谓的未来“软件定义存储”,其实目前在“龙存”架构中已经实现。以后买存储,就可以哪家硬件便宜,哪家硬件性能好,就采用哪家硬件设备。而存储软件统一管理多品牌硬件设备,实现多模式的应用状态,并发挥出分布式集群存储系统的最高性能,最大效率。
 
互联网+、广电IP化,未来的广电生机无限,用新技术焕发青春,将获得巨大发展
在互联网+大背景下,广电IP化在飞速的发展,如今的广电有着“内容为王”的优势,利用好新技术,再将触角从传统的电视领域,拓展到新生媒体领域,必将焕发出新的青春,获得巨大发展。我们愿与广电领域共同发展,共同进步,好的技术永远服务于业务并满足业务发展的需要。我们的“龙存带外架构分布式大规模集群存储”定能为广电领域带来新的生机。

(全文摘自《现代电视技术》2015年8月专刊)

 

 

 

 

Copyright @ 1998-2014 Gension All Rights Reserved
版权所有北京正兴华泰数码影视技术有限公司
京ICP备:07503643号-1  北京市公安分局丰台分局:1101060590