高校公共计算平台建设模式的探索
中图分类号:TP38文献标识码:A文章编号:1673-1069(2017)05-142-2
1高性能计算平台建设的筹备
面对学校各大理工学科对于科学计算的庞大需求,大连理工大学应当建一台全校共享的大型高性能计算机为学校的科研提论文网供基础性平台支持。
从平台开放共享。全体受益的原则考虑,高性能计算设备考虑由一个技术型服务部门来负责建设。运行和管理,该部门应当有能力对网络和IT设备提供专业的技术支持,能够为大型计算机的运维提供保障。大连理工大学网络与信息化中心是学校数字化校园建设的核心技术部门,有校园骨干网等大规模网络架构的设计能力,有完善的运行管理制度和丰富的大型IT设备运维经验。根据学校的具体情况,选择了网络与信息中心作为高性能计算平台的托管单位。
高性能计算平台的建设并不是简单的设备采购,需要将购置和研发相结合,既要承担一定的技术创新的任务,也要担负起探索开放式公共服务体系和运营管理机制创新的工作。在项目建设正式启动之前,网络与信息中心先行建设了一台64节点试验性计算平台,包含64个双路8核刀片节点,理论峰值为3。2Tflops,并专门成立了高性能计算运行管理部门,在开放运行的实践中摸索平台建设和管理经验,大胆进行管理制度和运行机制的创新。试验计算平台的运行,在科研支持。需求培育和制度建设等诸多方面获得了良好成效。通过对试验平台运行数据进行总结和分析,为高性能计算平台的建设提供了必要的决策依据。
2高性能计算平台的设计思路
2。1整体框架设计
通过深入开展调研并结合试验计算平台的运行统计,考虑到未来几年计算需求的增量,根据按需建设。适度超前“的指导思想,推算出学校需要投建性能不低于300万亿次/秒的集群才能满足未来3~5年各学科的计算需求。而各学科在应用层面的多样性也为集群的架构设计带来了一定的挑战。因此从全校角度出发通盘考虑,既要创建一个通用的计算环境,又需要照顾到不同用户和应用的特殊需求,最终设计了一个多层次。相互补充和协同工作的高性能计算环境,其布局概念如图1所示:全校的高性能计算环境由一个拥有最高端计算能力的校级高性能计算平台和各院系自建的次级计算平台或工作站组成,以达到全校计算资源的合理配置和优化利用。校级计算平台提供大规模并行计算求解和异构加速计算服务,院系自建的计算设备可用于建模。前后端处理和小规模开发试算等应用。
图1全校高性能计算整体框架
2。2高性能计算集群的设计
在前期论证研讨过程中,根据学校实际应用需求情况,可采用技术较为成熟的大规模计算机集群,其中第一层设备两路计算节点是大规模数值求解和海量数据处理的主力,选取高密度刀片式方案;第二层计算设备为按需配备一定比例的机架式MIC和GPU异构加速节点;计算网络为InfinibandFDR56GB网络,管理网络为千兆以太网;采用商业版作业调度和资源管理软件,以满足复杂的作业管理需求;节能方面考虑,部署水冷系统[1],根据北方地区气候条件估算,机房电能使用效率(PUE)可控制在1。45左右,年均可节约电费约50万元。图2为集群框架概念图。
3高性能计算平台运行管理机制探讨
3。1组织与建制
①组建超算部。在学校网络与信息中心内已成立超算部,当前已借助试验平台做了一些前期建制的探索工作,具体包括负责拟定校高性能计算建设的总体发展规划;制定合理的运行管理制度;根据用户应用需求合对平台资源进行合理分配和管理;培育和开发校内和周边科研单位的重大应用;做好用户培训和教学,推动高性能计算的高水平应用。②成立高性能计算专家咨询委员会。将主要由校内各学科应用学者代表组成,负责高性能计算相关工作的组织。协调和重大问题的决策;对高性能计算平台建设的规??和方案等重点问题进行指导。评估和论证;协调。组织高性能计算领域的学科交叉与合作。技术交流和人才培养等工作;对平台在研项目进行评审,评定重点扶持或奖励等级[2]。
3。2服务与管理
优质的服务是高性能计算平台为科研用户创造良好科研环境的重要内容,服务工作主要应体现在如下方面:①管理制度严明。要满足用户长时间。不间断计算的特点,高性能计算设备必需保证7X24小时正常运转,因此必须配备严格的机房和设备管理制度,规定每日2次巡检,定期对配电。空调。安防等设备进行检查,消除安全隐患。定期出具运行统计报告,让用户了解平台运行情况。②技术支持专业。高性能计算平台技术支持的专业性不仅体现在系统日常管理与维护上,更要体现对用户不同领域和学科专业的支持。因此对人员要求相对比较高,不仅要精通计算机网络技能,还需要对物理。化学。力学等与计算相关的学科有深入的背景知识。因为高性能计算平台服务对象主要是用到大规模并行计算的科研人员,具体则涉及各学科专业软件的使用,如果没有足够深入的学科专业背景知识和科研经历,那么平台技术支持人员最多只能是维持系统的运行,而对于提升应用水平。发挥平台效用则力不从心,因此比较理想的人选是在这些学科方向有一定研究基础的博士来担任。这也是将HPC的内涵从HighPerformanceComputer“到HighPerformanceComputing“的理念上的提升。
4高性能计算应用培训与教学
培养高性能计算人才。提升高性能计算在科研中的高水平应用是平台建设的另一大任务。在试验平台运行期间,我们就已开展过几期应用培训,最终发现这类短期的应用培训并不能满足师生的需要。从培养科学计算用户的角度出发,提炼学校各科研领域同关注的问题,传授实用的科学计算技术,使师生能够在各自的科研工作中用好高性能计算平台和工具,提高科研效率和水平,这才是我们在设计高性能计算应用教学首要考虑的问题。为此,在校研究生院的支持下,我们开设了大规模并行计算与应用的研究生课程,联合物理。化工。材料和力学等学科长期工作在教学科研一线的教授,结合科研实例讲授各学科在高性能计算中的实践和应用,并提供上机环境供学生演练,为学生开辟良好的高性能计算学习和实践环境。
5结束语
高性能计算平台的建设与发展将围绕该校中长期发展战略规划和十二五“发展规划的总体要求,以数字化智慧校园建设为核心,整合学校各重点学科的优势资源,打造一个技术先进。服务优良。成果突出的科技创新支撑平台。高性能计算平台的建设不仅仅是设备采购。技术更新的过程,更是公共服务平台运行机制。管理模式和制度建设的全面探索与创新。
高校公共计算平台建设模式的探索