招标
大学校级高性能计算管理平台需求公示
高性能计算管理平台计算模拟HPC集群高性能计算平台CPU服务器公共计算服务平台计算支撑服务高性能计算集群管理软件深度学习管理软件高速大容量存储系统高速IB计算网络GPU服务器校级计算平台领先级超算平台学校各类科研平台大规模科学计算基础运算环境高效节能高性能计算研究服务中心高性能校级超算平台新型材料地球物理生物医药健康计算机辅助工程仿真数学统计学物理学量子化学生物信息学计算机科学高性能计算集群管理调度软件应用特征分析工具并行环境并行存储系统千兆管理网络HDR100计算网络深度学习计算集群管理调度软件人工智能高效处理复杂运算登录节点6TBSATA硬盘光模块IPMI专用千兆管理口单端口HDR100GHCA卡支持按需申请CPU核数和GPU卡数OCP扩展插槽双机互备管理模式高效冗余热插拔电源主机安全加固模块支持网络访问控制服务端口监控系统自我保护功能计算机软件商业版软件集群资源监控集群资源整体监控集群性能监控集群作业规模分析统计提供最近四周的作业完成情况统计扩展监控支持用户动态配置监控集群报警提供邮件及短信报警方式集群物理拓扑视图集群节点进行管理支持自定义集群物理视图通过物理视图查看各计算节点的开关机远程桌面工具GPU及MIC作业WEB页面提交作业集成常用应用模板交互式图形作业作业流机制算例生成提供大数据处理的环境及相关的管理功能计算结果处理先进先出资源回填公平共享作业抢占用户循环调度用户作业均衡作业调度用户缴费及余额管理支持批量用户缴费用户缴费记录查看提供欠费提醒功能支持按组对用户的作业数及资源进行统计用户详单查询集群运行情况统计分析报表集群运行情况分析统计报表集群完成作业数分析统计集群的可用节点支持通过IPMI对节点电源进行管理通过设置缓冲节点对动态调整粒度的设置实现学校/单位内部用户帐号的统一管理HPC计算平台Hadoop管理spark计算资源管理分配访问资源任务提交提供功能截图CPU资源监控CPU节点监控GPU整体监控GPU节点监控AI作业提交AI作业管理报表统计x86服务器告警CPU集群实时特征数据CPU利用率MEM利用率内存带宽PCI-E带宽浮点计算速度AVX向量化率整体分析节点分析展示单个计算节点各指标的运行曲线指标分析对比分析数据统计数据去噪正态分布图雷达图导出用户和用户组账单功能节点特征数据监控基础资源支持用户和用户组优先级设置提供任务排队机制支持GPU多任务共享平台存储新建和删除等功能训练开发环境容器服务创建多版本多框架的容器开发环境和容器的创建和删除编辑并保存pycharmIDE开发工具深度学习框架AI多机并行加速性能测试使用ImageNet图片集多种任务框架的任务模板节点缓存数据配置云存储编辑用户组相关信息删除用户组维护用户的角色变更修改配额不同权限管理启动停止自己的代码私有模型普通用户组用户系统管理员机时时间查询功能集群统计集群利用率节点利用率作业规模统计作业数量统计GPU数量统计框架统计用户统计曲线统计支持将用户选择的样本数据预读到计算节点训练I/O瓶颈问题缓存自动清理数据更新缓存管理策略任务调度到已缓存数据的计算节点四种任务调度任务优先级模式用户组轮询模式用户轮询模式Gangscheduling调度网络拓扑亲和调度PCIE亲和调度设备类型亲和调度历史资源优先调度资源调度支持用户通过选择硬件资源训练脚本模型训练全生命周期管理任务创建进度查看日志查询过程可视化历史任务模型保存分布式训练模型可视化数据加速缓存数据管理策略支持计算节点缓存数据的记录与统计清理计算节点未在用的缓存数据资源组管理FIFO调度用户优先级调度紧急任务调度开发环境管理环境搭建AI框架开发环境配置映射端口开发环境生命周期管理并行文件系统全局文件系统并行存储体系元数据节点集群存储节点集群配额管理HDR100IB线缆HDR100HCA卡AI调参调优高性能相关培训Gaussian等离子物理EPOCH维修1HPC基础安装调试故障处理安装交换机高性能集群AI集群管理2HPCAI应用优化应用培训HPC应用特征分析HPC应用优化并行程序设计并行编程计算物理材料科学气象气候工业仿真领域应用分析GPU架构优化AI模型模型优化相关课程全英文培训课程备品备件应用并行调优验收检测图纸
金额
600万元
项目地址
广东省
发布时间
2020/12/17
公告摘要
项目编号202000392726
预算金额600万元
招标联系人-
标书截止时间-
投标截止时间-
公告正文
项目名称
大学校级高性能计算管理平台项目 
是否预选项目
否 
采购人名称
香港中文大学(深圳) 
采购方式
公开招标 
财政预算限额(元)
6,000,000.00 
项目背景
近年来,高性能计算(HPC)和人工智能(AI)在我国很多领域都取得了巨大发展,从政府、高校、科研院所到企业,都深刻认识到计算模拟对提高技术创新能力、加快创新速度、降低开发成本的重要支撑作用。众所周知,过去这些年,国内高校承担的科研任务越来越多,对高效处理复杂运算的需求越来越强,过去只用于少数科研机构的HPC,也开始成为众多院校必备的“基础设施”,纷纷建立校内高性能计算平台。强大的计算力极大地提升了学校科研进度和整体创新能力,促进了相关教学、科研工作的开展,高性能计算和人工智能已成为高校教学、科研创新的一个基本手段。
从采购单位目前计算资源建设情况来看,主要面临的问题如下:
1.1.   物理资源管理零散;各个学院、科研部门之间计算资源分散,各自为阵式的建设利用率极低,造成了资源的浪费,缺乏高效统筹机制的问题
1.2.   资源申请不规范;资源申请流程仍过于繁琐,缺乏自动化的资源申请、分配工具。当申请人提交申请后,计算资源需要依靠人工手动分配,无法实现即租即用,整个过程耗时耗力
1.3.   资源利用率低;服务器资源只能以整机的方式分配给各科研团队,例如一台服务器有 4块 GPU,当某个 AI 任务只需使用 2块 GPU 时,申请人会被分到一整台服务器,如此分配方式往往导致资源使用不饱和,造成浪费;
1.4.   资源回收困难;任务结束后,由于需要人工手动清理机器遗留数据, HPC 集群也存在资源回收不及时、机器时常处于闲置状态的问题
因此需要建立一个技术先进、架构灵活、扩展方便、满足计算要求的校级公共计算服务平台,逐步将硬件、软件以及人力资源有机整合起来,为各学科提供计算支撑服务,同时解决高校计算集群“零星分散、自建自管”的问题,从而提高计算平台的有效性和高效益。
本次项目通过新购一套高性能计算集群管理软件、深度学习管理软件、高速大容量存储系统、高速IB计算网络等产品对学校现有零散的CPU服务器和GPU服务器进行统一管理,搭建一个校级计算平台,后续采购的服务器可直接纳管入该平台,也为日后建立领先级超算平台搭好整体框架、为学校各类科研平台的大规模科学计算提供一流的基础运算环境,为学校建设一个功能齐全、平台丰富、高效节能、高性能计算研究和服务中心。本次高性能校级超算平台的应用领域包括深度学习、新型材料、地球物理、生物医药健康、计算机辅助工程仿真等,涉及数学、统计学、物理学、化学、生物信息学、计算机科学等多个学科。
 
 
投标人资质要求
1.满足《中华人民共和国政府采购法》第二十二条规定; 
2.落实政府采购政策需满足的资格要求:无 
3.具有独立法人资格或具有独立承担民事责任的能力的其它组织(提供营业执照或事业单位法人证等法人证明扫描件,原件备查)。 
4.本项目接受投标人选用进口产品参与投标;不允许转包、分包。 
5.参与本项目投标前三年内,在经营活动中没有违法记录(由供应商在《政府采购投标及履约承诺函》中作出声明)。 
6.参与本项目政府采购活动时不存在被有关部门禁止参与政府采购活动且在有效期内的情况(由供应商在《政府采购投标及履约承诺函》中作出声明)。 
7.未被列入失信被执行人、重大税收违法案件当事人名单、政府采购严重违法失信行为记录名单(由供应商在《政府采购投标及履约承诺函》中作出声明)。
注:“信用中国”、“中国政府采购网”以及“深圳市政府采购监管网”为供应商信用信息的查询渠道,相关信息以中标通知书发出前的查询结果为准。 
8.单位负责人为同一人或者存在直接控股、管理关系的不同供应商,不得参加同一合同项下的政府采购活动; 
9.若所投产品为进口,则投标人须提供由设备制造商或授权的中国总代理签署的合法有效的保修、维修承诺函 ;若所投产品为国产产品,则无需提供。 
10.本项目的特定资格要求:无 
 
货物清单
序号 采购计划编号 货物名称 数量 单位 备注 财政预算限额(元)
1 202000392726  大学校级高性能计算管理平台  1.0  项  详见货物清单  6000000.0 

具体技术要求
(一)货物总清单
序号
采购计划编号
货物名称
数量
单位
备注
财政预算限额(元)
1
PLAN-2020-*****
大学校级高性能计算管理平台
1

部分进口
6,000,000.00

 
(二)货物清单明细
序号
采购计划编号
货物名称
数量
单位
推荐品牌
备注
1
PLAN-2020-******
管理\登录节点
6

浪潮、联想、曙光
拒绝进口
2
高性能计算集群管理调度软件(包含129个节点授权)
1

浪潮、联想、曙光
拒绝进口
3
应用特征分析工具
1

浪潮、联想、曙光
拒绝进口
4
并行环境
1

浪潮、联想、曙光
拒绝进口
5
深度学习计算集群管理调度软件(包含59个节点授权)(核心产品)
1

浪潮、联想、曙光
拒绝进口
6
并行存储系统
1

浪潮、联想、曙光
拒绝进口
7
千兆管理网络
5

浪潮、联想、曙光
拒绝进口
8
HDR100计算网络
3

 
接受进口
9
高性能数值运算应用并行调优服务及培训
144
课时
浪潮、联想、曙光
拒绝进口

 
注:1.备注栏注明“拒绝进口”的产品不接受投标人选用进口产品参与投标;注明“接受进口”的产品允许投标人选用进口产品参与投标,但不排斥国内产品。
2、进口产品是指通过海关验放进入中国境内且产自关境外的产品。即所谓进口产品是指制造过程均在国外,如果产品在国内组装,其中的零部件(包括核心部件)是进口产品,则应当视为非进口产品。采用“接受进口”的产品优先采购向我国企业转让技术、与我国企业签订消化吸收再创新方案的供应商的进口产品,相关内容以财库〔2007〕119 号文和财办库〔2008〕248 号文的相关规定为准。
3、本项目核心产品为:    深度学习计算集群管理调度软件     。
 
说明:1、带“★”指标项为实质性条款,如出现负偏离,将被视为未实质性满足招标文件要求作投标无效处理。带“▲”指标项为重要参数,负偏离时依相关评分准则内容作重点扣分处理。
2、招标技术要求中,用红色字体标注的技术条款为要求提供证明资料的条款,共16     项,其余为未要求提供证明资料的条款,无需提供相关证明资料。
3、评分时,如对一项招标技术要求(以划分框为准)中的内容存在两处(或以上)负偏离的,在评分时只作一项负偏离扣分。
 
1.                项目背景说明
近年来,高性能计算(HPC)和人工智能(AI)在我国很多领域都取得了巨大发展,从政府、高校、科研院所到企业,都深刻认识到计算模拟对提高技术创新能力、加快创新速度、降低开发成本的重要支撑作用。众所周知,过去这些年,国内高校承担的科研任务越来越多,对高效处理复杂运算的需求越来越强,过去只用于少数科研机构的HPC,也开始成为众多院校必备的“基础设施”,纷纷建立校内高性能计算平台。强大的计算力极大地提升了学校科研进度和整体创新能力,促进了相关教学、科研工作的开展,高性能计算和人工智能已成为高校教学、科研创新的一个基本手段。
从采购单位目前计算资源建设情况来看,主要面临的问题如下:
1.1.               物理资源管理零散;各个学院、科研部门之间计算资源分散,各自为阵式的建设利用率极低,造成了资源的浪费,缺乏高效统筹机制的问题
1.2.               资源申请不规范;资源申请流程仍过于繁琐,缺乏自动化的资源申请、分配工具。当申请人提交申请后,计算资源需要依靠人工手动分配,无法实现即租即用,整个过程耗时耗力
1.3.               资源利用率低;服务器资源只能以整机的方式分配给各科研团队,例如一台服务器有 4块 GPU,当某个 AI 任务只需使用 2块 GPU 时,申请人会被分到一整台服务器,如此分配方式往往导致资源使用不饱和,造成浪费;
1.4.               资源回收困难;任务结束后,由于需要人工手动清理机器遗留数据, HPC 集群也存在资源回收不及时、机器时常处于闲置状态的问题
因此需要建立一个技术先进、架构灵活、扩展方便、满足计算要求的校级公共计算服务平台,逐步将硬件、软件以及人力资源有机整合起来,为各学科提供计算支撑服务,同时解决高校计算集群“零星分散、自建自管”的问题,从而提高计算平台的有效性和高效益。
本次项目通过新购一套高性能计算集群管理软件、深度学习管理软件、高速大容量存储系统、高速IB计算网络等产品对学校现有零散的CPU服务器和GPU服务器进行统一管理,搭建一个校级计算平台,后续采购的服务器可直接纳管入该平台,也为日后建立领先级超算平台搭好整体框架、为学校各类科研平台的大规模科学计算提供一流的基础运算环境,为学校建设一个功能齐全、平台丰富、高效节能、高性能计算研究和服务中心。本次高性能校级超算平台的应用领域包括深度学习、新型材料、地球物理、生物医药健康、计算机辅助工程仿真等,涉及数学、统计学、物理学、化学、生物信息学、计算机科学等多个学科。
 
2.                技术要求
序号
货物名称
招标技术要求
2.1.               1
管理\登录节点
2.1.1.       采用2U机架式服务器,非刀片或高密度服务器产品,不低于C622芯片组
2.1.2.       配置≥2颗Intel Xeon 4200系列处理器,主频≥2.4GHz、物理核心数≥10
2.1.3.       配置≥24个DIMM内存插槽;本次配置≥12根16GB DDR4 2933MHz类型的内存
2.1.4.       支持2.5寸硬盘扩展数量≥29个,3.5寸硬盘扩展数量≥20个;本次配置≥2块480GB SATA SSD, ≥4块6TB SATA硬盘
2.1.5.       配置≥1张12Gb 2GB RAID卡
2.1.6.       配置≥4口千兆以太网卡,≥双口万兆网卡带10Gbps SFP+光模块;1个IPMI专用千兆管理口
2.1.7.       配置≥1张单端口HDR 100G HCA卡
2.1.8.       根据后期业务需要,产品可以灵活支持≥4个Tesla 32GB V100 GPU,提供制造商官网认证,截图以:https://www.nvidia.com/en-us/data-center/tesla/tesla-qualified-servers-catalog/为准
2.1.9.       产品具有GPU扩展性,可通过GPU扩展的方式,实现≥16块GPU卡。
2.1.10.     支持OCP扩展插槽,可以不占用标准PCIe插槽扩展1G,10G,25G以太网口
2.1.11.     支持双机互备管理模式,确保单节点故障不影响作业调度情况
2.1.12.     配置1+1高效冗余热插拔电源,满足满配GPU时满负荷运行
2.1.13.     ▲配置主机安全加固模块:具备内核级文件/目录强制访问控制,具备内核级进程强制访问控制,具备内核级注册表强制访问控制。支持网络访问控制、服务端口监控。具备系统自我保护功能,保护系统自身进程不被异常终止、伪造、信息注入,系统自身文件不被恶意修改和删除。提供产品应为自主知识产权产品,拥有中华人民共和国国家版权局颁发的计算机软件著作权登记证书,提供证明材料,原件备查。
2.2.               2
高性能计算集群管理调度软件
2.2.1.       商业版软件,提供软件著作权证书,原件备查。调度软件基于Slurm平台开发
2.2.2.       集群资源监控:
提供集群资源整体监控功能,支持
监控集群计算节点的开关机及可用情况,集群CPU核的使用及空闲情况,集群内存资源的使用及空闲情况,集群各节点的资源使用及运行作业情况
2.2.3.       集群性能监控:
提供集群性能监控,实时监控集群的负载,CPU利用率,内存利用率,网络输入输出情况,提供集群历史运行曲线图
实时监控各计算节点的负载,CPU,内存,网络情况,并提供历史运行曲线图
2.2.4.       集群作业监控:
提供集群作业的监控,监控集群当前的作业运行及等待情况,提供最近四周的作业完成情况统计,支持按用户,用户组和队列统计作业的等待及完成情况
2.2.5.       提供扩展监控,支持用户动态配置监控项
2.2.6.       集群报警:
支持用户自定义报警阈值,支持对各计算节点分别设置报警阈值;提供邮件及短信报警方式,支持对多位管理员同时报警;支持用户自定义报警策略,定义报警方式,报警次数及报警时间间隔
2.2.7.       集群管理:
提供集群物理拓扑视图,通过物理视图查看集群及机柜拓扑,可对集群节点进行管理和配置。准确反映集群各节点的位置;支持自定义集群物理视图,添加、删除节点及机柜;通过物理视图查看各计算节点的开关机及繁忙状态,查看各计算节点负载及作业情况;显示各计算节点的报警信息;通过物理视图可直接打开计算节点的shell和远程桌面进行管理操作;通过物理视图查看该节点的性能运行曲线,通过物理视图对计算节点进行开关机操作
2.2.8.       集群管理软件提供远程桌面工具,可查看各计算节点的远程桌面并进行操作
2.2.9.       集群管理软件提供文件管理工具,可实现上传下载,复制,删除等文件操作,同时具备安全控制,每个用户只能操作自己工作目录下的文件,
2.2.10.     作业管理及调度:
提供对GPU及MIC作业的提交及调度, 提供WEB页面提交作业,并支持在线脚本上传,查看,编辑,保存。提供应用模板功能,集成常用应用模板,包括但不仅限于以下应用:VASP、Gaussian、Amber、Gromacs、Abinit、Named、NvChem、CP2k、Fluent、Abaqus、Dyna、CFX、Comsol、PowerFlow、Nastran、Ansys、Star CCm+;
2.2.11.     支持用户动态集成应用模板,允许用户自定义应用参数; 支持交互式图形作业的提交及图形作业VNC登录查看;
2.2.12.     支持作业运行过程中实时查看作业运行节点性能曲线图,性能指标包括CPU利用率/内存利用率/节点负载
2.2.13.     提供作业流机制,提供对常用应用的算例生成、数据处理及计算结果处理,支持集成ansys,vasp,Fluent,gaussian等应用;
2.2.14.     支持先进先出、资源回填、公平共享、作业抢占、用户循环调度、用户作业均衡等多种作业调度策略;
2.2.15.     提供用户缴费及余额管理,支持批量用户缴费,支持用户缴费记录查看。 提供对用户作业消耗的资源进行计费,包括机时,CPU时间,内存;支持对用户分别设置资源单价
2.2.16.     提供欠费提醒功能,用户费用不足,将限制用户提交作业。
2.2.17.     提供对不同时间段内用户完成的作业数,消耗资源,及产生费用的统计,并支持按组对用户的作业数及资源进行统计。 提供用户详单查询功能,查询用户每个作业的基本情况、资源消耗情况及费用
2.2.18.     提供集群运行情况统计分析报表,提供集群运行情况分析统计报表,提供集群完成作业数分析统计报表,提供集群作业规模分析统计报表。支持分析统计报表导出为XLS格式
2.2.19.     提供根据集群的作业排队情况及集群负载情况动态调整集群的可用节点, 支持通过IPMI对节点电源进行管理
2.2.20.     支持通过设置缓冲节点及状态保持时间保证对作业的快速响应, 支持对动态调整粒度的设置, 提供对集群节省机时的统计
2.2.21.     HPC集群支持通过NIS,AD域,LDAP的方式进行登陆认证,实现学校/单位内部用户帐号的统一管理
2.2.22.     支持在HPC计算平台,同时提供大数据处理的环境及相关的管理功能:
2.2.22.1.    HPC,Hadoop,spark计算资源管理及分配
2.2.22.2.    HPC,Hadoop,spark任务提交,调度,管理
提供功能截图
2.2.23.     ▲为保证产品成熟度,并确保以上功能齐全,中标公告后3个工作日内,中标商必须提供视频演示,演示上述软件基本功能,包括但不限于集群物理视图、CPU资源监控、CPU节点监控、GPU整体监控、GPU节点监控、AI作业提交、AI作业管理、Hadoop管理、报表统计等功能。
2.2.24.     ▲提供包含不少于129个节点授权。软件必须支持部署和纳管不同品牌不同机型的x86服务器,安装后须保证监控、管理、调度、告警等各项功能正常使用。所有节点能组成一个统一的CPU集群,实现管理、使用、维护的一体化。
2.3.               3
应用特征分析工具
2.3.1.       ▲商业版软件,提供产品的软件著作权证书扫描件,为保证兼容性和服务统一性,与高性能计算集群管理调度软件同一品牌
2.3.2.       支持HPC应用运行过程中,采集应用的特征数据,如CPU利用率,MEM利用率,内存带宽,PCI-E带宽、浮点计算速度、SSE、AVX向量化率等指标
2.3.3.       支持监控各计算节点的实时特征数据,实时了解应用运行过程中对计算节点的性能影响
2.3.4.       支持展示本次应用运行过程中,各计算节点、各指标的整体运行曲线图,从整体上分析该应用对计算节点性能的要求,从中发现关键计算节点和关键指标,以待进一步分析
2.3.5.       支持整体分析:展示本次应用运行过程中,各计算节点、各指标的整体运行曲线图,从整体上分析该应用对计算节点性能的要求,从中发现关键计算节点和关键指标,以待进一步分析。
2.3.6.       支持节点分析:展示单个计算节点各指标的运行曲线,分析应用程序对各指标性能要求及各指标之间的相互影响。
2.3.7.       支持指标分析:展示各计算节点同一指标的运行曲线,分析应用程序对不同计算节点的性能要求。
2.3.8.       支持对比分析:可任意选择不同数据集,不同节点,不同时间段的指标数据进行分析对比。
2.3.9.       支持数据统计:统计各指标数据的最大值,最小值,平均值,方差,离散系数等
2.3.10.     数据去噪:可过滤掉不符合要求的数据。
2.3.11.     统计数据的分布情况,绘制正态分布图;生成应用程序性能雷达图,形成应用程序的特征分析结果。
2.3.12.     分析结果保存及导出:将分析曲线图保存为图片,可将分析结论手动输入,同分析图一同保存。将分析过程中生成的曲线图及结论形成分析报告,导出为pdf或word文档。
2.3.13.     支持将采集到的数据从数据库导出,并下载到本地
2.4.               4
并行环境
2.4.1.       千兆消息传递并行库,万兆/IB消息传递并行库,高性能消息传递库,主流编译、调试软件,C++/Fortran 编译器
2.5.               5
深度学习计算集群管理调度软件
2.5.1.       ▲商业版软件,提供产品的软件著作权证书扫描件,原件备查,为保证兼容性和服务统一性,与高性能计算集群管理调度软件同一品牌
2.5.2.       集群中所有GPU卡支持通过平铺的方式全部展开,可以快速了解整个集群中GPU卡的使用信息(所在节点、GPU利用率和显存利用率)和统计信息(空闲、开发环境使用、训练任务使用等状态),GPU资源开发环境使用使用数量、训练任务使用数量和空闲数量。提供功能截图
2.5.3.       支持通过节点特征数据监控查看CPU、内存、以太网络、IB网络、磁盘和NFS实时详情和其他多种指标历史详情
2.5.4.       可动态添加基础资源(如GPU服务器等),支持动态为用户和用户组的增加、删除和修改作业数和配额数量
2.5.5.       支持用户和用户组优先级设置,平台按任务优先级依次处理任务,提供任务排队机制,计算资源不足时,训练任务可排队调度
2.5.6.       ▲GPU细粒度管理:支持设置GPU卡的共享及独享策略,可设置GPU卡共享的任务数等功能,支持GPU多任务共享,提供功能截图
2.5.7.       支持为用户、用户组设置资源配额,包括CPU核数、GPU卡数、最大运行任务数、最大等待任务数、最大运行环境数量。配置资源不能超过用户限额和系统的总资源数;提供功能截图
2.5.8.       平台存储可提供实现租户通过web方式上传数据的方式;支持文件搜索、下载、压缩、解压、新建和删除等功能
2.5.9.       创建训练开发环境,支持按需申请CPU核数和GPU卡数,提供容器服务,同一个开发环境可以创建多版本多框架的容器,同时运行互补影响;支持开发环境和容器的创建和删除等
2.5.10.     能够通过开发环境中Jupyter和SHLL进行训练脚本的在线查看、编辑并保存,支持pycharm和VS code等IDE开发工具,对接深度学习开发环境
2.5.11.     支持镜像通过开发环境中的容器自定义创建并保存分享,可从共享目录导入镜像文件,能够将节点镜像上传到镜像仓库;能够将镜像仓库中的镜像下载到节点,镜像可以删除、发布、分享功能;能够显示和修改镜像描述信息,重命名节点镜像
2.5.12.     ▲集成优化的深度学习框架,采用平台优化的深度学习框架,进行AI多机并行加速性能测试,使用ImageNet图片集,测试模型采用AlexNet,或Resnet从1个GPU卡到16个GPU卡的性能,加速比≥14,提供相关证明文件截图,证明文件需体现厂商名称,原件备查
2.5.13.     支持多种任务框架的任务模板(例如caffe,TensorFlow,MXnet等),通过模板快速提交训练任务
2.5.14.     支持通过历史任务方式重新提交训练任务,无需重新配置资源和镜像等,一键重新提交
2.5.15.     可对节点缓存数据配置,包括设置保存个数、缓存空间最大比例和data最小空闲比例,支持对接HDFS,NFS,云存储等。提供原厂功能参数证明材料截图或扫描件,中标后3个工作日内提供加盖原厂公章的证明材料原件。
2.5.16.     支持创建用户组,并编辑用户组相关信息、修改和删除用户组;可以修改用户组GPU卡数、组名。
2.5.17.     可创建新用户并对用户的基本信息进行维护;支持用户的角色变更、对用户进行删除和修改配额等
2.5.18.     支持不同权限管理,用户可对私有数据进行增、删、改、查;用户可以管理自己的任务,包括调度、启动、停止、删除;用户可以管理自己的代码;用户可以管理私有模型,包括增、删、改、查。根据平台角色划分和权限划分,可创建平台资源和服务访问权限并分配访问资源
2.5.19.     支持普通用户、组用户和系统管理员三种角色;可根据需求创建新的平台角色,并赋予相应权限;可根据需求为角色分配相应资源和服务访问权限
2.5.20.     支持报表统计,支持配置用户和用户组的cpu、gpu、机时;支持报表统计查看用户的缴费明细记录和查询功能;支持报表统计显示用户明细操作,提供时间查询功能,且提供导出用户和用户组账单功能
2.5.21.     支持集群统计,集群利用率、节点利用率、作业规模统计、作业数量统计、GPU数量统计、框架统计、用户统计;统计可以选择不同时间周期内,分为曲线统计和表格统计
2.5.22.     支持将用户选择的样本数据预读到计算节点,有效解决训练I/O瓶颈问题; 支持缓存自动清理、数据更新等缓存管理策略;将任务调度到已缓存数据的计算节点,节省数据下载时间,提高训练效率
2.5.23.     支持四种任务调度模式:FIFO模式、任务优先级模式、用户组轮询模式、用户轮询模式,可按实际情况选择使用;支持Gang scheduling调度、网络拓扑亲和调度、PCIE亲和调度、设备类型亲和调度、历史资源优先调度等资源调度策略。
2.5.24.     提供“管理员可开放用户提交紧急任务的权限,用户开启后可提交紧急任务,平台将优先处理紧急任务”,提供原厂功能参数证明材料截图或扫描件,中标后3个工作日内提供加盖原厂公章的证明材料原件。
2.5.25.     支持用户通过选择硬件资源、应用、训练脚本、样本数据快速启动模型训练;支持通过历史任务快速创建训练任务;支持训练任务全生命周期管理,包括任务创建、进度查看、日志查询、过程可视化、历史任务、模型保存等
2.5.26.     支持ps/work方式的分布式训练;支持通过MPI方式快速扩展Tensorflow、caffe、mxnet、pytorch训练;支持Tensorflow、caffe、mxnet、pytorch主流框架的模型可视化;智能识别任务异常原因(算法类、系统故障等),对由硬件故障或网络原因引起的任务异常,支持任务迁移到正常节点继续运行
2.5.27.     ▲数据加速
2.5.27.1.    支持用户在开发和训练时将样本数据预加载到计算节点,开发用户可以指定数据(个人/组内/公共)进行缓存操作,指定的数据会在训练前预加载到计算节点并自动挂载至容器环境;
2.5.27.2.    支持缓存数据管理策略: 支持计算节点缓存数据的记录与统计;支持计算节点缓存空间的监控及报警;支持清理计算节点未在用的缓存数据;
以上每条均需提供截图证明,并将功能点在截图中标注。
2.5.28.     支持资源组管理
2.5.28.1.    支持default默认资源组,用户可根据自己需求选择节点进行资源组创建、修改或删除;
2.5.28.2.    资源组支持“通用、开发、训练”三种场景选择,用户可根据实际场景进行资源划分;
2.5.28.3.    支持对开发类型资源组的GPU共享设置,支持严格共享和弹性共享两种模式:
严格共享模式:支持显存按最小粒度1G进行共享分配;
弹性共享模式:支持按复用数量进行资源共享分配,单卡最大支持64个任务复用;
以上每条均需提供截图证明,并将功能点在截图中标注。
2.5.29.     ▲资源调度模式
2.5.29.1.    FIFO调度:支持任务按提交顺序的先后进行调度处理;
2.5.29.2.    用户优先级调度:支持按用户将任务分为高、中、低三类,对同级任务按FIFO方式进行调度处理;
2.5.29.3.    紧急任务调度:支持管理员为用户开启紧急任务权限,用户开启权限后可在任务提交时选择是否为紧急任务,紧急类任务优先级最高,如存在多个紧急任务则默认按任务提交顺序进行处理,支持管理员动态调整紧急任务序列,指定某个紧急任务进行优先调度;
2.5.30.     ▲开发环境管理
2.5.30.1.    支持用户按需选择CPU、GPU、内存等资源进行环境搭建(单机多卡、单机多卡、多机分布式模式),支持自动适配计算节点或人工指定计算节点;
2.5.30.2.    在GPU共享模式下,支持用户按GPU显存申请资源(最小支持1G);
2.5.30.3.    支持tensorflow、mxnet、pytorch、caffe等主流AI框架,支持用户通过平台内置框架镜像或用户自定义镜像进行环境创建,支持直接使用dockerHub或NGC镜像创建开发环境;
2.5.30.4.    支持用户自定义开发环境配置,如映射端口、shm_size等;
2.5.30.5.    支持通过开发环境复制功能快速构建分布式开发环境;
2.5.30.6.    支持开发环境生命周期管理,快速查看开发环境的状态、性能情况、运行时长、资源配置、节点位置、镜像和创建时间等;
2.5.30.7.    支持对空载环境的超时自动回收,管理员可设置空闲时长以及超时策略(超时提醒、是否自动停止),用户可以手动重启已停止的超时环境;
以上每条均需提供截图证明,并将功能点在截图中标注。
2.5.31.     ▲包含59个节点授权,软件必须支持部署和纳管不同品牌不同机型的GPU服务器,安装后须保证各项功能正常使用。所有节点能组成一个统一的GPU集群,实现管理、使用、维护的一体化。
2.6.               6
并行存储系统
2.6.1.       为保证兼容性和服务统一性,与高性能计算集群管理调度软件同一品牌
2.6.2.       采用商用非OEM并行文件系统软件产品,非在Lustre、Ceph、Gluster等开源软件基础上更改,全局文件系统软件涵盖所有存储节点的许可
2.6.3.       并行存储体系架构,元数据节点集群与存储节点集群物理分离的方式构成单套系统,所有元数据节点和存储节点都同时在线提供服务,而非主-备模式
2.6.4.       支持统一命名空间下,基于不同性能硬盘,建立多个存储池,支持为不同目录、文件指定存储池
2.6.5.       配额管理:支持对用户、组的配额管理功能;支持在线对配额进行设置;支持对不同存储池进行配额设置
2.6.6.       裸存储容量不小于1PB,采用SATA大容量硬盘,为保证数据的安全性,要求所有节点支持采用1:1镜像方式进行冗余部署,拒绝纠删码,软Raid等方式,不存在单点故障,支持一半的节点损坏数据不丢失
2.6.7.       配置可采用分级存储的方式。可基于目录的冗余配比策略,为不同数据提供不同的保护级别。
2.6.8.       支持利用计算节点SSD硬盘快速创建高速并行文件系统,可集成在作业调度系统中,若无法满足可单独提供一套全闪存储设备。
2.6.9.       存储系统持续读/写聚合带宽要求≥3GB/s,要求采用IOR或IOZone测试工具,测试数据要大于计算节点内存的2倍大小,提供相关证明材料或截图
2.7.               7
千兆管理网络
2.7.1.       配置满足需求的千兆交换机,单台交换机提供≥48个10/100/1000M 自适应电口,≥4 个1G/10G SFP+光口,双交流电源
2.8.               8
HDR100计算网络
2.8.1.       200Gb/s HDR InfiniBand交换机,端口≥40个,不接受任何OEM贴牌产品
2.8.2.       配置本次项目所需的HDR100 IB线缆
2.8.3.       配置≥188块单端口HDR100 HCA卡
2.9.               9
高性能数值运算应用并行调优服务及培训
2.9.1.       集群管理软件厂商提供针对当前主流的AVX 512指令集的浮点调优能力,报告中需明确标识针对AVX 512指令集的调优能力。
2.9.2.       集群管理软件厂商提供对≥3种CAD/CAE领域常用的应用软件调优能力,至少包括但不限于Fluent,Ansys,OpenFOAM。
2.9.3.       集群管理软件厂商提供对≥2种生物信息领域常用的应用软件调优能力,至少包括但不限于RELION,GATK。
2.9.4.       集群管理软件厂商提供对≥3种分子动力学领域常用的应用软件调优能力,至少包括但不限于AMBER,CPMD,Gromacs。
2.9.5.       集群管理软件厂商提供对≥1种量子化学领域常用的应用软件调优能力,至少包括但不限于Gaussian。
2.9.6.       集群管理软件厂商提供对≥1种等离子物理领域常用的应用软件调优能力,至少包括但不限于EPOCH。
2.9.7.       集群管理软件厂商提供对≥3种等(材料)物理领域常用的应用软件调优能力,至少包括但不限于VASP,Material Studio,Quantum Espresso。
2.9.8.       ▲投标时,投标商须提供集群管理软件厂商针对Fluent,Ansys、StarCCM+、OpenFOAM、RELION,GATK、AMBER,CPMD,Gromacs、Lammps、NAMD、Gaussian、EPOCH、VASP,Material Studio,Quantum Espresso、WIEN2K应用的应用调优分析报告。
报告应涵盖对调优应用软件的CPU、内存、存储以及网络通信层面的运行情况分析。
本次项目极为重视应用软件的调优能力,如无法提供或提供不全视为无法响应对应的调优能力。

 
 
 
商务需求
序号
目录
售后需求
(一)免费保修期内售后服务要求
1
免费保修期
货物免费保修期5 年,核心部件保修期 5 年。自最终验收合格并交付使用之日起计算。
2
售后及维修支持
2.1硬件维修与更换:要求原厂7×24小时服务,当设备发生故障或损坏而影响系统正常运行,定位故障部件后免费上门并更换故障硬件;
2.2软件维护及升级:要求原厂7×24小时服务,在合同规定的技术服务支持期内,用户遇到集群管理软件、操作系统、常用应用软件等问题,可通过远程(电话、网络)处理方式为主,在远程支持无法解决的情况下需安排工程师上门服务;提供质保期内的软件更新、迭代版本,及免费升级服务。
2.3制造厂家需免费提供技术支持热线电话;免费提供email技术支持,并且在4小时内回复。
3
维修响应及故障解决时间
3.1远程服务响应时间及时效:一旦发生质量问题,可通过微信、热线、邮件保修,中标单位需在1小时内响应。
3.2现场服务响应时间及时效:在保修期内,一旦发生质量问题,在远程支持无法解决的情况下,中标单位要在接到通知后4小时内到达现场进行调试、维修或更换,响应级别为7×24小时。
4
培训
4.1 HPC基础培训:提供集群管理软件厂商原厂高性能相关培训,使用户能够达到HPC集群常规管理、维护、调试和基本故障处理等能力。提供集群系统基础、硬件设备安装与使用、交换机配置及管理、并行文件系统、高性能集群和AI集群管理调度软件使用与维护等课程
4.2 HPC和AI应用优化培训:提供次数:1个月一次,每次提供4课时,3年144课时,应用培训课程涵盖AI与HPC两个方向,包括但不限于:HPC应用特征分析,HPC应用优化,并行程序设计,并行编程,计算物理、材料科学、量子化学、气象气候、工业仿真等领域的应用分析和优化,GPU架构优化,AI框架,AI模型及模型优化,AI调参调优等等相关课程。
4.3集群管理软件供应商能提供全英文培训课程。
5
售后服务承诺函
中标后3个工作日内提供集群管理软件厂商售后服务承诺函并加盖公章。
(二)免费保修期外售后服务要求
1
维修响应及故障解决时间
保修期后提供免费上门服务,一旦发生质量问题,保证在接到通知24小时内赶到现场进行修理或更换。
2
热线服务
免费提供技术支持热线电话以及免费提供微信及邮件技术支持,且需在24小时内回复。
3
备品备件
所投设备的零配件在其生命周期内,制造厂家应提供优惠的价格及有效的供应。
(三)其他要求
1
项目人员要求
由于集群管理软件厂商技术团队需要给香港中文大学(深圳)内的科研团队提供应用优化及咨询服务,所以对厂商技术支持团队的科研能力做如下要求:
2.1集群管理软件厂商拥有GPU软件与模型研发和技术支持团队不少于3人,不少于3人具有英伟达DLI认证证书,提供证书复印件。
2.2 集群管理软件厂商拥有应用软件与模型的GPU移植调优能力,提供至少2份GPU移植调优案例的合同复印件证明。
2.3厂商技术支持团队成员需具有物理、材料、生命科学、工程模拟仿真领域博士学位,至少提供2人。
2
软件优化能力
3.1提供所投集群管理软件厂商实施的GPU移植技术服务合同复印件至少2份,说明应用优化的主要内容。
3.2集群管理软件厂商需提供≥3年应用并行调优服务。
3
关于交货
4.1合同生效后 45 日内(自然日)交付并通过采购人到货验收,具体交货地址由香港中文大学(深圳)指定。
4.2投标人必须承担的设备运输、安装调试、验收检测和提供设备操作说明书、图纸等其他类似的义务。安装、调试、施工完毕后方可视为交货。
5
 
关于安装、调试和验收
5.1设备运抵安装现场后,投标人需在场一同开箱验收;若无人到场, 则验收结果应以用户及当地商检人员的验收报告视作最终验收结果。验收时发现短缺、破损, 用户有权要求投标人立即补发或更换。
5.2需同时提供两名以上的设备制造厂商的技术工程师负责现场的免费安装、调试直至验收合格。
5.3投标人应提供设备测试的完整方案,包括:测试内容、项目、指标和方法,且有责任对用户的技术人员提出的问题作出解答。测试应进行详细记录, 设备测试结束后, 由制造厂商技术人员签字后交给用户验收。
5.4当满足以下条件时,采购人才向中标人签发货物验收报告:
5.4.1、中标人已按照合同规定提供了完整的技术资料,技术资料需包含:全部产品的资料、项目实施文档(可复现项目实施的完整过程)、用户使用手册。
5.4.2、货物符合招标文件技术规格书的要求,功能满足要求。
5.4.3、测试结果是在正常部署的生产环境配置模式下而非实验室特定配置结果,测试结果需达到标书要求方可签验收报告;如若不能满足,投标人须免费调试直至达到标书要求。
5.5投标人货物经过采购方组织验收认可后,经签署验收合格报告方可;产品保修期自验收合格之日起算,可通过制造厂商的官网或微信查询到货物质保期。
5.6保修期内,如果设备发生故障,投标人要免费调查故障原因并修复直至满足最终验收指标和性能的要求。
6
付款方式
双方签订合同后支付预付款 30 %;安装调试、试运行正常,经采购方正式验收合格且收到发票后支付 65 %;一年后支付 5 %。
7
其他
招标方有权自行指定第三方检测机构对于中标方提供的本项目全部或部分设备,依据招标书“具体技术要求”逐一测试验证,其检测结果作为验证投标方提供设备与其投标资料是否相符的认定标准。不管其检测结果是否与投标资料一致,其检测费用均由投标方承担。

 
 
 
技术规格偏离表
 
序号
货物名称
招标技术要求
投标技术响应
偏离情况
说明
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 
 
商务规格偏离表
 
序号
目录
招标商务条款
投标商务条款
偏离情况
说明
(一)免费保修期内售后服务条款偏离表
1
 
 
 
 
 
2
 
 
 
 
 
……
 
 
 
 
 
(一)免费保修期外售后服务条款偏离表
1
 
 
 
 
 
2
 
 
 
 
 
……
 
 
 
 
 
(三)其他商务条款偏离表
1
 
 
 
 
 
2
 
 
 
 
 
……
 
 
 
 
 

 
 
评标信息
 
 
评标方法:综合评分法(新价格分算法)
综合评分法,是指投标文件满足招标文件全部实质性要求,且按照评审因素的量化指标评审得分最高的投标人为中标候选人的评标方法。
价格分计算方法:
采用低价优先法计算,即满足招标文件要求且投标价格最低的投标报价为评标基准价,其价格分为满分。其他投标人的价格分统一按照下列公式计算:
投标报价得分=(评标基准价/投标报价)×100
评标总得分=F1×A1+F2×A2+……+Fn×An
F1、F2……Fn分别为各项评审因素的得分;
A1、A2、……An 分别为各项评审因素所占的权重(A1+A2+……+An=1)。
评标过程中,不得去掉报价中的最高报价和最低报价。
此方法适用于货物类、服务类、工程类项目。
 
序号
评分项
权重(%)
1
价格
30
2
技术
49
序号
评分因素
权重(%)
评分准则
1
技术保障措施
2
在投标文件中详细说明保障措施(包括技术团队、技术方案、技术人员、场地、车辆等),评审委员会根据响应情况进行横向比较,按优100,良80,中60,差0打分。
2
系统运维保障措施
4
为降低后续运维难度以及集成难度,横向比较投标产品(以《二、货物清单》中的《(二)货物清单明细》为准,不含投标产品内部部件如处理器,内存等)的管理复杂度:
投标产品共计采用≤2个品牌产品为优,得100分;
投标产品共计采用3个品牌产品为良,得50分;
投标产品共计采用大于3个品牌产品为中,得25分;
3
技术规格偏离情况
35
投标人应如实填写《技术规格偏离表》,评审委员会根据技术需求参数响应情况进行打分,各项技术参数指标及要求全部满足的得100,带“▲”技术参数指标每负偏离一项扣40,其余每负偏离一项扣20,扣完为止。优于招标要求的技术参数项不加分。
4
施工安全保障措施
8
根据投标人具有以下证书进行评审:1、具备ISO9001质量管理体系认证; 2、具备ISO27001信息安全管理体系认证; 3、具备信息系统安全集成,三级服务资质要求或以上;4、具备信息安全风险评估,三级服务资质要求或以上;5、具备信息系统安全运维,三级服务资质要求或以上。
以上五项要求均满足得100,满足三项得50,其他情况不得分。要求提供相关资质(资格)证书扫描件作为得分依据。评分中出现无证明资料或专家无法凭所提供资料判断是否得分的情况,一律作不得分处理。
3
商务
9
序号
评分因素
权重(%)
评分准则
1
免费保修期内售后服务条款偏离情况
2
投标人应如实填写《免费保修期内售后服务条款偏离表》,评审委员会根据响应情况进行打分,全部满足要求的得100,每负偏离一项扣35。
2
免费保修期外售后服务条款偏离情况
1
投标人应如实填写《免费保修期外售后服务条款偏离表》,评审委员会根据响应情况进行打分,全部满足要求的得100,每负偏离一项扣35。
3
其他商务条款偏离情况
6
投标人应如实填写《其他商务条款偏离表》,评审委员会根据响应情况进行打分,全部满足要求的得100,每负偏离一项扣25。
4
诚信情况
7
序号
评分因素
权重(%)
评分准则
1
诚信
5
根据《深圳市财政委员会关于印发〈深圳市政府采购供应商诚信管理暂行办法操作细则〉的通知》(深财购[2017]42号)的要求,投标人在参与政府采购活动中存在诚信相关问题且在主管部门相关处理措施实施期限内的,本项不得分,否则得满分。投标人无需提供任何证明材料,由工作人员向评审委员会提供相关信息。
2
履约
2
近三年(以投标截止日期为准)在市政府采购中心有履约评价为差的记录,本项不得分,否则得满分。投标人无需提供任何证明材料,由采购中心工作人员向评委会提供相关信息。
5
疫情防控
5
序号
评分因素
权重(%)
评分准则
1
疫情防控
5
1.纳入全国性名单或地方性名单的疫情防控重点保障企业(以下简称“重点保障企业”),直接参与我市政府采购投标的,提供至少一项自身属于重点保障企业的证明材料(名单查询网页链接、名单网页截图、政府部门出具的文件或者企业享受重点保障企业优惠政策的其他证明文件均可),即可得60%分数。
2.未裁员或裁员率低于20%的企业,即投标前一个月实际参加社会保险(至少包括养老保险)的员工人数(含免缴或延期缴纳社会保险人数)不低于2019年12月同口径人数80%(含)的企业,视为稳岗企业,提供自身符合稳岗企业条件的承诺函得40%分数。 投标人提供虚假承诺的,将做无效投标处理,涉嫌存在违法违规行为的,依法报主管部门处理处罚。

 
 
 
 
其它
 
 
附件
大学校级高性能计算管理平台项目需求文件.docx
返回顶部