公告摘要
项目编号sustech-jc-2024-00906
预算金额49.2万元
招标公司南方科技大学
招标联系人-
标书截止时间-
投标截止时间-
公告正文
南方科技大学 
 
SUSTech-JC-2024-00906
竞采采购公告
项目名称 机械与能源工程系GPU高性能推理模块采购项目
项目编号 SUSTech-JC-2024-00906
项目类型 货物类
成交方式 最低价成交
采购方式 公开竞采
公告开始时间 2024-07-11 11:28:57
公告结束时间 2024-07-18 11:28:57
预算(元) 492000.00
项目预算是否含税 国产含税
备注




序号 名称 数量 单位
1
GPU高性能推理模块(核心货物)
2

是否接受进口
拒绝进口
品牌
无推荐品牌
型号
无推荐型号
技术规格及参数
一、原厂全新未拆封产品;≥80G;核心频率≥765 MHz;Turbo频率 ≥1410 MHz;流处理单元≥ 6912 个;核心架构 Ampere 共≥67款;TDP功耗 ≥250W
内存参数:内存频率≥ 2.4 Gbps;内存类型 HBM2E;内存位宽≥ 5120 bit;显存≥ 80 GB;采用 C/S 架构设计,提供完全中文化显示界面,且必须提供与服务器品牌一致的计算机软件著作权登记证书;所有主机的全局资源总览。提供过测试;包含 CPU 核数、GPU 个数、内存及硬盘容量大小;每个节点的资源信息。包含主机名称、主机状态、IP 地址,GPU 数量、CPU 核心数、内存大小、硬盘大小等信;GPU 信息采用仪表盘形式,其中包含 GPU 型号、GPU 使用率、GPU 温度、GPU 功率、GPU 显存使用率、GPU 风扇转速占比、GPU 编解码器使用率等信息;界面刷新频率为秒级 。
二、提供集群管理软件。
GPU 集群管理软件必须是国产可控,且必须提供与服务器品牌一致的计算机软件著作权登记证书。 支持通过中文显示系统概览,提供统一的中文 web 管理界面;提供 API 标准接口,方便二次开发;提供帐号系统:支持多用户登录。资源配额:支持对用户组和用户设置使用资源配额。包括 GPU 卡数、CPU 核心数量、内存、存储;多存储卷,支持基于 Lustre 的多个卷同时共存和使用。支持提供镜像中心(公有镜像和私有镜像中心)功能,主要存储集群软件相关镜像和用户自己提交的镜像,用户可以构建针对自己应用的镜像环境,以用于创建大型训练任务展示用户所拥有的容器资源列表,每个容器资源条目提供查看容器资源、删除容器资源、容器连接、提交为镜像共四项功能;可以在 web 界面上以图表方式查看用户操作历史信息;支持自定义任务、深度学习任务,每个任务都是独立的,相互隔离,深度学习任务需能够实现单机多卡模式和多机多卡并行模式,需要集成主流的深度学习框架,可视化调试工具Jupyter、Terminal 和远程桌面。支持任务一键提交,可以将自己创建的执行脚本上传并运行,要求在运行过程中可实时查看运行日志,可以实时监控运行的负载情况,包括 CPU、内存、GPU、硬盘、网络等配件的实时使用率;可以在 web 界面上进行物理主机的运维管理操作,一键连接 IPMI,重启、关机等功能;需要满足三级用户权限管理,可分配多个管理员权限,对相应的组用户进行管理;可以在 Web 界面查看到物理主机的 PCIE 插槽、内存和硬盘的使用情况,可以看到对应插槽是否使用,方便管理员快速定位到故障部件
三、提供相关深度学习的软件(1 套)。
1. GPU CUDA 编译环境 :CUDA Toolkit 11 ,GPU Driver;
2. 深度学习框架:Tensorflow,mxnet,pytorch, caffe 等;
3. NVIDIA DIGITS GPU 训练系统;
4. Deep Learning SDK : 深度学习原生库 CuDNN,深度学习推理引擎(TensorRT);
5. NVIDIA Docker 容器平台:包括编程、运行、系统工具、系统函数库等都打包到一个完整的文件系统中,可安装到任何一台服务器上;
6. 深度学习加速库:cuBLAS, cuSPARSE , NCCL。
该设备性能满足:
1.数值型计算。符合cplex,lingo等CPU密集型计算需求。用于课题组进行数值分析,优化算法、仿真等研究。
2.人工智能训练,大模型部署。符合GPU密集型计算需求,高显存运行需求。用于课题组进行机器学习,计算机视觉,自然语言处理等方向研究。
3.软件配置要求:
提供基于高性能计算物理集群的算力资源,不接受vCPU、vGPU、虚拟核心、逻辑核心(超线程)等虚拟化资源或云主机资源。采用的算力资源为基于高性能计算集群的物理CPU算力资源,非vCPU、虚拟核心、逻辑核心(超线程)等虚拟化资源或云主机资源。资源操作系统应采用CentOS Linux 7.8或以上版本;预装GPU驱动、CUDA、编译器、数学库、MPI、Anaconda等计算环境。支持用户联网在线安装部署相关计算软件;采用Slurm作业调度管理系统和Lustre并行文件系统,支持磁盘配额管理及按需在线扩容。操作系统为CentOS Linux 7.8或以上版本,并预装了GPU驱动、CUDA、编译器、数学库、MPI、Anaconda等计算环境。同时,我们支持用户联网在线安装部署相关计算软件。此外,我们采用Slurm作业调度管理系统和Lustre并行文件系统,支持磁盘配额管理及按需在线扩容,以确保用户在使用过程中的顺畅和灵活性。可见操作系统采用CentOS 7.9.2009;预置Intel/GNU编译器、MPI并行计算环境、MKL数学库、Anaconda科学计算工具包等并行计算环境(通过module工具统一管理,通过“module avail 软件/工具名称”查看已预装的工具软件及版本情况,通过“module load 软件/工具名称”加载和使用),采用Slurm作业调度管理系统分发计算任务,软件版本为21.08.8-2;采用Lustre存储系统且支持磁盘配额和动态扩容。操作系统:采用CentOS Linux release 7.9.2009,符合指标要求,预置并行计算环境:预置Intel/GNU编译器、MPI计算环境、MKL数学库、Anaconda科学计算工具包等计算环境,可通过module工具统一管理,通过“module avail 软件/工具名称”查看已预装的工具软件及版本情况,通过“module load 软件/工具名称”加载和使用;如版本不匹配也可联网在线安装。
作业调度系统:采用Slurm作业调度管理系统分发计算任务,软件版本为21.08.8-2文件系统:采用Lustre文件存储系统,总存储空间5.4PB,可为采购人提供足量的存储空间,支持磁盘配额和动态扩容。
提供超算预警消息自助管理入口,支持用户通过Web和微信公众号自助设置消息通知开关及余额、作业运行时长、存储使用等消息的报警阈值。超算预警消息自助管理入口,用户可以通过Web和微信公众号自助设置消息通知开关,以及设置余额、作业运行时长、存储使用等消息的报警阈值,以便用户能够及时获得重要通知和预警。
多种消息管理渠道,用户可通过超算服务控制台的自助中心(Web方式)以及“超算云服务”微信公众号自助设置超算预警消息通知开关,支持自定义设置余额、作业长时间运行、存储使用等预警消息的阈值;支持通过微信公众号接收上述预警消息。云桌面提供了超算预警消息自助消息管理工具,支持用户通过Web界面及微信公众号自助设置消息通知开关及余额、作业运行时长、存储使用等消息及报警阈值;可设置是否接收超算云服务提供的相关告警及提示消息,并支持自助设置余额、作业运行时长、存储使用等消息的报警阈值(提供验证材料),超算作业查询:供应商可提供可实时查询超算作业状态和消费记录超算服务微信小程序,提供超算服务微信小程序,用户可以通过它实时查询超算作业状态和消费记录,以便随时掌握作业进展和费用情况。在系统中绑定超算云账号后即可实时查询超算作业状态和消费记录(需提供证明截图证明)。
免费提供7x24小时技术支持服务;并承诺5分钟内响应客户需求,提供必须的计算相关答疑服务和使用文档、免费协助安装开源软件及产权清晰的商业软件,提供硬盘邮寄等服务。免费协助安装开源软件及产权清晰的商业软件,提供硬盘邮寄等服务。
用户的程序计算过程中的CPU、GPU、内存、磁盘、网络、内存带宽等性能指标量化记录(如平均值、峰值等)形成图表,并在此基础上提供程序性能分析服务。
质保期
三年
售后要求
1.提供计算节点基础安装服务。货到验收时可以通过原厂网站查询验证保修信息,(要求提供官方查询验证网址);提供原厂工程师基础安装及培训服务;供应商如若中标,根据采购人的要求,2天内提供一套该设备到其指定地点对技术参数进行逐条测试,如果2天内无法提供,或提供样机有任何不符合参数要求的情况,采购人有权拒收该产品,并上报采购管理部门。
2.售后服务响应时间:提供报修电话及联系人,招标人报修后,【8】小时内响应,【24】小时内派员上门现场维护,并在【48】小时内解决问题。

付款方式 货到指定地点、安装验收合格并提供全额发票后,经学校确认无质量问题后支付100%的货款。
交货期 合同签订后15天(自然日)内,具体时间根据学校要求提前7天(自然日)通知送货

返回顶部