公告摘要
项目编号sustech-jc-2024-00853
预算金额39万元
招标公司南方科技大学
招标联系人-
标书截止时间-
投标截止时间-
公告正文
南方科技大学 
 
SUSTech-JC-2024-00853
竞采采购公告
项目名称 机械与能源工程系马永胜课题组高性能训练推理计算平台采购项目
项目编号 SUSTech-JC-2024-00853
项目类型 货物类
成交方式 最低价成交
采购方式 公开竞采
公告开始时间 2024-06-24 15:13:31
公告结束时间 2024-07-01 15:13:31
预算(元) 390000.00
项目预算是否含税 国产含税
备注




序号 名称 数量 单位
1
高性能训练推理计算平台(核心货物)
1

是否接受进口
拒绝进口
品牌
无推荐品牌
型号
无推荐型号
技术规格及参数
高性能训练推理计算平台:4U机架式服务器/支持2颗第一代或第二代 Intel Xeon 可扩展CPU/24根DDR4内存,最高2933MHz,最大6TB/24块2.5,其中2个支持NVME,支持1个M.2(NVMe)/板载双万兆电口网络/最大11个PCle插槽,后置8个PCIe 3.0 x16,2个PCIe 3.0 x8,1个PCIe 3.0 x4,支持10张双宽全高全长GPU/2000W 2+2冗余电源/含导轨,散热器。适用领域:研究院所、高校、互联网企业,特别适用于深度学习人工智能领域的应用。
配置≥2颗CPU:intel 6248Cascade Lake/20C/40T/2.5GHz/27.5MB/150W/2933MHz;
内存:≥256GB;≥1个2T SSD;≥1个960G SSD;
网卡:≥1个25G光纤网卡;
显卡:≥1张A100 80g显卡;
为确保产品质量,电源模块功耗转化率≥96%,需提供测试证明文件。
多卡式热管理系统:需配置多卡式 GPU 计算节点热管理系统组件,投标人需提供专利证明。
配置管理软件及计算软件:
一、服务器出厂自带人工智能集群管理软件:
1、人工智能集群管理软件采用C/S架构设计,提供完全中文化显示界面,且需提供与GPU服务器品牌一致的计算机软件著作权登记证书;
2、AI开发训练环境:多种AI开发训练环境可以选择,可按需选择自定义任务环境、集成主流AI开发环境的深度学习任务环境和专用于训练的训练任务环境;在配额满足的情况下,用户可创建所需资源的开发环境进行开发与调试;(需提供软件截图证明)
3、可视化调试:内嵌Jupyter环境,支持对代码进行在线调试,同时可以监控开发环境的资源利用率,包括 CPU、内存使用情况、物理 GPU 利用率、网络利用率等;同时支持网页版Shell 开发终端、SSH连接协议和VNC图形化操作界面连接;(需提供软件截图证明)
4、AI训练:支持单机训练和分布式训练。单机训练提交流程支持指定的训练数据集、任务镜像并提交运行代码后即可开始进行训练;多机多卡分布式训练,支持多机通用配额和自定义配额,快速灵活的提交训练任务并加快用户的训练速度;(需提供软件截图证明)
5、资源集中管理:物理资源统一池化,用户可通过任务需要进行按需申请资源;内置分布式存储,全部存储资源统一管理,可将数据上传到平台集中管理,方便后续使用;平台支持原有NFS存储系统接入,原有数据无需拷贝,直接调用;平台中的资源,包括镜像、数据集、文件等都可以实现共享和私有配置,方便团队协作;平台内置Label Studio数据标注工具,沿用用户使用习惯,加速用户开发;(需提供软件截图证明)
6、运维管理:支持全用户公告发布,可让所有用户第一时间收到管理员发布的信息,及时响应;完整的物理资源监控,可监控CPU、内存、硬盘、网络、GPU卡等资源利用率;系统控制模块提供物理主机的物理操作功能,可查看到详细的物理主机配置信息,最小SKU显示硬件信息,并可查看PCIE插槽使用情况及对应的Bus Address,帮助运维管理人员准确定位到配件位置,便于巡检,同时系统控制模块还需提供IPMI远程管理功能,可远程操控物理机;(需提供软件截图证明)
7、多级用户分配:提供管理员、组织、用户 多级用户管理模式,帮助管理人员更高效的管理;提供角色管理功能,不同角色可配置不同的功能权限,管理更灵活;提供通用资源配额和私用资源配额两种,管理人员可根据资源使用情况按需分配设定。(需提供软件截图证明)
二、支持4.3寸监控屏,提供监控功能
1、需支持外置监控显示屏;产品信息展示功能,为提高服务器产品的可维护性和可管理性, ,包含服务器的如下信息: 产品型号和序列号、处理器规格型号和数量、总处理核心数量和线程数量、内存条数量、内存总容量和内存剩余容量、产品 BIOS 和 IPMI 远程管理的版本信息、BMC 远程管理的网络 IP 地址、子网掩码、网关等信息、磁盘数量、磁盘型号、健康状态以及序列(提供截图证明)
2、系统负载展示功能,显示屏需提供如下动态信息: 处理器使用率动态曲线图、内存使用率动态曲线图、产品功耗动态曲线图、日志警告功能,显示屏可及时将获取到的系统异常信息展示出来,让用户能够及时处理问题,保证业务的可用性。分析 BMC 事件,对异常事件进行报警提醒。分析操作系统日志,对系统报错进行报警提醒(提供截图证明)
三、提供深度学习的软件(1 套): GPU CUDA 编译环境 :CUDA Toolkit 11 ,GPU Driver; 深度学习框架:Tensorflow,mxnet,pytorch, caffe 等;NVIDIA DIGITS GPU 训练系统;Deep Learning SDK : 深度学习原生库 CuDNN,深度学习推理引擎(TensorRT); NVIDIA Docker 容器平台:包括编程、运行、系统工具、系统函数库等都打包到一个完整的文件系统中,可安装到任何一台服务器上;深度学习加速库:cuBLAS, cuSPARSE , NCCL。
资源2配置要求(提供功能截图证明):
提供基于高性能计算物理集群的算力资源,不接受vCPU、vGPU、虚拟核心、逻辑核心(超线程)等虚拟化资源或云主机资源。采用的算力资源为基于高性能计算集群的物理CPU算力资源,非vCPU、虚拟核心、逻辑核心(超线程)等虚拟化资源或云主机资源。资源操作系统应采用CentOS Linux 7.8或以上版本;预装GPU驱动、CUDA、编译器、数学库、MPI、Anaconda等计算环境。支持用户联网在线安装部署相关计算软件;采用Slurm作业调度管理系统和Lustre并行文件系统,支持磁盘配额管理及按需在线扩容。操作系统为CentOS Linux 7.8或以上版本,并预装了GPU驱动、CUDA、编译器、数学库、MPI、Anaconda等计算环境。同时,我们支持用户联网在线安装部署相关计算软件。此外,我们采用Slurm作业调度管理系统和Lustre并行文件系统,支持磁盘配额管理及按需在线扩容,以确保用户在使用过程中的顺畅和灵活性。可见操作系统采用CentOS 7.9.2009;预置Intel/GNU编译器、MPI并行计算环境、MKL数学库、Anaconda科学计算工具包等并行计算环境(通过module工具统一管理,通过“module avail 软件/工具名称”查看已预装的工具软件及版本情况,通过“module load 软件/工具名称”加载和使用),采用Slurm作业调度管理系统分发计算任务,软件版本为21.08.8-2;采用Lustre存储系统且支持磁盘配额和动态扩容。操作系统:采用CentOS Linux release 7.9.2009,符合指标要求,预置并行计算环境:预置Intel/GNU编译器、MPI计算环境、MKL数学库、Anaconda科学计算工具包等计算环境,可通过module工具统一管理,通过“module avail 软件/工具名称”查看已预装的工具软件及版本情况,通过“module load 软件/工具名称”加载和使用;如版本不匹配也可联网在线安装。
提供作业调度系统:采用Slurm作业调度管理系统分发计算任务,软件版本为21.08.8-2文件系统:采用Lustre文件存储系统,总存储空间5.4PB,可为采购人提供足量的存储空间,支持磁盘配额和动态扩容。
提供超算预警消息自助管理入口,支持用户通过Web和微信公众号自助设置消息通知开关及余额、作业运行时长、存储使用等消息的报警阈值。超算预警消息自助管理入口,用户可以通过Web和微信公众号自助设置消息通知开关,以及设置余额、作业运行时长、存储使用等消息的报警阈值,以便用户能够及时获得重要通知和预警。
多种消息管理渠道,用户可通过超算服务控制台的自助中心(Web方式)以及“超算云服务”微信公众号自助设置超算预警消息通知开关,支持自定义设置余额、作业长时间运行、存储使用等预警消息的阈值;支持通过微信公众号接收上述预警消息。云桌面提供了超算预警消息自助消息管理工具,支持用户通过Web界面及微信公众号自助设置消息通知开关及余额、作业运行时长、存储使用等消息及报警阈值;可设置是否接收超算云服务提供的相关告警及提示消息,并支持自助设置余额、作业运行时长、存储使用等消息的报警阈值(提供验证材料),超算作业查询:供应商可提供可实时查询超算作业状态和消费记录超算服务微信小程序,提供超算服务微信小程序,用户可以通过它实时查询超算作业状态和消费记录,以便随时掌握作业进展和费用情况。在系统中绑定超算云账号后即可实时查询超算作业状态和消费记录(需提供证明截图证明)。免费提供7x24小时技术支持服务;并承诺5分钟内响应客户需求,提供必须的计算相关答疑服务和使用文档、免费协助安装开源软件及产权清晰的商业软件,提供硬盘邮寄等服务。免费协助安装开源软件及产权清晰的商业软件,提供硬盘邮寄等服务。用户的程序计算过程中的CPU、GPU、内存、磁盘、网络、内存带宽等性能指标量化记录(如平均值、峰值等)形成图表,并在此基础上提供程序性能分析服务。
质保期
三年
售后要求
1.提供计算节点基础安装服务。原厂全新未拆封产品;货到验收时可以通过原厂网站查询验证保修信息,(要求提供官方查询验证网址);提供原厂工程师基础安装服务;提供厂商盖章的证明文件。
2.售后服务响应时间:提供报修电话及联系人,招标人报修后,【8】小时内响应,【24】小时内派员上门现场维护,并在【48】小时内解决问题。

付款方式 货到指定地点、安装验收合格并提供全额发票后,经学校确认无质量问题后支付100%的货款。
交货期 合同签订后15天(自然日)内,具体时间根据学校要求提前7天(自然日)通知送货

返回顶部