教学用计算节点（ZBZXHB2023049）采购公告

公告摘要

项目编号zbzxhb2023049

预算金额99.94万元

招标联系人-

标书截止时间-

投标截止时间-

公告正文

项目名称：教学用计算节点
项目编号：ZBZXHB2023049
采购单位：四川大学
联系人：中标后在我参与的项目中查看
联系电话：中标后在我参与的项目中查看
签约时间要求：成交后30个工作日内
到货时间要求：
预算总价：999457
收货地址：四川大学江安南区
供应商资质要求：符合《政府采购法》第二十二条规定的供应商基本条件

采购商品:集群调度管理软件授权
采购数量:3
计量单位:台
预算单价:2500
技术参数及配置要求:1.与现有集群形成统一纳管。
2.软件界面必须实现完全中文化，基于B/S架构实现，支持主流浏览器（IE、Firefox、Chrome）访问。
3.提供直观的物理视图，如实展现机柜、服务器等设备的物理分布和相对位置关系；支持远程开关机、Putty/Winscp客户端登陆等操作；直观的展现各类设备的告警信息。
4.支持大规模监控管理，系统采集节点规模支持15000多节点，采集指标数量1000多种，采集秒级反馈，查询秒级响应。
5.支持大规模监控和调度，管理节点资源占用不超过50%，计算节点代理资源占用率不超过4%。
6.统一告警管理功能，符合策略将会产生告警信息；支持统一的Dashboard展现系统资源的告警汇总；支持按照告警级别、告警资源、资源类型等过滤条件检索告警信息；支持自定义告警级别；已处理的告警可以进行处理，处理过的告警信息归类到已处理告警中
7.提供灵活强大的集群配置能力，可以一键完成对整个集群的检测和配置，如检测网络可用性、配置ssh/rsh无密码登陆、停止系统冗余服务、配置NFS、同步集群时间、同步集群用户等。管理员可以灵活组合不同的配置项。
8.真正模块化设计、分布式架构部署、SaaS模式服务平台；采集方式多样，采集效率高；技术创新，完全自主开发；上千种采集指标。
9.支持大批量作业的实时调度，支持最大瞬时大规模作业（超过3000个）的同时提交；支持大批量作业的动态优先级调动并发瞬时吞吐率峰值（超过2000个）。
采购商品:IB线缆
采购数量:3
计量单位:台
预算单价:1700
技术参数及配置要求:配置≥2M 200G Infiniband 线缆
采购商品:服务器1
采购数量:1
计量单位:套
预算单价:273857
技术参数及配置要求:1.形态：4U机架式服务器，英特尔？ C621 芯片组，板载双万兆网口；
2.处理器：配置≥2颗英特尔？至强？金牌 5220， 18C 2.20GHz；
3.内存：配置≥8根32GB DDR4 3200 ECC REG；
4.硬盘：配置≥1块480GB SDD，一块SATA 8T 数据盘；
5.IO端口：≥1个RJ45专用IPMI局域网端口、2个万兆网口、1个VGA接口、1个COM接口、4个USB 3.0接口，2 个USB 2.0接口；
6.GPU卡：配置≥2张TESLA A800 80GB，每张卡CUDA核心数6912个,Tensor核心数432个，FP64为9.7 TFlops；
7.网络：配置≥一张IB HDR 200G网卡；
8.电源：配置2200W （ 1+1 ）钛金冗余热插拔电源
9.认证资格：获得NVIDIA Elite NPN合作伙伴资质；
采购商品:人工智能实训平台授权
采购数量:1
计量单位:台
预算单价:23000
技术参数及配置要求:1.增加人工智能AI服务平台24个许可授权。
2.数据集管理：可以进行用户数据集更新，删除、克隆等；提供基于 Web 的文件管理功能，支持文件和文件夹的创建、删除、重命名、在线编辑、权限设置，支持文件的节点间同步，支持文件批量上传和打包下载；
3.模型管理:支持模型创建、模型克隆、模型删除和展示模型状态等，通过模型管理可以更方便的对不同模型进行处理、更直观的了解当前模型的运行情况以支持训练管理;
4.数据集预处理:提供基于 Caffe 的数据集预处理，用户可自行选择 lmdb和 leveldb 等不同后端格式;
5.模型训练:对 TensorFlow 和 Pytorch 等框架下的训练任务提供Horovod 训练模式，支持通过 Horovod 进行大规模 Ring All Reduce 训练;
6.在线推理:支持基于 docker 容器的在线推理功能。支持 Caffe、TensorFlow、PyTorch 等框架，用户可自定义推理使用的框架版本，模型路径，模型输出层及前后处理脚本。集成图像分类，目标检测、语义分割等推理应用类型，可进行数据批量推理，显示原始图片、推理结果及必要标注信息;
7.超参调优:支持基于容器的分布式超参数自动调优功能。支持 TPE自动搜索算法，多参数同时调优，分布式调优等功能。用户可自定义调参任务的调优参数类型、调参范围，使用的框架版本、容器数量、GPU 数量、内存、GPU 型号等内容，并可以实时查看调参曲线输出，监控各容器内资源使用状况;
8.镜像管理:支持公有镜像管理，用户可以订阅平台公有的容器镜像资源进行使用；管理员可以向公有镜像库上传镜像资源;支持私有镜像管理，将私有镜像分享至公有镜像库，供
其他用户订阅和使用。支持本地镜像上传和自定义;
9.容器端口:支持用户自定义容器的服务端口，支持 http 和 socket等端口模式，提供软件功能截图证明材料;
10.数据分享:用户可在分享中心分享和订阅数据集、模型、代码和文档等内容。用户可获得订阅内容的访问权限，其中数据集和模型可在编辑训练任务时直接访问;
11.主页自定义:支持自定义用户主页，可按需将常用或重要应用添加至主页快捷访问;
12.作业管理:支持基于队列、用户、用户组等多个维度的优先级定义策略，根据作业的静态（如资源请求、所属用户等）和动态指标（如入队时间、公平共享份额等），通过不同的权重设置，灵活控制作业优先级。
采购商品:服务器2
采购数量:3
计量单位:台
预算单价:230000
技术参数及配置要求:1.4U机架式服务器，含导轨；非刀片或高密度服务器产品，高度不超过4U，机箱上架深度不超过800mm，CPU主板与GPU主板分离式设计，支持CPU主板和GPU主板独立升级。
2.处理器：配置≥2颗英特尔 Sapphire Rapids系列处理器，单颗处理器核心数≥16C，主频≥2.5G；
3.内存：配置≥8根32G内存条，内置32个内存插槽；最大可支持4TB内存容量；
4.硬盘：配置≥2块480G 2.5 6Gb R SSD系统盘，支持raid 0/1；主板板载2个M.2接口；板载支持直出16个SATA硬盘，无需外接控制器；
5、配置≥1张4G缓存raid卡；
5.网络：配置≥1张双口1G 网卡，配置≥1张100Gb Infiniband HCA 卡；
6.扩展性：最大支持12个PCIe5.0 x16全高全长插槽；
7.GPU：配置≥8张4090 24G显卡；每张卡CUDA核心数16384个,Tensor核心数512个,FP32:82.58TFlops;
8.支持8个8080风扇，支持N+2冗余。风扇分上下2层可以对 CPU 和 GPU进行分层散热。提供设备原厂商加盖公章的证明文件。
9.电源：配置≥4个2700W冗余电源，支持3+1/2+2冗余；
详情请访问原网页！