公告摘要
项目编号zbzxhb2023049
预算金额99.94万元
招标公司四川大学
招标联系人-
标书截止时间-
投标截止时间-
公告正文
项目名称:教学用计算节点
项目编号:ZBZXHB2023049
采购单位:四川大学
联系人: 中标后在我参与的项目中查看
联系电话:中标后在我参与的项目中查看
签约时间要求:成交后30个工作日内
到货时间要求:
预算总价:999457
收货地址:四川大学江安南区
供应商资质要求:符合《政府采购法》第二十二条规定的供应商基本条件

采购商品:集群调度管理软件授权
采购数量:3
计量单位:台
预算单价:2500
技术参数及配置要求:1.与现有集群形成统一纳管。
2.软件界面必须实现完全中文化,基于B/S架构实现,支持主流浏览器(IE、Firefox、Chrome)访问。
3.提供直观的物理视图,如实展现机柜、服务器等设备的物理分布和相对位置关系;支持远程开关机、Putty/Winscp客户端登陆等操作;直观的展现各类设备的告警信息。
4.支持大规模监控管理,系统采集节点规模支持15000多节点,采集指标数量1000多种,采集秒级反馈,查询秒级响应。
5.支持大规模监控和调度,管理节点资源占用不超过50%,计算节点代理资源占用率不超过4%。
6.统一告警管理功能,符合策略将会产生告警信息;支持统一的Dashboard展现系统资源的告警汇总;支持按照告警级别、告警资源、资源类型等过滤条件检索告警信息;支持自定义告警级别;已处理的告警可以进行处理,处理过的告警信息归类到已处理告警中
7.提供灵活强大的集群配置能力,可以一键完成对整个集群的检测和配置,如检测网络可用性、配置ssh/rsh无密码登陆、停止系统冗余服务、配置NFS、同步集群时间、同步集群用户等。管理员可以灵活组合不同的配置项。
8.真正模块化设计、分布式架构部署、SaaS模式服务平台;采集方式多样,采集效率高;技术创新,完全自主开发;上千种采集指标。
9.支持大批量作业的实时调度,支持最大瞬时大规模作业(超过3000个)的同时提交;支持大批量作业的动态优先级调动并发瞬时吞吐率峰值(超过2000个)。
采购商品:IB线缆
采购数量:3
计量单位:台
预算单价:1700
技术参数及配置要求:配置≥2M 200G Infiniband 线缆
采购商品:服务器1
采购数量:1
计量单位:套
预算单价:273857
技术参数及配置要求:1.形态:4U机架式服务器,英特尔? C621 芯片组,板载双万兆网口;
2.处理器:配置≥2颗英特尔? 至强? 金牌 5220, 18C 2.20GHz;
3.内存:配置≥8根32GB DDR4 3200 ECC REG;
4.硬盘:配置≥1块480GB SDD,一块SATA 8T 数据盘;
5.IO端口:≥1个RJ45专用IPMI局域网端口、2个万兆网口、1个VGA接口、1个COM接口、4个USB 3.0接口,2 个USB 2.0接口;
6.GPU卡:配置≥2张TESLA A800 80GB,每张卡CUDA核心数6912个,Tensor核心数432个,FP64为9.7 TFlops;
7.网络:配置≥一张IB HDR 200G网卡;
8.电源:配置2200W ( 1+1 )钛金冗余热插拔电源
9.认证资格:获得NVIDIA Elite NPN合作伙伴资质;
采购商品:人工智能实训平台授权
采购数量:1
计量单位:台
预算单价:23000
技术参数及配置要求:1.增加人工智能AI服务平台24个许可授权。
2.数据集管理:可以进行用户数据集更新,删除、克隆等;提供基于 Web 的文件管理功能,支持文件和文件夹的创建、删除、重命名、在线编辑、权限设置,支持文件的节点间同步,支持文件批量上传和打包下载;
3.模型管理:支持模型创建、模型克隆、模型删除和展示模型状态等,通过模型管理可以更方便的对不同模型进行处理、更直观的了解当前模型的运行情况以支持训练管理;
4.数据集预处理:提供基于 Caffe 的数据集预处理,用户可自行选择 lmdb和 leveldb 等不同后端格式;
5.模型训练:对 TensorFlow 和 Pytorch 等框架下的训练任务提供Horovod 训练模式,支持通过 Horovod 进行大规模 Ring All Reduce 训练;
6.在线推理:支持基于 docker 容器的在线推理功能。支持 Caffe、TensorFlow、PyTorch 等框架,用户可自定义推理使用的框架版本,模型路径,模型输出层及前后处理脚本。集成图像分类,目标检测、语义分割等推理应用类型,可进行数据批量推理,显示原始图片、推理结果及必要标注信息;
7.超参调优:支持基于容器的分布式超参数自动调优功能。支持 TPE自动搜索算法,多参数同时调优,分布式调优等功能。用户可自定义调参任务的调优参数类型、调参范围,使用的框架版本、容器数量、GPU 数量、内存、GPU 型号等内容,并可以实时查看调参曲线输出,监控各容器内资源使用状况;
8.镜像管理:支持公有镜像管理,用户可以订阅平台公有的容器镜像资源进行使用;管理员可以向公有镜像库上传镜像资源;支持私有镜像管理,将私有镜像分享至公有镜像库,供
其他用户订阅和使用。支持本地镜像上传和自定义;
9.容器端口:支持用户自定义容器的服务端口,支持 http 和 socket等端口模式,提供软件功能截图证明材料;
10.数据分享:用户可在分享中心分享和订阅数据集、模型、代码和文档等内容。用户可获得订阅内容的访问权限,其中数据集和模型可在编辑训练任务时直接访问;
11.主页自定义:支持自定义用户主页,可按需将常用或重要应用添加至主页快捷访问;
12.作业管理:支持基于队列、用户、用户组等多个维度的优先级定义策略,根据作业的静态(如资源请求、所属用户等)和动态指标(如入队时间、公平共享份额等),通过不同的权重设置,灵活控制作业优先级。
采购商品:服务器2
采购数量:3
计量单位:台
预算单价:230000
技术参数及配置要求:1.4U机架式服务器,含导轨;非刀片或高密度服务器产品,高度不超过4U,机箱上架深度不超过800mm,CPU主板与GPU主板分离式设计,支持CPU主板和GPU主板独立升级。
2.处理器:配置≥2颗英特尔 Sapphire Rapids系列处理器,单颗处理器核心数≥16C,主频≥2.5G;
3.内存:配置≥8根32G内存条,内置32个内存插槽;最大可支持4TB内存容量;
4.硬盘:配置≥2块480G 2.5 6Gb R SSD系统盘,支持raid 0/1;主板板载2个M.2接口;板载支持直出16个SATA硬盘,无需外接控制器;
5、配置≥1张4G缓存raid卡;
5.网络:配置≥1张双口1G 网卡, 配置≥1张100Gb Infiniband HCA 卡;
6.扩展性:最大支持12个PCIe5.0 x16全高全长插槽;
7.GPU:配置≥8张4090 24G显卡;每张卡CUDA核心数16384个,Tensor核心数512个,FP32:82.58TFlops;
8.支持8个8080风扇,支持N+2冗余。风扇分上下2层可以对 CPU 和 GPU进行分层散热。提供设备原厂商加盖公章的证明文件。
9.电源:配置≥4个2700W冗余电源,支持3+1/2+2冗余;
详情请访问原网页!
返回顶部