为便于供应商及时了解军队采购信息,根据《军队物资服务集中采购需求管理暂行办法》等有关规定,现将采购意向公开如下:
序号 |
采购项目名称 |
需求概况 |
初步技术参数 |
预算金额(万元) |
预计采购时间 |
备注 |
1 |
蛋白设计智能计算平台 |
用于抗体优化AI模型推理和分子动力学模拟等任务。整套服务器以面向模型推理的GPU服务器为主。具体服务器包括GPU节点、存储管理节点、UPS、立式空调、除湿机等;支持Linux操作系统,包括监控终端及其它配套安全、管理设备;考虑后期设备的可扩展性;至少配置1个机柜。 |
1.设备采购总体 ★1.1.推理GPU节点≥2个。包含GPU计算卡,用于支持深度学习模型推理任务。 ★1.2.大模型微调GPU节点≥2个。包含GPU计算卡,用于支持深度学习等任务。 1.3.存储管理节点≥1个。支持用户登录,用于任务调度和集群管理,以及数据的存储。 1.4.交换机≥2台。至少1台用于支持管理网络,满足任务提交、资源管理需求;至少1台用于支持计算存储网络,满足节点和存储系统之间的高效数据交互需求。 1.5.集群管理系统1套。用于管理集群资源、查看和监控集群状态。 1.6.42U标准服务器机柜1台。 1.7.服务器总存储空间≥400TB。 1.8.机柜数量≥1台,机柜包含UPS、供电箱组。 2.推理GPU节点节点指标 2.1.双路机架式服务器。 ★2.2.CPU:单台配置≥2颗英特尔至强CPU,单颗CPU物理核心数≥16;基础主频≥2.5Ghz;最大睿频频率≥4.10 GHz;缓存≥37.5 M;或更高型号和性能的CPU;单台总物理核心数≥32核。 ★2.3.GPU:每个节点安装≥4块GPU卡,总显存≥96GB;单块GPU显存≥24GB;单个GPU核心数≥16384;单个GPU单精度浮点数≥48.6 TFLOPS。 ★2.4.内存:单台配置≥256GB DDR5 4800MHz内存,单条内存≥64GB,每个节点需可提供≥32个内存插槽。 2.5.硬盘:单台配置≥960GB SSD 固态硬盘,≥16TB SATA机械盘,支持≥12个 3.5”/2.5”SATA/SAS 热插拔硬盘。 2.6.单台主机支持≥8个双宽GPU计算卡;提供GPU只换不修服务承诺函。 2.7.电源:配置≥2000W电源模块,支持3+1/2+2冗余;单个电源2000W。 2.8.网口:支持4 x 1GbE RJ45,提供安装1块万兆双光口网卡。 2.9.提供服务器生产厂商或经国家认证第三方机构出具的测试报告:至少需包含压力测试报告;功能测试报告;设备Burn-In测试报告;矩阵运算测试报告。 3.大模型微调GPU节点指标 3.1.双路机架式服务器。 ★3.2.CPU:单台配置≥2颗英特尔至强CPU,单颗CPU物理核心数≥36;主频≥2.1Ghz,最大睿频频率≥3.5GHz,缓存≥54MB;或更高型号和性能的CPU;单台总核心数≥72。 ★3.3.GPU:单台配置≥3块NVIDIA GPU卡,总显存≥144GB;单块GPU显存≥48GB;单个GPU核心数≥18176;单个GPU单精度浮点数≥91.6 TFLOPS。 ★3.4.内存:单台配置≥512GB DDR4 3200MHz内存;节点总内存需高于GPU总显存;单条内存≥32GB;每个节点需可提供≥16个内存插槽。 3.5.单台主机支持≥4个双宽GPU计算卡;提供GPU只换不修服务承诺函。 3.6.硬盘:单台配置≥960GB SSD,≥16TB SATA机械硬盘;支持≥12个3.5”/2.5”SATA/SAS/NVMe U.2热插拔硬盘。 3.7.电源:配置≥2000W电源模块,支持3+1/2+2冗余;单个电源2000W。 3.8.网口:支持4 x 1GbE RJ45,提供安装1块万兆双光口网卡。 3.9.提供服务器生产厂商或经国家认证第三方机构出具的测试报告:至少需包含压力测试报告;功能测试报告;设备Burn-In测试报告;矩阵运算测试报告。 4.存储管理节点指标 4.1.机架式服务器 ★4.2.CPU:单台配置≥2颗英特尔至强CPU,单颗CPU物理核心数≥16;基础主频≥2.4Ghz;最大睿频频率≥3.4 GHz;缓存≥24 M;或更高型号和性能的CPU;单台总物理核心数≥32核。 ★4.3.内存:单台配置≥256GB DDR5 4800MHz内存,单条内存≥32GB,每个节点需可提供≥16个内存插槽。 ★4.4.硬盘:单台配置≥960GB SSD 固态硬盘,≥400TB SATA机械盘,支持≥36 个 3.5”/2.5”SATA/SAS 热插拔硬盘。 4.5.电源:配置≥1300W电源模块,支持1+1冗余,支持1+1冗余(单个电源1300W)。 4.6.≥2块2GB缓存SAS RAID控制器,带掉电保护,支持RAID0/1/5/10/50。 4.7.网口:支持4 x 1GbE RJ45,提供安装1块万兆双光口网卡。 5.集群配套设备指标 5.1.42U标准服务器机柜1台。 5.2.24口千兆交换机1台。 5.3.24口万兆交换机1台。 5.4.其它必要的网线、PDU等,确保服务器集群正常连接运行。 5.5.UPS备用电源1台,额定容量≥5400W,电池备用时间≥15分钟。 5.6.制冷空调1台,匹数≥2匹。 5.7.除湿机1台,具有定时,湿度监控,水满停机等功能,带排水管;额定除湿≥20L/天。 6.集群管理软件要求 6.1.采用与高性能GPU计算服务器数量以及品牌一致的集群配套管理软件,可根据用户后期软件使用要求,提供定制化服务,License授权≥3年,覆盖系统所有节点,支持AI+HPC功能,提供国家版权局颁发的计算机软件著作权登记证书。 6.2.支持对用户组进行管理,支持用户组创建、删除,角色设定,将用户加入或移出用户组等。支持用户批量导入功能。管理员可设置用户账号有效期,账号到期后,用户无法登录;到期后用户任务、数据、镜像保留。管理员可以限定用户镜像数量和占用空间。用户创建任务时,可设置最大运行时长,系统最大运行时长的由管理员进行设置,用户创建任务时,GPU、CPU、内存等相关资源的比例可根据模板自动设置,模板由管理员进行设置,提供功能页面截图。 6.3.支持获取用户列表API接口,返回结果支持分页功能,返回用户信息;支持获取任务列表API接口,返回任务信息包含任务ID、任务起始时间、CPU配额、内存配额以及GPU配额等信息。 6.4.支持AD域进行认证;管理员可以打开/关闭AD认证功能;平台用户/用户组数据可与AD与进行同步,提供二级管理和用户开放注册功能,管理员可以扩展用户注册属性并定义用户组映射规则,支持用户批量导入功能,提供功能页面截图。 6.5.支持公共镜像、分区镜像、项目镜像、私有镜像多层级镜像管理;提供Tensorflow、PyTorch、MxNet、CUDA、Gromacs、NAMD、LAMPPS各个版本镜像,用户创建交互式任务时,根据选择的交互式任务类型,对镜像进行自动配置;平台自动清理镜像垃圾,回收镜像仓库空间,避免存储资源的浪费。 6.6.需具有基于英伟达和英特尔环境下的标准视觉算法和高性能计算应用环境包集成功能,英特尔环境包需具有不同硬件环境的可执行编译功能,提供用户可直接在平台内进行环境包下载,也可通过平台提供的对外环境进行官方环境包下载的功能。 6.7.通过命令行创建HPC任务后,平台检查分区、项目和个人配额是否满足需求,任务资源超配则删除任务;管理员可以开启交互式任务运行时长限制,当交互式任务运行时间超过限制,平台删除任务并释放资源;管理员可以查看交互式任务空闲时长,并且删除空闲时间过长的任务;提供功能页面截图。 6.8.在Web GUI输入要运行命令,设置CPU、GPU、Mem和task数量,提交HPC任务; 根据任务的CPU、GPU和Mem和其它需求,使用slurm动态调度任务到最优的节点上,保证资源使用的效率。通过Web GUI创建HPC配置调试任务; 创建配置调试任务时,根据所选择镜像的元数据,支持多种启动方式(至少包含native方式、ssh方式、Jupyter方式);针对支持ssh的交互式任务,在本地IDE中进行代码同步和远程调试。 |
150 |
2024.4 |
一、公示时间
2024年03月27日-2024年04月02
二、意见反馈相关要求及说明
(一)如对采购需求有任何意见建议,供应商可以通过军队采购平台反馈参与意向和意见建议。
(二)本次公开的采购意向仅作为供应商了解初步采购安排的参考,具体采购项目情况以最终发布的采购公告和采购文件为准。
(三)本次征询为无偿活动。
三、联系方式
孙老师,0431-86985817。
2024年03月26日