| 技术参数及配置要求 | 1. 单台硬件规格:7U机架式服务器,配置2颗INTEL 8558 X86处理器,每颗CPU核心数48核,96线程,每颗基础频率2.1GHz,TDP 330W;或其他INTEL处理器,各项参数不低于INTEL 8558 X86 型号。 2. 内存:内存总量8块64GB(DDR5 5600MHz ECC RDIMM)。 3. 硬盘:配置2块960GB SSD硬盘,配置4块7.68T NVME U.2 固态硬盘。 4. RAID:配置2块配置4G RAID卡。 5. 网卡:双口25G SFP28无模块光纤网卡,配置2块多模光模块;配置1块千兆网卡,电口数量≥4。 6. 显卡:配置2块GPU显卡,要求显存≥32GB ,GDDR7显存,显存带宽≥1792GB/s,CUDA核心不低于20000。 7. 电源及外设:配置4块2700W电源;支持2+2冗余模式。 8. 散热:8组热插拔高效系统风扇,每组系统风扇由上下2个 15000 转转子组成,支持 N+1 冗余模式、 9. 支持8个3.5寸/2.5寸热插拔硬盘,可支持SAS/SATA/NVMe SSD混插,支持主板板载≥2个M.2 SSD插槽,接口≥2千兆电口,接口≥1个VGA接口,接口≥4个USB接口,接口≥1个RJ45专用管理接口,配置热插拔2+2冗余电源。 10. 管理芯片:集成系统管理芯片,提供高级管理功能,本地固件更新、错误日志,提供系统状况的可视显示,支持IPMI2.0、Redfish、SOL、KVM、虚拟媒介等功能。 11. 任务调度管理器:集成SLURM任务调度器,可实时监控节点的健康状态,图形视图界面及用户访问入口为 任务调度管理器提供一个友好的用户接口,可配置了可靠的任务调度管理器故障转移。 12. 告警管理:机箱开盖入侵检测。 13. 系统预置种类丰富的任务镜像,支持各种机器学习框架,配置(1)1. Ollama、TensorFlow, cuDNN, Anaconda环境下的TORCH,NCCL等机器学生软件;(2)SPAdes、Canu、Flye、Falcon、Soapdenovo、Unicycler、Repeatmasker、Repeatmodeler等生信分析软件;(3)PostgreSQL 17.6、MySQL 8.4、PostGIS、pgAdmin PostgreSQL、MySQL Spatial Extensions、MySQL Workbench、NumPy、Pandas、SciPy、Scikit-learn、Django/Flask等数据库软件,提供安装包协助安装。 14. GPU云资源: (1)提供高性能计算容器云队列按量服务,卡时≥3个月有效期的500卡时辅助计算资源。单节点采用INTEL CPU ≥64核心,GPU显存≥≥32G,可用计算节点数量≥50计算卡时平台资源。支持tensorflow/pytorch等多个人工智能框架调度提供GPU资源池化,提供GPU算力资源的在线创建,支持服务目录、实例规格、数据存储、镜像资源、服务端口等功能,可以实现容器创建并交付算力资源;提供容器实例的管理,支持Jupyterlab、WebShell、SSH、服务端口等多种访问方式,支持开关机和定时开关机,支持私有镜像保存,快速保存个人的私有开发环境;支持实例监控功能,可以查看GPU、CPU、内存、网络等监控信息。 (2)平台存储资源:支持面向GPU计算的存储,支持以客户端形式通过高速计算网络挂载到高性能计算集群中所有登陆、管理及计算节点,实现统一存储目录空间,共享存储提供Web端数据传输工具,支持文件/文件夹上传、支持断点续传,共享存储支持NFS、SMB、FTP、POSIX等接口,无需配置第三方共享软件,共享存储支持在线扩缩容,扩容过程对上层应用透明、不会造成明显的性能降低,支持扩容完成后,自动进行数据迁移。 (3)平台调度系统:作业调度支持多队列管理,各个队列可设置不同管理策略、根据用户作业的运行情况动态调整用户优先级,作业调度支持作业运行状态的统计分析、作业调度、计算资源分区**** |