富通云腾CloudoorSphere私有云平台再出新功能——提供深度学习的服务
富通云腾CloudoorSphere私有云平台再出新功能——提供深度学习的服务
CloudoorSphere GPU主机
为了满足用户对高性能计算、视频处理或图形渲染的需求,富通云腾特推出GPU主机给有需求的用户使用,用户可以在CloudoorSphere控制台上进行GPU主机的创建和使用。
CloudoorSphere GPU 主机是具备 GPU 加速计算能力的实例,采用直通方式与虚拟主机对接,省去虚拟化带来的损耗,全面释放物理 GPU 的计算加速能力。
CloudoorSphere GPU 主机特性
1. GPU资源灵活配置
用户可以自定义GPU主机的配置,可灵活指定CPU、内存、GPU类型和数量、系统盘大小等,既可以新创建主机,也可以对已有主机进行GPU资源的绑定
2. 高配置GPU
为满足高性能计算的需求,系统提供NVIDIA Tesla P100型号的GPU,单节点可配置2张GPU卡,单机单浮点峰值计算能力最多可达20Tflops,且无虚拟化性能损耗。
CloudoorSphere GPU优势
灵活易用:
部署便捷,与虚拟主机采用一致的管理方式,在 CloudoorSphere控制台上即可完成创建并挂载 GPU,同时可以灵活指定操作系统,以及 CPU 和内存的资源配比。
超高计算加速:
英伟达 NVIDIA Tesla P100 GPU 可提供并行计算核心,单精度浮点运算能力达9.3 TFLOPS,双精度浮点运算能力达 4.7 TFLOPS。采用物理直通方式连接,消除虚拟化损耗,提供接近物理部署的计算性能。
如果您需要针对自己的应用创建GPU主机,请按照下述步骤进行。
1. 将GPU硬件安装在CloudoorSphere物理节点中。
2. 使CloudoorSphere识别该GPU硬件设备。
3. 创建可使用GPU的实例类型。
4. 通过第三步创建的实例类型创建虚拟机。
如何配置CloudoorSphere来使用GPU
启用 PCI passthrough
由任意节点中运行以下检测命令从而更新grub文件并添加nouveau驱动到黑名单中:
$ inspector tools compute gpu grub
### Expected output:
[inspector] Start running gpu_grub
[inspector] Copying /etc/default/grub files to nodes
[inspector] Validating copied files
[inspector] grub file was copied to all nodes
[inspector] Generate the GRUB configuration file on all nodes
[inspector] Finished running command : tools
配置特定GPU驱动备用
首先,需要在集群中找到该GPU的厂商名称。
检测GPU厂商是否正确的方法,在安装有GPU的节点中运行以下命令:
$ lspci -nn | grep -i vendor-name
如果在输出行中能看到PCI设备厂商名称与实际相符,请继续下一条命令。
如果你无法找到正确的厂商PCI设备,请列出所有POC设备并从其中找到正确的设备。
当找到正确的厂商名字后,请从任意节点运行以下命令:
$ inspector tools compute gpu vfio --vendor-name-list gpu-vendor-1 gpu-vendor-2
请注意只有GPU的设备才会被配置。
按照其类型ID被分类。以下列表罗列出所有PCI类型以及该PCI设备类型是否被认为是GPU。
Class Name | Class ID | Considered to be a GPU? |
VGA compatible controller | 0300 | YES |
XGA compatible controller | 0301 | YES |
3D controller | 0302 | YES |
Display controller | 0380 | NO |
本命令是将NVIDIA Tesla P100 GPU设备识别出来,其中一个设备被识别在stratonode0节点中,其他两个设备被识别在stratonode1节点中。
$ inspector tools compute gpu vfio --vendor-name-list nvidia
### 预期结果:
[inspector] Start running gpu_vfio
[inspector] Current PCI devices claimed by vfio driver are ['10de:15f7']
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
| SUBDEVICE_NAME | SUBDEVICE_ID | HOSTNAME | CLASS_NAME | SUBVENDOR_ID | VENDOR_ID | DEVICE_NAME | VENDOR_NAME | SUBVENDOR_NAME | CLASS | DEVICE_ID |
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
| [Device 11da] | 11da | stratonode0 | 3D controller | 10de | 10de | [Device 15f7] | NVIDIA Corporation | NVIDIA Corporation | 0302 | 15f7 |
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
| [Device 11da] | 11da | stratonode1 | 3D controller | 10de | 10de | [Device 15f7] | NVIDIA Corporation | NVIDIA Corporation | 0302 | 15f7 |
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
| [Device 11da] | 11da | stratonode1 | 3D controller | 10de | 10de | [Device 15f7] | NVIDIA Corporation | NVIDIA Corporation | 0302 | 15f7 |
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
[inspector] Copying /etc/modprobe.d/vfio.conf files to nodes
[inspector] Validating copied files
[inspector] Copying /etc/modules-load.d/vfio-pci.conf files to nodes
[inspector] Validating copied files
[inspector] Finished running command : tools
关机并重启所有加载了GPU设备的物理节点:
从任意节点中运行以下命令:
$ inspector tools compute gpu validate --vendor-name-list gpu-vendor-1 gpu-vendor-2
### Expected output:
[inspector] Start running gpu_validate
[inspector] Finished running command : tools
如果状态为PASSED,则可以忽略空白的中括号('{}')
如果nodedapi的确认状态为PASSED,则可以查看到一些PCI设备统计信息,这些统计信息可以在集群中被用到。
max_in_node 表示被选的PCI设备种类在单独一个节点中的最大数量
total_quantity 表示被选的PCI设备种类在所有节点中的数量之和。
为GPU创建一个实例类型