GPU云主机

使用 Windows GPU云主机搭建深度学习环境

2026-01-27 08:16:43

背景信息

实例环境如下表所示。

实例类型

pi2.2xlarge.4

操作系统

Windows     Server 2019数据中心版 64位 中文版

CPU

8vCPU

内存

32GB

GPU

NVIDIA   T4 *   1

驱动及相关库、软件版本

CUDA11.3.0、Python 3.9、cuDNN8.2.1、Pytorch 1.11.0、Tensorflow_gpu_2.6.0

说明:如何选择对应版本请参见如何选择驱动及相关库、软件版本

操作步骤

步骤一: 创建GPU实例

请参见用户指南->创建GPU云主机>创建未配备驱动的GPU云主机,创建GPU云主机实例。

步骤二:安装显卡驱动

1.  登录已创建的GPU云主机,操作参见Windows弹性云主机登录方式概述

2.  访问 NVIDIA 官网,选择显卡的驱动版本。单击“SEARCH”进入下载页面,单击进行下载。

3.  完成下载后,根据提示完成安装。

步骤三:安装CUDA

1.  访问英伟达官网 CUDA Toolkit Archive,选择对应版本。

2.  进入 CUDA Toolkit 11.3.0 Download 页面,选择对应系统配置。

3.  单击 “Download”,开始下载。

4.  下载完成后,请双击安装包,并根据提示进行安装。

 

请注意以下步骤:

在弹出的 CUDA Setup Package 窗口中,Extraction path 为暂时存放地址,无需修改,保持默认并单击 OK。

在许可协议步骤中,选择“自定义”并单击“下一步”。

根据实际需求选择安装组件,并单击“下一步”。

完成安装,根据提示重启云主机。

步骤四:配置环境变量

1.  在操作系统界面使用“win+R”快捷键打开运行。

2.  在运行窗口中输入sysdm.cpl,并单击“确定”。

3.  在打开的系统属性窗口中,选择“高级”页签,并单击“环境变量”。

4.  选择系统变量中的“Path”,单击“编辑”。

 

5.  在弹出的编辑环境变量窗口中,新建并输入如下环境变量配置(部分已有的无需再次新建)。

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\lib\x64
C:\Program Files\NVIDIA Corporation\NVSMI

 

6.  连续单击3次“确定”,保存设置。

步骤五:检查显卡驱动及CUDA

1.  在操作系统界面使用“win+R”快捷键打开运行。

2.  在运行窗口中输入cmd,并单击“确定”。

3.  在 cmd 窗口中,执行以下命令,检查显卡驱动是否安装成功。

    nvidia-smi

执行以下命令,检查 CUDA 是否安装成功。

nvcc -V

返回如下图所示界面表示 CUDA 安装成功。

步骤六:安装cuDNN

1.  前往cuDNN Download页面,单击“Archived cuDNN Releases”,查看更多版本。

2.  找到所需cuDNN版本,并下载。

3.  解压 cuDNN 压缩包,并将 bin、include 及lib 文件夹拷贝至 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3目录下。

至此已完成 cuDNN 安装。

步骤七:安装Anaconda深度学习库

建议通过Anaconda创建的虚拟环境安装Pytorch和Tensorflow。通过Anaconda,可便捷获取包并对包进行管理,同时可统一管理环境。Anaconda 包含了conda、Python在内的超过180个科学包及其依赖项,安装过程简单,能高性能使用Python和R语言,且有免费的社区支持。

1.  前往Anaconda官网,在页面中下载所需版本,以Anaconda3-2021.11-Windows-x86_64为例。

2.  请双击安装包,并根据页面提示进行安装。请注意在Choose Install Location步骤中,更改默认安装路径。因默认安装路径C盘中的 ProgramData文件夹为隐藏文件夹,为了方便管理,建议安装在其他文件夹。

3.  单击“Install”,根据提示完成安装。

步骤八:配置Anaconda深度学习库。

1.  在操作系统界面,单击左下角的,在弹出菜单中选择 Anaconda Prompt。

2.  在打开的Anaconda Prompt 命令行窗口中,执行以下命令,创建虚拟环境。

    conda create -n xxx_env python=3.9


说明:xxx_env 为环境名,python=3.11 为 Python 版本,您可根据实际需求进行修改。

如下所示即为安装成功。

您可使用以下命令进入或退出已创建的虚拟环境。进入虚拟环境后,即可按照实际需求安装包。

#激活命令

conda activate xxx_env

#退出命令

conda deactivate

步骤九:安装Pytorch。

前往Pytorch 官网,使用官网推荐的安装代码。本文已安装 CUDA 版本为11.3,在已创建的 xxx_env 虚拟环境中执行如下命令进行安装:

# CUDA 11.3
conda install pytorch==1.10.1 torchvision==0.11.2 torchaudio==0.10.1 cudatoolkit=11.3

步骤十:安装Tensorflow。

1.  执行以下命令,安装Tensorflow_gpu_2.6.0。

    pip install tensorflow-gpu==2.6.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

2.  执行以下命令,安装keras。

    pip install keras -i https://pypi.tuna.tsinghua.edu.cn/simple

深度学习库的安装已基本完成。您可参考本文方法安装更多所需要的包,并利用 Anaconda 自带的 jupyter notebook、Spyder 工具或者安装 PyCharm 等工具开始代码学习。


lxwVXFE1CBeG