运维开发网

gpu

0
  • pytorch 运行一段时间后出现GPU OOM的问题

    pytorch的dataloader会将数据传到GPU上,这个过程GPU的mem占用会逐渐增加,为了避免GPUmen被无用的数据占用,可以在每个step后用del删除一些变量,编程客栈也可以使用torch.cuda.empty_cache()释放显存:[详细]

    2021-06-02 18:37 分类:Python
  • Linux环境下GPU版本的pytorch安装

    服务器环境: Ubuntu 16.04www.cppcns.com.7 显卡:2080 cuda:10.1 注:若服务器有管理员账户和个人账户,最好在个人账户下重新安装anaconda,否则安装pytorch过程中可能有些库安装失败,由于权限问题,不能删除这些[详细]

    2021-05-17 10:08 分类:Python
  • 利用 Amazon CloudWatch 监控 GPU

    说明由于当前K8S测试和生产环境已经有容器应用在使用,所以不太适合去更改底层容器运行时(runtime),所以这里使用自定义GPU监控指标推送至CloudWatch触发阈值来完成GPU监控和报警活动。方案架构方案部署首先,我们需要给每个使用GPU的实...[详细]

    2021-04-17 18:34 分类:Linux
  • K8S使用GPU

    多个pod共享一张GPU不行。pod在创建的时候请求gpu最低是卡级别,一张显卡只能分配给一个pod。但是一个pod是由多个容器组成的,所以同一个pod的容器可以共享分配给当前pod的所有GPU。多个docker容器共享一张GPU可以。通过nvidia-docker启动...[详细]

    2021-04-15 23:24 分类:Linux
  • nvidia英伟达GPU:nvidia driver is not loaded

    最近在开fastai提供的AI教程,刚好自己的电脑上有nvidia独显(GPU),先前因为耗电温度高就切换到了内置显卡.是时候实现你的价值了nvidia,出来吧小宝贝.执行召唤咒语:nvidia-settings后傻眼了:ERROR: NVIDIA driver is not loadedERROR: Unab...[详细]

    2021-04-07 10:17 分类:自动化
  • Linux安装Pytorch1.8GPU(CUDA11.1)的实现

    先说下自己之前的环境(都是linux系统,差别不大): Centos7.6 NVIDIA Driver Version 440.33.01(等会需要更新驱动)[详细]

    2021-03-25 09:07 分类:Linux
  • 用gpu训练好的神经网络,用tensorflow-cpu跑出错的原因及解决方案

    训练的时候当然用gpu,速度快呀。 我想用cpu版的tensorflow跑一下,结果报错,这个错误不太容易看懂。[详细]

    2021-03-03 11:55 分类:Python
  • Pytorch如何切换 cpu和gpu的使用详解

    前言,在pytorch中,当服务器上的gpu被占用时,很多时候我们想先用cpu调试下代码,那么就需要进行gpu和cpu的切换。[详细]

    2021-03-02 10:47 分类:Python
  • Window10上Tensorflow的安装(CPU和GPU版本)

    之前摸索tensorflow的时候安装踩坑的时间非常久,主要是没搞懂几个东西的关系,就在瞎调试,以及当时很多东西不懂,很多报错也一知半解的。这次重装系统后正好需要再配置一次,把再一次的经历记录一下。我的电脑是华[详细]

    2020-12-18 10:39 分类:Python
  • 【MindSpore】Ubuntu16.04上成功安装GPU版MindSpore1.0.1

    本文是在宿主机Ubuntu16.04上拉取cuda10.1-cudnn7-ubuntu18.04的镜像,在容器中通过Miniconda3创建python3.7.5的环境并成功安装mindspore_gpu_1.0.1;一、前期踩过的坑二、安装成功的流程【1】拉取cuda10.1-cudnn7-ubuntu18.04的镜像【2】...[详细]

    2020-12-13 09:31 分类:自动化