《深度学习》—— 神经网络模型对手写数字的识别

news/2024/9/20 4:38:36 标签: 深度学习, 神经网络, 人工智能

神经网络模型对手写数字的识别

import torch
from torch import nn  # 导入神经网络模块
from torch.utils.data import DataLoader  # 数据包管理工具,打包数据,
from torchvision import datasets  # 封装了很多与图像相关的模型,数据集
from torchvision.transforms import ToTensor  # 数据转换,张量,将其他类型的数据转换为tensor张量

"""
MNIST包含70,000张手写数字图像:60,000张用于训练,10,000张用于测试。
图像是灰度的,28x28像素的,并且居中的,以减少预处理和加快运行。
"""
""" 下载训练数据集 (包含训练数据+标签)"""
training_data = datasets.MNIST(
    root='data',
    train=True,
    download=True,
    transform=ToTensor()  # 张量,图片是不能直接传入神经网络模型
)  # 对于pytorch库能够识别的数据一般是tensor张量.
# NumPy 数组只能在CPU上运行。Tensor可以在GPU上运行,这在深度学习应用中可以显著提高计算速度。

""" 下载测试数据集(包含训练图片+标签)"""
test_data = datasets.MNIST(
    root='data',
    train=False,
    download=True,
    transform=ToTensor()
)
print(len(training_data))

""" 展示手写字图片 """
# tensor --> numpy 矩阵类型的数据
from matplotlib import pyplot as plt

figure = plt.figure()
for i in range(9):
    img, label = training_data[i + 59000]  # 提取第59000张图片

    figure.add_subplot(3, 3, i + 1)  # 图像窗口中创建多个小窗口,小窗口用于显示图片
    plt.title(label)
    plt.axis("off")  # 关闭坐标
    plt.imshow(img.squeeze(), cmap="gray")
    a = img.squeeze()  # img.squeeze()从张量img中去掉维度为1的(降维)
plt.show()

training_dataloader = DataLoader(training_data, batch_size=64)  # 64张图片为一个包
test_dataloader = DataLoader(test_data, batch_size=64)
for X, y in test_dataloader:  # X 表示打包好的每一个数据包
    print(f"Shape of X [N, C, H, W]: {X.shape}")
    print(f"Shape of y: {y.shape} {y.dtype}")
    break

""" 判断当前设备是否支持GPU,其中mps是苹果m系列芯片的GPU """
device = "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
print(f"Using {device} device")


class NeuralNetwork(nn.Module):  # 通过调用类的形式来使用神经网络神经网络的模型->nn.module
    def __init__(self):
        super().__init__()  # 继承的父类初始化
        self.flatten = nn.Flatten()  # 展开,创建一个展开对象flatten
        self.hidden1 = nn.Linear(28 * 28, 256)  # 第1个参数:有多少个神经元传入进来,第2个参数:有多少个数据传出去前一层神经元的个数,当前本层神经元个数
        self.hidden2 = nn.Linear(256, 128)  # 输出必需和标签的类别相同,输入必须是上一层的神经元个数
        self.hidden3 = nn.Linear(128, 256)
        self.hidden4 = nn.Linear(256, 128)
        self.out = nn.Linear(128, 10)

    #
    def forward(self, x):  # 前向传播,你得告诉它,数据的流向。是神经网络层连接起来,函数名称不能改。当你调用forward函数的时候,传入进来的图像数据
        x = self.flatten(x)
        x = self.hidden1(x)
        x = torch.sigmoid(x)  # 激活函数
        x = self.hidden2(x)
        x = torch.sigmoid(x)
        x = self.hidden3(x)
        x = torch.sigmoid(x)
        x = self.hidden4(x)
        x = torch.sigmoid(x)
        x = self.out(x)
        return x


model = NeuralNetwork().to(device)  # 把刚刚创建的模型传入到gpu或cpu
print(model)


# 定义训练模型的函数
def train(dataloader, model, loss_fn, optimizer):
    model.train()  # 告诉模型,开始训练,模型中w进行随机化操作,已经更新w。在训练过程中,w会被修改的
    # pytorch提供2种方式来切换训练和测试的模式,分别是:model.train()和 model.eval()。
    # 一般用法是:在训练开始之前写上model.trian(),在测试时写上model.eval()。
    batch_size_num = 1
    for X, y in dataloader:
        X, y = X.to(device), y.to(device)  # 把训练数据集和标签传入cpu或GPU
        pred = model.forward(X)  # .forward可以被省略,父类中已经对次功能进行了设置。自动初始化w权值
        loss = loss_fn(pred, y)  # 通过交叉熵损失函数计算损失值loss

        optimizer.zero_grad()  # 梯度值清零
        loss.backward()  # 反向传播计算得到每个参数的梯度值w
        optimizer.step()  # 根据梯度更新网络w参数

        loss_value = loss.item()  # 从tensor数据中提取数据出来,tensor获取损失值
        if batch_size_num % 200 == 0:
            print(f"loss: {loss_value:>7f} [number:{batch_size_num}]")
        batch_size_num += 1


# 定义测试模型的函数
def test(dataloader, model, loss_fn):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    model.eval()  # 测试,w就不能再更新。
    test_loss, correct = 0, 0
    with torch.no_grad():  # 一个上下文管理器,关闭梯度计算。当你确认不会调用Tensor.backward()的时候
        for X, y in dataloader:
            X, y = X.to(device), y.to(device)
            pred = model.forward(X)
            test_loss += loss_fn(pred, y).item()  # test loss是会自动累加每一个批次的损失值
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()
            a = (pred.argmax(1) == y)  # dim=1表示每一行中的最大值对应的索引号,dim=0表示每一列中的最大值对应的索引号
            b = (pred.argmax(1) == y).type(torch.float)
    test_loss /= num_batches  # 衡量模型测试的好坏。
    correct /= size  # 平均的正确率
    print(f"Test result: \n Accuracy: {(100 * correct)}%, Avg loss: {test_loss}")


loss_fn = nn.CrossEntropyLoss()  # 创建交叉熵损失函数对象,因为手写字识别中一共有10个数字,输出会有10个结果

optimizer = torch.optim.Adam(model.parameters(), lr=0.01)  # 创建一个优化器

# 设置训练轮数
epochs = 10
for e in range(epochs):
    print(f"Epoch {e + 1}\n")
    train(training_dataloader, model, loss_fn, optimizer)
print("Done!")
# 测试模型
test(test_dataloader, model, loss_fn)

  • 展示的手写数字图片如下:
    在这里插入图片描述
  • 模型结构如下:
    在这里插入图片描述
  • 训练结果如下:
  • 共有10轮训练
    在这里插入图片描述
  • 测试结果如下:
    在这里插入图片描述

http://www.niftyadmin.cn/n/5666544.html

相关文章

Redis-01 入门和十大数据类型

Redis支持两种持久化方式:RDB持久化和AOF持久化。 1.RDB持久化是将Redis的数据以快照的形式保存在磁盘上,可以手动触发或通过配置文件设置定时触发。RDB保存的是Redis在某个时间点上的数据快照,可以通过恢复RDB文件来恢复数据。 2.AOF持久化…

WMS仓储系统的真正价值:从混乱到有序,亿发WMS如何重塑仓库管理

在现代供应链管理中,仓库不仅仅是一个简单的存储场所,它是企业高效运营的核心环节之一。为了更好地优化仓储流程、提高工作效率、减少错误率,越来越多的企业引入了WMS(仓库管理系统)。然而,WMS的真正价值不…

【2024】前端学习笔记8-内外边距-边框-背景

学习笔记 外边距:Margin内边距:Padding边框:Border背景:Background 外边距:Margin 用于控制元素周围的空间,它在元素边框之外创建空白区域,可用于调整元素与相邻元素(包括父元素和兄…

C++标准的一些特性记录:C++11的auto和decltype

文章目录 auto容器遍历配合lambda表达式decltype两者对引用类型的处理是相同的decltype保留const,而auto不会保留const在C++11中,引入了两个新的关键字,auto和decltype两个关键字,都是用于做类型推断。但是使用的场景有些区别。 auto 容器遍历 auto这个关键字,我个人在编…

maxwell 输出消息到 kafka

文章目录 1、kafka-producer2、运行一个Docker容器,该容器内运行的是Zendesk的Maxwell工具,一个用于实时捕获MySQL数据库变更并将其发布到Kafka或其他消息系统的应用3、进入kafka容器内部4、tingshu_album 数据库中 新增数据5、tingshu_album 数据库中 更…

高效实现业务流程管理的技术——低代码解决方案

一、低代码平台概述 低代码平台允许用户通过可视化的界面设计和配置应用程序,而无需深入编程知识。这种平台通常包括拖拽式的组件、流程图设计工具、以及预设的功能模块,使得业务用户和开发者都能快速构建和修改应用程序。 二、低代码平台在 BPM 中的优…

LLM - 理解 多模态大语言模型(MLLM) 的 预训练(Pre-training) 与相关技术 (三)

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142167709 免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。 完备(F…

全球首个!复旦大学冯建峰团队开发数字孪生脑平台,具备 860 亿神经元规模

人类大脑是自然界中最复杂和神秘的信息处理系统之一,其约 1.4 千克的微小重量,仅占身体重量的 2%,却奇迹般地消耗了人们体内约 20% 的氧气和血液。在这个精密的网络中,大约有 860 亿个神经元相互交织,形成了超过 100 万…