01_快速入门

news/2024/9/19 22:12:28 标签: pandas, python

读取数据

python">import pandas as pd

# df = pd.read_excel('https://xxxx/xxx//xx.xslx') # 读取网络数据
# df = pd.read_excel(r'd:\data\xx.xslx')  # 读取本地文件
# 如果是csv文件,用read_csv()函数
df = pd.read_csv('seaborn/iris.csv')

查看数据

python">df.head()  # 前5条记录
df.tail()  # 后5条记录
df.sample(5)# 随机5条记录
df[10:15]  # 10~14记录

验证数据

python"># df.shape        # 查看行数与列树数(注意是属性,不是函数)
# df.info()       # 查看索引、类型、内存信息
# df.describe()   # 查看数字列的汇总信息
# df.dtypes       # 查看各字段类型
# df.axes         # 查看数据行、列名
df.columns      # 查看列名

建立索引

python">df.set_index('species',inplace=True) # 指定species 列为索引

选取数据、排序等

python">## 列选择
# df['sepal_length'] # 通过列名筛选
# df.sepal_length    # 同上
# df[['sepal_length','sepal_width']] # 选择多列,注意数组写法
# df.loc[:,['sepal_length','sepal_width']] # df.loc[x,y]是—个非常强大的数据选择函数,其中x代表行,y代表列。df.iloc[x,y] 与df.locl类似,使用的是自然索引

## 行选择
# df[df.index == 'setosa'] # 指定行索引
# df[0:3] # 使用自然索引,类似切片
# df[0:10:2] #前10个中每两个取一个 
# df.iloc[0:10,:] #取前十个

## 行、列选择
# df.loc['setosa','sepal_length':'petal_length'] # 'sepal_length':'petal_length'表示列范围

## 排序
# df.sort_values('sepal_length')  # 按照sepal_length升序排列
df.sort_values('sepal_length',ascending=False) # 按照sepal_length降序排列

分组聚合

python"># df.groupby('species') # 按照行索引分组  species是行索引名称
# df.groupby('species').sum() # 分组计算各列数值的总和
df.groupby('species').agg({
    'sepal_length':sum,      # 总和
    'sepal_width': 'count',  # 数量
    'petal_length': 'mean',  # 均值
    'petal_length':max       # 最大值
})

pandas__73">pandas 数据结构

numpy

NumPy(Numeric Python)是Python的科学计算包,提供多维数组、蒙版数组、矩阵等对象,用于对数组进行快速便捷操作,包括数学、逻辑、形状处理、排序、傅里叶变换、线性代数等。

由于NumPy对数据进行向量化描述,没有任何显式的循环操作,所以执行速度更快,代码更加简洁优雅,出错率更低。NumPy提供了两个基本的对象:

  • ndarray :存储数据的多维数组
  • ufunc :对数组进行处理的函数

使用NumPy需要先导入,约定俗成地为它起别名np。

数据类型

np.int64 有符号64位整形

np.float32 标准双精度浮点型

np.complex 由128位浮点数组组成的复数类型

np.bool bool类型(True 或 False)

np.object Python 中的object类型

np.string 固定长度的string类型

np.unicode 固定长度的unicode类型

np.NaN np.float的子类型,可以认为是None,但又能参与数字运算

np.nan 同 np.nan

Series

Series(系数、数列、序列)是一个带有标签的一维数组,这一系列连续的数据代表了一定的业务意义。

DataFrame

DataFrame意为数据框,它就像一个存放数据的架子,有多行多列,每个数据在一个格子里,每个格子有自己的编号。

常见数据类型:

  • float
  • int
  • bool
  • datetime64[ns]
  • datetime64[ns,tz]
  • timedelta64[ns]
  • timedelta[ns]
  • category
  • object
  • string

数据检测:注意s参数表示一个Series

  • pd.api.types.is_bool_dtype(s)
  • pd.api.types.is_int64_dtype(s)

索引

  • 索引(index):行和列上的标签,标识二维数据坐标的行索引和列索引,默认情况下,指的是每一行的索引。列索引又被称为字段名,表头。
  • 自然索引、数字索引:行和列的0~n(n为数据长度-1)形式的索引,数据天然具有的索引形式。
  • 标签(label):行索引和列索引,如果是Series,那只能是它行上的索引。
  • 轴(axis):仅用在DataFrame结构中,代表数据的方向,如行和列,用0代表列(默认),1代表行。

http://www.niftyadmin.cn/n/5666208.html

相关文章

MiniDB 使用手册

MiniDB 使用手册 核心功能指南表的创建与管理数据操作事务管理 本使用文档旨在帮助用户快速上手使用本数据库系统。 进行数据库操作之间必须输入init命令进行初始化 核心功能指南 表的创建与管理 CREATE TABLE users (id INT AUTO_INCREMENT PRIMARY KEY,username VARCHAR …

【Elasticsearch系列七】索引 crud

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

数据库基础知识---------------------------(2)

MYSQL的存储过程 就是数据库 SQL 语言层面的代码封装与重用 语法格式 delimiter 自定义结束符号 create procedure 存储名({in,out,inout} 参数名,数据类型...) begin sql 语句 end 自定义结束符 delimiter; 变量定义 局部变量 用户自定义 仅在begin / end 块中有效 当将查询…

对 JavaScript 原型的理解

笔者看了一些有关 JavaScript 原型的文章有感而发,就将所感所悟画了下来如果有理解错误和不足的地方,欢迎各位大佬指出,笔者感激不尽

Transformer 架构详解

Transformer 架构是由 Ashish Vaswani 和他的同事们在 2017 年的论文《Attention is All You Need》中首次提出的。它在自然语言处理(NLP)和其他序列建模任务中取得了前所未有的成功。Transformer 模型完全基于自注意力机制,摒弃了循环和卷积操作,这使得它在处理长序列数据…

C++20 模块化(Modules)

C20 引入的模块化(Modules)是一个重大改进,旨在取代传统的头文件机制,提高编译速度、代码可维护性以及项目的可扩展性。模块化为 C 提供了一种更现代化的代码组织方式,避免了头文件中常见的宏污染、重复编译和复杂的依…

SpringSecurity原理解析(五):HttpSecurity 类处理流程

1、SpringSecurity 在spring boot中与SSM项目中基于配置文件的区别 通过前边的笔记我们可以知道,在传统的SSM项目中 SpringSecurity的使用是基于配置文件 的,然后spring 容器初始化的时候将 SpringSecurity 中的各种标签解析成对应的Bean对象&#xff0c…

linux 操作系统下的dhclient命令介绍和案例使用

linux 操作系统下的dhclient命令介绍和案例使用 dhclient 是 Linux 系统中用于动态主机配置协议(DHCP)客户端的命令。它的主要功能是从 DHCP 服务器获取网络配置,包括 IP 地址、子网掩码、默认网关和 DNS 服务器等信息 dhclient 命令概述 …