编程小白冲Kaggle每日打卡(13)--kaggle学堂:<机器学习简介>基础数据探索

news/2025/2/24 15:16:51

Kaggle官方课程链接:Basic Data Exploration

本专栏旨在Kaggle官方课程的汉化,让大家更方便地看懂。

Basic Data Exploration

加载并理解您的数据。

使用Pandas熟悉您的数据

任何机器学习项目的第一步都是熟悉数据。您将使用Pandas库进行此操作。Pandas是数据科学家用来探索和操纵数据的主要工具。大多数人在代码中将pandas缩写为pd。

import pandas as pd

Pandas库最重要的部分是DataFrame。DataFrame包含您可能认为是表的数据类型。这类似于Excel中的工作表或SQL数据库中的表。

Pandas对于你想用这类数据做的大多数事情都有强大的方法。

例如,我们将查看澳大利亚墨尔本的房价数据。在实践练习中,您将把相同的过程应用于一个新的数据集,该数据集包含爱荷华州的房价。

示例(墨尔本)数据位于文件路径中/输入/墨尔本住房快照/melb_data.csv。

我们使用以下命令加载和浏览数据:

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()
RoomsPriceDistancePostcodeBedroom2BathroomCarLandsizeBuildingAreaYearBuiltLattitudeLongtitudePropertycount
count13580.0000001.358000e+0413580.00000013580.00000013580.00000013580.00000013518.00000013580.0000007130.0000008205.00000013580.00000013580.00000013580.000000
mean2.9379971.075684e+0610.1377763105.3019152.9147281.5342421.610075558.416127151.9676501964.684217-37.809203144.9952167454.417378
std0.9557486.393107e+055.86872590.6769640.9659210.6917120.9626343990.669241541.01453837.2737620.0792600.1039164378.581772
min1.0000008.500000e+040.0000003000.0000000.0000000.0000000.0000000.0000000.0000001196.000000-38.182550144.431810249.000000
25%2.0000006.500000e+056.1000003044.0000002.0000001.0000001.000000177.00000093.0000001940.000000-37.856822144.9296004380.000000
50%3.0000009.030000e+059.2000003084.0000003.0000001.0000002.000000440.000000126.0000001970.000000-37.802355145.0001006555.000000
75%3.0000001.330000e+0613.0000003148.0000003.0000002.0000002.000000651.000000174.0000001999.000000-37.756400145.05830510331.000000
max10.0000009.000000e+0648.1000003977.00000020.0000008.00000010.000000433014.00000044515.0000002018.000000-37.408530145.52635021650.000000

解读数据描述

结果显示原始数据集中每列有8个数字。第一个数字是计数,显示有多少行没有缺失值。

缺失值的出现有很多原因。例如,在调查一间卧室的房子时,不会收集第二间卧室的大小。我们将回到缺失数据的话题。

第二个值是平均值,即平均值。在这种情况下,std是标准偏差,它衡量的是数值的分散程度。

要解释最小值、25%、50%、75%和最大值,想象一下从最低值到最高值对每列进行排序。第一个(最小)值是最小值。如果你遍历列表的四分之一,你会发现一个大于值的25%但小于值的75%的数字。这就是25%的值(发音为“25th percentury”)。第50和第75百分位数的定义类似,最大值是最大的数字。

Your Turn

开始你的第一个编码练习


http://www.niftyadmin.cn/n/5864513.html

相关文章

IDEA使用Maven方式构建SpringBoot项目

1、环境准备 确保你已经安装了以下工具: Java JDK(推荐 JDK 8 或更高版本) IntelliJ IDEA(推荐使用最新版本) 2、创建 Spring Boot 项目 (1) 打开 IntelliJ IDEA。 (2&#xff09…

Git操作整体流程

文章目录 1.Git创建个人仓库2、Git全局配置3、Git本地管理4. Git本地管理常用命令汇总5、使用Git命令将项目提交到远程码云管理6.使用IDEA进行管理7、Idea里面的终端8、关于提交总结 1.Git创建个人仓库 打开https://gitee.com/,登录个人账号,右上角加号…

綫性與非綫性泛函分析與應用_2.賦范向量空間-母本

第2章 賦范向量空間 1.向量空間;哈默爾基;向量空間的維數 - 定義與性質 - 向量空間的定義:設\mathbb{K}為數域,集合X是\mathbb{K}上的向量空間,若在X上定義了加法(x,y)\in X\times X\to x + y\in X和數乘(\alpha,x)\in\mathbb{K}\times X\to\alpha x\in X兩種運算,且滿足…

在线骑行|基于SpringBoot的在线骑行网站设计与实现(源码+数据库+文档)

在线骑行网站系统 目录 基于SpringBoot的在线骑行设计与实现 一、前言 二、系统设计 三、系统功能设计 5.1用户信息管理 5.2 路线攻略管理 5.3路线类型管理 5.4新闻赛事管理 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取…

图神经网络

现在是下午四点,我今天醒的太晚了,十二点才起床,然后打打炉石看看小说,一晃就到现在了。不过真的蛮有意思的。我得开始学习了,毕竟时间很紧张,我需要尽快达到毕业要求。 补充一下,其实喜欢看网文…

vscode代码补全 main

设置->配置用户代码片段->c(c.json)->填写如下信息 PS: new回车 自动补全 {"start c code": {"prefix": "new","body": ["#include <head.h>\n","int main(int argc,const char * argv[])","…

JAVAEE一>Spring IoC和DI详解

目录 Spring容器说明&#xff1a;Ioc容器优势&#xff1a;DI介绍&#xff1a;从Spring获取对象&#xff1a;获取对象的方法&#xff1a;关于上下文的概念&#xff1a; Controller注解&#xff08;控制层&#xff1a;接收参数并响应&#xff09;&#xff1a;Service注解&#xf…

内网网络安全的解决之道

本文简要分析了企业内部网络所面临的主要分析&#xff0c;阐述了安全管理人员针对不同威胁的主要技术应对措施。进一步介绍了业界各种技术措施的现状&#xff0c;并提出了未来可能的发展趋势。 内网网络安全问题的提出 网络安全对于绝大多数人而言指的都是互联网安全&#xff…