Chiriri's blog Chiriri's blog
首页
  • Java

    • JavaSE
    • JavaEE
    • 设计模式
  • Python

    • Python
    • Python模块
    • 机器学习
  • Golang

    • Golang
    • gRPC
  • 服务器

    • Linux
    • MySQL
    • NoSQL
    • Kubernetes
  • 项目

    • 传智健康
    • 畅购商城
  • Hadoop生态

    • Hadoop
    • Zookeeper
    • Hive
    • Flume
    • Kafka
    • Azkaban
    • Hbase
    • Scala
    • Spark
    • Flink
  • 大数据项目

    • 离线数仓
  • 青训营

    • 第四届青训营
  • HTML

    • HTML
    • JavaScript
  • Vue

    • Vue2
    • TypeScript
    • Vue3
    • Uni-APP
  • 数据结构与算法
  • C语言
  • 考研数据结构
  • 计算机组成原理
  • 计算机操作系统
  • Java基础

    • Java基础
    • Java集合
    • JUC
    • JVM
  • 框架

    • Spring
    • Dubbo
    • Spring Cloud
  • 数据库

    • MySQL
    • Redis
    • Elasticesearch
  • 消息队列

    • RabbitMQ
    • RocketMQ
  • 408

    • 计算机网络
    • 操作系统
    • 算法
  • 分类
  • 标签
  • 归档
  • 导航站
GitHub (opens new window)

Iekr

苦逼后端开发
首页
  • Java

    • JavaSE
    • JavaEE
    • 设计模式
  • Python

    • Python
    • Python模块
    • 机器学习
  • Golang

    • Golang
    • gRPC
  • 服务器

    • Linux
    • MySQL
    • NoSQL
    • Kubernetes
  • 项目

    • 传智健康
    • 畅购商城
  • Hadoop生态

    • Hadoop
    • Zookeeper
    • Hive
    • Flume
    • Kafka
    • Azkaban
    • Hbase
    • Scala
    • Spark
    • Flink
  • 大数据项目

    • 离线数仓
  • 青训营

    • 第四届青训营
  • HTML

    • HTML
    • JavaScript
  • Vue

    • Vue2
    • TypeScript
    • Vue3
    • Uni-APP
  • 数据结构与算法
  • C语言
  • 考研数据结构
  • 计算机组成原理
  • 计算机操作系统
  • Java基础

    • Java基础
    • Java集合
    • JUC
    • JVM
  • 框架

    • Spring
    • Dubbo
    • Spring Cloud
  • 数据库

    • MySQL
    • Redis
    • Elasticesearch
  • 消息队列

    • RabbitMQ
    • RocketMQ
  • 408

    • 计算机网络
    • 操作系统
    • 算法
  • 分类
  • 标签
  • 归档
  • 导航站
GitHub (opens new window)
  • JavaSE

  • JavaEE

  • Linux

  • MySQL

  • NoSQL

  • Python

  • Python模块

  • 机器学习

    • 机器学习
      • 工作流程
      • 特征工程
      • 机器学习算法分类
        • 监督学习
        • 无监督学习
        • 半监督学习
        • 强化学习
      • 分类模型评估
      • 拟合
      • 安装库
      • 快捷键
    • matplotlib
    • Numpy
    • Pandas
  • 设计模式

  • 传智健康

  • 畅购商城

  • 博客项目

  • JVM

  • JUC

  • Golang

  • Kubernetes

  • 硅谷课堂

  • C

  • 源码

  • 神领物流

  • RocketMQ

  • 短链平台

  • 后端
  • 机器学习
Iekr
2021-09-08
目录

机器学习

# 机器学习

# 工作流程

  1. 获取数据
  2. 数据基本除了
  3. 特征工程
  4. 机器学习 (模型训练)
  5. 模型评估

# 特征工程

  • 把数据转换为机器更容易识别的数据
  • 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
  • 特征提取 特征预处理 特征降维

# 机器学习算法分类

# 监督学习

  • 输入数据是由输入特征值和目标值所组成
    • 函数的输出可以是一个连续的值 (称为回归)
      • image-20210908124617647
    • 或是输出是有限个离散值 (称为分类)
      • image-20210908124637908

# 无监督学习

输入数据是由输入特征值组成

输入数据没有被标记,也没有确定的结果。样板数据类别未知,需要根据样本间的相似性对样本进行分类 (聚类,clustering) 试图使类内差距最小化,类间差距最大化

image-20210908124943853

# 半监督学习

训练集同时包含有标记样板数据和未标记样板数据

# 强化学习

自动进行决策 并且可以做连续决策

动态过程,上一步数据的输出是下一步数据的输入

image-20210908125327977

# 分类模型评估

  • 准确率
  • 精确率
  • 召回率
  • F1-score
  • AUC 指标

  • 均方根误差

    • image-20210908133216063
  • 相对平方误差

    • image-20210908133259329
  • 平方绝对误差

    • image-20210908133356359
  • 决定系数

    • image-20210908133316977

    # 拟合

  • 欠拟合 机器学习到的特征太少 导致区分标准太粗糙 不能准确识别出输入数据

  • 过拟合 机器学习到的特征太多 导致验证数据集以及测试数据集中表现不佳

https://archive.ics.uci.edu/ml/index.php

https://archive-beta.ics.uci.edu/

# 安装库

requirements.txt

matplotlib
numpy
pandas
tables
jupyter
1
2
3
4
5

使用 pip 安装 在当前目录安装

#升级一下
python -m pip install -U pip
python -m pip install -U --force-reinstall pip
pip install -r requirements.txt
1
2
3
4

安装 jupyter 插件

pip install jupyter-contrib-nbextensions
#执行
jupyter contrib nbextension install --user --skip-running-check
1
2
3

image-20210908144336317

安装自动整理

pip install autopep8
1

# 快捷键

  • 添加 cell: a 或者 b
  • 删除: x
  • 修改 cell 的模式: m 或 y
  • 执行: shift+enter
  • 打开帮助文档 shift+tab
编辑 (opens new window)
#机器学习
上次更新: 2023/12/06, 01:31:48
Scrapy
matplotlib

← Scrapy matplotlib→

最近更新
01
k8s
06-06
02
进程与线程
03-04
03
计算机操作系统概述
02-26
更多文章>
Theme by Vdoing | Copyright © 2022-2025 Iekr | Blog
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式