Chiriri's blog Chiriri's blog
首页
  • Java

    • JavaSE
    • JavaEE
    • 设计模式
  • Python

    • Python
    • Python模块
    • 机器学习
  • Golang

    • Golang
    • gRPC
  • 服务器

    • Linux
    • MySQL
    • NoSQL
    • Kubernetes
  • 项目

    • 传智健康
    • 畅购商城
  • Hadoop生态

    • Hadoop
    • Zookeeper
    • Hive
    • Flume
    • Kafka
    • Azkaban
    • Hbase
    • Scala
    • Spark
    • Flink
  • 大数据项目

    • 离线数仓
  • 青训营

    • 第四届青训营
  • HTML

    • HTML
    • JavaScript
  • Vue

    • Vue2
    • TypeScript
    • Vue3
    • Uni-APP
  • 数据结构与算法
  • C语言
  • 考研数据结构
  • 计算机组成原理
  • 计算机操作系统
  • Java基础

    • Java基础
    • Java集合
    • JUC
    • JVM
  • 框架

    • Spring
    • Dubbo
    • Spring Cloud
  • 数据库

    • MySQL
    • Redis
    • Elasticesearch
  • 消息队列

    • RabbitMQ
    • RocketMQ
  • 408

    • 计算机网络
    • 操作系统
    • 算法
  • 分类
  • 标签
  • 归档
  • 导航站
GitHub (opens new window)

Iekr

苦逼后端开发
首页
  • Java

    • JavaSE
    • JavaEE
    • 设计模式
  • Python

    • Python
    • Python模块
    • 机器学习
  • Golang

    • Golang
    • gRPC
  • 服务器

    • Linux
    • MySQL
    • NoSQL
    • Kubernetes
  • 项目

    • 传智健康
    • 畅购商城
  • Hadoop生态

    • Hadoop
    • Zookeeper
    • Hive
    • Flume
    • Kafka
    • Azkaban
    • Hbase
    • Scala
    • Spark
    • Flink
  • 大数据项目

    • 离线数仓
  • 青训营

    • 第四届青训营
  • HTML

    • HTML
    • JavaScript
  • Vue

    • Vue2
    • TypeScript
    • Vue3
    • Uni-APP
  • 数据结构与算法
  • C语言
  • 考研数据结构
  • 计算机组成原理
  • 计算机操作系统
  • Java基础

    • Java基础
    • Java集合
    • JUC
    • JVM
  • 框架

    • Spring
    • Dubbo
    • Spring Cloud
  • 数据库

    • MySQL
    • Redis
    • Elasticesearch
  • 消息队列

    • RabbitMQ
    • RocketMQ
  • 408

    • 计算机网络
    • 操作系统
    • 算法
  • 分类
  • 标签
  • 归档
  • 导航站
GitHub (opens new window)
  • Hadoop

  • Zookeeper

  • Hive

  • Flume

  • Kafka

  • Azkaban

  • Hbase

    • Hbase
    • Hbase数据模型
    • Hbase 安装
    • Hbase shell
    • Hbase原理
    • Phoenix
      • 安装
      • Phoenix Shell操作
      • Dbeaver连接
      • 表的映射
        • 视图映射
        • 表映射
      • JDBC操作
        • 胖客户端
        • 瘦客户端
      • Phoenix 二级索引
        • 二级索引配置文件
        • 全局二级索引
        • 多级索引
        • 删除索引
        • 携带其他字段的全局索引
        • 全局索引的缺点
        • Phoenix 本地索引
        • 协处理器
    • Hbase与Hive的集成
    • HBase优化
  • Scala

  • Spark

  • Flink

  • 离线数仓

  • 青训营

  • DolphinScheduler

  • Doris

  • 大数据
  • Hbase
Iekr
2021-11-25
目录

Phoenix

# Phoenix

Phoenix 是 HBase 的开源 SQL 皮肤。可以使用标准 JDBC API 代替 HBase 客户端 API 来创建表,插入数据和查询 HBase 数据。

Phoenix 特点:

  1. 容易集成:如 Spark,Hive,Pig,Flume 和 Map Reduce;
  2. 操作简单:DML 命令以及通过 DDL 命令创建和操作表和版本化增量更改;
  3. 支持 HBase 二级索引创建。

image-20211125073505744

# 安装

cd /opt/software/
tar -zxvf apache-phoenix-5.0.0-HBase-2.0-bin.tar.gz -C /opt/module/
cd /opt/module/
mv apache-phoenix-5.0.0-HBase-2.0-bin phoenix
1
2
3
4

复制 server 包并拷贝到各个节点的 hbase/lib

cd /opt/module/phoenix/
cp phoenix-5.0.0-HBase-2.0-server.jar /opt/module/hbase/lib/
1
2

复制 client 包并拷贝到各个节点的 hbase/lib

cp phoenix-5.0.0-HBase-2.0-client.jar /opt/module/hbase/lib/
1

同步 hbase lib

xsync /opt/module/hbase/lib/
1

配置环境变量

sudo vim /etc/profile.d/my_env.sh
1
#phoenix
export PHOENIX_HOME=/opt/module/phoenix
export PHOENIX_CLASSPATH=$PHOENIX_HOME
export PATH=$PATH:$PHOENIX_HOME/bin
1
2
3
4
source /etc/profile.d/my_env.sh
1

集群启动 hadoop zookeeper 和 hbase

启动 Phoenix

sqlline.py hadoop102,hadoop103,hadoop104:2181
1

# Phoenix Shell 操作

  • 显示所有表

    • !table
      -- 或者
      !tables
      
      1
      2
      3
  • 创建表

    • -- 直接指定单个列作为RowKey
      CREATE TABLE IF NOT EXISTS student(
      id VARCHAR primary key,
      name VARCHAR);
      
      -- 在phoenix中,表名等会自动转换为大写,若要小写,使用双引号,如"us_population"。
      -- 指定多个列的联合作为RowKey
      CREATE TABLE IF NOT EXISTS us_population (
      State CHAR(2) NOT NULL,
      City VARCHAR NOT NULL,
      Population BIGINT
      CONSTRAINT my_pk PRIMARY KEY (state, city));
      
      
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
  • 插入数据

    • upsert into student values('1001','zhangsan');
      
      1
  • 查询数据

    • select * from student;
      select * from student where id='1001';
      
      1
      2
  • 删除数据

    • delete from student where id='1001';
      
      1
  • 删除表

    • drop table student;
      
      1

# Dbeaver 连接

Hbase 推荐我们使用瘦客户端进行连接 我们先启动服务端

queryserver.py start #服务端启动
sqlline-thin.py hadoop102:8765 #客户端连接
1
2

修改类名 URL 模块和端口号

类名: org.apache.phoenix.queryserver.client.Driver
URL模板: jdbc:phoenix:thin:url=http://{host}:{port};serialization=PROTOBUF
端口号: 8765
1
2
3

image-20211125090823871

添加驱动从 maven 仓库下载 jar 导入

https://mvnrepository.com/artifact/org.apache.phoenix/phoenix-queryserver-client

image-20211125090934676

# 表的映射

默认情况下,直接在 HBase 中创建的表,通过 Phoenix 是查看不到的。如果要在 Phoenix 中操作直接在 HBase 中创建的表,则需要在 Phoenix 中进行表的映射。映射方式有两种:视图映射和表映射。

# 视图映射

Phoenix 创建的视图是只读的,所以只能用来做查询,无法通过视图对源数据进行修改等操作。

在 hbase shell 建立表

create 'test','info1','info2'
1

在 phoenix 中创建关联 test 表的视图

create view "test"(id varchar primary key,"info1"."name" varchar, "info2"."address" varchar);
1

删除视图

drop view "test"
1

# 表映射

以类似创建视图的方式创建关联表,只需要将 create view 改为 create table 即可

create table "test"(id varchar primary key,"info1"."name" varchar, "info2"."address" varchar) column_encoded_bytes=0;
1

# JDBC 操作

# 胖客户端

创建工程 导入依赖

  <dependencies>
        <dependency>
            <groupId>org.apache.phoenix</groupId>
            <artifactId>phoenix-core</artifactId>
            <version>5.0.0-HBase-2.0</version>
        </dependency>

        <dependency>
            <groupId>com.lmax</groupId>
            <artifactId>disruptor</artifactId>
            <version>3.3.6</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.8.4</version>
        </dependency>

    </dependencies>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

编码

package com.atguigu.phoenix;


import java.sql.*;

public class PhoenixClient {

    public static void main(String[] args)  throws  Exception{
        //1.定义参数
        String driver = "org.apache.phoenix.jdbc.PhoenixDriver";
        String url = "jdbc:phoenix:hadoop102,hadoop103,hadoop104:2181";

        //2.加载驱动
        Class.forName(driver);

        //3.创建连接
        Connection connection = DriverManager.getConnection(url);

        //4.预编译SQL
        PreparedStatement preparedStatement = connection.prepareStatement("SELECT * FROM STUDENT");

        //5.查询获取返回值
        ResultSet resultSet = preparedStatement.executeQuery();

        //6.打印结果
        while (resultSet.next()) {
            System.out.println(resultSet.getString(1) + resultSet.getString(2));
        }

        //7.关闭资源
        resultSet.close();
        preparedStatement.close();
        connection.close();
    }

}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36

# 瘦客户端

依赖

    <dependencies>
        <dependency>
            <groupId>org.apache.phoenix</groupId>
            <artifactId>phoenix-queryserver-client</artifactId>
            <version>5.0.0-HBase-2.0</version>
        </dependency>

    </dependencies>
1
2
3
4
5
6
7
8

编码

package com.atguigu.phoenix;

import org.apache.phoenix.queryserver.client.ThinClientUtil;

import java.sql.*;

public class PhoenixClient2 {
    public static void main(String[] args) throws SQLException {
        String url = ThinClientUtil.getConnectionUrl("hadoop102", 8765); //获取jdbc url
        Connection connection = DriverManager.getConnection(url); //获取连接对象
        PreparedStatement preparedStatement = connection.prepareStatement("SELECT * FROM STUDENT");
        ResultSet resultSet = preparedStatement.executeQuery();

        while (resultSet.next()) {
            System.out.println(resultSet.getString(1) + resultSet.getString(2));
        }

        resultSet.close();
        preparedStatement.close();
        connection.close();

    }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

# Phoenix 二级索引

# 二级索引配置文件

添加如下配置到 HBase 的 HRegionserver 节点的 hbase-site.xml

<!-- phoenix regionserver 配置参数-->
	<property>
		<name>hbase.regionserver.wal.codec</name>
		<value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
	</property>

	<property>
		<name>hbase.region.server.rpc.scheduler.factory.class</name>
		<value>org.apache.hadoop.hbase.ipc.PhoenixRpcSchedulerFactory</value>
		<description>Factory to create the Phoenix RPC Scheduler that uses separate queues for index and metadata updates</description>
	</property>

	<property>
		<name>hbase.rpc.controllerfactory.class</name>
		<value>org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory</value>
		<description>Factory to create the Phoenix RPC Scheduler that uses separate queues for index and metadata updates</description>
	</property>

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

添加如下配置到 HBase 中 HMaster 节点的 hbase-site.xml 中

<!-- phoenix master 配置参数 -->
	<property>
		<name>hbase.master.loadbalancer.class</name>
		<value>org.apache.phoenix.hbase.index.balancer.IndexLoadBalancer</value>
	</property>

	<property>
		<name>hbase.coprocessor.master.classes</name>
		<value>org.apache.phoenix.hbase.index.master.IndexMasterObserver</value>
	</property>

1
2
3
4
5
6
7
8
9
10
11

重新启动 hbase 和 Phoenix

# 全局二级索引

Global Index 是默认的索引格式,创建全局索引时,会在 HBase 中建立一张新表。也就是说索引数据和数据表是存放在不同的表中的,因此全局索引适用于多读少写的业务场景。

image-20211125113658425

写数据的时候会消耗大量开销,因为索引表也要更新,而索引表是分布在不同的数据节点上的,跨节点的数据传输带来了较大的性能消耗。

在读数据的时候 Phoenix 会选择索引表来降低查询消耗的时间。

创建单个字段的全局索引

CREATE INDEX student_index ON student (name);
1

索引表查看

scan 'STUDENT_INDEX'
1

value 全部为 x 空的 而 row 变成 value+rowkey 二进制

image-20211125144210236

二级索引只能针对 指定列限定符 + 主键的索引表 如果查询中查询列带上其他列限定符 则无法从此索引表进行索引查询 从而进行全表扫描。

image-20211125152657808

# 多级索引

针对上面二级索引只能进行两个列限定符 进索引扫描 我们可以创建索引表时指定多个列限定符

CREATE INDEX student_name_sex_index ON student (name,sex); -- 创建一个主键 name sex 索引表
1

创建完成后我们就可以进行多个列限定符来进行索引查询

explain select id,name,sex from student  where name = '6'; -- 从有这三个列限定符的索引表进行索引查询 没有则全表扫描
explain select id,name,sex,address from student  where name = '6'; -- 因为没有包含id,name,sex,address这四个列限定符的索引表 所有进行全表扫描
1
2

注意:创建索引表顺序要与查询时一致 否则无法进行索引查询

# 删除索引

直接删除指定索引表

drop index STUDENT_NAME_SEX_INDEX on student;
1

# 携带其他字段的全局索引

CREATE INDEX student_name_index_all ON student (name) INCLUDE (age,sex,address);
1

image-20211125153241439

通过携带其他字段 根据指定字段创建索引 并携带其他字段中的值 携带字段没有创建索引只是附加为索引字段的结果 但条件查询必须是索引字段 否则也是进行全表扫描

# 全局索引的缺点

  1. 占用空间 需要建立多个表
  2. 维护成本高 无法在更新和添加频繁的表中使用 需要重新全表更新索引

# Phoenix 本地索引

Local Index 适用于写操作频繁的场景。

索引数据和数据表的数据是存放在同一张表中(且是同一个 Region),避免了在写操作的时候往不同服务器的索引表中写索引带来的额外开销。

CREATE LOCAL INDEX local_index_student ON student (name);
1

同样有个新的索引表

image-20211125161848429

但在 hbase shell 中 查看 list 时没有查看到此表 索引数据和数据表的数据是存放在同一张表中

查看 student 表数据

image-20211125162107302

直接在原表中插入索引数据 索引值 + 主键 value 为空

image-20211125161800896

本地索引不局限查询列 我们可以查询所有列数据 但是条件语句必须是索引列限定

  1. 先命中索引列查出主键 id
  2. 根据主键 id 命中原表的数据
  3. 全局比本地索引快 全局是一次命中 而本地需要命中之后根据主键查询
  4. 全局空间牺牲更大 而本地直接在表中增加
  5. 全局索引更新要更新全部索引表 而本地索引只需要更新一张表 (原数据表中的索引行)

# 协处理器

编写协处理器,实现在往 A 表插入数据的同时让 HBase 自身(协处理器)向 B 表中插入一条数据。

相当于增强操作 而我们的全局索引就是基于协处理器进行索引查询

创建项目 导入依赖

<dependencies>
    <dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-client</artifactId>
        <version>1.3.1</version>
</dependency>

    <dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-server</artifactId>
        <version>1.3.1</version>
    </dependency>
</dependencies>
1
2
3
4
5
6
7
8
9
10
11
12
13

定义 FruitTableCoprocessor 类并继承 BaseRegionObserver 类

package com.atguigu;

import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.coprocessor.BaseRegionObserver;
import org.apache.hadoop.hbase.coprocessor.ObserverContext;
import org.apache.hadoop.hbase.coprocessor.RegionCoprocessorEnvironment;
import org.apache.hadoop.hbase.regionserver.wal.WALEdit;

import java.io.IOException;

public class FruitTableCoprocessor extends BaseRegionObserver {

    @Override
    public void postPut(ObserverContext<RegionCoprocessorEnvironment> e, Put put, WALEdit edit, Durability durability) throws IOException {

        //获取连接
        Connection connection = ConnectionFactory.createConnection(HBaseConfiguration.create());

        //获取表对象
        Table table = connection.getTable(TableName.valueOf("fruit"));

        //插入数据
        table.put(put);

        //关闭资源
        table.close();
        connection.close();
    }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
编辑 (opens new window)
上次更新: 2023/12/06, 01:31:48
Hbase原理
Hbase与Hive的集成

← Hbase原理 Hbase与Hive的集成→

最近更新
01
k8s
06-06
02
进程与线程
03-04
03
计算机操作系统概述
02-26
更多文章>
Theme by Vdoing | Copyright © 2022-2025 Iekr | Blog
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式