Phoenix

# Phoenix

Phoenix 是 HBase 的开源 SQL 皮肤。可以使用标准 JDBC API 代替 HBase 客户端 API 来创建表，插入数据和查询 HBase 数据。

Phoenix 特点:

容易集成：如 Spark，Hive，Pig，Flume 和 Map Reduce；
操作简单：DML 命令以及通过 DDL 命令创建和操作表和版本化增量更改；
支持 HBase 二级索引创建。

# 安装

cd /opt/software/
tar -zxvf apache-phoenix-5.0.0-HBase-2.0-bin.tar.gz -C /opt/module/
cd /opt/module/
mv apache-phoenix-5.0.0-HBase-2.0-bin phoenix

1
2
3
4

复制 server 包并拷贝到各个节点的 hbase/lib

cd /opt/module/phoenix/
cp phoenix-5.0.0-HBase-2.0-server.jar /opt/module/hbase/lib/

1
2

复制 client 包并拷贝到各个节点的 hbase/lib

cp phoenix-5.0.0-HBase-2.0-client.jar /opt/module/hbase/lib/

同步 hbase lib

xsync /opt/module/hbase/lib/

配置环境变量

sudo vim /etc/profile.d/my_env.sh

#phoenix
export PHOENIX_HOME=/opt/module/phoenix
export PHOENIX_CLASSPATH=$PHOENIX_HOME
export PATH=$PATH:$PHOENIX_HOME/bin

1
2
3
4

source /etc/profile.d/my_env.sh

集群启动 hadoop zookeeper 和 hbase

启动 Phoenix

sqlline.py hadoop102,hadoop103,hadoop104:2181

# Phoenix Shell 操作

显示所有表
- ```
!table
-- 或者
!tables
```
  1
  2
  3

创建表

-- 直接指定单个列作为RowKey
CREATE TABLE IF NOT EXISTS student(
id VARCHAR primary key,
name VARCHAR);

-- 在phoenix中，表名等会自动转换为大写，若要小写，使用双引号，如"us_population"。
-- 指定多个列的联合作为RowKey
CREATE TABLE IF NOT EXISTS us_population (
State CHAR(2) NOT NULL,
City VARCHAR NOT NULL,
Population BIGINT
CONSTRAINT my_pk PRIMARY KEY (state, city));

1
2
3
4
5
6
7
8
9
10
11
12
13

插入数据

upsert into student values('1001','zhangsan');

查询数据

select * from student;
select * from student where id='1001';

1
2

删除数据
- ```
delete from student where id='1001';
```
  1
删除表
- ```
drop table student;
```
  1

# Dbeaver 连接

Hbase 推荐我们使用瘦客户端进行连接我们先启动服务端

queryserver.py start #服务端启动
sqlline-thin.py hadoop102:8765 #客户端连接

1
2

修改类名 URL 模块和端口号

类名: org.apache.phoenix.queryserver.client.Driver
URL模板: jdbc:phoenix:thin:url=http://{host}:{port};serialization=PROTOBUF
端口号: 8765

1
2
3

添加驱动从 maven 仓库下载 jar 导入

https://mvnrepository.com/artifact/org.apache.phoenix/phoenix-queryserver-client

# 表的映射

默认情况下，直接在 HBase 中创建的表，通过 Phoenix 是查看不到的。如果要在 Phoenix 中操作直接在 HBase 中创建的表，则需要在 Phoenix 中进行表的映射。映射方式有两种：视图映射和表映射。

# 视图映射

Phoenix 创建的视图是只读的，所以只能用来做查询，无法通过视图对源数据进行修改等操作。

在 hbase shell 建立表

create 'test','info1','info2'

在 phoenix 中创建关联 test 表的视图

create view "test"(id varchar primary key,"info1"."name" varchar, "info2"."address" varchar);

删除视图

drop view "test"

# 表映射

以类似创建视图的方式创建关联表，只需要将 create view 改为 create table 即可

create table "test"(id varchar primary key,"info1"."name" varchar, "info2"."address" varchar) column_encoded_bytes=0;

# JDBC 操作

# 胖客户端

创建工程导入依赖

  <dependencies>
        <dependency>
            <groupId>org.apache.phoenix</groupId>
            <artifactId>phoenix-core</artifactId>
            <version>5.0.0-HBase-2.0</version>
        </dependency>

        <dependency>
            <groupId>com.lmax</groupId>
            <artifactId>disruptor</artifactId>
            <version>3.3.6</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.8.4</version>
        </dependency>

    </dependencies>

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

编码

package com.atguigu.phoenix;


import java.sql.*;

public class PhoenixClient {

    public static void main(String[] args)  throws  Exception{
        //1.定义参数
        String driver = "org.apache.phoenix.jdbc.PhoenixDriver";
        String url = "jdbc:phoenix:hadoop102,hadoop103,hadoop104:2181";

        //2.加载驱动
        Class.forName(driver);

        //3.创建连接
        Connection connection = DriverManager.getConnection(url);

        //4.预编译SQL
        PreparedStatement preparedStatement = connection.prepareStatement("SELECT * FROM STUDENT");

        //5.查询获取返回值
        ResultSet resultSet = preparedStatement.executeQuery();

        //6.打印结果
        while (resultSet.next()) {
            System.out.println(resultSet.getString(1) + resultSet.getString(2));
        }

        //7.关闭资源
        resultSet.close();
        preparedStatement.close();
        connection.close();
    }

}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36

# 瘦客户端

依赖

    <dependencies>
        <dependency>
            <groupId>org.apache.phoenix</groupId>
            <artifactId>phoenix-queryserver-client</artifactId>
            <version>5.0.0-HBase-2.0</version>
        </dependency>

    </dependencies>

1
2
3
4
5
6
7
8

编码

package com.atguigu.phoenix;

import org.apache.phoenix.queryserver.client.ThinClientUtil;

import java.sql.*;

public class PhoenixClient2 {
    public static void main(String[] args) throws SQLException {
        String url = ThinClientUtil.getConnectionUrl("hadoop102", 8765); //获取jdbc url
        Connection connection = DriverManager.getConnection(url); //获取连接对象
        PreparedStatement preparedStatement = connection.prepareStatement("SELECT * FROM STUDENT");
        ResultSet resultSet = preparedStatement.executeQuery();

        while (resultSet.next()) {
            System.out.println(resultSet.getString(1) + resultSet.getString(2));
        }

        resultSet.close();
        preparedStatement.close();
        connection.close();

    }
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

# Phoenix 二级索引

# 二级索引配置文件

添加如下配置到 HBase 的 HRegionserver 节点的 hbase-site.xml

<!-- phoenix regionserver 配置参数-->
	<property>
		<name>hbase.regionserver.wal.codec</name>
		<value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
	</property>

	<property>
		<name>hbase.region.server.rpc.scheduler.factory.class</name>
		<value>org.apache.hadoop.hbase.ipc.PhoenixRpcSchedulerFactory</value>
		<description>Factory to create the Phoenix RPC Scheduler that uses separate queues for index and metadata updates</description>
	</property>

	<property>
		<name>hbase.rpc.controllerfactory.class</name>
		<value>org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory</value>
		<description>Factory to create the Phoenix RPC Scheduler that uses separate queues for index and metadata updates</description>
	</property>

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

添加如下配置到 HBase 中 HMaster 节点的 hbase-site.xml 中

<!-- phoenix master 配置参数 -->
	<property>
		<name>hbase.master.loadbalancer.class</name>
		<value>org.apache.phoenix.hbase.index.balancer.IndexLoadBalancer</value>
	</property>

	<property>
		<name>hbase.coprocessor.master.classes</name>
		<value>org.apache.phoenix.hbase.index.master.IndexMasterObserver</value>
	</property>

1
2
3
4
5
6
7
8
9
10
11

重新启动 hbase 和 Phoenix

# 全局二级索引

Global Index 是默认的索引格式，创建全局索引时，会在 HBase 中建立一张新表。也就是说索引数据和数据表是存放在不同的表中的，因此全局索引适用于多读少写的业务场景。

写数据的时候会消耗大量开销，因为索引表也要更新，而索引表是分布在不同的数据节点上的，跨节点的数据传输带来了较大的性能消耗。

在读数据的时候 Phoenix 会选择索引表来降低查询消耗的时间。

创建单个字段的全局索引

CREATE INDEX student_index ON student (name);

索引表查看

scan 'STUDENT_INDEX'

value 全部为 x 空的而 row 变成 value+rowkey 二进制

二级索引只能针对指定列限定符 + 主键的索引表 如果查询中查询列带上其他列限定符 则无法从此索引表进行索引查询 从而进行全表扫描。

# 多级索引

针对上面二级索引只能进行两个列限定符进索引扫描我们可以创建索引表时指定多个列限定符

CREATE INDEX student_name_sex_index ON student (name,sex); -- 创建一个主键 name sex 索引表

创建完成后我们就可以进行多个列限定符来进行索引查询

explain select id,name,sex from student  where name = '6'; -- 从有这三个列限定符的索引表进行索引查询 没有则全表扫描
explain select id,name,sex,address from student  where name = '6'; -- 因为没有包含id,name,sex,address这四个列限定符的索引表 所有进行全表扫描

1
2

注意：创建索引表顺序要与查询时一致否则无法进行索引查询

# 删除索引

直接删除指定索引表

drop index STUDENT_NAME_SEX_INDEX on student;

# 携带其他字段的全局索引

CREATE INDEX student_name_index_all ON student (name) INCLUDE (age,sex,address);

通过携带其他字段 根据指定字段创建索引并携带其他字段中的值 携带字段没有创建索引只是附加为索引字段的结果但条件查询必须是索引字段否则也是进行全表扫描

# 全局索引的缺点

占用空间需要建立多个表
维护成本高无法在更新和添加频繁的表中使用需要重新全表更新索引

# Phoenix 本地索引

Local Index 适用于写操作频繁的场景。

索引数据和数据表的数据是存放在同一张表中（且是同一个 Region），避免了在写操作的时候往不同服务器的索引表中写索引带来的额外开销。

CREATE LOCAL INDEX local_index_student ON student (name);

同样有个新的索引表

但在 hbase shell 中查看 list 时没有查看到此表索引数据和数据表的数据是存放在同一张表中

查看 student 表数据

直接在原表中插入索引数据索引值 + 主键 value 为空

本地索引不局限查询列我们可以查询所有列数据但是条件语句必须是索引列限定

先命中索引列查出主键 id
根据主键 id 命中原表的数据
全局比本地索引快全局是一次命中而本地需要命中之后根据主键查询
全局空间牺牲更大而本地直接在表中增加
全局索引更新要更新全部索引表而本地索引只需要更新一张表 (原数据表中的索引行)

# 协处理器

编写协处理器，实现在往 A 表插入数据的同时让 HBase 自身（协处理器）向 B 表中插入一条数据。

相当于增强操作 而我们的全局索引就是基于协处理器进行索引查询

创建项目导入依赖

<dependencies>
    <dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-client</artifactId>
        <version>1.3.1</version>
</dependency>

    <dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-server</artifactId>
        <version>1.3.1</version>
    </dependency>
</dependencies>

1
2
3
4
5
6
7
8
9
10
11
12
13

定义 FruitTableCoprocessor 类并继承 BaseRegionObserver 类

package com.atguigu;

import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.coprocessor.BaseRegionObserver;
import org.apache.hadoop.hbase.coprocessor.ObserverContext;
import org.apache.hadoop.hbase.coprocessor.RegionCoprocessorEnvironment;
import org.apache.hadoop.hbase.regionserver.wal.WALEdit;

import java.io.IOException;

public class FruitTableCoprocessor extends BaseRegionObserver {

    @Override
    public void postPut(ObserverContext<RegionCoprocessorEnvironment> e, Put put, WALEdit edit, Durability durability) throws IOException {

        //获取连接
        Connection connection = ConnectionFactory.createConnection(HBaseConfiguration.create());

        //获取表对象
        Table table = connection.getTable(TableName.valueOf("fruit"));

        //插入数据
        table.put(put);

        //关闭资源
        table.close();
        connection.close();
    }
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

编辑

上次更新: 2023/12/06, 01:31:48

← Hbase原理 Hbase与Hive的集成→