Phoenix
# Phoenix
Phoenix 是 HBase 的开源 SQL 皮肤。可以使用标准 JDBC API 代替 HBase 客户端 API 来创建表,插入数据和查询 HBase 数据。
Phoenix 特点:
- 容易集成:如 Spark,Hive,Pig,Flume 和 Map Reduce;
- 操作简单:DML 命令以及通过 DDL 命令创建和操作表和版本化增量更改;
- 支持 HBase 二级索引创建。

# 安装
cd /opt/software/
tar -zxvf apache-phoenix-5.0.0-HBase-2.0-bin.tar.gz -C /opt/module/
cd /opt/module/
mv apache-phoenix-5.0.0-HBase-2.0-bin phoenix
2
3
4
复制 server 包并拷贝到各个节点的 hbase/lib
cd /opt/module/phoenix/
cp phoenix-5.0.0-HBase-2.0-server.jar /opt/module/hbase/lib/
2
复制 client 包并拷贝到各个节点的 hbase/lib
cp phoenix-5.0.0-HBase-2.0-client.jar /opt/module/hbase/lib/
同步 hbase lib
xsync /opt/module/hbase/lib/
配置环境变量
sudo vim /etc/profile.d/my_env.sh
#phoenix
export PHOENIX_HOME=/opt/module/phoenix
export PHOENIX_CLASSPATH=$PHOENIX_HOME
export PATH=$PATH:$PHOENIX_HOME/bin
2
3
4
source /etc/profile.d/my_env.sh
集群启动 hadoop zookeeper 和 hbase
启动 Phoenix
sqlline.py hadoop102,hadoop103,hadoop104:2181
# Phoenix Shell 操作
显示所有表
!table -- 或者 !tables1
2
3
创建表
-- 直接指定单个列作为RowKey CREATE TABLE IF NOT EXISTS student( id VARCHAR primary key, name VARCHAR); -- 在phoenix中,表名等会自动转换为大写,若要小写,使用双引号,如"us_population"。 -- 指定多个列的联合作为RowKey CREATE TABLE IF NOT EXISTS us_population ( State CHAR(2) NOT NULL, City VARCHAR NOT NULL, Population BIGINT CONSTRAINT my_pk PRIMARY KEY (state, city));1
2
3
4
5
6
7
8
9
10
11
12
13
插入数据
upsert into student values('1001','zhangsan');1
查询数据
select * from student; select * from student where id='1001';1
2
删除数据
delete from student where id='1001';1
删除表
drop table student;1
# Dbeaver 连接
Hbase 推荐我们使用瘦客户端进行连接 我们先启动服务端
queryserver.py start #服务端启动
sqlline-thin.py hadoop102:8765 #客户端连接
2
修改类名 URL 模块和端口号
类名: org.apache.phoenix.queryserver.client.Driver
URL模板: jdbc:phoenix:thin:url=http://{host}:{port};serialization=PROTOBUF
端口号: 8765
2
3

添加驱动从 maven 仓库下载 jar 导入
https://mvnrepository.com/artifact/org.apache.phoenix/phoenix-queryserver-client

# 表的映射
默认情况下,直接在 HBase 中创建的表,通过 Phoenix 是查看不到的。如果要在 Phoenix 中操作直接在 HBase 中创建的表,则需要在 Phoenix 中进行表的映射。映射方式有两种:视图映射和表映射。
# 视图映射
Phoenix 创建的视图是只读的,所以只能用来做查询,无法通过视图对源数据进行修改等操作。
在 hbase shell 建立表
create 'test','info1','info2'
在 phoenix 中创建关联 test 表的视图
create view "test"(id varchar primary key,"info1"."name" varchar, "info2"."address" varchar);
删除视图
drop view "test"
# 表映射
以类似创建视图的方式创建关联表,只需要将 create view 改为 create table 即可
create table "test"(id varchar primary key,"info1"."name" varchar, "info2"."address" varchar) column_encoded_bytes=0;
# JDBC 操作
# 胖客户端
创建工程 导入依赖
<dependencies>
<dependency>
<groupId>org.apache.phoenix</groupId>
<artifactId>phoenix-core</artifactId>
<version>5.0.0-HBase-2.0</version>
</dependency>
<dependency>
<groupId>com.lmax</groupId>
<artifactId>disruptor</artifactId>
<version>3.3.6</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.8.4</version>
</dependency>
</dependencies>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
编码
package com.atguigu.phoenix;
import java.sql.*;
public class PhoenixClient {
public static void main(String[] args) throws Exception{
//1.定义参数
String driver = "org.apache.phoenix.jdbc.PhoenixDriver";
String url = "jdbc:phoenix:hadoop102,hadoop103,hadoop104:2181";
//2.加载驱动
Class.forName(driver);
//3.创建连接
Connection connection = DriverManager.getConnection(url);
//4.预编译SQL
PreparedStatement preparedStatement = connection.prepareStatement("SELECT * FROM STUDENT");
//5.查询获取返回值
ResultSet resultSet = preparedStatement.executeQuery();
//6.打印结果
while (resultSet.next()) {
System.out.println(resultSet.getString(1) + resultSet.getString(2));
}
//7.关闭资源
resultSet.close();
preparedStatement.close();
connection.close();
}
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
# 瘦客户端
依赖
<dependencies>
<dependency>
<groupId>org.apache.phoenix</groupId>
<artifactId>phoenix-queryserver-client</artifactId>
<version>5.0.0-HBase-2.0</version>
</dependency>
</dependencies>
2
3
4
5
6
7
8
编码
package com.atguigu.phoenix;
import org.apache.phoenix.queryserver.client.ThinClientUtil;
import java.sql.*;
public class PhoenixClient2 {
public static void main(String[] args) throws SQLException {
String url = ThinClientUtil.getConnectionUrl("hadoop102", 8765); //获取jdbc url
Connection connection = DriverManager.getConnection(url); //获取连接对象
PreparedStatement preparedStatement = connection.prepareStatement("SELECT * FROM STUDENT");
ResultSet resultSet = preparedStatement.executeQuery();
while (resultSet.next()) {
System.out.println(resultSet.getString(1) + resultSet.getString(2));
}
resultSet.close();
preparedStatement.close();
connection.close();
}
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# Phoenix 二级索引
# 二级索引配置文件
添加如下配置到 HBase 的 HRegionserver 节点的 hbase-site.xml
<!-- phoenix regionserver 配置参数-->
<property>
<name>hbase.regionserver.wal.codec</name>
<value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>
<property>
<name>hbase.region.server.rpc.scheduler.factory.class</name>
<value>org.apache.hadoop.hbase.ipc.PhoenixRpcSchedulerFactory</value>
<description>Factory to create the Phoenix RPC Scheduler that uses separate queues for index and metadata updates</description>
</property>
<property>
<name>hbase.rpc.controllerfactory.class</name>
<value>org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory</value>
<description>Factory to create the Phoenix RPC Scheduler that uses separate queues for index and metadata updates</description>
</property>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
添加如下配置到 HBase 中 HMaster 节点的 hbase-site.xml 中
<!-- phoenix master 配置参数 -->
<property>
<name>hbase.master.loadbalancer.class</name>
<value>org.apache.phoenix.hbase.index.balancer.IndexLoadBalancer</value>
</property>
<property>
<name>hbase.coprocessor.master.classes</name>
<value>org.apache.phoenix.hbase.index.master.IndexMasterObserver</value>
</property>
2
3
4
5
6
7
8
9
10
11
重新启动 hbase 和 Phoenix
# 全局二级索引
Global Index 是默认的索引格式,创建全局索引时,会在 HBase 中建立一张新表。也就是说索引数据和数据表是存放在不同的表中的,因此全局索引适用于多读少写的业务场景。

写数据的时候会消耗大量开销,因为索引表也要更新,而索引表是分布在不同的数据节点上的,跨节点的数据传输带来了较大的性能消耗。
在读数据的时候 Phoenix 会选择索引表来降低查询消耗的时间。
创建单个字段的全局索引
CREATE INDEX student_index ON student (name);
索引表查看
scan 'STUDENT_INDEX'
value 全部为 x 空的 而 row 变成 value+rowkey 二进制

二级索引只能针对 指定列限定符 + 主键的索引表 如果查询中查询列带上其他列限定符 则无法从此索引表进行索引查询 从而进行全表扫描。

# 多级索引
针对上面二级索引只能进行两个列限定符 进索引扫描 我们可以创建索引表时指定多个列限定符
CREATE INDEX student_name_sex_index ON student (name,sex); -- 创建一个主键 name sex 索引表
创建完成后我们就可以进行多个列限定符来进行索引查询
explain select id,name,sex from student where name = '6'; -- 从有这三个列限定符的索引表进行索引查询 没有则全表扫描
explain select id,name,sex,address from student where name = '6'; -- 因为没有包含id,name,sex,address这四个列限定符的索引表 所有进行全表扫描
2
注意:创建索引表顺序要与查询时一致 否则无法进行索引查询
# 删除索引
直接删除指定索引表
drop index STUDENT_NAME_SEX_INDEX on student;
# 携带其他字段的全局索引
CREATE INDEX student_name_index_all ON student (name) INCLUDE (age,sex,address);

通过携带其他字段 根据指定字段创建索引 并携带其他字段中的值 携带字段没有创建索引只是附加为索引字段的结果 但条件查询必须是索引字段 否则也是进行全表扫描
# 全局索引的缺点
- 占用空间 需要建立多个表
- 维护成本高 无法在更新和添加频繁的表中使用 需要重新全表更新索引
# Phoenix 本地索引
Local Index 适用于写操作频繁的场景。
索引数据和数据表的数据是存放在同一张表中(且是同一个 Region),避免了在写操作的时候往不同服务器的索引表中写索引带来的额外开销。
CREATE LOCAL INDEX local_index_student ON student (name);
同样有个新的索引表

但在 hbase shell 中 查看 list 时没有查看到此表 索引数据和数据表的数据是存放在同一张表中
查看 student 表数据

直接在原表中插入索引数据 索引值 + 主键 value 为空

本地索引不局限查询列 我们可以查询所有列数据 但是条件语句必须是索引列限定
- 先命中索引列查出主键 id
- 根据主键 id 命中原表的数据
- 全局比本地索引快 全局是一次命中 而本地需要命中之后根据主键查询
- 全局空间牺牲更大 而本地直接在表中增加
- 全局索引更新要更新全部索引表 而本地索引只需要更新一张表 (原数据表中的索引行)
# 协处理器
编写协处理器,实现在往 A 表插入数据的同时让 HBase 自身(协处理器)向 B 表中插入一条数据。
相当于增强操作 而我们的全局索引就是基于协处理器进行索引查询
创建项目 导入依赖
<dependencies>
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-client</artifactId>
<version>1.3.1</version>
</dependency>
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-server</artifactId>
<version>1.3.1</version>
</dependency>
</dependencies>
2
3
4
5
6
7
8
9
10
11
12
13
定义 FruitTableCoprocessor 类并继承 BaseRegionObserver 类
package com.atguigu;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.coprocessor.BaseRegionObserver;
import org.apache.hadoop.hbase.coprocessor.ObserverContext;
import org.apache.hadoop.hbase.coprocessor.RegionCoprocessorEnvironment;
import org.apache.hadoop.hbase.regionserver.wal.WALEdit;
import java.io.IOException;
public class FruitTableCoprocessor extends BaseRegionObserver {
@Override
public void postPut(ObserverContext<RegionCoprocessorEnvironment> e, Put put, WALEdit edit, Durability durability) throws IOException {
//获取连接
Connection connection = ConnectionFactory.createConnection(HBaseConfiguration.create());
//获取表对象
Table table = connection.getTable(TableName.valueOf("fruit"));
//插入数据
table.put(put);
//关闭资源
table.close();
connection.close();
}
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31