Apache Ranger是一个Hadoop平台上的全方位数据安全管理框架,它可以为整个Hadoop生态系统提供全面的安全管理。
随着企业业务的拓展,企业可能在多用户环境中运行多个工作任务,这就需要一个可以对安全策略进行集中管理,配置和监控用户访问的框架。Ranger由此产生!
Ranger的官网:https://ranger.apache.org/
允许用户使用UI或REST API对所有和安全相关的任务进行集中化的管理
允许用户使用一个管理工具对操作Hadoop体系中的组件和工具的行为进行细粒度的授权
支持Hadoop体系中各个组件的授权认证标准
增强了对不同业务场景需求的授权方法支持,例如基于角色的授权或基于属性的授权
支持对Hadoop组件所有涉及安全的审计行为的集中化管理
Apache Hadoop
Apache Hive
Apache HBase
Apache Storm
Apache Knox
Apache Solr
Apache Kafka
YARN
NIFI
Atlas
Knox
Ranger的权限模型一条条的权限策略组成的,权限策略主要由3个方面组成,即用户、资源、权限。
Ranger中的访问权限模型可以用下面的表达式来描述,从而抽象出了”用户-资源-权限“这三者间的关系:
Service = ListPolicy = List + AllowACL + DenyACL AllowACL = List allow + List allowException DenyACL = List deny + List denyException AccessItem = List + List
当用户要请求某个资源时,会先获取和这个资源有关联的所有配置的策略,之后遍历这些策略,然后根据黑白名单判断该用户是否有权限访问该资源。从上面的流程图可以看出,黑名单、黑名单排除、白名单、白名单排除匹配的优先级如下:
决策下放:如果没有policy能决策访问,一般情况是认为没有权限拒绝访问,然而Ranger还可以选择将决策下放给系统自身的访问控制层,比如HDFS的ACL,这个和每个Ranger插件以及应用系统自己的实现有关。
访问决策树可以用以下流程图来描述:
下表列出了Ranger支持的所有系统的模型实体枚举值:
Service | Resource | Access Type |
---|---|---|
HDFS | Path | Read,Write,Execute |
HBase | Table,Column-family,Column | Read,Write,Create,Admin |
Hive | Database,Table,UDF,Column,URL | Select,Update,Create,Drop,Alter,Index,Lock,Write,Read,ALL |
Sqoop | Connector,Link,Job | READ,WRITE |
Storm | Topology | Submit Topology,File Upload,File Download,Kill Topology,Rebalance,Activate,Deactivate,Get Topology Conf, Get Topology,Get User Topology,Get Topology Info,Upload New Credential |
Solr | Collection | Query,Update,Others,Solr Admin |
Kafka | Topic | Publish,Consume,Configure,Describe,Create,Delete,Kafka Admin |
Knox | Topology,Service | Allow |
Kylin | Project | QUERY,OPERATION,MANAGEMENT,ADMIN |
YARN | Queue | submit-app,admin-queue |
Atlas | Type Catagory,Type Name,Entity Type,Entity Classification,Entity ID,Atlas Service | Create Type,UpdateType,Delete Type,Read Entity,Create Entity,Update Entity,Delete Entity,Read Classification,Add Classification,Update Classification,Remove Classification,Admin Export,Admin Import |
Nifi | NiFi Resource | Read,Write |
Ranger主要由以下三个组件构成:
RangerAdmin: 以RESTFUL形式提供策略的增删改查接口,同时内置一个Web管理页面。管理员角色的用户可以通过RangerAdmin提供的web界面或REST APIS来定制安全策略。这些策略被存储在数据库中。
AgentPlugin: 嵌入到各系统执行流程中,是一个轻量级的Java程序(例如,Ranger对Hive的组件,就被嵌入在Hiveserver2里)。
定期从RangerAdmin拉取策略,根据策略执行访问决策树,并且记录访问审计。
当接收到来自组件的用户请求时,对应组件的Plugin会拦截该请求,并根据安全策略对其进行评估。
UserSync: 定期从LDAP/Unix/File中加载用户,上报给RangerAdmin。
Ranger的其他架构简要说明:
权限管理流程,以Sqoop2插件的权限控制为例:
系统插件主要负责三件事:
以上执行逻辑是通用的,可由所有系统插件引用,因此剩下的问题是如何把这些逻辑嵌入到各个系统的访问决策流程中去。
实现可扩展接口:多数的系统在实现时都有考虑功能扩展性的问题,一般会为核心的模块暴露出可扩展的接口,访问控制模块也不例外。Ranger通过实现访问控制接口,将自己的逻辑嵌入各个系统。
下表列出了Ranger插件对所有支持的系统的扩展接口:
Service | Extensible Interface | Ranger Implement Class |
---|---|---|
HDFS | org.apache.hadoop.hdfs.server.namenode.INodeAttributeProvider | org.apache.ranger.authorization.hadoop.RangerHdfsAuthorizer |
HBase | org.apache.hadoop.hbase.protobuf.generated.AccessControlProtos.AccessControlService.Interface | org.apache.ranger.authorization.hbase.RangerAuthorizationCoprocessor |
Hive | org.apache.hadoop.hive.ql.security.authorization.plugin.HiveAuthorizerFactory | org.apache.ranger.authorization.hive.authorizer.RangerHiveAuthorizerFactory |
Sqoop | org.apache.sqoop.security.AuthorizationValidator | org.apache.ranger.authorization.sqoop.authorizer.RangerSqoopAuthorizer |
Storm | org.apache.storm.security.auth.IAuthorizer | org.apache.ranger.authorization.storm.authorizer.RangerStormAuthorizer |
Solr | org.apache.solr.security.AuthorizationPlugin | org.apache.ranger.authorization.solr.authorizer.RangerSolrAuthorizer |
Kafka | kafka.security.auth.Authorizer | org.apache.ranger.authorization.kafka.authorizer.RangerKafkaAuthorizer |
Knox | org.apache.knox.gateway.deploy.ProviderDeploymentContributorBase | org.apache.ranger.authorization.knox.deploy.RangerPDPKnoxDeploymentContributor |
Kylin | org.apache.kylin.rest.security.ExternalAclProvider | org.apache.ranger.authorization.kylin.authorizer.RangerKylinAuthorizer |
YARN | org.apache.hadoop.yarn.security.YarnAuthorizationProvider | org.apache.ranger.authorization.yarn.authorizer.RangerYarnAuthorizer |
Atlas | org.apache.atlas.authorize.AtlasAuthorizer | org.apache.ranger.authorization.atlas.authorizer.RangerAtlasAuthorizer |
Nifi | NA | NA |
各个系统插件安装节点:
Service | Install Node |
---|---|
HDFS | Name Node |
HBase | Master,Regional Server |
Hive | HiveServer2 |
Sqoop | ALL/Stand-alone |
Storm | ALL/Cluster |
Solr | ALL/Cluster |
Kafka | ALL/Cluster |
Knox | Knox gateway |
Kylin | ALL/Stand-alone |
YARN | Resource Manager |
Atlas | ALL/Stand-alone |
Nifi | NA |
系统插件拉取策略:
以Hive为例,RangerHiveAuthorizer在初始化时会启动一个PolicyRefresher线程定时的从Ranger-admin拉取所有的策略,然后缓存到本地,之后当需要授权时直接根据这些策略进行授权。PolicyRefresher默认是每隔30s拉取一次。
Ranger2.0要求对应的Hadoop为3.x以上,Hive为3.x以上版本,JDK为1.8以上版本。Hadoop及Hive等需开启用户认证功能,本文基于开启Kerberos安全认证的Hadoop和Hive环境。
注:本文中所涉及的Ranger相关组件均安装在hadoop102节点。
Ranger的启动和运行需使用特定的用户,故须在Ranger所在节点创建所需系统用户并在Kerberos中创建所需主体。
(1)创建ranger系统用户
[root@hadoop102 ~]# useradd ranger -G hadoop [root@hadoop102 ~]# echo ranger | passwd --stdin ranger
(2)检查HTTP主体是否正常(该主体在Hadoop开启Kerberos时已创建)
使用keytab文件认证HTTP主体
[root@hadoop102 ~]# kinit -kt /etc/security/keytab/spnego.service.keytab HTTP/hadoop102@EXAMPLE.COM
查看认证状态,如下图所示,即为正常
[root@hadoop102 ~]# klist
注销认证
[root@hadoop102 ~]# kdestroy
(3)创建rangeradmin主体
创建主体
[root@hadoop102 ~]# kadmin -padmin/admin -wadmin -q"addprinc -randkey rangeradmin/hadoop102"
生成keytab文件
[root@hadoop102 ~]# kadmin -padmin/admin -wadmin -q"xst -k /etc/security/keytab/rangeradmin.keytab rangeradmin/hadoop102"
修改keytab文件所有者
[root@hadoop102 ~]# chown ranger:ranger /etc/security/keytab/rangeradmin.keytab
(4)创建rangerlookup主体
创建主体
[root@hadoop102 ~]# kadmin -padmin/admin -wadmin -q"addprinc -randkey rangerlookup/hadoop102"
生成keytab文件
[root@hadoop102 ~]# kadmin -padmin/admin -wadmin -q"xst -k /etc/security/keytab/rangerlookup.keytab rangerlookup/hadoop102"
修改keytab文件所有者
[root@hadoop102 ~]# chown ranger:ranger /etc/security/keytab/rangerlookup.keytab
(5)创建rangerusersync主体
创建主体
[root@hadoop102 ~]# kadmin -padmin/admin -wadmin -q"addprinc -randkey rangerusersync/hadoop102"
生成keytab文件
[root@hadoop102 ~]# kadmin -padmin/admin -wadmin -q"xst -k /etc/security/keytab/rangerusersync.keytab rangerusersync/hadoop102"
修改keytab文件所有者
[root@hadoop102 ~]# chown ranger:ranger /etc/security/keytab/rangerusersync.keytab
(1)登录MySQL
[root@hadoop102 ~]# mysql -uroot -p000000
(2)在MySQL数据库中创建Ranger存储数据的数据库
mysql> create database ranger;
(3)更改mysql密码策略,为了可以采用比较简单的密码
mysql> set global validate_password_length=4; mysql> set global validate_password_policy=0;
(4)创建用户
mysql> grant all privileges on ranger.* to ranger@'%' identified by 'ranger';
(1)在hadoop102的/opt/module路径上创建一个ranger
[root@hadoop102 ~]# mkdir /opt/module/ranger
(2)解压软件
[root@hadoop102 software]# tar -zxvf ranger-2.0.0-admin.tar.gz -C /opt/module/ranger
(3)进入/opt/module/ranger/ranger-2.0.0-admin路径,对install.properties配置:
[root@hadoop102 ranger-2.0.0-admin]# vim install.properties
修改以下配置内容:
#mysql驱动 SQL_CONNECTOR_JAR=/opt/software/mysql-connector-java-5.1.48.jar #mysql的主机名和root用户的用户名密码 db_root_user=root db_root_password=000000 db_host=hadoop102 #ranger需要的数据库名和用户信息,和2.2.1创建的信息要一一对应 db_name=ranger db_user=ranger db_password=ranger #Ranger各组件的admin用户密码 rangerAdmin_password=atguigu123 rangerTagsync_password=atguigu123 rangerUsersync_password=atguigu123 keyadmin_password=atguigu123 #ranger存储审计日志的路径,默认为solr,这里为了方便暂不设置 audit_store= #策略管理器的url,rangeradmin安装在哪台机器,主机名就为对应的主机名 policymgr_external_url=http://hadoop102:6080 #启动ranger admin进程的linux用户信息 unix_user=ranger unix_user_pwd=ranger unix_group=ranger #Kerberos相关配置 spnego_principal=HTTP/hadoop102@EXAMPLE.COM spnego_keytab=/etc/security/keytab/spnego.service.keytab admin_principal=rangeradmin/hadoop102@EXAMPLE.COM admin_keytab=/etc/security/keytab/rangeradmin.keytab lookup_principal=rangerlookup/hadoop102@EXAMPLE.COM lookup_keytab=/etc/security/keytab/rangerlookup.keytab hadoop_conf=/opt/module/hadoop-3.1.3/etc/hadoop
(4)在/opt/module/ranger/ranger-2.0.0-admin目录下执行安装脚本
[root@hadoop102 ranger-2.0.0-admin]# ./setup.sh
出现以下信息,说明安装完成:
2020-04-30 13:58:18,051 [I] Ranger all admins default password change request processed successfully.. Installation of Ranger PolicyManager Web Application is completed.
(5)修改/opt/module/ranger/ranger-2.0.0-admin/conf/ranger-admin-site.xml配置文件中的以下属性。
[root@hadoop102 ranger-2.0.0-admin]# vim /opt/module/ranger/ranger-2.0.0-admin/conf/ranger-admin-site.xml
增加如下参数:
ranger.jpa.jdbc.password ranger ranger.service.host hadoop102
(1)启动ranger-admin(以ranger用户启动)
[root@hadoop102 ranger-2.0.0-admin]# sudo -i -u ranger ranger-admin start Starting Apache Ranger Admin Service Apache Ranger Admin Service with pid 7058 has started.
ranger-admin在安装时已经配设置为开机自启动,因此之后无需再手动启动!
(2)查看启动后的进程
[root@hadoop102 ranger-2.0.0-admin]# jps 7058 EmbeddedServer 8132 Jps
(3)访问Ranger的WebUI,地址为:http://hadoop102:6080
(4)停止ranger(此处不用执行)
[root@hadoop102 ranger-2.0.0-admin]# sudo -i -u ranger ranger-admin stop
默认可以使用用户名:admin,密码为之前配置的atguigu123进行登录!登录后界面如下:
RangerUsersync作为Ranger提供的一个管理模块,可以将Linux机器上的用户和组信息同步到RangerAdmin的数据库中进行管理。
(1)解压软件
[root@hadoop102 software]# tar -zxvf ranger-2.0.0-usersync.tar.gz -C /opt/module/ranger/
(2)配置软件
在/opt/module/ranger/ranger-2.0.0-usersync目录下修改以下文件:
[root@hadoop102 ranger-2.0.0-usersync]# vim install.properties
修改以下配置信息:
#rangeradmin的url POLICY_MGR_URL =http://hadoop102:6080 #同步间隔时间,单位(分钟) SYNC_INTERVAL = 1 #运行此进程的linux用户 unix_user=ranger unix_group=ranger #rangerUserSync用户的密码,参考rangeradmin中install.properties的配置 rangerUsersync_password=atguigu123 #Kerberos相关配置 usersync_principal=rangerusersync/hadoop102@EXAMPLE.COM usersync_keytab=/etc/security/keytab/rangerusersync.keytab hadoop_conf=/opt/module/hadoop-3.1.3/etc/hadoop
(3)在/opt/module/ranger/ranger-2.0.0-usersync目录下执行安装脚本:
[root@hadoop102 ranger-2.0.0-usersync]# ./setup.sh
出现以下信息,说明安装完成:
ranger.usersync.policymgr.password has been successfully created. Provider jceks://file/etc/ranger/usersync/conf/rangerusersync.jceks was updated. [I] Successfully updated password of rangerusersync user
(4)修改/opt/module/ranger/ranger-2.0.0-usersync/conf/ranger-ugsync-site.xml配置文件中的以下参数:
ranger.usersync.enabled true
(1)启动之前,在ranger admin的web-UI界面,查看用户信息如下:
(2)启动RangerUserSync(使用ranger用户启动)
[root@hadoop102 ranger-2.0.0-usersync]# sudo -i -u ranger ranger-usersync start Starting Apache Ranger Usersync Service Apache Ranger Usersync Service with pid 7510 has started.
(3)启动后,再次查看用户信息:
说明ranger-usersync工作正常!
ranger-usersync服务也是开机自启动的,因此之后不需要手动启动!
Ranger Hive-plugin是Ranger对hive进行权限管理的插件。需要注意的是,Ranger Hive-plugin只能对使用jdbc方式访问hive的请求进行权限管理,hive-cli并不受限制。
(1)解压软件
[root@hadoop102 software]# tar -zxvf ranger-2.0.0-hive-plugin.tar.gz -C /opt/module/ranger/
(2)配置软件
[root@hadoop102 ranger-2.0.0-hive-plugin]# vim install.properties
修改以下内容:
#策略管理器的url地址 POLICY_MGR_URL=http://hadoop102:6080 #组件名称 REPOSITORY_NAME=hive #hive的安装目录 COMPONENT_INSTALL_DIR_NAME=/opt/module/hive #hive组件的启动用户 CUSTOM_USER=hive #hive组件启动用户所属组 CUSTOM_GROUP=hadoop
(3)启用Ranger Hive-plugin,在/opt/module/ranger/ranger-2.0.0-hive-plugin下执行以下命令
[root@hadoop102 ranger-2.0.0-hive-plugin]# ./enable-hive-plugin.sh
查看$HIVE_HOME/conf目录是否出现以下配置文件,如出现则表示Hive插件启用成功。
[root@hadoop102 ranger-2.0.0-hive-plugin]# ls $HIVE_HOME/conf | grep -E hiveserver2\|ranger hiveserver2-site.xml ranger-hive-audit.xml ranger-hive-security.xml ranger-policymgr-ssl.xml ranger-security.xml
(4)重启Hiveserver2,需使用hive用户启动。
[root@hadoop102 ~]# sudo -i -u hive hiveserver2
(1)授予hive用户在Ranger中的Admin角色
点击hive用户
将角色设置为Admin
(2)配置Hive插件
点击Access Manager,添加Hive Manager。
配置服务详情
注:
(3)测试连接
点击测试连接:
点击测试连接后会提示连接失败,具体原因是rangerlookup用户没有访问hive表的权限,这是因为到目前为止,我们还未使用Ranger向任何用户赋予任何权限,故此时连接失败为正常现象。
(4)保存Hive Manager
点击Add按钮
点击下图所示hive按钮
下图内容表示,目前rangerlookup用户已经拥有了Hive所有资源的所有权限。
(5)重新测试连接
点击下图编辑按钮
重新点击Test Connection
连接成功
(1)查看默认的访问策略,此时只有rangerlookup用户拥有对所有库、表和函数的访问权限,故理论上其余用户是不能访问任何Hive资源的。
(2)验证:使用atguigu用户尝试进行认证,认证成功后,使用beeline客户端连接Hiveserver2
使用atguigu用户认证,并按照提示输入密码
[atguigu@hadoop102 ~]$ kinit atguigu
登录beeline客户端
[atguigu@hadoop102 ~]$ beeline -u "jdbc:hive2://hadoop102:10000/;principal=hive/hadoop102@EXAMPLE.COM"
(3)执行以下sql语句,验证当前用户为atguigu
(4)执行use gmall语句,结果如图所示,atguigu用户没有对gmall库的使用权限
(5)赋予atguigu用户对gmall数据库的访问权限
点击Add New Policy
配置授权策略
如下图所示,将gmall库的所有表的所有权限均授予给了atguigu用户。
等待片刻,在回到beeline客户端,重新执行use gmall语句,此时atguigu用户已经能够使用gmall库,并且可访问gmall库下的所有表了。
Ranger所采用的权限管理模型可归类为RBAC(Role-Based Access Control )基于角色的访问控制。基础的RBAC模型共包含三个实体,分别是用户(user)、角色(role)和权限(permission)。用户需划分为某个角色,权限的授予对象也是角色,例如用户张三为管理角色,那他就拥有了管理员角色的所有权限。
Ranger的权限管理模型比基础的RBAC模型要更加灵活,以下是Ranger的权限管理模型。
更多配置,可以参考官网介绍:https://cwiki.apache.org/confluence/display/RANGER/Row-level+filtering+and+column-masking+using+Apache+Ranger+policies+in+Apache+Hive