Hive sql Url解析函数
Hive的parse_url函数使用
--parse_url: 对URL进行解析返回指定部分的信息。
parse_url(url, partToExtract[, key]) - extracts a part from a URL--解析URL字符串
--partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]
命令说明
对url解析后,按照part提取信息。参数说明
url:必填。STRING类型。URL链接。无效URL链接会返回报错。
part:必填。STRING类型。取值包含:HOST、PATH、QUERY、REF、PROTOCOL、AUTHORITY、FILE和USERINFO,不区分大小写。
key:可选。当part取值为QUERY时,根据key值取出对应的Value值。
返回说明
返回STRING类型。返回规则如下:
url、part或key值为NULL时,返回NULL。
part取值不符合要求时,返回报错。
举例 :
select parse_url('http://hujiang.com/category/12258437290?query=test', 'PROTOCOL') from dual;
--httpselect parse_url('http://hujiang.com/category/12258437290?query=test', 'HOST') from dual;
---hujiang.comselect parse_url('http://hujiang.com/category/12258437290?query=test', 'REF') from dual;
---空select parse_url('http://hujiang.com/category/12258437290?query=test', 'PATH') from dual;
---/category/12258437290select parse_url('http://hujiang.com/category/12258437290?query=test', 'QUERY') from dual;
---query=testselect parse_url('http://hujiang.com/category/12258437290?query=test', 'FILE') from dual;
---/category/12258437290?query=testselect parse_url('http://hujiang.com/category/12258437290?query=test', 'AUTHORITY') from dual;
---hujiang.comselect parse_url('http://hujiang.com/category/12258437290?query=test', 'USERINFO') from dual;
---空
select parse_url('http://hujiang.com/category/12258437290?query=test', 'PATH') from dual;
---/category/12258437290select parse_url('http://hujiang.com/category/12258437290?query=test', 'QUERY') from dual;
---query=testselect parse_url('http://hujiang.com/category/12258437290?query=test', 'FILE') from dual;
---/category/12258437290?query=testselect parse_url('http://hujiang.com/category/12258437290?query=test', 'AUTHORITY') from dual;
---hujiang.comselect parse_url('http://hujiang.com/category/12258437290?query=test', 'USERINFO') from dual;
select parse_url('http://facebook.com/path/p1.php?query=apple&app=tets', 'QUERY','query')
appleselect parse_url('http://facebook.com/path/p1.php?query=apple&app=tets', 'QUERY','app')
tets
--返回example.com。
select parse_url('file://username:password@example.com:8042/over/there/index.dtb?type=animal&name=narwhal#nose', 'HOST');
--返回/over/there/index.dtb。
select parse_url('file://username:password@example.com:8042/over/there/index.dtb?type=animal&name=narwhal#nose', 'PATH');
--返回animal。
select parse_url('file://username:password@example.com:8042/over/there/index.dtb?type=animal&name=narwhal#nose', 'QUERY', 'type');
--返回nose。
select parse_url('file://username:password@example.com:8042/over/there/index.dtb?type=animal&name=narwhal#nose', 'REF');
--返回file。
select parse_url('file://username:password@example.com:8042/over/there/index.dtb?type=animal&name=narwhal#nose', 'PROTOCOL');
--返回 username:password@example.com:8042。
select parse_url('file://username:password@example.com:8042/over/there/index.dtb?type=animal&name=narwhal#nose', 'AUTHORITY');
--返回username:password。
select parse_url('file://username:password@example.com:8042/over/there/index.dtb?type=animal&name=narwhal#nose', 'USERINFO');
parse_url_tuple 函数
命令格式
string parse_url_tuple(string <url>, string <key1>, string <key2>,...)
命令说明
对url解析后,按照输入的一组键key1、key2等抽取各个键指定的字符串。该功能与PARSE_URL类似,但它可以同时提取多个键对应的字符串,性能更优。
参数说明
url:必填。STRING类型。URL链接。无效URL链接会返回报错。
key1、key2:必填。STRING类型。指定要抽取的键。取值范围如下:
HOST:获取主机地址,可以为域名或IP地址。
PATH:获取网络资源在服务器中的路径。
QUERY:查询字符串,指代待查询的内容。
REF:获取URL注释。鼠标悬停至URL链接上时显示的内容。
PROTOCOL:获取协议类型。
AUTHORITY:获取服务器的域名或IP地址、端口号和用户鉴权信息(例如用户名、密码)。
FILE:获取网络资源在服务器中的路径和待查询的内容,即由PATH和QUERY组成。
USERINFO:用户鉴权信息。
QUERY:<KEY>:获取查询字符串中指定字段(Key)的取值。
不区分大小写。不在该范围内的取值会返回报错。
返回说明
返回STRING类型。url或key值为NULL时,返回报错。
示例
抽取file://username:password@example.com:8042/over/there/index.dtb?type=animal&name=narwhal#nose中各个键对应的字符串。命令示例如下。
select parse_url_tuple('file://username:password@example.com:8042/over/there/index.dtb?type=animal&name=narwhal#nose', 'HOST', 'PATH', 'QUERY', 'REF', 'PROTOCOL', 'AUTHORITY', 'FILE', 'USERINFO', 'QUERY:type', 'QUERY:name') as (item0, item1, item2, item3, item4, item5, item6, item7, item8, item9);
返回结果如下。
+------------+------------+------------+------------+------------+------------+------------+------------+------------+------------+
| item0 | item1 | item2 | item3 | item4 | item5 | item6 | item7 | item8 | item9 |
+------------+------------+------------+------------+------------+------------+------------+------------+------------+------------+
| example.com | /over/there/index.dtb | type=animal&name=narwhal | nose | file | username:password@example.com:8042 | /over/there/index.dtb?type=animal&name=narwhal | username:password | animal | narwhal |
+------------+------------+------------+------------+------------+------------+------------+------------+------------+------------+
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
