hive表中导入数据 多种方法详细说明

本文详细介绍了如何在Hive中通过loaddata、insertinto、创建表时指定location以及export/import操作来加载和管理数据,包括使用partitionedby和rowformat等特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章中对hive表中导入数据 方法目录

 方式一:通过load方式加载数据

 方式二:直接向分区表中插入数据

 方式三:查询语句中创建表并加载数据(as select)

 方式四:创建表时通过location指定加载数据路径

    1. 创建表,并指定在hdfs上的位置

     2. 上传数据到hdfs上

    3. 查询数据

方式五:export导出 与 import导入 hive表数据(内部非分区表操作)


准备数据

-- 创建 db_myhive_5
create database db_myhive_5;

use db_myhive_5;

-- 创建表
create table tb_score(
    s_id string,
    c_id string,
    score int
)
partitioned by (month string)
row format delimited fields terminated by '\t';

 方式一:通过load方式加载数据

load data local inpath '/export/data/hive_data/score.txt' overwrite into table tb_score partition(month='202006');

 方式二:直接向分区表中插入数据

通过insert into方式加载数据

create table score3 like tb_score;

insert into table score3 partition(month ='202007') values ('001','002','100');

通过查询方式加载数据

create table score4 like score;

insert overwrite table score4 partition(month = '202006') select s_id,c_id,s_score from tb_score;

例子

需求1: 创建新库 myhive6, 切换库 myhive6

需求2: 创建t_score_1(s_id, c_id, score) 按月指定分区 month, 指定字段分隔符为 '\t'

需求3: 通过 load data 方式加载文件中数据

需求4: 创建表  t_score_2 依据 表 t_score_1的结构

需求5: 通过insert into 添加一行数据

需求6: 创建表  t_score_3 依据 表 t_score_1的结构

需求7: 通过 select 添加n条记录

实现

-- 需求1: 创建新库 myhive6, 切换库 myhive6

create database myhive6;

use myhive6;

-- 需求2: 创建t_score_1(s_id, c_id, score) 按月指定分区 month, 指定字段分隔符为 '\t'

create table t_score_1(

    s_id string,

    c_id string,

    score int

)

partitioned by (month string)

row format delimited fields terminated by '\t';

-- 需求3: 通过 load data 方式加载文件中数据

load data local  inpath '/export/data/hive_data/f_score.csv' overwrite into table t_score_1 partition (month='202101');

-- 需求4: 创建表  t_score_2 依据 表 t_score_1的结构

create table t_score_2 like t_score_1;

-- 需求5: 通过insert into 添加一行数据

insert into t_score_2 partition(month='202002') values('01', '02', 66);

select * from t_score_2;

-- 需求6: 创建表  t_score_3 依据 表 t_score_1的结构

create table t_score_3 like t_score_1;

-- 需求7: 通过 select 添加n条记录

insert overwrite table t_score_3 partition(month='202003') select s_id, c_id, score from t_score_1;

select * from t_score_3;

 方式三:查询语句中创建表并加载数据(as select)

将查询的结果保存到一张表当中去

create table score5 as select * from score;

 方式四:创建表时通过location指定加载数据路径
    1. 创建表,并指定在hdfs上的位置

create external table score6 (s_id string,c_id string,s_score int) 

row format delimited

fields terminated by '\t' 

location '/myscore6';

     2. 上传数据到hdfs上

hdfs dfs -mkdir -p /myscore6

hdfs dfs -put score.txt /myscore6;

    3. 查询数据

select * from score6;

例子

1 创建表 t_score_6(s_id, c_id, score), 指定分隔符为'\t', 指定保存位置为 '/hivedatas/t_score_6';

2 将分数信息文件 上传到 hdfs的目录下  '/hivedatas/t_score_6'

3 查看表中的数据

​​​​​​​实现

-- 1 创建表 t_score_6(s_id, c_id, score), 指定分隔符为'\t', 指定保存位置为 '/hivedatas/t_score_6';

create table t_score_6(

    s_id string,

    c_id string,

    score int

)

row format delimited fields terminated by '\t'

location '/hivedatas/t_score_6';

-- 2 将分数信息文件 上传到 hdfs的目录下  '/hivedatas/t_score_6'

-- hdfs dfs -put 文件 /hivedatas/t_score_6

-- 3 查看表中的数据

select * from t_score_6;

方式五:export导出  import导入 hive表数据内部非分区操作

create table teacher2 like teacher;

export table teacher to  '/export/teacher';

import table teacher2 from '/export/teacher'

注意: import 导入时结尾不要增加 分号;

<think>嗯,用户之前问了HDFS查找文件的问题,现在又转向Hive导入数据中。这说明他们可能正在处理大数据相关的工作,需要将数据从外部系统导入Hive进行分析。首先,我需要确认用户对Hive的基本操作是否熟悉,但根据之前的提问,他们可能已经有一定的Hadoop基础。 用户的需求可能包括如何将不同格式的数据导入Hive,比如本地文件、HDFS文件或者其他查询结果。他们可能遇到导入失败、数据格式不匹配或者权限问题。需要覆盖各种导入方式,并给出常见问题解决方法。 需要分步骤讲解,确保结构清晰。可能包括直接加载数据入查询结果、外部、分区导入等。同时要注意语法正确,比如使用LOCAL关键字区分本地和HDFS路径,以及外部和内部的区别。 还要考虑用户可能对Hive数据存储位置不太清楚,需要解释Hive数据存放路径,尤其是使用外部时的注意事项。此外,数据格式处理(如CSV、JSON)和分区的优化也是重点。 最后,常见问题部分需要涵盖权限、路径错误、格式不匹配和重复数据问题,帮助用户排查导入过程中可能遇到的困难。确保回答简洁明了,提供示例命令,方便用户直接使用。</think>以下是 Hive数据导入中的核心方法详细操作指南,涵盖本地文件、HDFS 文件、查询结果导入多种场景: --- ### 一、基础数据导入方式 #### 1. **从本地文件系统直接加载** ```sql -- 语法(需先将文件上传到HiveServer所在服务器) LOAD DATA LOCAL INPATH '/本地路径/文件名' [OVERWRITE] INTO TABLE 名; -- 示例:将本地CSV文件覆盖导入到orders LOAD DATA LOCAL INPATH '/home/user/orders.csv' OVERWRITE INTO TABLE orders; ``` **注意**: - `LOCAL` 示本地文件系统路径,省略则默认从 HDFS 加载 - `OVERWRITE` 会清空原有数据 #### 2. **从 HDFS 加载数据** ```sql -- 语法(文件需已存在于HDFS) LOAD DATA INPATH '/hdfs路径/文件名' INTO TABLE 名; -- 示例:加载HDFS上的日志文件 LOAD DATA INPATH '/user/hive/warehouse/logs/2023-08.log' INTO TABLE log_table; ``` **特点**: - 数据会被 **移动到** Hive对应的HDFS目录 - 原始HDFS文件将被删除 #### 3. **导入时指定分区** ```sql -- 语法(需提前创建分区) LOAD DATA LOCAL INPATH '/本地路径/数据文件' INTO TABLE 分区名 PARTITION (分区字段='值'); -- 示例:按日期分区导入 LOAD DATA LOCAL INPATH '/data/sales_202308.csv' INTO TABLE sales PARTITION (dt='2023-08-01'); ``` --- ### 二、高级导入方法 #### 1. **INSERT 入查询结果** ```sql -- 从其他导入数据 INSERT [OVERWRITE|INTO] TABLE 目标 SELECT * FROM 源 WHERE 条件; -- 示例:将8月订单导入分区 INSERT OVERWRITE TABLE sales PARTITION (dt='202308') SELECT order_id, amount FROM orders WHERE substr(order_time,1,6)='202308'; ``` #### 2. **使用外部关联数据** ```sql -- 创建外部直接指向数据位置 CREATE EXTERNAL TABLE 外部名 (...) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION '/hdfs路径/'; -- 示例:关联HDFS上的CSV文件 CREATE EXTERNAL TABLE user_logs ( uid STRING, action STRING ) LOCATION '/user/data/logs/'; ``` **特点**: - 数据保留在原位置 - 删除外部仅删除元数据,不删除实际数据 #### 3. **动态分区入** ```sql -- 启用动态分区 SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstrict; INSERT OVERWRITE TABLE 分区 PARTITION (分区字段) SELECT ..., 分区字段 FROM 源; ``` --- ### 三、数据格式处理 #### 1. **处理CSV文件** ```sql CREATE TABLE csv_table ( id INT, name STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; LOAD DATA LOCAL INPATH '/data.csv' INTO TABLE csv_table; ``` #### 2. **处理JSON文件** ```sql -- 需要JsonSerDe库 ADD JAR /path/to/hive-hcatalog-core.jar; CREATE TABLE json_table ( user STRING, actions ARRAY<STRING> ) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'; LOAD DATA LOCAL INPATH '/data.json' INTO TABLE json_table; ``` --- ### 四、关键注意事项 1. **存储路径规则** - 内部数据存储在 `/user/hive/warehouse/数据库名.db/名` - 外部数据保留在指定`LOCATION` 2. **数据验证方法** ```sql -- 查看前10行数据 SELECT * FROM 名 LIMIT 10; -- 查看HDFS存储路径 DESC FORMATTED 名; -- 查看Location字段 ``` 3. **字符编码问题** 确保文件编码与Hive编码一致(推荐UTF-8) --- ### 五、常见问题排查 | **问题现象** | **解决方案** | |---------------------------|------------------------------------------| | 加载数据后查询结果为NULL | 检查字段分隔符是否与建语句定义一致 | | 权限拒绝 (Permission denied) | 使用`hdfs dfs -chmod`修改文件权限 | | 分区字段显示为`__HIVE_DEFAULT_PARTITION__` | 检查分区列值是否为空或格式错误 | | 文件存在但加载失败 | 验证文件是否被其他进程占用 | --- ### 六、性能优化建议 1. **批量导入**:合并小文件后再导入(使用`hadoop archive`) 2. **压缩数据**:使用Snappy压缩格式存储 ```sql SET hive.exec.compress.output=true; SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec; ``` 3. **并行导入**:通过`DISTRIBUTE BY`分散写入压力 通过以上方法,您可以灵活高效地将各种数据导入Hive。建议优先测试小规模数据导入,验证数据完整性和结构匹配性后再进行完整操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

nuhao_

谢谢你打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值