Hive将csv导入表后以parquet格式存储

最新推荐文章于 2025-07-09 15:56:22 发布

luyanbin_lqq

最新推荐文章于 2025-07-09 15:56:22 发布

阅读量1.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： AWS Hive 文章标签： hive

本文链接：https://blog.csdn.net/luyanbin_lqq/article/details/105790526

本文介绍了如何在Hive中将CSV文件导入为表，并将其存储为Parquet格式。首先，在S3上创建了存储CSV和Parquet文件的目录。通过创建Hive表并指定csv文件路径，将CSV数据加载到Hive表中。由于CSV数据是逗号分隔的，因此导入时使用textfile格式。然后，创建一个Parquet格式的Hive表，并将CSV表的数据插入到新表中，完成转换。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如题：
其实这样的实例网上一大堆，我只是搬来留待以备不时之需，话不多说开始吧。

场景

我在AWS的S3里面创建了两个文件夹，分别代表着存储csv文件和parquet格式的文件，
首先我需要把csv文件导到hive表中，这里直接创建表建立映射路径即可：

CREATE EXTERNAL TABLE IF NOT EXISTS `lyb`(
  `code` string COMMENT 'import id', 
  `vin` string COMMENT 'import name',

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

luyanbin_lqq

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用Kerberos认证的HDFS将Hive表数据保存为Parquet格式的文章

JieLun_C的博客

08-13

193

在本文中，我们介绍了如何使用Kerberos认证的HDFS和Hive将表数据保存为Parquet格式。接下来，我们将使用Hive提供的内置函数和命令行工具实现将表数据保存为Parquet格式的操作。现在，我们可以使用INSERT INTO语句将数据从源表(example_table)保存到目标表(example_table_parquet)中，并以Parquet格式存储。完成以上步骤后，我们就成功地将Hive表数据保存为Parquet格式，并存储到了使用Kerberos认证的HDFS上。

Hive 存储parquet格式

gmHappy

02-02

2512

创建存储格式为parquet的hive表 CREATE TABLE parquet_table(age INT, name STRING)STORED AS PARQUET; 指定parquet写文件的压缩编码方式支持类型："uncompressed", "snappy", "gzip", "lzo" Snappy压缩具有更好的性能，Gzip压缩具有更好的压缩比。 hive中支持对parquet的配置,主要有： parquet.compression parquet.block.size parque

参与评论您还未登录，请先登录后发表或查看评论

Hive之加载csv格式数据到hive

柯南的博客

01-23

1164

导入数据考验一个细心的程度其实问题也不难，就是麻烦。如果其他网友有更好的解决办法，欢迎留言。

Hive将csv数据导入parquet格式动态分区表

pezynd的专栏

04-05

3267

Hive数据导入

parquet文件导入hive表自动识别表结构

最新发布

c_n666的博客

07-09

106

【代码】parquet文件导入hive表自动识别表结构。

hive入门们学习：orcFile和parquet存储格式简介

HAHA的专栏

02-17

6963

hive入门们学习：orcFile和parquet存储格式简介 hive的的表格的存储格式默认情况下是textfile格式的，textfile格式的数据是按照行存储数据。但是在这里介绍的两种企业最常用的数据存储格式orcfile和parquet存储格式，这两种存储格式是根据我们的业务需求--经常需要按照对一列的数据进行存取和处理，例如，机器学习中我们抽样

Hive parquet表通过csv文件导入数据

mizuhokaga的博客

09-18

573

已建好了 hive parquet 格式的表, 需要从服务器的csv导入数据至该hive表。提前上传csv至服务器 /path/temp.csv。创建 textfile 格式的中转表 ,源表名。,这里中转表加上了csv后缀。

关于sparksql操作hive，读取本地csv文件并以parquet的形式装入hive中

aitiejue5146的博客

09-04

785

说明：spark版本：2.2.0 　　　 hive版本：1.2.1 需求：有本地csv格式的一个文件，格式为${当天日期}visit.txt,例如20180707visit.txt，现在需要将其通过spark-sql程序实现将该文件读取并以parquet的格式通过外部表的形式保存到hive中，最终要实现通过传参的形式，将该日期区间内的csv文件批量加载进去，方式有两种：　　1、...

Pyspark 读取本地csv文件，插入parquet格式的hive表中

给我一点温度

11-21

3061

在CDSW上模型运行出结果，为csv文件。由于报表的需求，要将csv文件插入到parquet格式中的表中。在其中遇到了很多坑，在此记下来，希望能帮助到遇到同样问题的人。 1、初始化配置创建Spark Session。（注意事项：Spark2.0版本开始将sqlContext、hiveContext统一整合为SparkSession） 2、读取文件并转换为Spark DataFrame格...

Hive创建外部表导入不同格式的数据至数据仓库

weixin_74292291的博客

01-25

946

1，数据仓库的层级结构。2，外部表的详细定义以及语法。3，数据装载的几种方式。4，常用的序列化/反序列化器(SerDe)。5，设置一般表的元数据属性。

CSV数据导入Parquet表

u013494310的专栏

04-30

3781

1，执行sql获取csv文件 select * from ad.click where month = 201412 and referralpage like 'http://weibo.com%' 2，将csv文件上传到服务器local: /home/maoxiao/ad_weibo/data/click/201412.csv 3，创建csv表 CREATE TA

数据库中的表导入csv文件时，出现此类报错如何解决

cloverluc的博客

05-30

3713

报错类型：第一种：由于secure-file-priv引起的报错第二种：由于插入数据不同而引起的报错解决步骤：一、查看数据库可以使用http://localhost/phpmyadmin/，输入账户名：root，密码，就可以登录自己的数据库。（localhost后面有无端口号，取决于你当时下载appach是否有更改端口号，若无更改则后面无需添加端口号）下面就是我新建的数据库：school 二、查看表 school数据库里面有两个表：class表和stu表；class表里面有数据，stu

hive存储格式parquet

窗外的屋檐

07-26

1万+

Hive0.13以后的版本创建存储格式为parquet的hive表： CREATE TABLE parquet_test ( id int, str string, mp MAP<STRING,STRING>, lst ARRAY<STRING>, strct STRUCT<A:STRING,B:STRING>) PARTITIONED BY...

Hive常见数据格式及存储（一）

weixin_40420525的博客

09-05

4797

引言：大数据应用中，我认为最核心的两个点就是 “存储” 和 “计算”，在现在的大数据计算中，各种计算引擎的出现，迭代优化使得数据计算能够快速的产生结果，但是数据存储以及数据格式，始终属于最为基本的，合理的数据存储以及数据格式，配合适合的计算引擎，能够使数据计算得到最大的提升，并且减少磁盘开销；这里，我使用Hive作为计算引擎，来说明数据格式对存储的重要性；常见的数据存储格式在hi...

读写parquet格式文件的几种方式

热门推荐

帆了个帆的专栏

07-25

6万+

摘要本文将介绍常用parquet文件读写的几种方式 1.用spark的hadoopFile api读取hive中的parquet格式文件 2.用sparkSql读写hive中的parquet格式 3.用新旧MapReduce读写parquet格式文件读parquet文件首先创建hive表，数据用tab分隔 create table test(name string,ag...

Hive导出数据到本地CSV

gezailushang的博客

10-31

3万+

https://www.iteblog.com/archives/955.html https://cloud.tencent.com/developer/article/1352376 https://blog.csdn.net/pzw_0612/article/details/48064697 https://blog.csdn.net/gezailushang/article/deta...

让你彻底明白hive数据存储各种模式

soledede

06-16

436

1.hive数据分为那两种类型？2.什么表数据？3.什么是元数据？4.Hive表里面导入数据的本质什么？5.表、分区、桶之间之间的关系是什么？6.外部表和表的区别是什么？ Hive的数据分为表数据和元数据，表数据是Hive中表格（table）具有的数据；而元数据是用来存储表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。下面分别来介绍。　　一、Hive...

csv文件的存储格式以及hive读取表的时候运行结果

MyNameIsWangYi的博客

10-28

778

概述逗号分隔值（Comma-Separated Values，CSV，有时成为字符分隔值）。其文件以纯文本形式存储表格数据（数字和文本），文件的每一行都是一个数据记录。每个记录由一个或多个字段组成，用逗号分隔。使用逗号作为字段分隔符是此文件格式的名称的来源，因为分隔字符也可以不是逗号，有时也称为字符分隔值。 CSV 广泛用于不同体系结构的应用程序之间交换数据表格信息，解决不兼容数据格式的互通...

hive表导入csv文件

12-08

在Hive中导入CSV文件通常涉及到两个步骤：创建表格并指定适当的序列化器，然后加载数据。 1. 创建CSV格式的表格[^1]: ```sql CREATE TABLE IF NOT EXISTS your_table_name ( -- 填写实际字段名，如uid, uname, age col1 string, col2 string, col3 int ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' STORED AS TEXTFILE; -- 或者你可以选择TEXTFILE, ORC, PARQUET等存储格式 -- 如果已知文件路径，可以直接加载数据 LOAD DATA LOCAL INPATH '/path/to/your/csv_file.csv' INTO TABLE your_table_name; ``` 2. 导入CSV文件到Parquet格式的表：如果你想要将CSV文件转换成Parquet格式，首先创建一个Parquet表，然后删除现有的CSV表（这里假设`csv2`是你要替换的表）： ```sql DROP TABLE IF EXISTS csv2; CREATE TABLE csv2 ( -- 同上填写字段定义 ) ROW FORMAT SERDE 'org.apache.hadoop.hive.parquet.serde.ParquetHiveSerDe' STORED AS PARQUET; -- 由于Parquet不支持直接从文本文件导入，先将CSV转换为临时的TextFile表 CREATE TEMPORARY TABLE temp_table LIKE csv2; INSERT OVERWRITE TABLE temp_table SELECT * FROM default.csv2; -- 然后再将临时表转换为Parquet格式 ALTER TABLE temp_table SET TBLPROPERTIES ('orc.compress'='ZLIB'); ANALYZE TABLE temp_table COMPUTE STATISTICS; MSCK REPAIR TABLE temp_table; DROP TABLE csv2; RENAME TABLE temp_table TO csv2; ``` 请注意，在实际操作时，可能需要根据你的具体环境调整文件路径和表名。完成上述步骤后，你可以通过`SELECT * FROM csv2`查询导入的数据。