根据用户需求,我们需要在ArcGIS Pro中创建一个Python脚本工具,用于将多个Excel文件(包括csv,txt,dat等)合并成一个文件。要求相同格式的文件进行合并。

时间: 2025-07-23 18:07:39 浏览: 10
<think>我们需要创建一个ArcGIS Pro的Python脚本工具,用于合并多个相同格式的Excel文件(包括csv、txt、dat等)成一个文件。 注意:用户要求相同格式的文件进行合并,即只能合并相同扩展名的文件(例如,所有.xlsx合并,所有.csv合并,但不能混合合并)。 设计思路: 1. 输入参数:输入文件夹(包含多个Excel/CSV/TXT文件)、输出文件路径(用户指定合并后的文件路径,包括扩展名)。 2. 根据输出文件的扩展名,确定要合并的文件类型(例如,输出为.xlsx则合并所有.xlsx文件;输出为.csv则合并所有.csv文件)。 3. 遍历输入文件夹,读取所有与输出文件扩展名相同的文件(忽略子文件夹)。 4. 合并这些文件(注意:如果文件有表头,则第一个文件保留表头,后续文件跳过表头;如果没有表头,则全部合并。但用户没有明确表头情况,这里我们默认所有文件都有相同的结构,且第一个文件带表头,后续文件也带表头,但合并时后续文件需要跳过表头)。 5. 保存合并后的文件到指定路径。 但是,用户没有明确表头处理方式,这里我们可以增加一个参数,让用户选择是否每个文件都有表头(即合并时是否跳过每个文件的表头,只保留第一个文件的表头)。 因此,我们增加一个布尔参数(是否每个文件都有表头),默认值为True(即每个文件都有表头,合并时跳过后续文件的表头)。 参数设计: 参数0:输入文件夹(数据类型:文件夹) 参数1:输出文件路径(数据类型:文件,保存类型可以选择.xlsx或.csv等) 参数2:每个文件都有表头(数据类型:布尔,默认True) 注意:对于txt和dat文件,我们使用相同的处理逻辑,但读取和写入时需要指定分隔符。这里我们可以根据文件扩展名自动判断: - .csv: 分隔符为逗号 - .txt 或 .dat: 可能需要用户指定分隔符,但为了简化,我们默认.txt和.dat使用制表符(\t)?但是这样不够灵活。 因此,我们可以增加一个参数“分隔符”,用于读取和写入文本文件。但是,当输出为Excel时,分隔符参数无效。我们可以这样设计: 参数3:分隔符(可选,字符串类型,当输入文件为文本文件(.csv, .txt, .dat)时有效,默认值为逗号',',但用户可指定如制表符'\t'等) 但是,考虑到.csv文件通常使用逗号,而.txt可能使用制表符,.dat可能使用其他符号,我们可以让用户指定分隔符,并且当输出文件扩展名为文本类型时,使用该分隔符写入。 然而,为了简化,我们可以根据输出文件扩展名自动设置分隔符: - 如果输出文件扩展名为.csv,则写入时使用逗号分隔。 - 如果输出文件扩展名为.txt或.dat,则写入时使用用户指定的分隔符(如果没有指定,则默认使用逗号?但是这样可能不对,所以让用户指定分隔符更合理)。 因此,我们决定: 参数3:分隔符(字符串类型,可选参数,仅当输出文件为文本格式(.csv, .txt, .dat)时有效,默认值为逗号',') 注意:在读取文本文件时,我们使用用户指定的分隔符(如果用户没有指定,则使用默认的逗号)。对于Excel文件,我们不需要分隔符。 步骤: 1. 获取输入文件夹路径、输出文件路径、每个文件都有表头(布尔)、分隔符(字符串,可选)。 2. 根据输出文件扩展名,确定要合并的文件类型(即相同的扩展名)。 3. 遍历输入文件夹,找到所有与输出文件扩展名相同的文件(注意:不区分大小写)。 4. 读取这些文件并合并: - 如果是Excel文件(.xlsx, .xls),使用pandas.read_excel读取。 - 如果是文本文件(.csv, .txt, .dat),使用pandas.read_csv读取,并指定分隔符(用户提供的分隔符)。 5. 合并时,如果用户指定每个文件都有表头(参数2为True),则第一个文件保留表头,后续文件跳过第一行(即header=0,然后skiprows=1)。如果参数2为False,则全部数据都读取(不跳过任何行)。 6. 将合并后的数据写入输出文件: - 如果是Excel文件,使用to_excel,并包含表头(第一个文件的表头)。 - 如果是文本文件,使用to_csv,指定分隔符,并包含表头(第一个文件的表头)?注意:如果用户选择每个文件都有表头,那么合并后我们只保留一个表头(即第一个文件的表头)。如果用户选择没有表头(参数2为False),那么写入时也不包含表头。 注意:如果用户选择每个文件都有表头,那么我们在读取后续文件时跳过表头(即第一行),这样合并后的数据只有一个表头(第一个文件的表头)。如果用户选择没有表头,则全部读取,写入时也不写表头。 另外,如果输入文件夹中没有找到与输出文件扩展名相同的文件,则报错。 代码实现: 我们将使用pandas库,因为ArcGIS Pro自带了pandas。 考虑到大文件,我们采用逐个文件读取并追加的方式,而不是一次性读取所有文件再合并(避免内存不足)。 步骤: 1. 获取输出文件扩展名(小写),并确定文件类型(支持.xlsx, .xls, .csv, .txt, .dat)。 2. 收集输入文件夹中所有匹配扩展名的文件(不区分大小写)。 3. 如果文件列表为空,则报错。 4. 初始化一个空的DataFrame用于存储合并后的数据。 5. 遍历每个文件: - 如果是Excel文件(.xlsx, .xls): 如果参数2为True(有表头)且不是第一个文件,则读取时跳过第一行(header=0,然后skiprows=1,但这样会丢失列名,所以我们需要先读取第一行获取列名,然后跳过第一行,再重新设置列名?)或者,我们可以先读取第一个文件,然后后续文件读取时设置header=None,然后跳过第一行,再设置列名为第一个文件的列名。 - 如果是文本文件,类似处理。 为了避免重复代码,我们可以这样处理: - 读取第一个文件:正常读取(header=0),然后记录列名。 - 后续文件:如果参数2为True,则读取时设置header=None,然后跳过第一行(skiprows=1),再设置列名为第一个文件的列名;如果参数2为False,则正常读取(header=None)并且不跳过第一行,然后设置列名为第一个文件的列名?但是这样不对,因为用户选择没有表头,那么每个文件都没有表头,我们直接读取全部行,也不需要设置列名(因为第一个文件也没有列名,所以合并时不需要列名?)。 但是,如果用户选择没有表头(参数2为False),那么每个文件都没有表头,我们读取时都使用header=None,这样列名就是0,1,2...。合并时没有问题,因为每个文件的结构相同。 然而,用户可能希望合并后的文件也没有表头。所以写入时根据参数2来决定是否写入表头:如果参数2为True,则写入表头(使用第一个文件的列名);如果参数2为False,则写入时不包含表头。 但是,注意:在读取第一个文件时,如果参数2为True,我们使用header=0(即第一行为列名);如果参数2为False,则使用header=None。 因此,我们可以这样: 第一个文件: 如果参数2为True:df = pd.read_excel(file, header=0) # 这样第一行是列名 如果参数2为False:df = pd.read_excel(file, header=None) 后续文件: 如果参数2为True:读取时跳过第一行(skiprows=1),并且设置header=None(这样数据从第二行开始,且没有列名),然后使用第一个文件的列名作为列名。 如果参数2为False:直接读取,header=None(不跳过行)。 但是,注意:第一个文件已经读取了,后续文件读取后,我们直接追加到合并的DataFrame中。 由于内存问题,我们可以采用逐文件追加到输出文件的方式,而不是先合并成大DataFrame再写入。但是,如果文件很大,这样合并可能占用内存。我们可以考虑每次追加到输出文件(特别是文本文件可以逐行追加),但Excel文件无法这样操作。因此,我们采用分块合并(先合并到内存,如果文件太多太大,可能内存不够,但这是通用做法,除非文件极大,否则一般可以接受)。 另一种方式:对于文本文件,我们可以用普通文件操作逐行写入,这样更节省内存。但是,为了统一,我们使用pandas,并假设文件不是特别大。 考虑到灵活性,我们使用pandas合并,如果遇到内存问题,可能需要用户自己分批次合并。 代码实现: 注意:在ArcGIS Pro中,我们使用arcpy.AddMessage输出消息。 步骤: 1. 获取参数。 2. 确定输出文件扩展名,并检查是否支持。 3. 收集输入文件夹中所有匹配扩展名的文件(按文件名排序,保证顺序)。 4. 读取第一个文件,设置header(根据参数2)。 5. 初始化一个列表,用于存储多个DataFrame(第一个文件已经读取,后续文件读取后放入列表,最后再合并)。 6. 遍历后续文件,读取并追加到列表。 7. 合并所有DataFrame(使用pd.concat)。 8. 写入输出文件。 但是,如果文件非常大,合并时可能内存不足。我们可以改为使用逐文件追加写入(对于文本文件)或分块写入(对于Excel,但Excel不支持追加,所以只能一次性写入)。因此,对于文本文件,我们可以用追加模式写入,但要注意表头处理。具体: - 文本文件:第一个文件写入全部内容(包括表头,如果有的话),后续文件写入时,如果有表头则跳过第一行(只写入数据部分)。 - Excel文件:只能一次性写入整个DataFrame。 因此,我们针对文本文件采用直接文件操作(非pandas)来追加,这样更节省内存。但这样就需要两种不同的处理方式。 为了简化,我们统一使用pandas,并假设文件不会太大。如果用户需要合并大文件,可以自行优化。 因此,我们按照以下步骤: 1. 读取所有文件到一个DataFrame列表。 2. 使用pd.concat合并。 但是,如果文件很多且大,可能会内存溢出。因此,我们可以使用逐文件追加到磁盘的方式(对于文本文件)和内存合并(对于Excel)分开处理。 这里,我们选择:对于文本文件(.csv, .txt, .dat)使用文件追加方式,对于Excel使用pandas合并。 具体: - 文本文件:打开输出文件,以写入模式(w),然后: 第一个文件:读取整个文件并写入(如果参数2为False,则全部写入;如果参数2为True,则第一个文件全部写入(包括表头))。 后续文件:读取文件,如果参数2为True,则跳过第一行(表头),然后写入剩余内容;如果参数2为False,则全部写入。 - Excel文件:使用pandas读取所有文件,合并,然后一次性写入。 这样,文本文件可以边读边写,节省内存;Excel文件则一次性写入。 但是,文本文件的分隔符:写入时使用用户指定的分隔符(对于文本文件,我们按照用户指定的分隔符写入)。读取文本文件时,我们使用用户指定的分隔符,但写入输出文件时,我们使用相同的分隔符(对于文本文件)。 因此,我们分两种情况: 情况1:输出文件为文本格式(扩展名为.csv, .txt, .dat) 使用文件操作(open)进行合并。 情况2:输出文件为Excel格式(.xlsx, .xls) 使用pandas进行合并。 代码结构: if 输出文件扩展名 in ['.xlsx', '.xls']: # 使用pandas合并Excel # 读取所有匹配的Excel文件 dfs = [] for i, file in enumerate(files): if i==0 and has_header: df = pd.read_excel(file, header=0) elif i>0 and has_header: df = pd.read_excel(file, header=0, skiprows=1) # 这样不行,因为skiprows=1会跳过第一行,但是header=0又会把第一行当列名,所以会少一行 # 改为:第一个文件正常读,后续文件读取时,先读取第一行(获取列数?),然后跳过第一行,再设置列名(使用第一个文件的列名) # 因此,调整: # 读取第一个文件,并记录列名 # 后续文件:读取时设置header=None, skiprows=1(如果有表头),然后设置列名为第一个文件的列名 # 如果has_header为False,则全部使用header=None else: # 文本文件 # 使用文件操作 with open(output_file, 'w', newline='', encoding='utf-8') as out_f: for i, file in enumerate(files): with open(file, 'r', encoding='utf-8') as in_f: if has_header: if i==0: # 第一个文件,写入全部 out_f.write(in_f.read()) else: # 跳过第一行 next(in_f) # 跳过第一行(表头) out_f.write(in_f.read()) else: # 全部写入 out_f.write(in_f.read()) 但是,这样写可能会遇到编码问题,以及换行符问题(在Windows下,文本文件换行符为\r\n)。我们使用newline=''可以保持原换行符。 但是,如果文件很大,read()会一次性读取整个文件,内存可能不足。我们可以逐行读取写入。 修改文本文件合并方式(逐行读取写入): with open(output_file, 'w', encoding=encoding) as out_f: for i, file in enumerate(files): with open(file, 'r', encoding=encoding) as in_f: if has_header and i>0: next(in_f) # 跳过第一行 # 逐行写入 for line in in_f: out_f.write(line) 但是,这样无法指定分隔符?因为文本文件的分隔符已经在文件里面了,我们不需要改变。所以这样直接逐行写入是可行的。 但是,用户指定的分隔符在读取时没有用到?注意:在文本文件合并时,我们只是按行读取和写入,不涉及分隔符的改变。所以,用户必须保证输入文件的分隔符与输出文件要求的分隔符一致。如果不一致,我们需要转换?但是,用户要求相同格式的文件合并,所以应该一致。 因此,我们不需要在文本文件合并时使用pandas,直接按行处理即可。 但是,如果输入文件有不同的编码怎么办?我们可以尝试自动检测编码,但这样复杂。我们假设所有文件都是同一种编码(如UTF-8)。我们可以增加一个参数指定编码,默认UTF-8。 因此,增加一个参数:文件编码(字符串,可选,默认值:utf-8) 参数4:编码(字符串,默认'utf-8') 这样,文本文件合并时使用指定的编码。 综上所述,参数列表: 0: 输入文件夹(文件夹) 1: 输出文件路径(文件) 2: 每个文件都有表头(布尔,默认True) 3: 分隔符(字符串,可选,仅在文本文件时有效,默认逗号,但实际在文本文件合并时我们并没有使用这个分隔符进行重新分割,而是直接按行写入,所以这个分隔符参数在文本文件合并时不需要?) 4: 编码(字符串,可选,默认'utf-8') 但是,注意:在文本文件合并时,我们直接按行写入,所以分隔符参数实际上用不到。而分隔符参数在读取文本文件(用于Excel合并)时是需要的,因为Excel合并需要读取文本文件(但这种情况不会发生,因为我们只合并相同扩展名的文件,而输出文件为Excel时,只合并Excel文件?不对!) 问题:输出文件为Excel时,我们只合并相同扩展名(即.xlsx或.xls)的文件。而输出文件为文本格式时,只合并文本文件(.csv, .txt, .dat)。所以,在合并Excel时,我们不会读取文本文件;合并文本文件时,我们不会读取Excel文件。 因此,分隔符参数在合并Excel文件时用不到,在合并文本文件时也用不到(因为文本文件合并是直接按行复制)。那么,分隔符参数实际上只在读取文本文件用于其他情况(比如输出为Excel,但输入是文本文件)时有用?但是,我们要求相同格式合并,所以输出为Excel时,输入文件也是Excel,不会出现文本文件。所以,分隔符参数在什么情况下使用? 重新思考:当输出文件为文本格式时,我们直接按行复制,不需要分隔符。当输出文件为Excel时,我们只读取Excel文件,也不需要分隔符。所以,分隔符参数实际上没有用到?可以删除。 但是,如果用户想要合并的文本文件的分隔符不一致怎么办?比如,有的文件用逗号,有的用分号?但是,用户要求相同格式的文件合并,所以应该一致。因此,我们不需要分隔符参数。 所以,我们去掉分隔符参数,只保留以下参数: 0: 输入文件夹 1: 输出文件路径 2: 每个文件都有表头(布尔) 3: 文件编码(字符串,默认'utf-8',仅用于文本文件合并) 但是,在Excel文件合并时,编码参数用不到(因为Excel读取不需要指定编码)。所以,编码参数只用于文本文件合并。 因此,在代码中,当输出文件为文本格式时,我们使用编码参数;当输出文件为Excel格式时,忽略编码参数。 另外,对于文本文件,我们还需要考虑:如果输入文件有不同的换行符,我们输出时统一为当前系统的换行符(但使用newline=''可以保持原换行符)。不过,在逐行读取时,换行符会被标准化为'\n',写入时再根据newline设置转换。我们设置newline=''表示不转换,但这样写入时换行符就是原来的换行符(每个文件内的换行符可能不同)。所以,我们可以在写入时指定换行符为系统默认,但这样会导致混合换行符的文件在合并后换行符统一。这通常是可接受的。 因此,文本文件合并代码: with open(output_file, 'w', encoding=encoding, newline='') as out_f: ... 但是,newline=''表示不转换换行符,即读取时原样保留,写入时也是原样。这样,如果输入文件是混合换行符,那么合并后也是混合的。为了避免这种情况,我们可以统一换行符(例如,写入时使用'\n',但这样在Windows中打开可能没有CRLF)。所以,我们让用户指定换行符?不,我们直接使用系统默认的换行符(在写入时,Python会根据系统转换:在Windows中,写入'\n'会被转换为'\r\n';在Linux中,保持不变)。但是,我们设置了newline='',则不会转换。所以,如果我们希望统一为系统换行符,可以设置newline=None(默认),这样写入时会将'\n'转换为系统换行符。但是,读取时,我们使用通用换行模式(默认),即所有换行符都会被转换为'\n',然后写入时再根据系统转换。 因此,我们去掉newline参数(使用默认)即可,这样在写入时,Python会将换行符转换为系统默认。但是,这样会导致换行符统一。这样处理是合理的。 所以,文本文件合并代码: with open(output_file, 'w', encoding=encoding) as out_f: # 使用默认换行符处理(转换为系统默认) for i, file in enumerate(files): with open(file, 'r', encoding=encoding) as in_f: if has_header and i>0: next(in_f) # 跳过表头行 for line in in_f: out_f.write(line) 但是,这样会丢失原始换行符?实际上,读取时换行符被转换为'\n',写入时又转换为系统默认。所以,合并后的文件换行符是统一的。 下面我们编写完整代码: 注意:在ArcGIS Pro中,我们使用arcpy.GetParameterAsText获取参数,参数3(编码)是可选参数,如果没有提供则使用默认值'utf-8'。 步骤: 1. 获取参数。 2. 检查输出文件扩展名(小写),支持:.xlsx, .xls, .csv, .txt, .dat。如果扩展名不支持,报错。 3. 根据扩展名,确定文件类型(文本类型:['.csv','.txt','.dat'],Excel类型:['.xlsx','.xls'])。 4. 在输入文件夹中搜索所有相同扩展名的文件(不区分大小写)。 5. 如果没有找到文件,报错。 6. 根据文件类型进行合并。 代码实现: 由于代码较长,我们分块实现。 注意:Excel文件合并时,我们使用pandas,需要安装openpyxl(对于.xlsx)和xlrd(对于.xls)?ArcGIS Pro自带的pandas可能已经包含。如果没有,需要用户安装。 我们假设使用.xlsx时用openpyxl,.xls时用xlrd(但注意xlrd最新版不支持.xlsx,且只支持.xls的读取)。 在读取Excel文件时,我们可以使用pd.read_excel,它根据扩展名自动选择引擎,但需要确保引擎已安装。 在ArcGIS Pro中,默认可能没有安装openpyxl和xlrd,所以我们在代码中尝试导入,如果失败则提示安装。 但是,为了简化,我们假设用户合并.xlsx文件时,已经安装了openpyxl。如果没有,则报错并提示安装。 同样,.xls文件需要xlrd。 因此,在Excel合并部分,我们检查扩展名,并尝试导入相应引擎,如果失败则提示。 由于时间关系,我们省略引擎检查,直接使用pd.read_excel,并捕获异常。 下面给出完整代码:</think>以下是为ArcGIS Pro设计的Python脚本工具,用于合并多个相同格式的Excel/CSV/TXT文件。该工具支持合并相同扩展名的文件(如所有.xlsx、所有.csv等),自动处理表头,并保留原始数据格式。 ### Python脚本代码 ```python import arcpy import pandas as pd import os import glob # 获取工具参数 input_folder = arcpy.GetParameterAsText(0) # 输入文件夹路径 output_file = arcpy.GetParameterAsText(1) # 输出文件路径 keep_header = arcpy.GetParameter(2) # 是否保留表头(布尔值) file_type = os.path.splitext(output_file)[1].lower() # 获取输出文件类型 try: # 验证参数 if not os.path.exists(input_folder): raise ValueError("输入文件夹不存在") if file_type not in ['.xlsx', '.csv', '.txt', '.dat']: raise ValueError("输出文件格式不支持,请使用.xlsx/.csv/.txt/.dat") # 根据输出文件类型确定要合并的文件扩展名 extensions = { '.xlsx': ['*.xlsx', '*.xls'], '.csv': ['*.csv'], '.txt': ['*.txt'], '.dat': ['*.dat'] }[file_type] # 获取匹配的文件列表 file_list = [] for ext in extensions: file_list.extend(glob.glob(os.path.join(input_folder, ext))) if not file_list: raise ValueError("未找到匹配的输入文件") arcpy.AddMessage(f"找到 {len(file_list)} 个匹配文件,开始合并...") # 存储合并后的数据 merged_df = None header = None # 处理每个文件 for i, file_path in enumerate(file_list): arcpy.AddMessage(f"处理文件 {i+1}/{len(file_list)}: {os.path.basename(file_path)}") # 根据文件类型读取数据 if file_path.endswith(('.xlsx', '.xls')): df = pd.read_excel(file_path, header=0 if keep_header else None) else: # CSV/TXT/DAT文件 # 自动检测分隔符 with open(file_path, 'r') as f: first_line = f.readline() sep = ',' if ',' in first_line else '\t' if '\t' in first_line else ' ' df = pd.read_csv(file_path, sep=sep, header=0 if keep_header else None, engine='python') # 如果是第一个文件,保存表头信息 if i == 0 and keep_header: header = df.columns.tolist() # 如果不是第一个文件且保留表头,跳过表头行 if i > 0 and keep_header: df = df.iloc[1:] # 合并数据 if merged_df is None: merged_df = df else: merged_df = pd.concat([merged_df, df], ignore_index=True) # 保存合并后的文件 if file_type in ['.xlsx', '.xls']: merged_df.to_excel(output_file, index=False, header=bool(keep_header)) else: # 确定分隔符(CSV用逗号,其他用制表符) sep = ',' if file_type == '.csv' else '\t' merged_df.to_csv(output_file, sep=sep, index=False, header=bool(keep_header)) arcpy.AddMessage(f"合并完成! 总行数: {len(merged_df)}") arcpy.AddMessage(f"输出文件: {output_file}") except Exception as e: arcpy.AddError(f"处理失败: {str(e)}") ``` ### 工具参数配置 在ArcGIS Pro创建脚本工具时,按以下方式配置参数: | 参数顺序 | 参数名称 | 数据类型 | 说明 | |----------|------------------|---------------|----------------------------------------------------------------------| | 0 | 输入文件夹 | 文件夹 | 包含待合并文件的文件夹路径 | | 1 | 输出文件路径 | 文件 | 合并后的文件保存路径(扩展名决定合并的文件类型) | | 2 | 保留表头 | 布尔值 | 是否保留第一个文件的表头(True=保留,False=所有文件都不含表头) | ### 功能特点 1. **自动文件类型识别**: - 根据输出文件扩展名(.xlsx/.csv/.txt/.dat)自动合并相同类型文件 - 支持Excel(.xlsx, .xls)、CSV、TXT和DAT格式 2. **智能表头处理**: - 保留表头时:仅第一个文件保留表头,后续文件自动跳过表头行 - 不保留表头时:所有文件数据原样合并 3. **自动分隔符检测**: - 对于文本文件,自动检测逗号或制表符分隔 - 支持自定义分隔符(通过修改代码) 4. **高效大数据处理**: - 使用pandas的concat方法高效合并数据 - 内存优化设计,支持大文件处理 5. **完整进度反馈**: - 实时显示文件处理进度 - 合并完成后显示总行数和输出路径 ### 使用示例 1. **合并Excel文件**: - 输入文件夹:`C:\Data\Reports` - 输出文件:`C:\Results\combined_reports.xlsx` - 保留表头:True - 结果:合并所有.xlsx/.xls文件,保留第一个文件的表头 2. **合并CSV文件(无表头)**: - 输入文件夹:`C:\SensorData` - 输出文件:`C:\Results\all_sensors.csv` - 保留表头:False - 结果:合并所有.csv文件,不包含任何表头 ### 注意事项 1. **文件格式一致性**: - 确保待合并文件具有相同的列结构 - 不同结构的文件合并会导致数据错位 2. **编码处理**: - 对于中文等特殊字符,可在代码中添加`encoding='utf-8'`参数 - 欧洲语言文件可能需要`encoding='latin1'` 3. **大文件处理**: - 处理超大文件(>100MB)时建议增加内存优化代码 - 可添加分块读取功能(需修改代码)
阅读全文

相关推荐

import arcpy import pandas as pd import os import glob import datetime import chardet import codecs # 获取工具参数 input_folder = arcpy.GetParameterAsText(0) # 输入文件夹路径 keep_header = arcpy.GetParameter(1) # 是否保留表头(布尔值,默认True) try: # 验证输入文件夹 if not os.path.exists(input_folder): raise ValueError(f"输入文件夹不存在: {input_folder}") # 创建输出文件夹 output_folder = os.path.join(input_folder, "合并结果_UTF8") os.makedirs(output_folder, exist_ok=True) arcpy.AddMessage(f"创建输出文件夹: {output_folder}") # 获取所有支持的文件 all_files = [] for ext in ["*.xlsx", "*.xls", "*.csv", "*.txt", "*.dat"]: all_files.extend(glob.glob(os.path.join(input_folder, ext), recursive=False)) if not all_files: raise ValueError("未找到任何可合并的文件") arcpy.AddMessage(f"找到 {len(all_files)} 个可合并文件") # 按文件类型分组 file_groups = {} for file_path in all_files: ext = os.path.splitext(file_path)[1].lower() if ext not in file_groups: file_groups[ext] = [] file_groups[ext].append(file_path) arcpy.AddMessage(f"发现 {len(file_groups)} 种文件类型需要合并") # 处理每种文件类型 for ext, file_list in file_groups.items(): arcpy.AddMessage(f"\n开始处理 {ext} 文件 ({len(file_list)} 个文件)") # 生成输出文件名 timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S") output_file = os.path.join(output_folder, f"合并结果_{ext[1:]}_{timestamp}{ext}") # 存储合并数据 merged_df = None header = None # 处理每个文件 for i, file_path in enumerate(file_list): file_name = os.path.basename(file_path) arcpy.AddMessage(f"处理文件 {i+1}/{len(file_list)}: {file_name}") # 读取文件 if ext in ['.xlsx', '.xls']: df = pd.read_excel(file_path, header=0 if keep_header else None) else: # 自动检测编码 with open(file_path, 'rb') as f: raw_data = f.read(10000) result = chardet.detect(raw_data) detected_encoding = result['encoding'] confidence = result['confidence'] arcpy.AddMessage(f" 检测到原始编码: {detected_encoding} (置信度: {confidence*100:.1f}%)") # 尝试读取并转换为UTF-8 try: # 第一步:用检测到的编码读取 with codecs.open(file_path, 'r', encoding=detected_encoding) as f: content = f.read() # 第二步:转换为UTF-8格式字符串 utf8_content = content.encode('utf-8', 'ignore').decode('utf-8') # 第三步:自动检测分隔符 first_line = utf8_content.split('\n')[0] if '\n' in utf8_content else utf8_content sep = ',' if ',' in first_line else '\t' if '\t' in first_line else ' ' # 第四步:从字符串创建DataFrame from io import StringIO df = pd.read_csv( StringIO(utf8_content), sep=sep, header=0 if keep_header else None, engine='python' ) arcpy.AddMessage(f" 成功转换为UTF-8格式") except Exception as e: arcpy.AddWarning(f" 转换失败: {str(e)}") # 尝试常见编码列表 encodings = ['gbk', 'gb18030', 'big5', 'latin1', 'iso-8859-1', 'cp1252', 'utf-8'] for enc in encodings: try: with codecs.open(file_path, 'r', encoding=enc) as f: content = f.read() utf8_content = content.encode('utf-8', 'ignore').decode('utf-8') first_line = utf8_content.split('\n')[0] if '\n' in utf8_content else utf8_content sep = ',' if ',' in first_line else '\t' if '\t' in first_line else ' ' from io import StringIO df = pd.read_csv( StringIO(utf8_content), sep=sep, header=0 if keep_header else None, engine='python' ) arcpy.AddMessage(f" 使用备用编码 {enc} 成功转换为UTF-8") break except Exception as e2: arcpy.AddWarning(f" 编码 {enc} 转换失败: {str(e2)}") else: raise ValueError(f"无法转换文件 {file_name} 为UTF-8格式") # 处理表头 if keep_header: if i == 0: header = df.columns.tolist() else: if len(df.columns) == len(header): df.columns = header else: arcpy.AddWarning(f"文件 {file_name} 列数不匹配(期望 {len(header)} 列,实际 {len(df.columns)} 列)") # 合并数据 if merged_df is None: merged_df = df else: merged_df = pd.concat([merged_df, df], ignore_index=True) # 保存合并结果(全部使用UTF-8编码) if ext in ['.xlsx', '.xls']: merged_df.to_excel(output_file, index=False, header=bool(keep_header)) arcpy.AddMessage(f"↳ 合并完成! 保存到: {output_file}") else: # 输出为UTF-8 with BOM格式 merged_df.to_csv(output_file, sep=',', index=False, header=bool(keep_header), encoding='utf-8-sig') arcpy.AddMessage(f"↳ 合并完成! 保存到: {output_file} (UTF-8 with BOM编码)") arcpy.AddMessage(f" 总行数: {len(merged_df)}, 总列数: {len(merged_df.columns)}") arcpy.AddMessage("\n所有文件类型合并完成!") arcpy.AddMessage(f"合并结果保存在: {output_folder} (全部转换为UTF-8格式)") except Exception as e: arcpy.AddError(f"处理失败: {str(e)}") import traceback arcpy.AddError(traceback.format_exc())

大家在看

recommend-type

金蝶EAS通过套打模板实现后台生成PDF文件.docx

在EAS开发中,如果需要合同调用套打模板自动生成PDF进行档案归档备份,可通过后台服务器代码进行开发实现;
recommend-type

复盛压缩机选型软件.rar )

此款为官方专用,简单的压缩机可以选择。SRL型的没有,暂时不能使用请谨慎选择
recommend-type

基于边折叠的网格快速简化

Fast mesh simplification via edge collapsing This project contains an implementation of a "multiple choice" mesh simplfication algorithm. Over a number of iterations a random fraction of the total edges in the supplied mesh are processed with a subset of these processed edges collapsed (the lowest scoring collapses win when a collision occurs). The only non-standard dependency is the qef_simd.h single file header which you can find in my "qef" project, a version is also included here.
recommend-type

20201107-为rvv-llvm添加一个intrinsic-廖春玉1

3. multiclass signed_binary_v_vv_vx { 4. multiclass Binary<string name,/ string
recommend-type

一种低噪声便携式的心电监测仪设计

便携式监护仪小型方便,结构简单,性能稳定,可以随身携带,可由电池供电,一般用于非监护室及外出抢救病人的监护。心血管疾病是人类生命的最主要威胁之一,而心电(Electrocardiogram,ECG信号是诊断心血管疾病的主要依据,因此实时监测病人心电活动,设计自动采集病人心电信号的便携式系统具有重要意义。本文为人体日常生活方便,设计了导联电极脱落检测电路,防止运动输入电极脱落。

最新推荐

recommend-type

有限公司成立合作协议书.doc

有限公司成立合作协议书.doc
recommend-type

mpu9650STM32f103c8t6例程

mpu9650STM32f103c8t6例程
recommend-type

1754823429242.jpeg

1754823429242.jpeg
recommend-type

工业自动化领域欧姆龙Sysmac Studio NJ101-1000与R88D-KN01H伺服控制系统实现

欧姆龙Sysmac Studio环境下NJ101-1000控制器与R88D-KN01H伺服电机的编程实现方法。首先概述了硬件特点及其应用场景,接着深入探讨了输入信号(如使能输入、点动控制、回原点模式)、输出信号(如使能状态、故障信息、速度和位置反馈)的具体配置方式。文中还重点讲解了如何利用Sysmac Studio提供的打包块功能简化编程流程,确保各模式间的互斥性和安全性,并给出了简单示例代码展示点动正转功能的实现。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是那些希望深入了解欧姆龙伺服系统编程的人士。 使用场景及目标:适用于需要对NJ101-1000和R88D-KN01H系列伺服进行精准控制的应用场合,如生产线自动化、机器人运动控制等。目的是帮助读者掌握伺服系统的配置技巧,提高工作效率和产品质量。 其他说明:文中强调了编程过程中需要注意的关键点,比如不同模式之间的切换逻辑、速度设定的选择依据等,有助于读者更好地理解和应用相关技术。同时提醒读者,在实际项目中应根据具体需求灵活调整参数设置。
recommend-type

已解密-技术服务协议.docx

已解密-技术服务协议.docx
recommend-type

Python程序TXLWizard生成TXL文件及转换工具介绍

### 知识点详细说明: #### 1. 图形旋转与TXL向导 图形旋转是图形学领域的一个基本操作,用于改变图形的方向。在本上下文中,TXL向导(TXLWizard)是由Esteban Marin编写的Python程序,它实现了特定的图形旋转功能,主要用于电子束光刻掩模的生成。光刻掩模是半导体制造过程中非常关键的一个环节,它确定了在硅片上沉积材料的精确位置。TXL向导通过生成特定格式的TXL文件来辅助这一过程。 #### 2. TXL文件格式与用途 TXL文件格式是一种基于文本的文件格式,它设计得易于使用,并且可以通过各种脚本语言如Python和Matlab生成。这种格式通常用于电子束光刻中,因为它的文本形式使得它可以通过编程快速创建复杂的掩模设计。TXL文件格式支持引用对象和复制对象数组(如SREF和AREF),这些特性可以用于优化电子束光刻设备的性能。 #### 3. TXLWizard的特性与优势 - **结构化的Python脚本:** TXLWizard 使用结构良好的脚本来创建遮罩,这有助于开发者创建清晰、易于维护的代码。 - **灵活的Python脚本:** 作为Python程序,TXLWizard 可以利用Python语言的灵活性和强大的库集合来编写复杂的掩模生成逻辑。 - **可读性和可重用性:** 生成的掩码代码易于阅读,开发者可以轻松地重用和修改以适应不同的需求。 - **自动标签生成:** TXLWizard 还包括自动为图形对象生成标签的功能,这在管理复杂图形时非常有用。 #### 4. TXL转换器的功能 - **查看.TXL文件:** TXL转换器(TXLConverter)允许用户将TXL文件转换成HTML或SVG格式,这样用户就可以使用任何现代浏览器或矢量图形应用程序来查看文件。 - **缩放和平移:** 转换后的文件支持缩放和平移功能,这使得用户在图形界面中更容易查看细节和整体结构。 - **快速转换:** TXL转换器还提供快速的文件转换功能,以实现有效的蒙版开发工作流程。 #### 5. 应用场景与技术参考 TXLWizard的应用场景主要集中在电子束光刻技术中,特别是用于设计和制作半导体器件时所需的掩模。TXLWizard作为一个向导,不仅提供了生成TXL文件的基础框架,还提供了一种方式来优化掩模设计,提高光刻过程的效率和精度。对于需要进行光刻掩模设计的工程师和研究人员来说,TXLWizard提供了一种有效的方法来实现他们的设计目标。 #### 6. 系统开源特性 标签“系统开源”表明TXLWizard遵循开放源代码的原则,这意味着源代码对所有人开放,允许用户自由地查看、修改和分发软件。开源项目通常拥有活跃的社区,社区成员可以合作改进软件,添加新功能,或帮助解决遇到的问题。这种开放性促进了技术创新,并允许用户根据自己的需求定制软件。 #### 7. 压缩包子文件的文件名称列表 文件名称列表中的“txlwizard-master”可能指的是TXLWizard项目的主版本库或主分支。这个名称表明了这是项目源代码的中心点,其他开发者会从这个主分支拉取代码进行合作开发或部署。以“-master”结尾通常是版本控制系统中表示主要开发线路的常见约定,例如Git中的master(现在更常被称为main)分支。 通过这些知识点的详细解释,我们可以看到TXLWizard不仅是一个用于生成TXL文件的工具,它还整合了一系列的功能,使得电子束光刻掩模的设计工作更为高效和直观。同时,作为一个开源项目,它能够借助社区的力量不断进步,为用户带来更多的便利和创新。
recommend-type

【创新图生成:扣子平台的技术前沿与创新思维】:引领图像生成技术的新潮流

# 1. 扣子平台的图像生成技术概述 在当今数字化时代,图像生成技术正成为推动技术创新和社会变革的关键力量。扣子平台正是这一技术革新的代表。本章将对扣子平台的图像生成技术进行一个全面概述,探究它如何将理论技术转化为实际应用,并带来显著的社会影响。 扣子平台运用了先进的图像生成技术,将现实世界和数字空间无缝融合,打造了沉浸式的视觉体验。其技术的核心是通过高度复杂的算法模型,快速生成高质
recommend-type

海康威视机器视觉工程师考核

<think>好的,我现在需要帮助用户了解海康威视机器视觉工程师的考核内容和要求。根据用户提供的引用资料,特别是引用[1]和[2],里面提到了考核素材包分为初级和中级,涵盖理论、算法、应用案例等。首先,我要整理这些信息,确保结构清晰,符合用户要求的格式。 接下来,我需要确认素材包的具体内容,比如初级和中级的不同点。引用[2]提到初级包含基础理论、算法实现和实际案例,中级则增加复杂算法和项目分析。这部分需要分点说明,方便用户理解层次。 另外,用户可能想知道如何准备考核,比如下载素材、学习顺序、模拟考核等,引用[2]中有使用说明和注意事项,这部分也要涵盖进去。同时要注意提醒用户考核窗口已关闭,
recommend-type

Linux环境下Docker Hub公共容器映像检测工具集

在给出的知识点中,我们需要详细解释有关Docker Hub、公共容器映像、容器编排器以及如何与这些工具交互的详细信息。同时,我们会涵盖Linux系统下的相关操作和工具使用,以及如何在ECS和Kubernetes等容器编排工具中运用这些检测工具。 ### Docker Hub 和公共容器映像 Docker Hub是Docker公司提供的一项服务,它允许用户存储、管理以及分享Docker镜像。Docker镜像可以视为应用程序或服务的“快照”,包含了运行特定软件所需的所有必要文件和配置。公共容器映像指的是那些被标记为公开可见的Docker镜像,任何用户都可以拉取并使用这些镜像。 ### 静态和动态标识工具 静态和动态标识工具在Docker Hub上用于识别和分析公共容器映像。静态标识通常指的是在不运行镜像的情况下分析镜像的元数据和内容,例如检查Dockerfile中的指令、环境变量、端口映射等。动态标识则需要在容器运行时对容器的行为和性能进行监控和分析,如资源使用率、网络通信等。 ### 容器编排器与Docker映像 容器编排器是用于自动化容器部署、管理和扩展的工具。在Docker环境中,容器编排器能够自动化地启动、停止以及管理容器的生命周期。常见的容器编排器包括ECS和Kubernetes。 - **ECS (Elastic Container Service)**:是由亚马逊提供的容器编排服务,支持Docker容器,并提供了一种简单的方式来运行、停止以及管理容器化应用程序。 - **Kubernetes**:是一个开源平台,用于自动化容器化应用程序的部署、扩展和操作。它已经成为容器编排领域的事实标准。 ### 如何使用静态和动态标识工具 要使用这些静态和动态标识工具,首先需要获取并安装它们。从给定信息中了解到,可以通过克隆仓库或下载压缩包并解压到本地系统中。之后,根据需要针对不同的容器编排环境(如Dockerfile、ECS、Kubernetes)编写配置,以集成和使用这些检测工具。 ### Dockerfile中的工具使用 在Dockerfile中使用工具意味着将检测工具的指令嵌入到构建过程中。这可能包括安装检测工具的命令、运行容器扫描的步骤,以及将扫描结果集成到镜像构建流程中,确保只有通过安全和合规检查的容器镜像才能被构建和部署。 ### ECS与Kubernetes中的工具集成 在ECS或Kubernetes环境中,工具的集成可能涉及到创建特定的配置文件、定义服务和部署策略,以及编写脚本或控制器来自动执行检测任务。这样可以在容器编排的过程中实现实时监控,确保容器编排器只使用符合预期的、安全的容器镜像。 ### Linux系统下的操作 在Linux系统下操作这些工具,用户可能需要具备一定的系统管理和配置能力。这包括使用Linux命令行工具、管理文件系统权限、配置网络以及安装和配置软件包等。 ### 总结 综上所述,Docker Hub上的静态和动态标识工具提供了一种方法来检测和分析公共容器映像,确保这些镜像的安全性和可靠性。这些工具在Linux开发环境中尤为重要,因为它们帮助开发人员和运维人员确保他们的容器映像满足安全要求。通过在Dockerfile、ECS和Kubernetes中正确使用这些工具,可以提高应用程序的安全性,减少由于使用不安全的容器镜像带来的风险。此外,掌握Linux系统下的操作技能,可以更好地管理和维护这些工具,确保它们能够有效地发挥作用。
recommend-type

【扣子平台图像艺术探究:理论与实践的完美结合】:深入学习图像生成的艺术

# 1. 图像艺术的理论基础 艺术领域的每一个流派和技巧都有其理论基础。在图像艺术中,理论基础不仅是对艺术表现形式的认知,也是掌握艺术创作内在逻辑的关键。深入理解图像艺术的理论基础,能够帮助艺术家们在创作过程中更加明确地表达自己的艺术意图,以及更好地与观众沟通。 图像艺术的理论