在人工智能和自然语言处理领域,Hugging Face无疑是一个重要的存在。作为一个开放的社区平台,它不仅提供了大量的预训练模型和数据集,还成为了研究人员和开发者交流合作的桥梁。
当我们在进行机器学习项目开发、学术研究或想要快速部署AI应用时,都会需要到Hugging Face上寻找合适的资源。然而考虑到国内的网络环境,很多小伙伴从Hugging Face上下载模型和数据集都遇到各种各样的问题,今天介绍一些Hugging Face模型下载的高效策略。
一、使用替代站点
在访问Hugging Face遇到网络问题时,转向替代站点是一个明智的选择。以下是两个推荐的替代站点,它们都能提供稳定、快速的下载服务:
1、HF-Mirror
网站地址:https://hf-mirror.com/,这是Hugging Face的官方镜像站点。作为一个公益项目,HF-Mirror专注于为国内AI开发者提供一个快速、稳定的模型和数据集下载环境。
特点与优势:
- 同步更新:与Hugging Face主站保持同步更新,确保用户能够获取到最新的模型和数据集。
- 高速下载:利用国内服务器优势,大幅提升下载速度,减少等待时间。
- 稳定可靠:作为官方镜像,保证了服务的稳定性和可靠性。
2、ModelScope魔塔社区
网站地址:https://www.modelscope.cn/,ModelScope是由阿里发起的AI模型共享平台,它汇集了众多高质量的预训练模型和数据集,致力于推动AI技术的开放与共享。
特点:
- 中文友好:作为面向中文用户的平台,ModelScope提供了全中文的界面和文档,极大地方便了国内开发者的使用。
- 下载速度快:依托阿里巴巴的强大基础设施,ModelScope提供了极快的下载速度,有效解决了海外站点下载慢的问题。
- 部分海外特定模型可能尚未包含,可能还得去huggingface上找。
二、常见下载方法
1、官方推荐的下载工具huggingface-cli
简介
huggingface-cli是Hugging Face官方提供的命令行工具,用于方便地下载和管理模型和数据集。
安装Hugging Face Hub库
在终端中执行以下命令以安装或更新Hugging Face Hub库:
pip install -U huggingface_hub
此命令将确保拥有最新版本的huggingface_hub库,以便能够顺利地与Hugging Face平台进行交互。
(可选)配置环境变量
为了优化访问速度和稳定性,可以设置环境变量以使用Hugging Face的镜像站点。在终端中执行以下命令:
export HF_ENDPOINT=https://hf-mirror.com
这样设置的效果是使用hf-mirror.com作为Hugging Face的替代站点,从而可能获得更快的下载速度和更稳定的连接。
下载
下载模型
要下载特定的模型,例如deepseek-ai的DeepSeek-R1-Distill-Qwen-7B模型,可以使用以下命令:
huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local-dir deepseek
这条命令会将DeepSeek-R1-Distill-Qwen-7B
模型下载到本地目录deepseek
中。通过指定–local-dir参数,可以自定义模型的存储位置,以便于后续管理和使用。
下载单个文件
如果只需要下载仓库中的某个特定文件,例如从deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
仓库中下载README.md
文件,可以使用以下命令:
huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-7B README.md --local-dir deepseek
这条命令会将README.md
文件从deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
仓库下载到本地目录deepseek
中。通过指定文件名和–local-dir参数,可以精确地获取所需的文件,并放置在指定的位置。
注意:省略–local-dir参数时,模型将被下载到默认位置。
下载数据集
对于数据集的下载,例如open-r1/OpenR1-Math-220k数据集,执行以下命令:
huggingface-cli download --repo-type dataset open-r1/OpenR1-Math-220k
在此命令中,--repo-type dataset
指示该操作针对的是数据集类型。
使用Token下载(部分模型需要):
部分模型需登录申请许可,可以先从官网获取 Access Token ,然后用命令行下载。
huggingface-cli下载时添加–token参数:
huggingface-cli download --token hf_*** meta-llama/Llama-2-7b-hf --local-dir Llama-2-7b-hf
确保将hf_***
替换为的实际Access Token。这样,就可以顺利下载需要登录许可的项目了。
2、使用 Git Clone 下载(不推荐)
安装 Git 和Git LFS
sudo apt update
sudo apt install git
sudo apt install git-lfs
git lfs install
使用 Git Clone 命令下载模型
例如,要下载deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
模型,可以执行以下命令:
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
要下载单个文件,也可以
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B/resolve/main/README.md?download=true
如果需要登录许可,先获取Access Token,并使用以下格式克隆:
git clone https://<your-username>:<your-access-token>@huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
请将和替换为实际用户名和Access Token。
不过,这种方式由于不支持断点续传,断了就需要重新下载,所以并不推荐。
3、浏览器直接下载(适合Windows)
Hugging Face网页文件栏有下载图标,可以点击直接下载。
4、使用 IDM 等多线程下载工具(Windows)
在Windows系统上,使用多线程下载工具可以有效提高下载速度,特别是在面对大型模型文件时。Internet Download Manager(IDM)是一款经典的多线程下载工具,特别适用于Windows用户。
在电脑上安装IDM及其浏览器插件后,可以先获取下载链接,然后用IDM直接下载模型文件。