教你接入Midjourney,不用梯子也能玩

本文介绍了如何利用API进行文字到图片的生成,包括接入流程、参数设置和图像处理功能,如通过文字指令创建图像,使用回调URL管理生成过程,以及进行图像变换和放大的方法。此外,还提到了利用GPT4进行英文翻译以提高生成准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、效果

话不多说,先上最终出图效果, 我给的关键词是一只白色的猫

2、接入流程

API文档可以来这里查(可以白嫖100次midjourney出图和10次gpt4体验),我这里精简一下接入流程,方便大家快速接入

2.1、文字生图

首先是先通过文字生图,token可以去api文档中复制粘贴过来即可,请求如下:

const { data } = await axios({
    url: 'https://api.zhishuyun.com/midjourney/imagine?token=your token',
    method: 'POST',
    timeout: 60000,
    headers: {
        'content-type': 'application/json'
    },
    data: {
        prompt: 'a white cat',
        callback_url: `https://xxx.com/api/xxx`,
    },
});

prompt参数,必填,就是要输入的文字,注意必需是英文,中文是不准确的,你可以前置接入一个翻译工具把用户输入的文字变成英文,我的解决办法是前置接入了一个gpt 3.5,给的prompt是:

"messages": [
    { content: "请将我接下来的描述翻译成英文,不要夹带其他文字,如果准备好了,请回复", role: "user" },
    { content: "If you are ready, please reply.", role: "system" },
    { content: text, role: "user" },
]

callback_url参数,非必填,是一个回调地址就是当图片生成好后,会把生成结果发到这个地址,如果不填这个参数,那这个接口会一直pedding,指到图片生成结束,在把结果返给你,这个我建议是加上去不然对服务器压力很大,毕竟要pedding不少时间,我们看看他返回的结果,如下的一个json

 我们只要关注几个等会需要用到的字段,分别是image_id和actions,然后我们其中image_url就是生成的图片,我们查看一下效果,效果还是很不错的

会发现是4张图合成一张图,这其实是midjourney的一种节省资源的策略,之后我们可以对这张图做两种操作,分别是变换和放大,对接也十分简单

2.2、变换

选择一张图片,变换成同等风格的其他图片,比如我们想对左下角的图片做变换,我们就新增两个参数,分别是image_id表示刚才那张四宫格的图片image_id,另一个就是action,如果传upsample4代表要变换右下角那张图,其他操作上面都可以根据上一张图返回的actions字段来,如下

const { data } = await axios({
    url: 'https://api.zhishuyun.com/midjourney/imagine?token=your token',
    method: 'POST',
    timeout: 60000,
    headers: {
        'content-type': 'application/json'
    },
    data: {
        prompt: 'a white cat',
        // 要操作的图片id
        image_id: '1109284549273333971',
        // 表示变换右下角
        action: 'upsample4',
        callback_url: `https://xxx.com/api/xxx`,
    },
});

然后看下变换后的效果,会发现大致风格一致对一些细节做了调整

2.3、放大

选择一张图片,获取他的高清大图,主要用途是对单张图片做下载操作,传参跟上面的变换一样,只要把参数action改一下就行,比如我要放大左下角那张图,就把action改成传upsample3即可

action: "upsample3"

然后我们看下放大后的效果

如果我还想对这张做变换呢?聪明的你一定猜到了,那还是一样传这张放大图的image_id,同时action参数对应成变换的参数字符串即可,以上就是对接的内容了,我已经接入我的工具站了,分享给大家看看效果


<think>好的,用户让我推荐一个语音克隆模型,并提供本地部署和详细的使用程。我需要先确定用户的具体需求是什么。语音克隆通常指的是根据一段语音样本生成类似声音的合成语音,可能用于配音、虚拟助手等场景。用户提到本地部署,说明他们可能希望在自己的机器上运行,而不是依赖云服务,这可能出于隐私或成本的考虑。 首先,我得考虑哪些开源模型适合语音克隆。Tortoise-TTS是一个比较流行的选择,它效果不错但可能需要较高的计算资源。So-VITS-SVC也是最近比较热门的,适用于歌声转换,但也能做语音克隆。还有Coqui TTS,它比较轻量,适合本地部署。需要比较这几个的优缺点,然后推荐最合适的。 接下来,用户需要详细的部署和使用程。这意味着步骤要清晰,从安装依赖到实际使用都要涵盖。可能还需要考虑不同操作系统的兼容性,比如Windows、Linux或者MacOS。不过大多数深度学习项目对Linux支持更好,但用户可能用的是Windows,所以得注意说明。 然后,用户的技术水平如何?如果他们不熟悉Python或深度学习框架,程需要更详细,包括如何安装Python、Git、CUDA等依赖项。还要提到可能的常见错误,比如依赖版本冲突、缺少库文件等,并提供解决办法。 另外,版权和伦理问题也很重要。语音克隆可能涉及法律风险,特别是未经允许克隆他人声音。我需要提醒用户注意这些,避免滥用。 现在,我需要组织信息,推荐一个模型,比如Tortoise-TTS,因为它的效果比较好,社区支持也活跃。然后分步骤说明如何克隆仓库、安装依赖、下载预训练模型,最后给出使用示例。同时,提醒需要高性能GPU,否则合成速度会很慢。可能还要提到如果用户没有GPU,可以尝试其他轻量级模型,比如Coqui TTS。 最后,确保语言简洁明了,步骤清晰,用户能够按照程一步步操作。可能还需要补充参考资料和链接,方便用户进一步查阅。检查是否有遗漏的步骤,比如环境变量设置、权限问题等,确保程的全面性。</think>以下是一个本地部署的语音克隆模型推荐及详细程,基于当前开源社区中效果较好的 **So-VITS-SVC 4.1**(适用于语音/歌声克隆)和 **Tortoise-TTS**(纯语音克隆),程覆盖基础流程和注意事项: --- ### 一、推荐模型:**So-VITS-SVC 4.1** **特点**: - 支持少量语音数据(5分钟~1小时)快速训练音色模型。 - 提供高音质克隆和实时推理能力。 - 开源且社区活跃,适合中文场景。 --- ### 二、本地部署程(以 Windows 为例) #### 1. 环境准备 - **操作系统**:Windows 10/11, Linux(推荐Ubuntu) - **硬件要求**: - GPU:NVIDIA显卡(显存≥6GB,支持CUDA 11.7+) - CPU:建议多核处理器 - 内存:≥16GB - **依赖工具**: - Python 3.8+ - Git - CUDA 和 cuDNN(与PyTorch版本匹配) - FFmpeg(用于音频处理) #### 2. 安装步骤 **① 克隆代码仓库** ```bash git clone https://github.com/svc-develop-team/so-vits-svc.git cd so-vits-svc ``` **② 安装依赖** ```bash pip install -r requirements.txt # 安装GPU版本PyTorch(根据CUDA版本选择) pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu117 ``` **③ 下载预训练模型** - 下载官方提供的预训练模型(如 `G_0.pth` 和 `D_0.pth`),放置到 `logs/44k` 目录。 - 下载 `hubert_base.pt` 声码器模型,放置到 `pretrain` 目录。 (模型链接通常在项目Wiki或HuggingFace页面提供) #### 3. 训练自己的音色模型 **① 准备数据** - 录制或收集目标音色的语音(建议静音环境,单说话人,采样率44.1kHz,格式为wav)。 - 将音频文件放入 `dataset_raw/{speaker_name}` 目录。 **② 数据预处理** ```bash python resample.py # 重采样至44.1kHz python preprocess_flist_config.py # 生成配置文件 python preprocess_hubert_f0.py # 提取音高和特征 ``` **③ 启动训练** ```bash python train.py -c configs/config.json -m 44k ``` - 训练时间:6GB显存约需2~4小时(5分钟数据)。 #### 4. 语音克隆推理 ```bash python inference_main.py -m "logs/44k/G_xxx.pth" -c "configs/config.json" -n "input.wav" -t 0 # 调整t参数控制音高 ``` - 输入音频 `input.wav` 会被转换为目标音色,输出到 `results` 目录。 --- ### 三、备选方案:Tortoise-TTS **特点**: - 无需训练,直接通过参考音频克隆音色。 - 支持多语言,但生成速度较慢。 **部署步骤**: 1. 安装库: ```bash pip install tortoise-tts ``` 2. 代码示例: ```python from tortoise.api import TextToSpeech tts = TextToSpeech() voice_samples = [tts.load_voice("reference_audio.wav")] # 加载参考音频 generated_audio = tts.tts_with_preset("要合成的文本", voice_samples=voice_samples, preset="fast") generated_audio.save("output.wav") ``` --- ### 四、注意事项 1. **版权与伦理**: - 禁止未经授权克隆他人声音,遵守当地法律法规。 2. **硬件不足**: - 若无GPU,可使用Google Colab的免费GPU资源(需梯子)。 3. **音质优化**: - 增加训练数据时长(建议1小时以上)可提升克隆效果。 - 使用降噪工具预处理原始音频(如Audacity)。 --- ### 五、参考资料 - So-VITS-SVC GitHub:https://github.com/svc-develop-team/so-vits-svc - Tortoise-TTS GitHub:https://github.com/neonbjb/tortoise-tts - 中文社区程:B站搜索“So-VITS-SVC 4.1程” 如果需要更简化的方案(如一键安装包),可关注开源社区发布的整合包(如“Svita”工具箱)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hhzzcc_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值