一款基于音频的AI视频生成模型Humo评测 - 完美岛英语完美岛AI wmd.cn | 英语学习导航，ai导航，ai技术分享，英语资源分享，英语考试复习材料下载

一款基于音频的AI视频生成模型Humo评测

发布者：admin发表于：99天前阅读数：120评论:0

up在寻找一款数字人生成模型，无意间发现乐这款Humo，它是一款AI视频生成模型，其特色是基于音频、图像和文本生成视频，保持角色嘴唇同步。类似数字人功能，并且支持家用级显卡。这里先劝退cpu核显和A卡用户，还有小显存用户，别走！可以先收藏着，然后揣着钱去找老黄。

首先介绍下测试准备

硬件准备：本人用的是RTX 4060TI 显卡16GB显存，40G ddr4内存，3700cpu，大显存还是非常有必要的，可以一次生成更加长或高分辨率的视频

软件准备：window10,window11, 下载对应的comfy，对于mac系统up没有条件使用。

ComfyUI便携版下载地址

便携版(Windows) - ComfyUI

第一步：从comfy的官方网址下载comfy，我推荐下载便携版，速度比较快，然后解压到本地，路径名称最好不要包含中文

第二步：点击run_nvidia_gpu.bat 运行comfy，

第三步：点击左侧模板，在弹出窗口选择视频，然后选择humo模型，第一次点击会要求下载依赖的模型，如图所示

text_encoders / umt5_xxl_fp8_e4m3fn_scaled.safetensorsvae / wan_2.1_vae.safetensorsloras / lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensorsdiffusion_models / humo_17B_fp8_e4m3fn.safetensorsaudio_encoders / whisper_large_v3_fp16.safetensors

我们复制地址，然后推荐用迅雷下载，下载完成后保存在comfy对应的模型目录中：ComfyUI_windows_portable\ComfyUI\models

第四步：正式开启humo模板进行视频生成，最左侧显示了模型的存放路径，step 1面板已经配置好所用到的模型，step 2 面板选择一张图片上传，我选择了一张9比16的人物照片，step 3面板选择上传一个语音文件，step 4 的绿色框中，填写提示词，step5 指定输出视频的尺寸和帧数，考虑到我的显卡性能，我选择540 乘940 ，75帧也就是3秒，最后点击运行。

第五步：接下去就是耐心的等待，可以看到我的显存和内存占用都已经涨上来了，难怪内存条价格涨个不停。3秒的视频大概花费了458秒时间，看下最终的效果

各位老神仙，觉得此妖怪斗得过俺老孙嘛，还不点赞收藏？

最后总结：我第二次测试生成5秒视频花费了 14分钟，看下效果，由于视频生成的随机性，我添加了提示词 “视频人物与提供的照片一致” 来保证视频与照片一致。

总得来说humo是款不错的数字人生成模型，前提是你得有块大显存的高阶显卡。好啦！觉得有用请帮忙点赞收藏，有问题可发评论区或私信。