一款基于音频的AI视频生成模型Humo评测
发布者:admin发表于:2天前阅读数:16评论:0
关键词:模型

up在寻找一款数字人生成模型,无意间发现乐这款Humo,它是一款AI视频生成模型,其特色是基于音频、图像和文本生成视频,保持角色嘴唇同步。类似数字人功能,并且支持家用级显卡。这里先劝退cpu核显和A卡用户,还有小显存用户,别走!可以先收藏着,然后揣着钱去找老黄。

首先介绍下测试准备

硬件准备:本人用的是RTX 4060TI 显卡16GB显存,40G ddr4内存,3700cpu,大显存还是非常有必要的,可以一次生成更加长或高分辨率的视频

软件准备:window10,window11, 下载对应的comfy,对于mac系统up没有条件使用。

ComfyUI便携版下载地址

便携版(Windows) - ComfyUI

第一步:从comfy的官方网址下载comfy,我推荐下载便携版,速度比较快,然后解压到本地,路径名称最好不要包含中文

第二步:点击run_nvidia_gpu.bat 运行comfy,

第三步:点击左侧模板,在弹出窗口选择视频,然后选择humo模型,第一次点击会要求下载依赖的模型,如图所示

text_encoders / umt5_xxl_fp8_e4m3fn_scaled.safetensorsvae / wan_2.1_vae.safetensorsloras / lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensorsdiffusion_models / humo_17B_fp8_e4m3fn.safetensorsaudio_encoders / whisper_large_v3_fp16.safetensors

我们复制地址,然后推荐用迅雷下载,下载完成后保存在comfy对应的模型目录中:ComfyUI_windows_portable\ComfyUI\models

第四步:正式开启humo模板进行视频生成,最左侧显示了模型的存放路径,step 1面板已经配置好所用到的模型,step 2 面板选择一张图片上传,我选择了一张9比16的人物照片,step 3面板 选择上传 一个语音文件,step 4 的绿色框中,填写提示词,step5 指定输出视频的尺寸和帧数,考虑到我的显卡性能,我选择540 乘940 ,75帧也就是3秒,最后点击运行。

第五步:接下去就是耐心的等待,可以看到我的显存和内存占用都已经涨上来了,难怪内存条价格涨个不停。3秒的视频大概花费了458秒时间,看下最终的效果

各位老神仙,觉得此妖怪斗得过俺老孙嘛,还不点赞收藏?

最后总结:我第二次测试生成5秒视频花费了 14分钟,看下效果,由于视频生成的随机性,我添加了提示词 “视频人物与提供的照片一致” 来保证视频与照片一致。

总得来说humo是款不错的数字人生成模型,前提是你得有块大显存的高阶显卡。好啦! 觉得有用请帮忙点赞收藏,有问题可发评论区或私信。