ComfyUI-Prompt-MZ 插件完全教程
1. 插件简介
插件地址: https://github.com/MinusZoneAI/ComfyUI-Prompt-MZ
这个插件是一个专门用来帮你写更好提示词的超级助手!它就像一个"AI写作老师",能把你简单的想法变成详细生动的描述,还能看图说话,告诉你图片里有什么内容。
能给我们带来什么效果?
- 把简单的提示词变成详细丰富的描述,比如把"一只猫"变成"一只毛茸茸的橘色小猫,坐在阳光洒进的窗台上,眼睛像宝石一样闪闪发光"
- 看图说话功能,上传一张图片就能自动生成详细的文字描述
- 支持多种AI模型,包括本地模型和在线服务
- 可以批量处理图片,一次性给很多图片生成描述
- 支持中英文翻译和各种风格预设
简单来说,这就是一个让你的AI画图更听话、更精准的"提示词魔法师"!
2. 如何安装
方法一:通过 ComfyUI Manager 安装
- 打开 ComfyUI Manager
- 搜索 "Prompt-MZ"
- 点击安装即可
方法二:手动安装
- 进入你的 ComfyUI 安装目录下的
custom_nodes文件夹 - 打开命令行,输入:
git clone https://github.com/MinusZoneAI/ComfyUI-Prompt-MZ.git - 重启 ComfyUI
注意事项:
- 插件会自动下载需要的AI模型文件
- 首次使用可能需要较长时间下载模型
- 确保网络连接稳定
3. 节点详细解析
3.1 MZ_LLamaCPPCLIPTextEncode 节点 - 通用提示词美化器
这个节点就像一个"万能写作助手",它能把你简单的想法变成详细生动的提示词,让AI更好地理解你想要什么。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| style_presets | style_presets | 列表选择 | high_quality | 选择图片的整体风格 | 预设的风格模板 | 选择"photography"拍照风格或"illustration"插画风格 |
| text | text | 字符串 | 必填 | 你想要的图片内容描述 | 输入的原始提示词文本 | 写"一只猫在花园里"这样的简单描述 |
| keep_device | keep_device | 布尔值 | False | 是否保持AI模型在显卡上 | 是否保持模型在GPU内存中 | True可以加快连续使用速度但占用显存 |
| seed | seed | 整数 | 0 | 随机种子 | 控制生成结果的随机性 | 相同种子会生成相似的结果 |
| clip | clip | CLIP类型 | 可选 | 文字理解组件 | CLIP文本编码器 | 连接你的CLIP模型来生成最终的文字编码 |
| llama_cpp_options | llama_cpp_options | LLamaCPPOptions类型 | 可选 | AI模型的详细设置 | LLaMA模型的运行参数 | 连接LLamaCPPOptions节点来调整AI行为 |
| customize_instruct | customize_instruct | CustomizeInstruct类型 | 可选 | 自定义指令 | 自定义的系统提示和指令 | 连接CustomizeInstruct节点来个性化AI的回答方式 |
| llama_cpp_model | llama_cpp_model | LLamaCPPModelConfig类型 | 可选 | 选择使用的AI模型 | LLaMA模型配置 | 连接模型配置节点来选择特定的AI模型 |
3.2 MZ_OllamaModelConfig_ManualSelect 节点 - Ollama模型选择器
这个节点就像一个"本地AI模型管理员",帮你从电脑上已安装的Ollama模型中选择一个来使用。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| ollama | ollama | 列表选择 | 必选 | 选择你电脑上的Ollama模型 | 本地Ollama模型文件路径 | 从下拉列表中选择已安装的模型 |
| chat_format | chat_format | 列表选择 | auto | 选择对话格式 | 模型的对话格式类型 | auto让系统自动选择最合适的格式 |
3.3 MZ_LLamaCPPModelConfig_ManualSelect 节点 - 手动模型选择器
这个节点就像一个"模型文件夹管理器",让你从ComfyUI的模型文件夹中选择想要使用的AI模型。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| llama_cpp_model | llama_cpp_model | 列表选择 | 必选 | 选择你下载的AI模型文件 | GGUF格式的模型文件名 | 从列表中选择已下载的.gguf模型文件 |
| chat_format | chat_format | 列表选择 | auto | 选择对话格式 | 模型的对话格式类型 | auto让系统自动选择,也可以手动选择llama-3等格式 |
3.4 MZ_LLamaCPPModelConfig_DownloaderSelect 节点 - 自动下载模型选择器
这个节点就像一个"在线模型商店",你选择想要的模型,它会自动帮你下载。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| model_name | model_name | 列表选择 | 必选 | 选择要下载的模型名称 | 预设的模型名称列表 | 选择"Meta-Llama-3-8B-Instruct"等热门模型 |
| chat_format | chat_format | 列表选择 | auto | 选择对话格式 | 模型的对话格式类型 | auto让系统自动匹配模型的最佳格式 |
3.5 MZ_LLamaCPPOptions 节点 - AI模型参数调节器
这个节点就像一个"AI行为调节面板",让你精细调整AI模型的各种行为参数。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| n_ctx | n_ctx | 整数 | 2048 | AI能记住多长的对话 | 上下文窗口大小 | 数值越大AI记忆越长,但消耗更多资源 |
| n_batch | n_batch | 整数 | 512 | 一次处理多少个词 | 批处理大小 | 影响处理速度,根据显卡性能调整 |
| n_threads | n_threads | 整数 | 4 | 使用多少个CPU线程 | CPU线程数 | 根据你的CPU核心数调整 |
| temperature | temperature | 浮点数 | 0.7 | AI回答的创造性程度 | 生成温度参数 | 0.1很保守,0.9很有创意,0.7平衡 |
| top_p | top_p | 浮点数 | 0.9 | 控制词汇选择的多样性 | 核采样参数 | 0.9是好的平衡点 |
| top_k | top_k | 整数 | 40 | 限制候选词汇数量 | Top-K采样参数 | 40是常用值,越小越保守 |
| repeat_penalty | repeat_penalty | 浮点数 | 1.1 | 避免重复说话的程度 | 重复惩罚系数 | 1.1轻微避免重复,1.3强烈避免 |
3.6 MZ_CustomizeInstruct 节点 - 自定义指令编辑器
这个节点就像一个"AI训练师",让你自定义AI的行为方式和回答风格。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| system | system | 字符串 | 默认长提示词 | 告诉AI它的身份和任务 | 系统提示词 | 写"你是一个专业的摄影师,擅长描述画面细节" |
| instruct | instruct | 字符串 | 空 | 具体的指令内容 | 用户指令模板 | 写"请把这个想法扩展成详细的画面描述:%text%" |
3.7 MZ_ImageCaptionerConfig 节点 - 批量图片处理配置器
这个节点就像一个"批量工作计划表",帮你设置如何批量处理很多图片。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| directory | directory | 字符串 | 必填 | 图片文件夹的路径 | 要处理的图片目录路径 | 填写"C:\Pictures\MyPhotos"这样的文件夹路径 |
| caption_suffix | caption_suffix | 字符串 | .caption | 描述文件的后缀名 | 生成的描述文件扩展名 | .txt或.caption,决定保存的文件类型 |
| force_update | force_update | 布尔值 | False | 是否覆盖已有的描述文件 | 是否强制重新生成 | True会重新处理所有图片,False跳过已处理的 |
| retry_keyword | retry_keyword | 字符串 | not,",error | 遇到这些词就重试 | 触发重试的关键词列表 | 当AI回答包含这些词时会重新尝试 |
| prompt_fixed_beginning | prompt_fixed_beginning | 字符串 | 空 | 每个描述前面加的固定文字 | 描述文本的固定前缀 | 可以加"高质量照片:"这样的前缀 |
3.8 MZ_OpenAIApiCLIPTextEncode 节点 - OpenAI接口提示词美化器
这个节点就像一个"云端写作助手",使用OpenAI的GPT模型来美化你的提示词。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| base_url | base_url | 字符串 | 空 | OpenAI服务器地址 | API服务的基础URL | 填写"https://api.openai.com/v1"或其他兼容服务 |
| api_key | api_key | 字符串 | 必填 | 你的API密钥 | OpenAI API访问密钥 | 从OpenAI官网获取的密钥,会自动保存 |
| model_name | model_name | 字符串 | gpt-3.5-turbo-1106 | 使用的GPT模型名称 | 具体的模型版本 | gpt-3.5-turbo便宜,gpt-4效果更好 |
| style_presets | style_presets | 列表选择 | high_quality | 选择图片的整体风格 | 预设的风格模板 | 和其他节点一样的风格选择 |
| text | text | 字符串 | 必填 | 你想要的图片内容描述 | 输入的原始提示词文本 | 写你想要AI帮你美化的简单描述 |
| clip | clip | CLIP类型 | 可选 | 文字理解组件 | CLIP文本编码器 | 连接CLIP模型生成最终编码 |
| customize_instruct | customize_instruct | CustomizeInstruct类型 | 可选 | 自定义指令 | 自定义的系统提示和指令 | 可以自定义GPT的回答方式 |
3.9 MZ_ImageInterrogatorCLIPTextEncode 节点 - 图片反推描述器
这个节点就像一个"AI看图说话专家",能看着图片告诉你里面有什么内容。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| resolution | resolution | 整数 | 512 | 处理图片的分辨率 | 图像处理的目标分辨率 | 512适合大多数情况,更高分辨率更精确但更慢 |
| post_processing | post_processing | 布尔值 | True | 是否对结果进行后处理 | 是否对生成的描述进行优化 | True会让描述更适合做提示词 |
| keep_device | keep_device | 布尔值 | False | 是否保持AI模型在显卡上 | 是否保持模型在GPU内存中 | True加快连续处理但占用显存 |
| seed | seed | 整数 | 0 | 随机种子 | 控制生成结果的随机性 | 相同种子会生成相似的描述 |
| image_interrogator_model | image_interrogator_model | ImageInterrogatorModelConfig类型 | 可选 | 图片识别模型配置 | 视觉语言模型配置 | 连接模型配置节点选择识别模型 |
| image | image | IMAGE类型 | 可选 | 要分析的图片 | 输入的图像数据 | 连接图片加载节点或其他图片源 |
| clip | clip | CLIP类型 | 可选 | 文字理解组件 | CLIP文本编码器 | 连接CLIP模型生成最终编码 |
| llama_cpp_options | llama_cpp_options | LLamaCPPOptions类型 | 可选 | AI模型参数设置 | LLaMA模型运行参数 | 调整AI的行为参数 |
| customize_instruct | customize_instruct | CustomizeInstruct类型 | 可选 | 自定义指令 | 自定义的分析指令 | 可以让AI按特定方式描述图片 |
| captioner_config | captioner_config | ImageCaptionerConfig类型 | 可选 | 批量处理配置 | 批量图片处理配置 | 连接批量配置节点进行批量处理 |
3.10 MZ_ImageInterrogatorModelConfig_ManualSelect 节点 - 图片识别模型手动选择器
这个节点就像一个"视觉AI模型管理器",让你选择用哪个模型来看图说话。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| llama_cpp_model | llama_cpp_model | 列表选择 | 必选 | 选择语言理解模型 | 文本生成模型文件 | 选择LLaVA等视觉语言模型 |
| mmproj_model | mmproj_model | 列表选择 | auto | 选择图片理解模型 | 多模态投影模型文件 | auto自动匹配,或手动选择对应的投影模型 |
| chat_format | chat_format | 列表选择 | auto | 选择对话格式 | 模型的对话格式类型 | auto让系统自动选择最佳格式 |
3.11 MZ_ImageInterrogatorModelConfig_DownloaderSelect 节点 - 图片识别模型自动下载选择器
这个节点就像一个"视觉AI模型在线商店",帮你自动下载需要的看图说话模型。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| model_name | model_name | 列表选择 | 必选 | 选择要下载的主模型 | 预设的视觉语言模型名称 | 选择LLaVA-1.6等热门视觉模型 |
| mmproj_model_name | mmproj_model_name | 列表选择 | auto | 选择配套的投影模型 | 多模态投影模型名称 | auto自动匹配,或选择特定投影模型 |
| chat_format | chat_format | 列表选择 | auto | 选择对话格式 | 模型的对话格式类型 | auto让系统自动匹配最佳格式 |
3.12 MZ_Florence2CLIPTextEncode 节点 - Florence-2图片描述器
这个节点就像一个"专业图片解说员",使用微软的Florence-2模型来生成详细的图片描述。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| model_name | model_name | 列表选择 | Florence-2-large-ft | 选择Florence模型版本 | Florence-2模型的具体版本 | large-ft是微调版本,效果更好 |
| resolution | resolution | 整数 | 512 | 处理图片的分辨率 | 图像处理的目标分辨率 | 512平衡速度和质量 |
| keep_device | keep_device | 布尔值 | False | 是否保持模型在显卡上 | 是否保持模型在GPU内存中 | True加快连续使用但占用显存 |
| image | image | IMAGE类型 | 可选 | 要分析的图片 | 输入的图像数据 | 连接图片加载节点 |
| clip | clip | CLIP类型 | 可选 | 文字理解组件 | CLIP文本编码器 | 连接CLIP模型生成编码 |
3.13 MZ_Florence2Captioner 节点 - Florence-2批量图片描述器
这个节点就像一个"批量图片解说工厂",能一次性处理很多图片并生成描述文件。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| model_name | model_name | 列表选择 | Florence-2-large-ft | 选择Florence模型版本 | Florence-2模型的具体版本 | large-ft微调版本效果更好 |
| directory | directory | 字符串 | 必填 | 图片文件夹路径 | 要处理的图片目录 | 填写包含图片的文件夹路径 |
| resolution | resolution | 整数 | 512 | 处理图片的分辨率 | 图像处理分辨率 | 512适合大多数情况 |
| batch_size | batch_size | 整数 | 1 | 一次处理多少张图片 | 批处理大小 | 根据显存大小调整,1最安全 |
| caption_suffix | caption_suffix | 字符串 | .caption | 描述文件后缀名 | 生成文件的扩展名 | .txt或.caption |
| force_update | force_update | 布尔值 | False | 是否覆盖已有文件 | 是否强制重新生成 | True重新处理所有图片 |
| prompt_fixed_beginning | prompt_fixed_beginning | 字符串 | 空 | 描述前的固定文字 | 描述文本的固定前缀 | 可以加固定的风格描述 |
3.14 MZ_PaliGemmaCLIPTextEncode 节点 - PaliGemma图片描述器
这个节点就像一个"谷歌AI图片解说员",使用谷歌的PaliGemma模型来分析图片内容。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| model_name | model_name | 列表选择 | paligemma-sd3-long-captioner-v2 | 选择PaliGemma模型版本 | PaliGemma模型的具体版本 | v2是最新版本,效果更好 |
| resolution | resolution | 整数 | 512 | 处理图片的分辨率 | 图像处理分辨率 | 512平衡速度和质量 |
| keep_device | keep_device | 布尔值 | False | 是否保持模型在显卡上 | 是否保持模型在GPU内存中 | True加快连续使用 |
| image | image | IMAGE类型 | 可选 | 要分析的图片 | 输入的图像数据 | 连接图片源 |
| clip | clip | CLIP类型 | 可选 | 文字理解组件 | CLIP文本编码器 | 连接CLIP模型 |
3.15 MZ_PaliGemmaCaptioner 节点 - PaliGemma批量图片描述器
这个节点就像一个"谷歌AI批量解说工厂",能批量处理图片并生成描述。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| model_name | model_name | 列表选择 | paligemma-sd3-long-captioner-v2 | 选择PaliGemma模型版本 | PaliGemma模型版本 | v2是最新改进版本 |
| directory | directory | 字符串 | 必填 | 图片文件夹路径 | 要处理的图片目录 | 填写图片文件夹完整路径 |
| resolution | resolution | 整数 | 512 | 处理图片分辨率 | 图像处理分辨率 | 512适合大多数情况 |
| caption_suffix | caption_suffix | 字符串 | .caption | 描述文件后缀 | 生成文件扩展名 | .txt或.caption |
| force_update | force_update | 布尔值 | False | 是否覆盖已有文件 | 是否强制重新生成 | True重新处理所有 |
| prompt_fixed_beginning | prompt_fixed_beginning | 字符串 | 空 | 描述前固定文字 | 描述文本固定前缀 | 可以加风格前缀 |
3.16 MZ_LLama3CLIPTextEncode 节点 - LLama3提示词美化器(已弃用)
这个节点是早期版本的LLama3美化器,现在建议使用通用版本。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| llama_cpp_model | llama_cpp_model | 列表选择 | 必选 | 选择LLama3模型 | LLama3模型文件选择 | 选择已下载的LLama3模型 |
| download_source | download_source | 列表选择 | none | 选择下载源 | 模型下载来源 | none不下载,其他选项会自动下载 |
| prompt_version | prompt_version | 列表选择 | v1 | 提示词版本 | 提示词模板版本 | v1是当前版本 |
| style_presets | style_presets | 列表选择 | high_quality | 风格预设 | 预设风格模板 | 选择合适的图片风格 |
| text | text | 字符串 | 必填 | 输入文本 | 原始提示词 | 写简单的图片描述 |
| keep_device | keep_device | 布尔值 | False | 保持设备 | 是否保持GPU | False释放显存 |
| seed | seed | 整数 | 0 | 随机种子 | 生成随机种子 | 控制结果一致性 |
| clip | clip | CLIP类型 | 可选 | CLIP模型 | 文本编码器 | 连接CLIP模型 |
| llama_cpp_options | llama_cpp_options | LLamaCPPOptions类型 | 可选 | 模型选项 | LLaMA运行参数 | 调整模型行为 |
| customize_instruct | customize_instruct | CustomizeInstruct类型 | 可选 | 自定义指令 | 自定义提示指令 | 个性化AI行为 |
3.17 MZ_Phi3CLIPTextEncode 节点 - Phi3提示词美化器(已弃用)
这个节点是早期版本的Phi3美化器,功能类似LLama3版本。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| llama_cpp_model | llama_cpp_model | 列表选择 | 必选 | 选择Phi3模型 | Phi3模型文件选择 | 选择已下载的Phi3模型 |
| download_source | download_source | 列表选择 | none | 选择下载源 | 模型下载来源 | none不下载,其他会自动下载 |
| prompt_version | prompt_version | 列表选择 | v1 | 提示词版本 | 提示词模板版本 | v1是当前版本 |
| style_presets | style_presets | 列表选择 | high_quality | 风格预设 | 预设风格模板 | 选择图片风格类型 |
| text | text | 字符串 | 必填 | 输入文本 | 原始提示词 | 写你想要的图片描述 |
| keep_device | keep_device | 布尔值 | False | 保持设备 | 是否保持GPU | False节省显存 |
| seed | seed | 整数 | 0 | 随机种子 | 生成随机种子 | 控制结果随机性 |
| clip | clip | CLIP类型 | 可选 | CLIP模型 | 文本编码器 | 连接CLIP进行编码 |
| llama_cpp_options | llama_cpp_options | LLamaCPPOptions类型 | 可选 | 模型选项 | LLaMA运行参数 | 调整AI模型参数 |
| customize_instruct | customize_instruct | CustomizeInstruct类型 | 可选 | 自定义指令 | 自定义提示指令 | 个性化指令设置 |
3.18 MZ_LLavaImageInterrogator 节点 - LLava图片反推器(已弃用)
这个节点是早期版本的LLava图片分析器,现在建议使用通用版本。
参数详解
| 参数名 (UI显示) | 参数名 (代码里) | 参数值 | 建议值 | 通俗解释 (能干嘛的) | 专业解释 | 怎么用/举个例子 |
|---|---|---|---|---|---|---|
| llama_cpp_model | llama_cpp_model | 列表选择 | 必选 | 选择LLava主模型 | LLava语言模型文件 | 选择LLava视觉语言模型 |
| mmproj_model | mmproj_model | 列表选择 | 必选 | 选择投影模型 | 多模态投影模型 | 选择对应的投影模型文件 |
| download_source | download_source | 列表选择 | none | 下载源选择 | 模型下载来源 | none不下载,其他自动下载 |
| resolution | resolution | 整数 | 512 | 图片处理分辨率 | 图像处理分辨率 | 512适合大多数情况 |
| sd_format | sd_format | 列表选择 | none | SD格式化选项 | Stable Diffusion格式化 | v1会格式化为SD风格描述 |
| keep_device | keep_device | 布尔值 | False | 保持设备 | 是否保持GPU | False释放显存 |
| seed | seed | 整数 | 0 | 随机种子 | 生成随机种子 | 控制结果一致性 |
| image | image | IMAGE类型 | 可选 | 输入图片 | 要分析的图像 | 连接图片加载节点 |
| clip | clip | CLIP类型 | 可选 | CLIP模型 | 文本编码器 | 连接CLIP模型 |
| llama_cpp_options | llama_cpp_options | LLamaCPPOptions类型 | 可选 | 模型选项 | LLaMA运行参数 | 调整模型行为 |
| customize_instruct | customize_instruct | CustomizeInstruct类型 | 可选 | 自定义指令 | 自定义分析指令 | 个性化分析方式 |
| captioner_config | captioner_config | ImageCaptionerConfig类型 | 可选 | 批量配置 | 批量处理配置 | 批量处理图片设置 |
4. 使用技巧和建议
4.1 基础使用流程
提示词美化流程:
- 选择合适的模型配置节点(手动选择或自动下载)
- 连接到主要的文本编码节点
- 设置风格预设和输入简单描述
- 连接CLIP模型生成最终编码
图片反推流程:
- 准备图片输入节点
- 选择图片识别模型配置
- 连接到图片反推节点
- 设置分辨率和后处理选项
4.2 模型选择建议
提示词美化推荐:
- 新手:使用自动下载选择器,选择LLama3-8B
- 进阶:手动选择更大的模型如LLama3-70B
- 专业:使用OpenAI API获得最佳效果
图片反推推荐:
- 通用场景:Florence-2-large-ft
- 详细描述:PaliGemma-v2
- 批量处理:使用对应的Captioner节点
4.3 参数调优技巧
温度参数调节:
- 0.1-0.3:保守,适合技术性描述
- 0.5-0.7:平衡,适合大多数情况
- 0.8-1.0:创意,适合艺术性描述
风格预设选择:
- none:不添加质量标签
- high_quality:添加高质量标签
- photography:摄影风格
- illustration:插画风格
5. 常见问题解答
Q:为什么第一次使用很慢?
A:插件需要下载AI模型文件,通常几GB大小。下载完成后就会很快了。
Q:显存不够怎么办?
A:设置keep_device为False,使用完立即释放显存。或者选择更小的模型。
Q:生成的描述不满意怎么办?
A:可以调整temperature参数,或者使用CustomizeInstruct节点自定义指令。
Q:批量处理图片时出错怎么办?
A:检查文件夹路径是否正确,确保图片格式支持(jpg、png、webp)。
Q:OpenAI API怎么设置?
A:需要从OpenAI官网获取API密钥,填入api_key参数,插件会自动保存。
Q:哪个图片识别模型效果最好?
A:Florence-2-large-ft适合通用场景,PaliGemma-v2适合详细描述,根据需求选择。
6. 高级技巧
6.1 自定义指令编写
系统提示词示例:
你是一个专业的AI画图提示词专家,擅长把简单的想法扩展成详细生动的画面描述。
你的回答应该包含:颜色、光线、构图、风格、情感等元素。
指令模板示例:
请把这个简单的想法:"%text%" 扩展成一个详细的画面描述,包含具体的颜色、光线效果、构图方式和艺术风格。
6.2 批量处理优化
提高效率的方法:
- 使用SSD硬盘存储图片
- 适当增加batch_size(根据显存)
- 设置合理的retry_keyword避免无效重试
- 使用force_update=False跳过已处理的图片
6.3 模型组合使用
推荐组合:
- 粗处理:Florence-2快速生成基础描述
- 精处理:LLama3美化和扩展描述
- 最终优化:OpenAI API进行最后润色
7. 前端功能说明
插件还包含一个前端JavaScript组件(prompt_mz.js),提供以下功能:
实时显示功能:
- 在节点上直接显示生成的提示词
- 支持多行文本显示
- 自动更新显示内容
消息提示功能:
- WebSocket连接显示处理状态
- 成功提示和错误警告
- 批量处理进度提示
8. 总结
ComfyUI-Prompt-MZ是一个功能强大的提示词处理插件,它就像给你配备了一个AI写作团队:
核心优势:
- 多模型支持:从本地LLama到云端GPT,满足不同需求
- 图文并茂:既能美化文字,又能看图说话
- 批量处理:一次性处理大量图片,提高效率
- 高度自定义:可以完全按照你的要求调整AI行为
- 实时反馈:直接在节点上看到生成结果
使用建议:
- 新手从自动下载模型开始,逐步尝试不同功能
- 根据显存大小选择合适的模型和参数
- 善用自定义指令功能,让AI更符合你的需求
- 批量处理时注意设置合理的重试机制
这个插件真正实现了"让AI更懂你"的目标,无论是写提示词还是分析图片,都能给你专业级的帮助!