云端测试:趣味信息图生成的意外表现
本次测试首先尝试让模型生成一张“由二头肌弯举驱动电脑”的趣味信息图。尽管提示词较为简单且带有荒诞色彩,模型不仅生成了概念图,还深入设计了设备细节,如电动机和可持续能源矩阵。生成的图像展示了74%的能量捕获效率,并标注了“未来集成”、“可穿戴微电网”等前瞻性概念。值得注意的是,模型在排版和文字生成上表现稳健,除“sustain cron emission”一处拼写错误外,其余文字清晰无误,甚至自动补充了环境影响和自主计算等数据板块,显示出超越单纯图像生成的结构化设计能力。
“I do have to say this... We unfortunately did lose with sustain cron emission. Oh, yeah. Okay. But everything else there aside from that was actually not bad.”
云端进阶:严肃题材与长提示词的适配性
为了验证模型在严肃题材下的表现,测试者参考官方画廊中多段落长提示词的格式,翻译并输入了一段关于“统一内存Mac与Nvidia独立GPU之争”的漫画风格提示词。该提示词篇幅显著长于之前的趣味测试,但模型依然成功生成了高质量的漫画风格图像。画面中包含了“Desktop War”、“Unified memory is clean, quiet, and efficient”等文字元素,并清晰描绘了统一内存的灵活性与独立GPU的算力之间的对比。测试者对模型在复杂长提示词下仍能保持风格一致性和细节完整性表示惊讶,认为其文本渲染能力足以支撑复杂的叙事性图像生成。
本地部署:DGX Spark上的速度与基础质量
随后,测试转向在Nvidia DGX Spark硬件上通过Comfy UI进行本地部署测试。由于DGX Spark存在内存带宽限制,测试首先使用8步LoRA进行快速文本转图像测试,以评估其在资源受限环境下的推理速度。模型已预加载至内存,生成速度较快。生成的图像分辨率较高,尽管部分文字并非标准单词,但单个字母的绘制非常清晰,数字序列(1, 2, 3...)的图形化呈现也保持了良好的可读性。这一测试主要旨在证明即使在带宽受限的设备上,SenseNova U1也能以合理速度生成具有较高视觉质量的图像,为后续更复杂的本地生成奠定基础。
本地测试:复杂图形生成的初步观察
在确认基础速度后,测试者尝试在DGX Spark上运行更复杂的提示词,以观察模型在本地环境下处理图形化描述的能力。虽然具体生成的复杂图像细节未在片段中完全展开,但重点在于验证8步LoRA配置下的生成效率与视觉保真度的平衡。测试者指出,即使在本地硬件上,模型也能在较短时间内输出包含清晰图形元素和数字标识的图像,这表明SenseNova U1在边缘计算设备上具备一定的实用潜力,尤其是在需要快速迭代或资源敏感的场景中。
本地 Spark 与云端 A100 的生成质量对比
视频首先展示了 SenseNova U1 模型在本地 Spark 设备上运行 8 步生成的图像效果。虽然模型准确遵循了“愤怒的人看着手机”这一提示词,但作者指出其视觉风格存在明显缺陷,皮肤质感被评价为类似 2007-2008 年显卡的外观,带有那种时代特有的图形叠加感。为了验证模型在更强算力下的表现,作者转而使用 Thundercompute 提供的 A100 80GB 显存资源进行对比测试。这次测试将生成步数从 8 步提升至 50 步,旨在观察增加迭代次数是否能显著提升图像质量。由于需要重新加载模型,A100 上的初始加载时间较长,且进度条移动速度明显慢于本地测试,计算量约为本地 8 步测试的 6 倍以上。
"this is likely going to take a little longer at least to begin because this will need to load the model in fresh, but it will produce hypothetically a much higher quality generated result being that as opposed to eight steps, this will do 50."
50 步生成的实际效果评估
当 A100 上的 50 步生成完成后,作者对结果进行了细致评估。令人意外的是,增加步数并未带来质的飞跃。虽然图像在图形视觉保真度上可能略有提升,但在核心的文本生成准确性上,50 步结果与 8 步结果几乎没有区别。作者认为,这反而凸显了模型在 8 步快速生成时的高效性与 impressive 的表现力,即无需大量迭代即可达到可用的高质量文本和图像输出。这一发现表明,对于该模型而言,过长的生成步骤可能边际效益递减,特别是在文本主导或图文结合的场景中,快速收敛的能力显得尤为重要。
Infographic 工作流与高分辨率测试
接下来,作者测试了 SenseNova U1 的信息图表(Infographic)工作流。该测试在本地 Spark 上以 8 步运行,由于模型已加载,速度较快。生成了一张 2720x1536 分辨率(16:9)的高清图片。作者仔细检查后发现,所有文本内容均准确无误,布局合理,没有明显的错误。为了进一步测试模型在复杂商业场景下的能力,作者修改提示词,要求生成一个名为“Rage Compute”的 VC 路演幻灯片,概念为“人类情感驱动 GPU”。生成的图像呈现出类似 PowerPoint 的风格,包含大量细节文本,如“Rage to flops conversion engine”、“Raw human rage input”、“Angry Reddit threads”等。尽管部分术语如“Meme derived boost clock”略显奇特,但整体文本密度和信息完整性极高,展示了模型在处理复杂多模态排版时的强大能力。
"All the text here was spot on. So this perhaps would have been better for the rage powered GPU."
Interleaved Storyboard 多模态推理演示
视频最后展示了 SenseNova U1 最具特色的功能:Interleaved Storyboard(交错式故事板)。这一功能允许模型原生地交替生成文本和图像,通过两种模态的交互来完成最终输出。作者使用 Thundercompute A100 运行此功能,提示词要求生成关于“Local DGX Spark”的内容。生成过程较长,因为模型需要同时处理文本推理和图像生成。最终输出中,模型不仅生成了两张符合提示的图片,还生成了相应的解释性文本。这种文本与图像交错生成的方式,展示了模型在复杂逻辑推理和多模态协同方面的独特优势,能够利用图像辅助文本理解,同时用文本指导图像生成,形成闭环的推理过程。
"essentially what we're going to be seeing right here is this is going to almost reason through the actual process of generating these images... we're almost going to see the model natively produce text and images kind of interled."
性能与配置对比数据表
为了清晰展示不同测试条件下的硬件配置、参数设置及结果差异,以下是关键测试数据的汇总对比:
| 测试场景 | 运行硬件 | 生成步数 | 分辨率/格式 | 文本准确性 | 视觉质量评价 | 备注 |
|---|---|---|---|---|---|---|
| 本地快速测试 | Spark (本地) | 8 步 | 未明确 | 准确 | 皮肤质感像 2007 年显卡,风格独特 | 速度快,模型已加载 |
| 云端高精度测试 | Thundercompute A100 | 50 步 | 未明确 | 无显著变化 | 视觉保真度略升,但整体提升有限 | 加载慢,计算量约为本地 6 倍 |
| 信息图表测试 | Spark (本地) | 8 步 | 2720x1536 (16:9) | 完全准确 | 布局合理,类似 PPT 风格 | 展示了高分辨率下的文本排版能力 |
| 交错故事板测试 | Thundercompute A100 | 未明确 | 未明确 | 准确 | 图文交错,逻辑连贯 | 展示多模态推理能力,生成耗时较长 |
图文交替生成的架构创新
SenseNova U1 的核心亮点在于其独特的生成架构,它并非传统的“文本转图像”模式,而是能够同时生成文本和图像。这种机制类似于自回归语言模型(LLM)的处理方式,但在视觉生成领域极为罕见。模型在接收到提示词后,会先进行推理,规划图像内容,随后交替输出文本块和对应的图像结果。这种图文交织(interleaved generation)的工作流不仅展示了模型对提示词的深度理解,还体现了其在局部部署中的技术潜力。与常规图像生成模型不同,SenseNova U1 能够根据具体提示词动态构建布局,这种架构上的差异使其在技术工作流上具有显著的独特性。
自我评估与纠错能力演示
在第一个测试案例中,模型生成了一个关于技术评测布局的图文组合。生成过程中,模型不仅输出了图像,还附带了一段自我评估结论。模型指出:“Successfully captures the layout and the tech review aesthetic. However, there are several visual redundancies and alignment issues that need correction.” 它精准地识别出图像中的具体问题,例如桥接句子被重复两次导致视觉杂乱,以及主标题缺失了模型名称后缀。尽管模型指出了这些错误,但由于提示词限制仅生成两张图片,它并未立即进行修正。这一过程展示了模型具备自我反思(self-awareness)的能力,能够评估自身输出并指出渲染错误或排版问题,这在当前图像生成模型中是非常罕见的特性。
复杂概念与流行文化测试
为了进一步验证模型能力,测试引入了《回到未来》中时光机(DeLorean)的复杂概念。模型成功生成了包含大量文本和图像的混合内容,包括对1955年、88英里/小时速度阈值和通量电容器等细节的描绘。生成的文本详细描述了将标志性汽车转化为高科技产品的计划,并给出了“时间可靠性10/10,88英里/小时性能8/10”的评分。尽管部分文本语法略显不完美,但模型再次启动了自我评估机制,指出需要额外修复。这种交替生成文本-图像-结论的模式,不仅展示了模型对流行文化元素的捕捉能力,还证明了其在处理复杂叙事结构时的稳定性。模型能够理解并呈现电影中的特定美学,同时保持对生成内容的批判性审视。
多样化风格与最终评估
测试最后尝试了多种非传统主题,包括“人类变直升机”、“香蕉美学直升机”、“Steve PC维修工”以及“Mac电脑”。在“Steve PC维修工”案例中,模型生成了卡通风格的图像,描绘Steve使用热风枪处理主板,并穿着围裙,这一结果被评价为非常贴切且有趣。尽管某些生成结果(如直升机)未完全符合预期的美学(如黄色),但模型在分辨率和细节一致性上表现良好。总体而言,SenseNova U1 的价值不在于传统的基准测试分数,而在于其架构层面的创新。通过 Comfy UI 进行的实时生成测试表明,该模型在信息图表生成和图文交替创作方面具有独特优势,其自我评估功能为未来图像生成模型的交互性提供了新的可能性。