复古机箱与基础平台选型

本次构建的核心在于选择一个既满足散热需求又符合个人审美的机箱。博主最终选定了一款 Silverstone 复古风格机箱,该机箱拥有独特的仿软驱设计和复古外观,虽然价格相对较高,但其内部空间足以容纳大型电源和显卡,且具备优秀的空气流通性。博主明确表示,这台机器主要用于本地 AI 训练,因此美学并非首要考量,而是更注重实用性和散热效率。

"I'm a sucker for retro PCs... This thing is sick."(我是个复古电脑迷……这东西太酷了。)

在主板方面,博主暂时使用了一块旧的 Intel i7-12700 主板,搭配 32GB DDR4 内存。尽管 DDR4 在带宽上不如最新的 DDR5,但对于当前的测试阶段而言,性能足以胜任。这种“混搭”策略体现了博主在构建初期对成本控制的灵活处理,同时也为后续可能的升级留出了空间。

顶级电源与机箱预处理

电源是构建稳定 AI 工作站的关键,博主选用了一款 C-Sonic 1300W 钛金认证电源。这款电源不仅拥有极高的转换效率,还附带了丰富的线缆和专用的收纳袋,甚至被博主戏称为“最昂贵的电源”。钛金认证意味着其在高负载下的能效表现极佳,这对于长时间运行的 AI 训练任务至关重要。

"It's got that fresh PSU smell that we all know and love."(有着我们都熟悉且喜爱的全新电源味道。)

在安装过程中,博主对机箱进行了极简化处理,移除了可能阻碍气流的内部挡板,并安装了额外的主板支撑架以消除显卡下垂的风险。虽然机箱本身未附带所有螺丝,但博主通过自备硬件完成了主板固定。这种对内部结构的精细调整,旨在最大化散热效率,确保在高负载下硬件不会因过热而降频。

PNY RTX 6000 Pro 开箱与安装

本次构建的主角是 PNY RTX 6000 Pro 显卡。这是一款基于 Blackwell 架构的专业级 GPU,功率为 600W,并非 Max-Q 版本。尽管其外观不如消费级旗舰显卡(如 RTX 5090)那样夸张,但其高密度设计双风扇散热方案体现了专业卡的务实风格。博主特别指出,显卡金手指处缺乏像入门级 Intel Arc 显卡那样的保护盖,因此在搬运过程中需格外小心。

"This is the PNY, so it's the 600 watt one. It is not the Max Q."(这是 PNY 的版本,所以是 600W 的。不是 Max-Q 版。)

安装显卡时,博主去除了保护塑料,并将其插入主板插槽。由于该显卡体积较大且重量可观,稳固的 PCIe 插槽连接机箱支撑显得尤为重要。整个安装过程展示了从开箱到硬件就位的关键步骤,为后续的系统和软件配置奠定了基础。尽管目前尚未进行性能测试,但这一硬件组合已展现出强大的本地 AI 训练潜力。

硬件安装与物理结构验证

视频的核心环节是将 RTX 6000 Pro 显卡安装至机箱。博主指出,尽管该卡体积庞大,但安装过程并不如外界传言那般脆弱,只要不暴力插拔,操作风险极低。在安装螺丝时,遵循了先预紧所有螺丝、再进行最终紧固的标准流程,以确保受力均匀。由于该显卡结构极其坚固,博主决定不再使用额外的防下垂支架,认为其自重足以保持稳定。电源连接环节是物理安装中最为紧张的部分,因为显卡供电接口与机箱侧板之间的间隙非常狭窄,导致插头插入时缺乏明显的“咔哒”声,但经确认连接已牢固。安装完成后,系统重量显著增加,博主选择暂时不安装机箱侧板,以便进行首次开机测试。同时,他检查了电源按钮的接线,确保其功能正常。

"I find just like in many years of doing this, these things are not as delicate as I think people fear."

散热系统排查与安全功能测试

首次开机后,系统进入了一种完全静音的状态,机箱风扇并未转动。经过长达30分钟的排查,博主发现了一个容易被忽视的细节:前置风扇集线器需要独立的SATA供电。这一疏忽导致风扇无法启动,修正后系统恢复正常。随后,博主测试了机箱的物理安全锁功能。通过插入专用钥匙,电源按钮被锁定,这意味着在系统运行期间,即使有人按下电源键,系统也不会响应关机指令。这一功能对于需要长时间运行的AI训练任务至关重要,能有效防止意外断电。博主表示,如果训练过程中发生断电,他将不会发布此视频,因此物理锁提供了额外的安全保障

"The case fans aren't on... the actual fan hub that is connected to the front thing here needs power from a SATA."

初始启动与BIOS关键配置

为了验证硬件是否正常工作,博主使用了一块预装Windows 11的SSD进行初步测试。他将显示器连接至主板接口,因为RTX 6000 Pro主要用于计算而非显示输出。然而,系统无法通过POST自检,无论连接哪个视频输出端口均无显示。经过深入排查,问题根源在于主板BIOS设置:Resizable BAR功能必须禁用才能与该显卡兼容。该主板为MSI Z690(搭配Intel 12700 CPU),在关闭Resizable BAR后,系统成功启动并显示画面。这一配置调整是后续安装Ubuntu和部署AI环境的前提。博主随后决定将系统从Windows 11替换为Ubuntu Linux,因为Linux环境更适合AI开发,尽管他对Windows 11的近期体验表示认可,但认为其预装软件(crapware)令人沮丧。

"Resizable bar needed to be disabled in this motherboard... the issue was that it would not actually boot or post or anything while the card was plugged in."

远程部署与训练任务迁移

系统环境切换至Ubuntu后,博主通过SSH服务将控制权移交给了运行在MacBook Air上的CodeX AI助手。CodeX负责远程诊断并自动安装NVIDIA驱动及所有必要的依赖项,实现了完全自动化的环境配置。当前的对比基准是NVIDIA DGX Spark,它正在运行一个针对Quen 38B密集模型的继续预训练任务,数据量为3.5亿至5亿条网络安全相关文本。根据CodeX的估算,在DGX Spark上完成该任务需要约7.5天,而在新的RTX 6000 Pro配置下,预计仅需1至2天。这一巨大的性能差异是构建新系统的核心驱动力。目前,训练任务已在DGX Spark上运行至第550步,虽然速度较慢,但展示了CodeX在远程编排复杂AI工作流方面的能力。

"It's a continued pre-train with a quen 38B on 350 to 500 million tokens... on the DGX Spark, but it was going to take like 7 and 1/2 days... on this card, I think it was going to take like 1 to two."

性能预期对比数据

为了直观展示新构建的RTX 6000 Pro系统与现有DGX Spark系统在特定AI训练任务上的性能差异,以下是基于视频内容的详细数据对比。该对比基于同一模型(Quen 38B Dense)和相同数据集规模(3.5-5亿 tokens)的继续预训练任务。

系统配置 模型架构 数据集规模 预计完成时间 相对性能提升估算
NVIDIA DGX Spark Quen 38B Dense 3.5 - 5 亿 Tokens ~7.5 天 基准 (1x)
RTX 6000 Pro (新构建) Quen 38B Dense 3.5 - 5 亿 Tokens 1 - 2 天 约 3.75x - 7.5x

注:时间估算基于博主在视频中的口头陈述,实际性能可能受具体代码优化、显存带宽及系统I/O瓶颈影响。

自主构建AI训练环境:从安全设置到硬件识别

视频展示了利用AI代理(CodeEx)自主完成RTX 6000 Pro工作站搭建的过程。起初,系统因Secure Boot(安全启动)启用而报错,AI代理自动将其禁用并继续配置。这一过程体现了未来自动化运维的趋势,作者认为AI在复杂系统配置上的能力令人惊叹,甚至达到了“令人不安”的程度。通过以太网连接,AI代理成功识别了96GB显存的NVIDIA GPU,并确认了600W功耗上限已生效。AI不仅完成了基础环境搭建,还自主处理了训练所需的文件传输,展现了其在无监督环境下解决硬件兼容性问题的能力。

"I can, but this is like probably the future of actually doing a lot of this stuff."

智能监控界面生成与故障自动修复

在训练启动阶段,AI代理根据指令生成了一个美观的图形用户界面(GUI),用于实时监控GPU状态。该界面直观展示了GPU利用率、功耗、温度、风扇转速以及训练损失(Loss)和Token处理量。作者特别指出,AI代理还主动检测并修复了系统残留的Intel GPU警告弹窗,无需人工干预。这种自动化监控与故障排除机制,极大地简化了长时间训练过程中的运维负担,证明了AI代理在动态环境管理上的高效性。通过NVTOP工具的辅助验证,确认了监控数据的实时性和准确性,整个训练流程完全由AI自主驱动。

性能对比:Blackwell Pro与Spark的训练速度差异

本次测试的核心目的是验证RTX 6000 Pro(Blackwell架构)在本地AI训练中的性能表现。在训练进行到第7步时,AI代理预估剩余时间约为33小时10分钟。相比之下,另一台名为“Spark”的机器在相同任务中运行了数小时,仅完成了第580步。这一数据对比清晰地表明,Blackwell Pro在训练速度上具有显著优势。作者强调,此配置专为训练(Training)而非推理(Inference)设计,因此重点在于展示其在大规模模型训练中的效率提升。此外,AI代理还智能地利用了Spark上已缓存的模型权重,通过局域网直接传输,避免了重复下载,进一步优化了工作流。

机器名称 架构/型号 当前训练步数 预估剩余时间/状态 备注
RTX 6000 Pro Blackwell Pro Step 7 ETA 33h 10m 19s 功耗上限600W,全速运行
Spark 未知 Step 580 已运行数小时 权重已缓存,用于对比速度

AI代理工作流的价值与总结

视频最后,作者总结了此次实验的核心价值:AI代理(如CodeEx或Claude Code)能够自主完成从环境配置到故障修复的全流程。这种自动化工作流不仅节省了时间,还展示了AI在跨机器资源调度(如从Spark传输权重)上的潜力。作者表示,虽然未提供传统的基准测试跑分,但通过实际训练进度的对比,已充分证明了Blackwell Pro在训练场景下的强大性能。这一实验旨在展示AI辅助开发的未来形态,即通过自然语言指令让AI自主管理复杂的硬件和软件环境,从而大幅提升研发效率。

"It's just cool to see um how much like the AI agents and automations can really speed up workflows and things."