字节向上发布豆包视频生成模子，这效力让我分不清 AI 与现实

发布日期：2024-10-01 07:26 点击次数：172

9 月 24 日，火山引擎 AI 调动巡展在深圳举办，带来了豆包大模子的最新进展。豆包大模子家眷迎来了新成员。

具体来说，火山引擎全新推出了豆包・视频生成模子，以及豆包音乐模子、同声传译模子，同期还升级了通用言语模子、文生图模子、语音模子，不停增强各种模态以及边界化的调用量，让豆包大模子“更强模子、更廉价钱、更易落地”的上风捏续突显。此外，多家行业客户也在会上共享了大模子诈欺的履行劝诫。

本次豆包带来的一系列大模子进展中，最引东谈主暖热的，莫过于全新豆包视频生成模子，它约略带来影视级视觉感受的视频生见效力，全面鼓励豆包大模子 AIGC 诈欺调动的法式。

在豆包视频生成模子认真推出之前，可能不少同学如故使用过市面上一些 AI 生成视频的居品。小编此前也作念过体验，总体来说这些大模子生成的视频经常有比较清醒的“AI 陈迹”，无论是视频的实践逻辑、画面当然度等方面，齐有待升迁，而且对语义领导的会通也存在问题，平庸会生成一些不合乎领导条件的视频。

而这些问题在豆包视频生成模子中，齐取得了针对性的处分，同期也成为其弗成漠视的居品亮点。

最初，豆包视频生成模子领有精确的语义会通本事，支捏多行为多主体交互的实践生成。比较大部分视频生成模子只可完成绵薄领导单一行为，豆包视频生成模子不错慑服更复杂的 prompt，解锁时序性多拍行为领导与多个主体间的交互本事，指哪儿打哪儿，为你掀开念念象力的大门。

比如底下这则视频，两位主角的行为、情态齐相等当然，包括马儿看起来也很信得过。

还有底下这段视频，最初女主的情态十分精细当然，当男主入画时，女主冉冉戴上墨镜，和男主的行为交互也相等信得过，看起来似乎是有些起义，将复杂精细的微行为齐呈现了出来，从而让视频呈现出厉害的“故事感”。

其次，豆包视频生成模子支捏苍劲动态与炫酷运镜，让 AI 生成视频告别 PPT 动画质感。针对高动态的复杂场景视频、各样化抒发的文本领导，豆包视频生成模子基于高效的 DiT 会通规画单位，更充分地压缩编码视频与文本，使生成视频的行为更灵动，镜头更各样，情态更丰富，细节更丰润。

况兼生成的视频可同期存在主体的大动态与镜头的炫酷切换。支捏变焦、环绕、平摇、缩放，筹办奴婢等超多镜头言语，无邪限度视角。

举例底下这则视频，画面中两位主角前后景的变焦切换相等当然，嗅觉就像是信得过的影相师在水中拍摄的画面，而不像以往 AI 生成视频那样幼稚生硬。

在实践逻辑方面，豆包视频生成模子还支捏一致性多镜头生成，约略 10 秒讲一个竣工的故事。它遴荐全新遐想的扩散模子检修体式，告捷攻克了多镜头切换时难以保捏一致性的困扰，在一个 prompt 的多个镜头切换时，保捏主体、作风、氛围和逻辑的一致性，终了导演目田。

举例底下这则动画视频，三个镜头构成了一个约略易懂的场景故事，看起来就像是一个普通的动画电影中截取的片断。

再比如底下这则视频，证据一个乘坐火箭的东谈主冲撞大楼激发爆炸的场景故事，三段镜头的裁剪呈现出畅通的故事逻辑，还给了主东谈主公垂危的情态特写，调遣不雅众的情谊，让东谈主讴颂 AI 这是醒觉了“创作意志”？

此外，豆包视频生成模子还能保证视频高保真和高好意思感，可生成影视级画面，细节脉络丰富，传神度极高，领有专科级颜色长入和光影布局，大幅升迁画面视觉审好意思。

比如底下这一则，悉数这个词画面的打光、色调、场景、扮装的情态齐相等邃密无比、精细，很有电影大片的质感，不说的话谁能念念到这是 AI 生成的视频？

同期其深度优化的 Transformer 结构，大幅升迁了视频生成的泛化本事，支捏包括曲直、3D 动画、2D 动画、国画、厚涂等多种作风，包含 1:1、3:4、4:3、16:9、9:16、21:9 比例，带你恍悟更目田的寰宇。

不错看到，豆包视频生成模子的施展如实是相等惊艳的，无论是语义会通本事、多个主体畅通的复杂交互画面，如故多镜头切换的实践一致性等方面，齐不错作念到接近专科东谈主类视频责任者的水平，若是不说是 AI 生成的，可能各人齐很难发现。

而能作念到这小数，关于字节向上以及火山引擎来说，其实统统在预感之中。

最初在“视频”本事方面，本即是字节向上的上风赛谈。火山引擎不仅是抖音规画处事的提供方，更是国内宽敞视频、直播等业务背后的可靠撑捏，在常年应答视频业务流量、时延、领会性等各样严苛的挑战中，千里淀下来独树一帜的本事本事。

而在 AI 方面，即大模子的本事，有火山引擎的撑捏，字节向上豆包大模子无论在算力、算法以及数据、场景等方面齐有相等充沛的资源。具体到本次豆包视频生成模子上，咱们也能看到字节向上在视频大模子本事研发的不停参加和调动。比如他们遴荐了高效的 DiT 会通规画单位，还全新遐想了扩散模子的检修体式，来终了一致性多镜头的生成。此外他们还深度优化了 Transfomer 结构，大幅升迁了视频生成的泛化本事。

豆包大模子自昨年 5 月认真发布以来，就展现出很强的市集竞争力。此次在深圳的火山引擎 AI 调动巡展，火山引擎总裁谭待也披露了豆包大模子最新的使用情况：

“铁心到 9 月，豆包大模子的日均 tokens 使用量如故卓越 1.3 万亿，4 个月的时候里 tokens 合座增长卓越了 10 倍。在多模态方面，豆包・文生图模子日均生成图片 5,000 万张，此外，豆包当本日均处理语音 85 万小时。”

火山引擎总裁谭待

如斯庞大的使用量，清醒代表着市集关于豆包大模子使用体验和效力的招供。同期也收成于字节大模子一贯的发展旅途和逻辑：先 toC 打磨居品，模子本事具备竞争上风后再 toB 拓展市集。

比如豆包言语大模子其实早在昨年就在字节向上里面完成了上线，亦然首批通过大模子处事安全备案的大模子之一。字节向上里面 50 多个业务如故多量使用豆包大模子进行 AI 调动，包括抖音、头条等数亿 DAU 居品。过程近一年的打磨后才在本年 5 月认真发布。

而此次豆包视频生成模子亦然如斯，其早期版块在本年 2 月就在即梦（Dreamina）上诈欺，捏续迭代优化后才在此次认真推向企业市集。

而将来，豆包视频生成模子也不错为宽敞企业场景带来调动，举例在电商营销场景，豆包视频生成模子不仅快速把商品形成 3D 动态多角度展示，还能合营中秋、七夕、春节等节点替换配景和作风，生成不同尺寸快速上架；在动画素质场景，豆包・视频生成模子不错大幅裁汰动画的制作资本，生动的呈现童话故事情节。

此外，还有城市文旅、音乐 MV、微电影、短剧等诈欺场景，齐不错通过豆包・视频生成模子终了降本提效和创意合规。

总之，豆包视频生成模子的推出，将为创作家乃至百行万企的责任者带来探索未下寰宇的有劲器用，为悉数东谈主提供原理、舒坦和目田的创作体验，用更广泛的创作空间和灵感启发，帮各人掀开贯穿现实和念念象寰宇的大门。

上一篇：Khg以丰富而有趣的真人理念被合计是给民主党站台-九游会J9·(china)官方网站-真人游戏第一品牌

下一篇：海量财经丨周鸿祎谈大模子：对经济复苏和重塑产业结构至关进犯