• 字节向上发布豆包视频生成模子,这效力让我分不清 AI 与现实

  • 发布日期:2024-10-01 07:26    点击次数:172

    9 月 24 日,火山引擎 AI 调动巡展在深圳举办,带来了豆包大模子的最新进展。豆包大模子家眷迎来了新成员。

    具体来说,火山引擎全新推出了豆包・视频生成模子,以及豆包音乐模子、同声传译模子,同期还升级了通用言语模子、文生图模子、语音模子,不停增强各种模态以及边界化的调用量,让豆包大模子“更强模子、更廉价钱、更易落地”的上风捏续突显。此外,多家行业客户也在会上共享了大模子诈欺的履行劝诫。

    本次豆包带来的一系列大模子进展中,最引东谈主暖热的,莫过于全新豆包视频生成模子,它约略带来影视级视觉感受的视频生见效力,全面鼓励豆包大模子 AIGC 诈欺调动的法式。

    在豆包视频生成模子认真推出之前,可能不少同学如故使用过市面上一些 AI 生成视频的居品。小编此前也作念过体验,总体来说这些大模子生成的视频经常有比较清醒的“AI 陈迹”,无论是视频的实践逻辑、画面当然度等方面,齐有待升迁,而且对语义领导的会通也存在问题,平庸会生成一些不合乎领导条件的视频。

    而这些问题在豆包视频生成模子中,齐取得了针对性的处分,同期也成为其弗成漠视的居品亮点。

    最初,豆包视频生成模子领有精确的语义会通本事,支捏多行为多主体交互的实践生成。比较大部分视频生成模子只可完成绵薄领导单一行为,豆包视频生成模子不错慑服更复杂的 prompt,解锁时序性多拍行为领导与多个主体间的交互本事,指哪儿打哪儿,为你掀开念念象力的大门。

    比如底下这则视频,两位主角的行为、情态齐相等当然,包括马儿看起来也很信得过。

    还有底下这段视频,最初女主的情态十分精细当然,当男主入画时,女主冉冉戴上墨镜,和男主的行为交互也相等信得过,看起来似乎是有些起义,将复杂精细的微行为齐呈现了出来,从而让视频呈现出厉害的“故事感”。

    其次,豆包视频生成模子支捏苍劲动态与炫酷运镜,让 AI 生成视频告别 PPT 动画质感。针对高动态的复杂场景视频、各样化抒发的文本领导,豆包视频生成模子基于高效的 DiT 会通规画单位,更充分地压缩编码视频与文本,使生成视频的行为更灵动,镜头更各样,情态更丰富,细节更丰润。

    况兼生成的视频可同期存在主体的大动态与镜头的炫酷切换。支捏变焦、环绕、平摇、缩放,筹办奴婢等超多镜头言语,无邪限度视角。

    举例底下这则视频,画面中两位主角前后景的变焦切换相等当然,嗅觉就像是信得过的影相师在水中拍摄的画面,而不像以往 AI 生成视频那样幼稚生硬。

    在实践逻辑方面,豆包视频生成模子还支捏一致性多镜头生成,约略 10 秒讲一个竣工的故事。它遴荐全新遐想的扩散模子检修体式,告捷攻克了多镜头切换时难以保捏一致性的困扰,在一个 prompt 的多个镜头切换时,保捏主体、作风、氛围和逻辑的一致性,终了导演目田。

    举例底下这则动画视频,三个镜头构成了一个约略易懂的场景故事,看起来就像是一个普通的动画电影中截取的片断。

    再比如底下这则视频,证据一个乘坐火箭的东谈主冲撞大楼激发爆炸的场景故事,三段镜头的裁剪呈现出畅通的故事逻辑,还给了主东谈主公垂危的情态特写,调遣不雅众的情谊,让东谈主讴颂 AI 这是醒觉了“创作意志”?

    此外,豆包视频生成模子还能保证视频高保真和高好意思感,可生成影视级画面,细节脉络丰富,传神度极高,领有专科级颜色长入和光影布局,大幅升迁画面视觉审好意思。

    比如底下这一则,悉数这个词画面的打光、色调、场景、扮装的情态齐相等邃密无比、精细,很有电影大片的质感,不说的话谁能念念到这是 AI 生成的视频?

    同期其深度优化的 Transformer 结构,大幅升迁了视频生成的泛化本事,支捏包括曲直、3D 动画、2D 动画、国画、厚涂等多种作风,包含 1:1、3:4、4:3、16:9、9:16、21:9 比例,带你恍悟更目田的寰宇。

    不错看到,豆包视频生成模子的施展如实是相等惊艳的,无论是语义会通本事、多个主体畅通的复杂交互画面,如故多镜头切换的实践一致性等方面,齐不错作念到接近专科东谈主类视频责任者的水平,若是不说是 AI 生成的,可能各人齐很难发现。

    而能作念到这小数,关于字节向上以及火山引擎来说,其实统统在预感之中。

    最初在“视频”本事方面,本即是字节向上的上风赛谈。火山引擎不仅是抖音规画处事的提供方,更是国内宽敞视频、直播等业务背后的可靠撑捏,在常年应答视频业务流量、时延、领会性等各样严苛的挑战中,千里淀下来独树一帜的本事本事。

    而在 AI 方面,即大模子的本事,有火山引擎的撑捏,字节向上豆包大模子无论在算力、算法以及数据、场景等方面齐有相等充沛的资源。具体到本次豆包视频生成模子上,咱们也能看到字节向上在视频大模子本事研发的不停参加和调动。比如他们遴荐了高效的 DiT 会通规画单位,还全新遐想了扩散模子的检修体式,来终了一致性多镜头的生成。此外他们还深度优化了 Transfomer 结构,大幅升迁了视频生成的泛化本事。

    豆包大模子自昨年 5 月认真发布以来,就展现出很强的市集竞争力。此次在深圳的火山引擎 AI 调动巡展,火山引擎总裁谭待也披露了豆包大模子最新的使用情况:

    “铁心到 9 月,豆包大模子的日均 tokens 使用量如故卓越 1.3 万亿,4 个月的时候里 tokens 合座增长卓越了 10 倍。在多模态方面,豆包・文生图模子日均生成图片 5,000 万张,此外,豆包当本日均处理语音 85 万小时。”

    火山引擎总裁谭待

    如斯庞大的使用量,清醒代表着市集关于豆包大模子使用体验和效力的招供。同期也收成于字节大模子一贯的发展旅途和逻辑:先 toC 打磨居品,模子本事具备竞争上风后再 toB 拓展市集。

    比如豆包言语大模子其实早在昨年就在字节向上里面完成了上线,亦然首批通过大模子处事安全备案的大模子之一。字节向上里面 50 多个业务如故多量使用豆包大模子进行 AI 调动,包括抖音、头条等数亿 DAU 居品。过程近一年的打磨后才在本年 5 月认真发布。

    而此次豆包视频生成模子亦然如斯,其早期版块在本年 2 月就在即梦(Dreamina)上诈欺,捏续迭代优化后才在此次认真推向企业市集。

    而将来,豆包视频生成模子也不错为宽敞企业场景带来调动,举例在电商营销场景,豆包视频生成模子不仅快速把商品形成 3D 动态多角度展示,还能合营中秋、七夕、春节等节点替换配景和作风,生成不同尺寸快速上架;在动画素质场景,豆包・视频生成模子不错大幅裁汰动画的制作资本,生动的呈现童话故事情节。

    此外,还有城市文旅、音乐 MV、微电影、短剧等诈欺场景,齐不错通过豆包・视频生成模子终了降本提效和创意合规。

    总之,豆包视频生成模子的推出,将为创作家乃至百行万企的责任者带来探索未下寰宇的有劲器用,为悉数东谈主提供原理、舒坦和目田的创作体验,用更广泛的创作空间和灵感启发,帮各人掀开贯穿现实和念念象寰宇的大门。