深水炸弹! 周鸿祎连忙说道,“马斯克说,人类愿意认输”! 这个行业又要爆发了吗?

博主:adminadmin 02-17 130 0条评论
摘要: AI巨头一日之内释放“深水炸弹”,再次引发全球关注。Open AI于2月16日发布了首款Vincent视频模型Sora,可直接输出长达60秒的视频,且包含高度细致的背景、复杂的多...

AI巨头一日之内释放“深水炸弹”,再次引发全球关注。

Open AI于2月16日发布了首款Vincent视频模型Sora,可直接输出长达60秒的视频,且包含高度细致的背景、复杂的多角度镜头、多个情感人物,效果震撼。

业界普遍认为,AI多模态能力的快速发展将使智能计算资源更加稀缺。 360创始人周鸿祎在表达对Sora的看法时提到,Open Al训练这个模型应该多看视频。

业内人士表示,多模态训练和推理将进一步增加对计算基础设施的需求。

值得注意的是,谷歌也在同一天发布了其大作矩阵Gemini 1.5。 扩展后,这种多模式大型模型可以一次处理大量信息,包括长达一小时的视频、11 小时的音频、超过 30,000 行代码或超过 700,000 个单词的代码库。

《Sora》三大亮点凸显

2 月 16 日,Open AI 发布了第一个 Vincent 视频模型 Sora。 从Open AI目前展示的信息来看,Sora三大亮点脱颖而出,在AIGC领域取得里程碑式进展。

首先,Sora可以生成60秒的长视频,可以保持视频主体和背景的高度流畅性和稳定性; 其次,单视频多角度拍摄,Sora可以实现一个视频多角度拍摄,分镜头切换逻辑清晰,非常流畅。 ; 然后还有理解现实世界的能力。 Sora对光影反射、运动图案、镜头移动等细节处理得很好,大大提高了真实感。

_周鸿祎被抓_周鸿祎被警察堵

目前Sora并未完全对外开放,仅邀请部分测试者体验。

随后,Open AI 解释了 Sora 的工作原理:Sora 采用了 Transformer 架构,是一种扩散模型,具有很强的扩展性。

据 OpenAI 介绍,Sora 从一段类似静态噪声的视频开始,通过多个步骤逐渐消除噪声。 视频也从最初的随机像素转变为清晰的图像场景。

视频和图像是称为“补丁”的较小数据单元的集合。 每个“补丁”类似于GPT中的一个标记(Token)。 通过统一的数据表达方式,可以应用在更广泛的可视化数据上。 训练和扩散变化,包括不同的时间、分辨率和纵横比。

据悉,Sora是基于过去对DALL·E和GPT的研究。 它利用DALL·E 3的重述提示词技术为视觉模型训练数据生成高度描述性的注释,使模型能够更好地遵循文本指令。 。

周鸿祎说话很快

就像Open AI在2022年底公开了ChatGPT-3.5一样,Sora在发布当天立即引起了全球的关注。

360创始人周鸿祎很快发微博,提到了自己对Sora的看法。 周鸿祎对空给予了高度评价。 他认为Sora的诞生意味着AGI(通用人工智能)的实现可能从10年缩短到一两年。

周鸿祎被抓_周鸿祎被警察堵_

在他看来,空只是一个小小的考验。 它展现的不仅仅是其视频制作能力,而是大模型理解和模拟现实世界后将带来新的成果和突破。 他认为,人工智能可能不会那么快颠覆所有行业,但它可以激发更多人的创造力。

“很多人担心《空》对影视行业的影响,但视频的主题、剧本、镜头策划、台词配合都需要人的创造力,或者至少是提示文字。而一个视频或电影是由无数个60秒组成的。” ”周鸿祎直言,“今天的Sora可能会给广告行业、电影预告片、短视频行业带来巨大颠覆,但不一定能这么快打败TikTok,更有可能成为TikTok的创作工具。 ”

谈及Sora最大的优势,周鸿祎表示,以前文盛视频软件都是在2D平面上操作图形元素。 视频可以看作是多个真实图片的组合,并没有真正掌握世界的知识。 “但在Sora生成的视频中,它可以像人类一样理解坦克的冲击力巨大。坦克可以撞到汽车,但不会出现汽车撞到坦克那样的情况。”

他表示,此次Open AI利用大语言模型的优势,让Sora实现了理解现实世界和模拟世界的两层能力。 “这样生成的视频是真实的,可以跳出2D范围来模拟真实的物理世界。”

“马斯克说人类愿意承认失败”

值得注意的是,就在Sora发布几个小时后,特斯拉CEO马斯克就在X平台上回复多条帖子“输出”自己的观点。 有网友在评论Sora生成的走在东京街头的60秒时尚女人时表示:“gg Pixar(皮克斯动画制作公司)”(编者注:gg是Good Games的缩写,意思是“玩得好”) ,我投降”),马斯克随后回答道,“gg人类。” 随后,马斯克还表示,经过人工智能增强的人类将在未来几年创造出最好的作品。

谷歌Gemini 1.5同日发布

事实上,在发布Sora之前,Open AI CEO Altman就对未来两年AI的发展充满期待。 在他看来,人工智能有望在三个方面得到大幅提升:推理能力和可靠性、多模态(语音输入/输出、图像、视频)、可定制性和个性化。

Altman认为,至少在未来5到10年,AI大模型技术将处于非常陡峭的增长曲线; 同时他透露,Open AI新一代模型将是多模态大模型,支持语音、图像、Code、视频,并在个性化定制方面实现重大更新,推理能力更强、准确率更高; 此外,他认为AI大模型的幻觉问题有望在新一代大模型中得到解决。

值得注意的是,另一巨头谷歌的举动也证实了奥特曼的猜想。 在Sora发布的同一天,Google也发布了其大模型矩阵的最新力作——Gemini 1.5,距离上一版本Gemini 1.0发布仅2个月。

周鸿祎被警察堵_周鸿祎被抓_

作为新版本的最大亮点,Gemini 1.5中首个多模态通用模型Gemini 1.5 Pro将稳定处理上下文上限拓展至100万个Token。 横向对比,两个月前发布的 Gemini 1.0 Pro 的上下文理解限制为 32,000 个 Token,而老对手 Open AI 的 GPT-4 Turbo 仅支持 128,000 个 Token。

这意味着Gemini 1.5 Pro可以一次处理大量信息——包括1小时的视频、11小时的音频、超过30,000行代码,或超过700,000字的代码库,展示了其多模态能力。

对算力的需求将大幅增长

真正具有多模态能力的大型模型的出现,例如Open AI的Sora和Google Gemini 1.5 Pro,首先会对基础计算能力提出更高的要求。

周鸿祎这次提到Open Al训练Sora模型应该可以读很多视频。 “一旦人工智能连接到摄像头并观看 YouTube 和 TikTok 上的所有电影和视频,它对世界的理解将远远超过文本学习。 一图胜千言,视频传达的信息量远远超过一张图片。”周鸿祎说。

国泰君安也认为,Sora模式将推动AI多模态领域快速发展,AI创造等相关领域将迎来深入变革,AI赋能范围将进一步扩大,多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态等。模态相关的训练和推理应用将进一步增强对人工智能的理解。 计算基础设施的相关需求。

一些组织此前计算过,图像训练数据大大增加了训练代币的数量。 例如,将一张 224*224 的图片划分为 16*16 的 2D 小块,即单个图片相当于 (224*224)/(16*16 ) = 196 个 Token。 图像训练材料的加入导致训练代币数量大幅增加,从而显着提高了AI训练的算力要求。

视频训练数据将大大增加训练代币的数量。 与图像训练材料相比,视频训练材料增加了时间维度,训练过程更加复杂,生成的训练token数量更大,对算力的需求更大。

此时,北美四大云厂商的资本支出增幅可见一斑。 近日,北美四大云厂商陆续发布了2023年第四季度业绩。数据显示,Meta、微软、谷歌和亚马逊2023年第四季度的资本支出总额为432亿美元,一年同比增长9.46%,增速全年首次转正。

以Meta为例,预计2024年全年资本支出在300亿美元至370亿美元之间,较2023年第三季度的预测上限额外增加20亿美元。该公司解释道认为这一增长主要是由于服务器需求的增长,包括人工智能和非人工智能领域的硬件,以及数据中心的建设。

华为在《智能世界2030》报告中预测,到2030年,人类将进入YB数据时代,通用算力增长10倍,人工智能算力增长500倍。 在需求加速、供给不足的今天,智能算力已成为稀缺资源。

浮窗式百度分享代码,请勿使用文字或图标

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏