腾讯多媒体实验室总监李松南
智能媒体是指利用人工智能技术重构信息新闻生产和传播全过程的媒体,由智能媒体、智能媒体、智囊媒体三部分组成。 近年来,以主流媒体机构为首的各媒体、公司等积极寻求媒体智慧化的发展战略,以媒体新闻收集、媒体文案生产等方面为中心,对智能媒体的快速发展路径进行了一系列的探索。 日趋成熟的5g、人工智能、云计算等新一代展示技术正在成为支撑智能媒体快速发展的核心技术群。
作为腾讯的顶级科技实验室,也是世界多媒体技术的领导者,智能媒体是腾讯多媒体实验室重要的研究行业之一。 李松南表示,近期,多媒体实验室发布了ai媒体文案制作平台智能媒体,建立了基于交叉模态(图像、音频、文案、语音)算法的多媒体文案分解与理解框架
在论坛上,李松南重点介绍了智能媒体的文案生产。 他指出,媒体文案包括视频、图像、声音、文案等多种形式,综合采用这些媒体形式的技术是多模态技术。 智能媒体的拷贝生产是指用人工智能的方法,将这些不同模式的拷贝自动化、批量生产。
李松南用无中生有、浴火重生、斗转移星移三个词来形容智能媒体的文案生产方法。 从无到有是指从0到1,从无到有的创造过程。 例如,给ai模型一点随机的噪音信号,ai模型就可以创作诗和钢琴曲。 洗澡火的播放是指输入和输出音乐也是音乐,从钢琴变成琵琶等,演奏音乐的乐器只是改变了声音。 斗星移是指不同模式之间的匹配和变换,如视频与音乐的匹配、照片与拷贝的变换等。
到目前为止,腾讯智能媒体的媒体复制生产能力已经涵盖了12种技术能力,有些能力已经应用于腾讯服务器上的产品。 李松南表示,未来,腾讯多媒体实验室将继续深耕多媒体技术,服务腾讯内部产品,并通过信息云输出技术,为社会创造越来越多的价值。
以下是李松南演讲的实录。 [/s2/]
你好。 我是腾讯多媒体实验室的李松南。 很高兴参加腾讯大会,并报告多媒体实验室新推出的ai媒体文案生产平台——智能媒体。 报告的副标题是多模态和复印生产。 首先,介绍多形态与复印生产的关系。
众所周知,媒体拷贝包括视频、图像、音频、拷贝等多种形式。
制作技术的学生将综合采用这些媒体形态的技术称为多形态技术。 ai介质拷贝生产是指用人工智能的方法,将这些不同模式的拷贝自动化、批量生产。
在这里,为了便于记忆,将ai媒体拷贝的生产方法总结为三种,并对各种方法分别赋予了符号化的名称。 分别是从无到有、浴火再生、斗转星移动。
下面分别介绍这三种方法。
首先,是从无开始创造有。 顾名思义,从0到1,是从无到有的创造过程。 向ai模型提供随机噪声信号后,ai模型可以生成诗、钢琴曲、高清脸部照片和视频。
第二种方法叫做浴火再生。 是指乐器变换等同一模式之间的变换。 输入是音乐,输出也是音乐。 只是,从钢琴变成琵琶等,弹这个音乐的乐器的发音发生了变化。
最后一种形式称为斗转星移,是指不同模式之间的匹配和变换。 例如,视频和音乐之间的匹配,以及图像和拷贝之间的转换。
第一种形式是在实验室做一点初步的尝试,寻找合适的落地场景,这里不做介绍。 下面比较第二个和第三个拷贝的生产方法,给出一个更具体的例子。
第二种拷贝生产形式,将其称为浴火再生,是指同一模态拷贝之间的变换。 因为多媒体实验室的首要工作在视频上,所以我们以视频为例进行证明。 的输入是视频,输出也是视频。
视频解析就是这样一个过程,输入是视频,输出也是视频,是被解析的视频。 该解决过程可能包括减少压缩失真、提高分辨率、提高帧速率、颜色强调等各种操作,如将该演示中所示的高清副本设置为4k或8k,或将普通视频设置为hdr视频; 有时也会修复老电影,比如清除老电影中经常出现的伤痕和雪花,让老电影中的人物更加清晰。 视频解决是实验室长时间投入的方向之一,我们与腾讯视频云、腾讯影业一起,通过画质播放、智能视频等产品,为外部公司提供高质量的视频解决服务。
另一个例子是视频的横屏竖屏。 我们现在看到的短视频拷贝大多是竖屏的,但高质量的视频拷贝大多是横屏拍摄的。 我们通过分解画面醒目的部分,设计了自动裁剪算法,将大量的横向画面视频自动转换成了纵向画面视频。 这里给出了几个例子。 如您所见,视频的主体副本存储在垂直屏幕上,镜头的移动也很自然。 我们通过大量的主观实现,做了市面上的类似产品和对象,证实了我们算法的优越性。
另一个例子是视频解体和视频收藏。 这里以足球录像为例,给算法一个90分钟以上的足球比赛录像。 算法会分解出角球、射门、进球等各种情况发生的时间段,并将这个长视频分割为许多短视频。 我们还可以把我们认为精彩的短片连接起来,形成精彩的收藏。 例如,对足球来说,可以将投篮、慢动作、进球等事情结合起来,自动生成比较足球比赛的精彩集合。
第三种介质拷贝的生产形式被称为斗转星移,是指不同模式之间的匹配和变换。 此ppt中显示的两个示例分别是从照片到拷贝、从视频到拷贝的转换。 左边是照片,里面是商品。 我们可以使用算法生成这个商品的说明,帮助商家更好地吸引顾客。 右边是游戏的视频,我们可以用算法自动生成游戏精彩的说明。
最后一个例子是视频音乐,输入短视频,根据这个视频拷贝的分解,找到适合这个视频的背景音乐。 做过短片的朋友都知道找一部对短片满意的原声带很麻烦,但是原声带推荐算法可以节省很多时间。
是的,以上所有的例子都来自多媒体实验室的智能媒体平台。 该页的ppt列出了智能媒体平台当前提供的所有媒体拷贝能力,其中一些已经开始为数字服务器上的产品提供服务。 实验室通过腾讯云,持续对外输入我们的技术能力。
谢谢您的聆听。 多媒体实验室不断深耕技术,服务于腾讯内部的产品,并通过信息云输出技术,给社会带来越来越多的价值。 谢谢大家!
标题:“2020 Techo开发者大会召开,腾讯多媒体实验室推出AI媒体文案生产平台“智媒””
地址:http://www.sdsxywx.com/sdss/1475.html
心灵鸡汤: