2019年机器学习和人工智能现状报告

现在不乏能够帮助企业将机器学习和人工智能(AI)技术应用到视频交付生态系统的各个环节的供应商，以引入创新，如更快的上市时间和节省成本. 机器学习是计算机系统在特定任务上逐步提高性能的能力, 而人工智能利用数据来学习, 预测, 并通过数据处理来改变结果. 这两种方法的基础都是访问用于培训的大量数据源, 无论是用于图像识别的图像存档还是服务质量(QoS)回放记录.

立即访问我们的2019年百家乐软件手册. 立即注册免费下载整个问题!

机器学习和人工智能可以用来识别视频中的图像, 生成语音到文本的翻译, 创建字幕, 寻找内容处理的最佳模式, 并执行无数其他功能. 以下是过去一年中开发的著名机器学习和人工智能项目综述.

英国皇室婚礼

用户界面为中心的, GrayMeta, 亚马逊网络服务(AWS)与天空新闻合作了10周，制作了天空新闻的“名人录”项目, 850人使用的手机应用,去年，在哈里王子和梅根·马克尔的皇家婚礼上，来自200个国家的5000人参与了实时身份识别.

“该项目的引擎是基于使用AWS rekrecognition Services的面部检测分析,天空新闻的高级产品负责人休·威斯布鲁克在一封电子邮件中说. “他们能够在客人到达时实时识别他们. 他们必须考虑的是拍摄角度, 人群运动和活动, 天气, 和照明.他们甚至进行了伞挡脸的训练，还制作了一个模拟婚礼视频, 让天空新闻团队来测试这个解决方案.

为图像识别工作, 培训模型是围绕所涉及的特定主题建立的, 无论是体育比赛, 非法活动, 或者在这种情况下是预期的婚礼客人.

“这个项目面临的挑战之一是，只有一部分预期的嘉宾是知名人士，没有现成的机器学习模型能够识别(那些不知名的)。,马特·伊顿说, 总经理, EMEA, GrayMeta.

“一旦(训练)模型建立起来，训练新面孔只需要几分钟. 然而, 人力百家乐软件和管理的任务, 婚礼当天的高质量训练图像花费了最多的时间,伊顿说。. 这种面部识别本质上是用每个人的多种不同照片来训练系统，直到系统能够自己识别婚礼派对.

“我们故意在消费者设备上的实时捕捉和流媒体之间建立了90秒的偏移，让天空新闻编辑团队有足够的时间来审查和编辑面部识别服务的结果,伊顿说。.

为捕获, 一个AWS Elemental Live小尺寸, 单通道视频编码器摄取和处理内容并将其发送到基于云的AWS Elemental MediaLive. 来自GrayMeta的实时管理工具允许天空新闻的编辑研究人员审查面部识别服务所做的匹配，并在不正确的情况下推翻它.

“用户界面为中心的设计并开发了前端应用程序和视频播放器，”伊顿说. 观众可以观看现场直播或点播, 快速识别视频片段中的客人, 阅读更多关于每个人的信息(请看演示).

当提到“机器学习”和“人工智能”时，人们想到的可能是图像识别, 但是这里讨论的下一个项目使用这种技术来改善用户体验.

自定义目录导航

艺术品是影响消费者决定看什么内容的主要因素, 至少Netflix是这么发现的. 根据该公司的一篇博客文章在美国，82%的人选择观看内容是由内容缩略图驱动的. 基于这个前提，Accedo花了4个月的时间与iTV和

AWS到A/B测试观众想要看到的图像. 总体结果是通过生成自定义缩略图来提高用户粘性.

“消费者根据情感选择视频资产，我们知道用户平均花费1美元.Accedo产品高级副总裁Fredrik Andersson说:“8秒来评估一个缩略图. “(我们也知道)有太多的选择，有时你基本上会放弃. 通过使用人工智能生成相关缩略图，你可以确保吸引用户的最佳机会，而不是仅仅抛出数百个随机美术作品，并希望其中一个能够吸引用户.

Accedo使用人工智能来确定哪些类型的缩略图会引起观众的共鸣. 该公司发现，面部表情丰富的图片效果特别好, 反派形象也是如此.

“使用人工智能的原因是，我们可以为不同的用户群体生成不同的图像/缩略图，从而产生更高的用户粘性,安德森说。. “具体的用例是，你和你的朋友可能认为你在为视频服务提供商浏览相同的菜单，但实际上, 它是高度定制的，以满足您的兴趣.”

所以，什么能引起人们的共鸣? “具有面部表情的图像能够传达标题的基调，这对于吸引人们观看视频来说效果特别好. 我们更喜欢反派, 所以使用可见, 可识别的角色(尤其是两极分化的角色)会带来更多粘性. We don’t like groups; images containing more than 3 characters are less engaging,他说.

在这个项目中, AWS处理元数据来识别相关图像，以及搜索情绪或特定的人, 然后生成多个图像或小剪辑. 然后，AWS针对不同的细分市场策划内容. Accedo使用焦点小组测试来证实这些假设.

“任何类型的服务都可以使用这项技术, 但拥有大量目录的SVOD/TVOD服务获益最大,安德森说。. “我们已经证实存在地区口味差异. 我认为这很好地提醒了我们为什么AI如此强大——在以前的环境中，我们不可能以可扩展的方式为所有客户提供差异化的缩略图.”

从这些面向客户的项目开始, 接下来的几个用例进一步回到工作流中.

内容交付

媒体供应链公司SDVI正在使用这些技术为Discovery等客户优化内容质量控制和合规性, 哪些公司需要将内容本地化以面向全球发行. 之前, it took 2 hours to process a 1-hour show; now it can be done in 10 minutes, 西蒙·埃尔德里奇说, 首席产品官.

“每个地区都有自己的规则，规定什么可以展示，什么不可以展示, 所以我们将一些大型云供应商的人工智能服务整合到我们提供的供应链平台中,埃尔德里奇说. “Discovery正在使用它来协助手动内容遵从流程，以真正指导操作人员应该查看的位置.”

SDVI的平台使用AWS和谷歌云平台的服务进行对象检测, 转录, 还有一个成人内容过滤算法. “他们得到的基本上是很多基于时间的元数据，这些元数据将表明, 这时有人在抽烟, 或者暴力或裸体,埃尔德里奇说. “然后，我们将这些基于时间的元数据提供给Adobe Premiere中的运营商.“而不是观看整个内容, 编辑器只能看到基于每个特定区域的模板的标记内容. “So it’s not replacing humans; it’s guiding where the humans spend their time.”

SDVI正在使用人工智能让当地电视台运营商更容易地确定哪些内容与他们的地理区域相关并获得批准.

“公共云供应商模式并不一定需要培训，”埃尔德里奇说. “他们的模型基本上已经准备好了, 随着时间的推移，它们确实会变得更好，因为它们处理的内容越多, 他们能探测到的东西就越多. 如果你用谷歌的云视频智能API, 他们实际上是在训练YouTube.”

“[Discovery]改变了他们的内容接收流程，以便他们的生产者网络中的所有内容都直接交付到AWS的S3桶中,埃尔德里奇说. 所有内容都被验证为正确的格式，并且有一个自动的接受或拒绝过程. “他们接下来要做的是同时做几件事. 其中之一是它们创建了一个低分辨率的代理- a2.5mb的文件，他们将高风险的内容通过几个自动质量控制(QC)过程进行处理. 然后我们使用代理并通过AWS rerecognition的任意组合运行它, 亚马逊转录, 或者谷歌视频云智能.”

Discovery之前的容量是固定的，并且因为不能足够快地本地化内容而拒绝了商业交易. “能够知道系统(现在)可以扩展，并且他们可以预测实际处理内容需要多长时间——这是创造新收入的巨大机会,埃尔德里奇说.