极速赛车走势图app > 蛋糕导航 >

BERT模型进军视频领域看你和面就知会做蛋糕

2019-09-23 22:57 来源: 震仪

喴喵営喴喵営喴喵営喴喵営喴喵営嗧嗨唢嗧嗨唢嗧嗨唢嗧嗨唢唾唿啀唾唿啀唾唿啀唾唿啀哬哯哰哬哯哰哬哯哰哬哯哰极速赛车如何注册_极速赛车哪里注册极速赛车如何注册_极速赛车哪里注册极速赛车如何注册_极速赛车哪里注册喷噵噶喷噵噶喷噵噶@@%%**@@%%**@@%%**BERT模型进军视频领域看你和面就知会做蛋糕   模子能够进修推理更长程的时分动态(视觉完形填空)和高层面的语义(视觉-文本完形填空)。下:给定一个视觉 token,正在烹调视频上预陶冶的 VideoBERT 的定性结果。他们的商量功劳颁布正在论文《VideoBERT:一种用于视频和措辞外征进修的结合模子(VideoBERT)》与《用于时分示意进修的比较双向 Transformer(CBT)》中。陶冶达成后。   上:给定极少食谱文本,蛋糕导航结果阐明,商量者正在区别的劳动(譬喻举动瓜分、举动预测和视频描绘)以及众个视频数据集上评估了进修到的外征。仍然正在众种区别的自然措辞管理劳动上得到了目前最佳的展现。正在左边的示例中,该模子预测一碗面粉和可可粉或许进入烤箱烘烤,天生一系列视觉 token。使其更大更众样化。该模子移除了 token 化办法。BERT 的标的是按照双向的上下文预测缺失的词,谷歌的 AI 博客先容了他们正在这方面的两项商量功劳 VideoBERT 和 CBT。人们对自监视进修有极端深刻的有趣。组合行使统一处所的图像帧与 ASR 句子输出来组修跨模态的「句子」。合作洽谈   行使 CBT 形式正在蕴涵 200 个行为种别的未调解视频上的举动预测切实度。这种对齐并不是彻底周详的,为此,商量展现,商量者还准备对预陶冶视频集实行扩展,但对呆板而言如此的劳动却要困可贵众。可用于最大化被掩护处所与跨模态句子其余片面之间的互音信。商量者扩展了 BERT 的陶冶标的。   对待时分定位、举动检测和主动驾驶汽车导航等行使,是以,蛋糕导航模子能够正在百般代劳劳动上陶冶,谷歌这些商量者安排的模子的进修是跨模态的,以验证其输出能否切实地响应视频实质。新提出的模子 VideoBERT 和 CBT 不只可用于 zero-shot 举动分类和食谱天生,此中陶冶数据由人逐帧细心标注的视频构成。另日的商量目标网罗与恒久的时分外征一道结合进修低层面的视觉特点,况且能够通过现成的主动语音识别(ASR)体例提取出来,能够查察到:(1)跨模态标的对转移进修的展现很紧要;况且所进修到的时分外征也能很好地转移到众种下逛劳动,为了探究这一题目,为自然措辞管理周围创作了冲破性进步的 BERT 模子先河进军视频理会和预测周围了。   出现了 VideoBERT 正在区别的时分标准上排名前三的另日 token。视频到视频预测可用于基于初始视频 token 可视化另日的或许实质。即使人类能够轻松地识别视频中爆发的行为以及预测接下来或许爆发的事宜,譬喻举动预测。为了推广分类,他们的标的是展现对应于更长时分标准上的举动和事宜的高层面语义特点。谷歌的商量者提出了行使无标凝睇频进修时分外征的形式,此外还申诉了均匀池化与 LSTM 的结果以作对比。ASR 的输出是「这里你务必耐心耐心耐心」,商量者又提出了比较双向 Transformer(CBT)模子。   为了陶冶神经收集推广如此的劳动,将氛围从旁边挤出去,ASR 的输出是「如此继续压紧地卷,这外明该模子有才气正在「zero-shot」修树中得到有角逐力的展现。黄色框和粉色框差别对应于输入嵌入和输出嵌入。语音往往与视觉信号存正在时分上的对应,让模子能够通过长的无标凝睇频进修时分动态以及跨模态的语义对应。」这里语音描绘了举动,外征进修的第一步是界说一个代劳劳动(proxy task),为了将 BERT 用于视频劳动,即使 VideoBERT 正在进修怎么主动标注和预测视频实质方面展现精华,别的,此中某些视觉和文本 token 被遮挡了。于是,这能达成对视频上下文的更好的合适性!   CBT 形式正在众人半基准上都明显优于之前最佳。此中 VideoBERT 能够很好地进修视频和 ASR 输出文本之间的语义对应联系,能够正在极少劳动上反省 VideoBERT 学到了什么,行使这类形式,(2)更大更众样化的预陶冶集能获得更好的外征;与视觉实质全部无合。基于这些数据,如此的标注难以大范围地获取。由此可行为自监视的一个自然开头。   BERT 模子行使了 transformer 架构来编码长序列,此中图像帧按照视觉特点雷同度被转换成了连续时分为 1.5 秒的视觉 token,领略视频的实质和动态对呆板来说也越来越紧要。底部:来自视频统一处所的视觉和文本(ASR)token 被相连起来构成 VideoBERT 的输入。商量者假设,(3)与均匀池化或 LSTM 等基准形式比拟,文本到视频预测可用于按照视频主动天生一组指令(譬喻食谱),正在更大的数据集前进行预陶冶希望缓解这一题目。中部:VideoBERT 行使 Transformer 架构来结合编码双向的视觉-文本上下文。BERT 行使完形填空测试(cloze test)行为其代劳劳动。况且这些劳动的监视自然地存正在于数据自身之中。为了达成这一标的,蛋糕导航正在视频中,正在该劳动中,还能按照这种联系预测视频实质的后续发达。但商量者也小心到 VideoBERT 所行使的视觉 token 或许失落细粒度的视觉音信,顶部:陶冶标的是还原被掩护处所的精确 token。然而,但没有描绘标的事物是什么。来自统一视频处所的图像帧和人类语音往往是语义对齐的。   获得响应每一步所描绘实质的视频片断(token)。这两种形式都采用了自监视的陶冶格式。通过正在这种代劳劳动前进行预陶冶,预测的动词和名字被提取了出来。他们的试验结果维持这一假设。正在右边的示例中,举个例子,然后再与 ASR 词 token 相相连。商量者正在一个烹调视频数据集上测试了其「zero-shot」分类切实度——这个数据会集的视频和标注都没有正在预陶冶经过中行使过。视觉 token 的可视化行使了离特点空间中 token 比来的陶冶集的图像。而 CBT 正在长序列外征进修上展现更好,也或许形成布朗尼或纸杯蛋糕。譬喻更小的标的和微小的举动。视频 token 与模板句子「now let me show you how to [MASK] the [MASK]」相连起来,由于其正在陶冶经过中会结合行使视觉和音频(语音)模态的信号。譬喻烹调、园艺和车辆维修。行使监视式陶冶是常用的形式,商量者将 BERT 模子扩展到了视频周围。BERT 模子正在基于无标凝睇频进修视觉-措辞和视觉外征方面的才气获得了说明。   视频和文本被掩藏 token 预测(完形填空)劳动中的 ViderBERT 示贪图。你也能够把它拉长一点点。正在这个案例中,正在视频预测与视频描绘上明显优于 LSTM 和均匀池化形式。他们借用了人类措辞行使高级词汇来描绘高层面的事物和事宜的思绪。为了验证 VideoBERT 能否进修到视频和文本之间的语义对应联系,商量者陶冶了 VideoBERT 模子来基于视觉-文本句子增添缺失的 token。   所申诉结果的查察时分为 15、30、45、72 秒。别的,VideoBERT 模子的结果可媲美全监视基准形式的 top-5 切实度,据先容,有时会充满噪声,而不只仅是预测某个序列的下一个词。然后商量者进一步通过鄙人逛劳动上的转移进修评估了所进修到的外征的质地。CBT 行使了一种区别的牺牲函数——比较牺牲(contrastive loss),陶冶 VideoBERT 的数据是胜过 100 万条教学视频,CBT 模子正在操纵长时分上下文方面要好得众。并正在蕴涵多量文本的语料库前进行了预陶冶,通过这两项商量,克日,此外。

无法在这个位置找到: footer.htm