微软
视机而作 [3] :写诗和滑雪,我们都要!
2023-08-08 13:04  

视机而作 [3] :写诗和滑雪,我们都要!

小冰的歌声?好好听!

是唱给颜值最高的人听的好吗?又不是你。

……扎心了

伴随着小冰的歌声,

支队队员们来到了实践的第三站——

微软

前言

微软

始建于1975年,

是一家美国跨国科技公司,

也是世界PC软件开发的先导;

在四十多年的时代变迁中,

始终保持着强大的竞争力:

截至2019年6月20日,

微软在美股市场中排行第一。

(截止2019年5月22日数据)

微软的三个关键词是展望,激发,创新。在数字化浪潮中,重新定义使命,通过以为核心的移动办公、 azure 提供的智能服务、surface系列的硬件等多维度并行发展,助力每一个人的数字化生活。

行程

作为一个有如此强大竞争力的企业,微软各项兼具创新和实用价值的应用层出不穷,让我们一起走近这些“黑科技”,感受高大上的智能生活!

微软人工智能空间

想象你用声音控制整个房间的科幻感~

“小娜小娜,启动Windows ”

“好的,Windows已启动 (〃'▽'〃)”

微软翻译

微软实现了多语言实时会话,解决跨语言交流的问题。

更为方便的是,在用ppt做pre或者演讲时,听众可以扫描二维码,实时将演讲内容翻译成自己熟悉的语言。

寻找相似明星

在娱乐方面,微软推出了拍照查找相似明星的功能。

显然,这个功能十分地真诚,一点儿也不谄媚……(李云轩同学表情隐隐扭曲.jpg)

AI看图唱歌

搜索歌曲什么的简直弱爆了!微软唱作AI根据图片为你唱歌~

什么是呢?

是微软公司开发的一种混合现实头戴式显示器

是可穿戴式计算机设备,它的最大特点是不受外设限制,并且可以捕捉周围环境微软小娜接受不到声音,实时进行三维建模,透明的镜片设计显示出全息影像,让使用者既可以看到虚拟的数字世界,也能够看到周围现实的物理世界,呈现出奇妙的混合现实的景象。

欢迎收看“走进心脏”节目!

对,你没看错!

是 “走进”,不是 “走近”!

智能化管理

微软对其园区进行智能化管理,实时监控使用的电力以及楼内温度等环境指数。同时,对其会议室、食堂也实行电子管理,使员工可以充分利用会议室,也可以错峰吃饭,让食堂不再拥挤。

糖尿病性视网膜病变早期难以发现。微软通过糖尿病性视网膜病变筛查系统可以尽早发现病变,造福病人。

在智能冰箱领域,微软研发了有智能桌面和智能冰箱。桌面显示出所放置的酒的信息,而冰箱中显示出其中食品的数量多少与新鲜与否。神奇的是,这个数量多少并非绝对的数量,而是根据该家庭生活习惯设置的相对数量。例如如果这家人很少吃鸡蛋,那么四五个的数量也相对较多。

参观结束后,微软研究员邱老师、刘老师给我们带来了以Poem 和 AI couch for sports 为主题的两场讲座,并进行了轻松愉快的自由交流~

Poem

常言道:“诗中有画,画中有诗”。从前,才华横溢的大诗人对画吟诗,令人艳羡;如今,我们发票圈时也总为图片文案绞尽脑汁。

怎么办?

来看微软小冰如何看图三步写诗!

01

理解画面

诗人从画面中得到灵感,所谓理解画面,就是识别画面中的物体,并对其作语义分割。

例如上图有:河流、桥、天空、树、自然。

我们再梳理一下关系:湛蓝的天空下,一座桥横跨水面,沿岸佳木葱茏。

这难道不是幼儿园就会的看图说话吗?!这我比AI强啊!难道说,我有写诗的天赋?

02

初步写诗

用数据库训练语言生成模型(也就是所谓“培养语感”),初步写出一些分行的诗句。

03

强化学习

一是从客观角度来讲,不能诗不对画,要让诗和画成pair;

二是从主观角度出发,整首诗要连贯通畅,富有想象力。

经过这样的训练,就可以看图写诗啦!

不 我不会 我不行

最后,进行Turing test,给出两首诗歌,判断一下哪首是人写的?

啧!小冰比我有前途!

对于诗歌来说,一些具体的指标没有太大的意义,所以微软希望从正样本和负样本学习的过程中去强化,使我们生成的诗歌更像正样本。这更多的是一个比较的过程,而非设一个标准去达到它。

在由画生诗的研究中,也遇到了一些困难产品目录,原因在于这项应用落地较困难,不像纯视觉的应用,如人脸识别,既已经达到了相当精准(甚至强于人眼)的水准,又具有商业价值,在火车站、商场、酒店等地运用广泛。实际应用的困难使得这项研究缺少足够的动力。

AI Coach for sports

谈到计算机视觉的应用视机而作 [3] :写诗和滑雪,我们都要!,大家会想到什么?人脸识别帮助找回丢失的儿童,目标的识别、跟踪和检测推进的自动驾驶技术……

你知道吗?计算机视觉还可以用于帮助运动员的训练,这究竟是怎么实现的呢?

AI coach for sports这一应用的背景是平昌冬奥会中国滑雪队训练技术含量与国外相差较大,所以希望通过AI来帮助运动员分析并且纠正动作。

优势

从运动员和教练的角度:

1.提高学习练习效率

2.比赛时可以选择更优的策略

从裁判的角度:

1.提高裁判判定的准确率

2.提高比赛的公平性

实现

01

and

识别出运动员并且用方框框起来并且进行跟踪

02

pose

用热力图表示各个关键点,如果关键点有遮挡,则可根据前后帧估测被遮挡的位置。

03

and

根据该运动的评判标准判断运动员的动作是否合乎规范并且标注出有瑕疵的动作。

04

针对运动员出现的问题提出训练方案,并且可以搜集到对应的标准动作以供参考。

对未来的期望

可以为每个运动员建立档案,记录下所有训练和比赛的数据,记录下每一套动作的难度系数和平均得分发发库Sitemaps,在比赛时可以根据情况对战略做出适当调整,也可以收集竞争对手的数据,根据对手的情况灵活应对。

Q&A

根据图像写诗并非单一的图像处理或者是单一的自然语言处理,更多的是两种模态的融合。在这种多模态融合中会遇到什么困难?

刘老师:

现在多模态融合普遍运用ranking loss的方式来进行match。通过模型的学习约束图片和诗歌所对应的文字在我们生成的的空间上比较接近。现有的方法一般通过pair或者ranking的方式约束,而非像或者回归模型一样得到一个具体的分数。可能会不是那么exactly match 而是相对准确。

对于非现实的人为创作/合成/随机生成的图片,在刚才训练的数据集中是否缺乏这部分数据?

刘老师:

这是有可能的。但它会将这张图片和现实中的图片进行视觉上的match,有时也会产生意想不到的结果。比如合成的月亮被认作是饼或者与眼睛相关,有时是一种联想的惊喜。

那么能否做到真正的联想?

刘老师:

这要看训练的数据集。如果很多诗歌中月亮与眼睛相关,机器中学习到的match的模式可能会让机器把月亮和眼睛联系起来。比如现有的数据集中微软小娜接受不到声音,有一些花比如玫瑰往往会与浪漫联系起来,机器能自动学到这种match。

AI coach对于足球之类的团体运动有什么应用?

邱老师:

团体运动跟滑雪的差别很大,团体运动更偏向于策略,这跟Alpha Go的原理类似,最近几年不仅有Alpha Go的出现,还有可以打Dota战胜人类选手的机器,强化学习在这些方面有很多应用,AI基于对抗学习可能会产生一些人类前所未闻的策略,通过对抗学习产生的AI能力普遍比较强一些。

深度学习是黑箱的,未来的深度学习可能有更多的可解释性吗?

邱老师:

针对这个问题,近些年做的主要工作是可视化,比如对图片进行分类这个应用,在神经网络中哪些层的神经元对于特定的标签的作用的可解释性目前已经做得比较好。但是 对于可解释性也还有很多问题没有解决,网络攻击性就是一个例子。

如何看待IT行业中从业人员的泛深度学习化,唯深度学习化?

邱老师:

对于不是IT行业的人来说,如果希望自己的领域与人工智能相结合,随便调一个model就可能取得显著的创新成果,从这一角度出发可能会产生意想不到的价值。但是如果是从事IT行业的人就最好不要泛深度学习,而是结合具体需求。唯深度学习化的原因是深度学习的效果好,在人工智能的浪潮中,太多人投身于深度学习,真正有兴趣的人可以在其中探索到自己感兴趣的点然后深入研究,等到某一天浪潮退去之后,留下来的一定都是对这个行业极其热爱的人。

感想

Cortana, 以及混合现实(MR),智能家居等等,无不体现着微软展望,激发,创新的主题,微软强大的科技实力和其注重科研的态度是分不开的。

经过微软老师的介绍,我认识到了在科研中,需要善于发现生活中存在的问题或需求。如:AI coach实现了提高滑雪运动员错误动作的提示效率。对于科研成果,我们在思考如何通过科学的方式解决对应的问题的同时,也要善于接受目前方案的不足之处,不断改善。这次参观交流为我将来的科研学习生涯提供了宝贵的经验。

——支队成员:冯启源

THE

END

文案:杨会越、徐源远、冯启源

排版:马文煊

审核:余齐齐

【本文来源于互联网转载,如侵犯您的权益或不适传播,请邮件通知我们删除】

发表评论
0评