2017-05-19

2017 Google I/O Keynote: 更多人工智能,更多第三方整合

(本篇全部图片来自  Google I/O Keynote 2017 视频截图)

两天前,今年的 Google I/O Keynote 在美国加州山景城的海岸线露天大剧场举行。这是一年一度全球开发者的节日。大约有 7000 名观众在现场共襄盛举。每年在大会正式开始前,现场都会播放多媒体内容以娱乐提前入场的观众。前年是投影在三面墙壁上的复古乒乓游戏,去年是两位艺术家为大家演奏大地筝,今年则是大屏幕上虚拟泡泡和现场的实体泡泡一起飞舞。全球各地的观众也可以参与线上的泡泡游戏,大屏幕上循环滚动各地观众在游戏中生成的泡泡数目。山景城当时有 6000 多泡泡,记得伦敦有 300 多。当时香港已过午夜,仍然有 123 个活泼的泡泡参与这场盛会:



今年的开场音乐继承了去年节奏舒缓,旋律柔和连续,编曲空灵的风格,带给人们舒适惬意的感觉。山景城阳光强烈。烈日下暴晒两个多小时后,去年有许多与会者抱怨皮肤晒伤。于是今年 Google 为每一位现场观众准备了防晒霜。

大会主题演讲终于开始,行政总裁 Sundar Pichai 率先登台,强调 Google 始终不忘自己的使命是组织整理全世界的信息。为达成这个使命,他们的产品和服务重视规模。他自豪宣布, Google 的云储存服务 Google Drive 活跃用户已达 8 亿多,安卓用户已超过 20 亿。



从移动应用优先 (Mobile First)到人工智能优先(AI First)


紧接着 Pichai 就提出了 Google 的新战略:从移动优先到人工智能优先。

已经深度整合了人工智能的 Google 各项产品和服务包括搜索,地图,图片搜索,广告匹配,电邮自动回复,打字提示,视频节目推荐,图片的明暗自动调整,视频通讯的画质与信道质量的自动匹配,等等等等。



Google 也正致力于使人机互动的方式更自然。除了使用键盘和遥控器,还提供更多别的互动编程接口,比如声控,动作控等等。

得益于 Google 优秀的深度学习算法和海量的训练数据,Google 的语音识别准确率进一步提高,并且在嘈杂的环境下也能力排噪音善解人意。而 Google 的图像识别能力也不遑多让,错误率已经低于人眼识别。


强大的图像内容识别能力在许多场景都能转化为很实用的功能。比如照片的自动降噪,以及其他更高级更复杂的图像后期处理。比如,下面这张照片,摄影师本来站在一张铁丝网后面,铁丝网在照片上显得十分碍眼。Google 的人工智能可以自动识别并消除类似的障碍物。其实,很多图像编辑软件都提供自动降噪的功能,障碍物消除通过人工编辑也是早就可以做到,但是 Google 的人工智能使这一切变得简单易行。



基于强大的图像自动识别和处理能力,Google 向广大开发者提出一个新的动议 Google Lens。去年推出的谷歌助理 Google Assistant 整合了 Google Lens 以后,变得更为聪明能干。给谷歌助理看一张图片,她现在能够即时通报花卉种类,或者告诉你图片上的餐厅的信息,或者认出 Wifi 的连接信息以后自动帮你把手机接入网络。这一切她做得行云流水一气呵成,不需要你作出任何复杂的操作。



高度复杂的人工智能系统通常由两大模块组成:训练模块和推理模块。所谓的训练模块,其任务就是通过算法从海量数据中整理或者归纳出许多变量之间错综复杂的关系,用这些变量及其关系参数建立数学模型。而推理模块则是用训练模块中训练出来的数学模型来对新的数据进行推理或者归类。



通常,训练精准的推测模型需要巨大的算力。Google 为此专门设计制造了张量处理单元(Tensor Processing Unit,TPU)。这种计算单元正对人工智能算法作出硬件上的优化,据说比当今主流的 CPU 或者 GPU 要快 15 到 30 倍。Google 又在他们庞大的数据中心里部署了新的 TPU,以支持算力超级强大的人工智能云。任何个人或者企业可以借助 Google 的人工智能云以实施各种各样的智能应用。



为了更好执行“人工智能先行” 战略,Google 把旗下有关人工智能的资源聚合到一个新的网站 google.ai。这个网站聚焦三个领域:算法研究,开发工具和基础设施,以及应用场景。人工智能的有些算法十分高深,只有极少数的算法科学家有能力设计调试。为了推广这些算法,Google 的科学家们设计出了有能力设计算法的算法,称为 AutoML,在一定程度上降低开发者们设计高性能机器学习算法的难度。



至于开发工具与基础设施,除了上面说道的张量处理单元 TPU,Google 还有在去年推出了一个开源的机器学习平台“张量流”(TensorFlow)。开发者们可以用张量流来方便地编写人工智能程序。大会上介绍了一位来自芝加哥的中学生,借助 TensorFlow 了解机器学习,立志用图像识别技术对抗乳腺癌,帮助病患。我自己有试过 TensorFlow, 非常好用的基于 Python 的编程接口,许多常用模型的调用非常简单,的确是人工智能研究以及应用人员的得力工具。

至于应用场景,今年 Google 聚焦人工智能在医学以及生物学领域的应用:数字病理学,更为精准高效的 DNA 序列侦测,等等。

Pichai 提纲挈领的简介过后,就由 Google 各产品部门的负责人来介绍人工智能在 Google 产品中带来的新特性。今年的 I/O 重点介绍的有以下几个产品:


谷歌助理 Google Assistant

谷歌助理在去年的  I/O 上正式发布,面世以后以其丰富的功能和简单易用的特性广获好评。我自己就常常通过谷歌助理查阅各种信息,并且订阅了天气预报,每日一诗,每日一个 fun fact,每日格言等等,深感方便实用。

一年以来,Google 在这个产品中深度整合了更多的人工智能。今年在大会上强调的三个特性为:善于对话,处处可用, 以及随时待命。

现在用户可以通过语音对话对谷歌助理下达更为多样且复杂的指令。而且,自带谷歌助理的 Google Home 可以识别家庭中多至六人的不同声音,服务更为个性化。而且,唤醒谷歌助理不一定要用语音了,文字命令也可以。这在公共场合比较实用。除此之外,谷歌助理现在也可以在苹果手机上安装使用。嫌 Siri 不够聪明的同学可以享受谷歌助理的贴心服务了!

为了让更多的消费者可以享受到高级人工智能给日常生活带来的便利,谷歌推出 Google Assistant SDK 并且大力与消费电子产品厂商建立合作关系,下面图中的名厂将会推出一系列内建谷歌助理的智能电子产品:


同学们以后将会在电子产品上常常见到这个图标:



最初,谷歌助理只懂英语,现在她可以懂得巴西葡萄牙语、西班牙语、日语、德语、法语。年底还会懂得韩语、西班牙语和意大利语。




与谷歌共舞 Actions on Google


今年  I/O 的一个重点话题是第三方厂商整合。这样,更多第三方厂商的现有的业务可以通过谷歌而接触到消费者。比如,你可以告诉谷歌助理说:人家现在想看彭博的财经新闻哦~ 谷歌助理就会自动在你的移动设备或者智能电视上播放彭博新闻。

现在开始 Actions on Google 还支持第三方交易整合,即 transaction。已经习惯在网上购物或者开网店的中国人应该对这种应用场景不会陌生。第三方商家现在可以很容易地在 Google 上直接收钱做生意——而不只是做做广告而已——,而谷歌平台为你提供简单易用的各种网店功能,而谷歌的用户通过谷歌助理可以行云流水一气呵成地在你的网店花钱,甚至用语音都可以下单。


如此,谷歌在电商领域进一步完善了她的布局。电商平台大家见过很多。国外的亚马逊,ebay,中国国内有淘宝等。但是就我在今年 I/O 上看到的 “与谷歌共舞” 的演示而言,谷歌平台上的购物流程是最为流畅的。这可能会吸引更多消费者通过谷歌助理购物花钱。


谷歌管家 Google Home


谷歌管家自去年推出以来,努力与智能家电厂商合纵联横,如今已有 70 多个合作伙伴:


在将来,只要你的智能家电懂得与谷歌管家沟通,你就可以通过语音或者其他你熟悉的操作方式,随时随地控制你的智能家电。比如,你已经躺在床上看书,但是忽然想起楼下厨房的灯还没有关,你就可以告诉谷歌管家:关掉厨房里的灯。甚至你人在冰岛度假,都可以通过谷歌管家每晚不定时打开电视,假装家里有人的样子,以防盗贼上门。

除此之外,谷歌管家还新增了电话呼叫功能。你可以通过谷歌管家给别人打电话。目前在美国,加拿大和英国,通过谷歌管家打电话是免费的。




谷歌云端相册 Google Photo


谷歌的云端相册在两年前推出后,因为她易用的图片自动编辑以及强大的自动检索,自动内容识别功能而迅速流行。今年谷歌相册新增三大功能:分享对象提示,自动分享,以及相册制作并印刷。



谷歌相册可以自动识别照片上的人物和场景,并结合你的分享习惯,作出分享提示。此所谓“分享对象提示”。

有些照片,你总是分享给某人,比如你的伴侣,父母,孩子等人。为了省去你每次手动分享的麻烦,谷歌相册现在提供新的设定:某些照片总是分享给某人。

最后一个新增功能,就是为了省去你设计制作相册的麻烦。谷歌的人工智能会试图选出一组照片里最好的几张,自动排版,并整合打印服务,这样你可以在几分钟内完成实体相册的编辑,然后等着第三方图片社打印寄送就是了。不过我个人对这个功能尚有些许疑问:摄影鉴赏其实是一门复杂学问,并不能仅仅凭借一些“对焦是否准确?” “曝光是否准确?” 等等算法易于分辨的技术指标。谷歌的人工智能用什么标准或者理论定义一张照片是否够“好”,怎样判断一副摄影作品的艺术价值或者社会意义?假如我要为我拍摄的照片制作实体相册,我会亲自挑选照片,亲自后期处理每一张照片,亲自排版,亲自撰写说明。


YouTube 的打赏功能 Super Chat


今年 YouTube 团队有介绍一些十分花哨但是个人觉得可有可无的新功能。比如普通电视机上的 360 度电视等等。 但是有一个新功能不可不说。



目前为止,辛辛苦苦制作内容,并在 YouTube 上发布的视频作者,只能从观众的广告点击获得收入。而这种收入其实微乎其微,不足以支撑内容制作者的日常开销。这是很令优秀的内容制作者心寒的事。通过新的 Super Chat 功能,观众就可以直接向视频作者派钱打赏,而该位施主的 super chat 会得到字体加大加粗并且背景色彩突出的待遇,视频作者看到该条留言的机会就会大大增加。希望这个功能可以令视频作者的收入大大增加。


安卓设备和安卓系统软件 Android

今年,安卓手表再添几位时尚界的合作伙伴,包括意大利阿玛尼,德国 Montblanc 和 Hugo Boss 等等。消费者可以期待外观更为漂亮的安卓手表。



安卓系统软件新版本 Android O 则继续强调更为流畅贴心的用户体验,更为安全、节能的底层技术以及更强大的开发工具。

移动设备的屏幕通常很小,假如用户需要同时照看两个以上的程序,屏幕切割就会使内容太小看不清楚。Android 的系统软件团队想来想去,还是觉得浮动画中画可能比较好用一些。 大家可以期待在心的 Android O 上使用浮动画中画。

“智慧选定文字” 是一个非常好用的新特性。大家常常会遇到需要从电邮或者网页上复制一部分文字到另一个程序的情况。在小屏幕上选定文字并不特别简单。指尖常常必须跳芭蕾,还踩不到正确的点。新的“智慧选定文字”利用了 Google 人工智能中的文字语义识别及归类能力,使得在小屏幕上选定文字简单得多。我对这个功能非常期待!

现在开始,安卓支持 Kotlin 作为应用程序开发语言。Kotlin 程序在现有的 Java 虚拟机上运行,其语法比安卓上传统的开发语言 Java 要紧凑得多。安卓支持 Kotlin 的声明引发了在场开发者的欢呼。

另外,安卓还为硬件性能较弱的移动设备专门设计了代号为 Android Go 的操作系统。Android Go 更为节能,且提供一目了然的数据流量监测,以保证用户不会使用过多的流量。一个值得一提的 Android Go 特性是,她允许用户在手机上下载 YouTube 的视频,以便在没有网络时观看。 下载前还会确切告诉用户,某个视频的文件尺寸是多少。 因为出差的旅途中常常没有网络,这令我对这个功能十分向往。


虚拟现实与增强现实


谷歌在去年推出过一款简单的虚拟现实眼镜,那款眼镜需要借助手机屏幕。今年,谷歌已经与 HTC 和联想达成协议,合作开发全功能的头戴式虚拟眼镜,不再需要塞入手机。 开发这款眼镜的初衷是想为用户提供更完美的浸入式虚拟现实体验。



今年谷歌的虚拟/增强现实系统推出视觉定位服务(Visual Positioning Service,VPS)。 利用这个服务,可以实现厘米级精准度的室内导航。这种导航在诸如大型超市,大型建材市场,大型展厅内十分有用。大家都有在超市里找不到想买物品的经历,室内导航系统可以帮到我们。

增强现实系统则已经使用在不少教育场景。谷歌今年有专门推出 Google Expeditions 项目带着学生们上天入地,或者穿越历史。

最后再提一下 Keynote 中讲到的工作搜索服务 Google for Jobs。谷歌有联合了许多工作搜索服务机构,比如 monster 等等,将工作搜索功能整合到 Google 上。谷歌的工作搜索引擎当然也有人工智能技术的支持,不光简单比对工作地点、工作行业、期望的薪水等等简单指标,而且能对招工描述进行语义分析,对模糊的技能或者知识要求进行比较精准的归类,并对找工作者的自身能力作出精准匹配。这项服务今年晚些时候会在美国推出,假以时日会在世界各地推广。

我在想,工作匹配之后,谷歌还会对准什么?帮人们用算法找伴侣?人工智能正在给我们带来更多便利,还是渐渐使我们失去对自己负责的能力?又或者,算法为我们作出的选择,到最后其实也没有那么可怕。但是无论如何,我对这个由越来越多算法构筑的新世界有许多的憧憬,也有一点点的不安。

Google I/O 明年山景城再见。





谢谢阅读, 下次再见。

No comments:

Post a Comment