关灯
护眼
字体:
《终极手机》关于SIRI
上一章 目录 下一章

Siri是苹果公司在其产品iphone4S上应用的一项语音控制功能。Siri可以令iPhone4S变身为一台智能化机器人,利用Siri用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用。还能够不断学习新的声音和语调,提供对话式的应答。siri读音siri,读音为/siri./,更为体现其功能,汉语化,可以将其读为“say瑞”,寓意“说出吉祥与福瑞”。技术来源Siri技术来源于美国国防部高级研究规划局所公布的CALO计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件Siri虚拟个人助理。功能

Siri能做的,听起来相当不一般,使用者可透过声控、文字输入的方式,来搜寻餐厅、电影院等生活信息,同时也可以直接收看各项相关评论,甚至是直接订位、订票;另外其适地性(locationbased)服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。

Siri功能升级(4张)

不过其最大的特色,则是人机的互动方面,不仅有十分生动的对话接口,其针对用户询问所给予的回答,也不至于答非所问,有时候更是让人有种心有灵犀的惊喜,例如使用者如果在说出、输入的内容包括了『drunk』、『home』这些字(甚至不需要符合语法,相当人性化...),Siri则会判断为喝醉酒

、要回家,并自动建议是否要帮忙叫出租车。

不过唯一可惜的是,该软件目前仅支持英语,另外相关信息也仅限于美国本土,但整个软件的概念,可以说是相当的有趣,而且还是免费的。[1]

相关支持:Siri语音系统目前支持英语、法语和德语,不过由于其仍处于测试阶段,对中文的支持可能并不甚理想,未来会加入更多语言支持。

Siri技术和语音控制的区别

说到语音控制识别技术,就不得不提Android系统的VoiceActions,这也是一项伟大的语音控制技术,并已经被许多Android用户所熟知和使用。但是它和Siri完全不是一个级别的产品。

VoiceActions提供了非常坚实可靠的声音识别引擎,它的高识别度令人称奇。不过,和过去的所有语音命令系统一样,它要求你说的话要具备严格的语法结构和格式,否则系统将无法识别。

然而Siri和VoiceActions就有本质的不同了。你可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,Siri会结合上下文结构去理解,它还会从人类语言史的角度出发,利用人工智能系统去分析,并在绝大多数情况下领会你的意思。

而更加人性化的特点是,一旦你开始和Siri进入一段对话,它甚至能理解许多含义模糊或者引申的语义。而VoiceActions做不到这样的事情,因为它只是一个声控命令软件,而并非人工智能。

语音识别不是革命性的。多年前,IBM的语音识别软件在PC上就有不错的识别率了。

基于语音识别,简单的智能分析和系统功能的调用也不算革命性的。无论是Google的VoiceAction,还是Vlingo等独立的公司,做的都不错。

但是,从目前流出的视频看,Siri并非这些已知技术的简单组合。

Siri的智能程度更高

Vlingo中你说

“TextMike,MessagesHowareyou.”

。利用关键字的匹配就可以完成很多事情了。Text是命令,Messages是关键字。匹配上这两个词,就知道给谁,发送什么内容了。\\

而Siri理解上下文。你问了北京的天气,再说:“HowaboutShanghai?”

,他知道你指的是天气。

一个更惊人的例子出现在Siri被苹果并购前的演示里。你说“IlikearomanticplaceforItalianfoodnearmyoffice”。

Siri回答:”IamlookingforaItalianrestaurantswhichreviewssayare

romanticnearyourwokinSanJose…“

这个回答说明Siri听懂了romantic是个形容词。并且知道nearmyoffice是个地方。并且,找到了以前存储的用户的工作地点。并且,他知道怎么判断一个餐馆是否romantic!(去搜索reviews)

把同样的话对着Android的VoiceAction或者Vlingo说一遍,你就知道Siri具有超越现有Apps的智能。

Siri和系统的整合更加紧密

Siri在并购前的版本整合了大量网络服务的APIs。比如OpenTable,Tickets,TaxiMagic等等。

而Siri被苹果收购了之后,

他已经被整合为系统的一部分了。

在iOS5的Siri视频中,出现新短消息之后,交互由Siri发起。说明他已经常驻系统后台并且可以接管重要的系统功能了。(除了短消息还有天气,时钟,Maps等等)[2]

Siri支持的语言

Siri目前支持三种语言:英文,法文,德文。其中英文分美式,英式,澳大利亚式。相关技术

Siri所用到的技术,很多人会回答,人工智能以及云计算,的确,总体来说,是这两样技术,不过,这种概述感觉几乎没有任何意义,何不直接说“计算技术”(注意,不是计算机技术)呢。因此,在本文,我将介绍下我了解Siri可能采用的技术(由于有个人猜测,不一定准确)。

首先,在前端方面,即面向用户,和用户交互(UserInterface,UI)的技术,主要是语音识别以及语音合成技术。语音识别技术是把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到所谓的“云计算”技术。而语音合成则是把返回的文字结果转化成语音输出,这个技术理论上本地就能完成,但不知道Siri是否如此,当然,在云端完成也并无不可,在当前无线带宽下,那点语音流量根本不算什么。[3]

其次,后台技术,这些其实才是真正的大角色。这些技术的目的就是处理用户的请求,并返回最匹配的结果,这些请求类型很多,千奇百怪,要处理好并不简单。基本的结构猜测可能是分析用户的输入(已经通过语音转化),根据输入类型,分别采用合适的技术(合适的技术后台)进行处理。这些合适的后台技术包括,①以Google为代表的网页搜索技术;②以WolframAlpha为代表的知识搜索技术(或者知识计算技术);③以Wikipedia为代表的知识库(和WolframAlpha不同的是,这些知识来自人类的手工编辑)技术(包括其他百科,如电影百科等);④以Yelp为代表的问答以及推荐技术。

网页搜索技术[3]

这个我想没必要介绍,大家天天用的Google就是这个技术的代表。而国内的话,则以百度为代表。

知识计算(搜索)技术(Computational

Knowledge)[3]

这个技术的代表是Wolfram|Alpha。

不同于搜索互联网信息,Wolfram|Alpha将从公众的(包括公开的网页等)和获得授权的资源中,发掘、建立起一个异常庞大的经过组织的数据库,再利用高级的自然语言算法进行处理,最终构造出一个类似于谷歌搜索的工具。

和网页搜索技术不同的是,在这个系统中,得到的答案结构化程度很高,比如搜索China,能得到和中国相关的各种参数以及资料,并以接近表格的方式呈现。Wolfram|Alpha也能理解部分自然语言,比如输出Howoldareyou,其会回答Wolfram|Alpha的年龄。想测试这项技术的请移步Wolfram|Alpha。

这个技术国内做的应该有,但还没有产品,也许百度的框计算算是半个。所以机会大大的有。

知识库技术[3]

这名字是我自己起的,不知道有没有贻笑大方……这个技术的代表是维基百科,以及各种专门的百科网站。相比于网页搜索技术,基本以一个词条或者主题为单位,因此得到的数据价值高,知识量大,并且结构化程度好。相比于知识计算技术,这些技术需要人的参与,这有利也有弊,利就是,毕竟暂时人比机器聪明,编辑出来的知识更丰富,准确;弊就是,人力有限,即使像维基那样,发动社区的力量,也不能产生足够的知识,而知识计算,理论上,只需要算法够牛叉,是可以产生“无限”的知识的。

另外,写到这里,我想起Yahoo和Google的故事,当年,Yahoo是搜索老大,就像现在的Wekipedia在知识搜索领域一样,而Google是小弟,就像Wolfram|Alpha在知识搜索领域一样。但后来,却反过来了,Googe成了网页搜索老大,Yahoo成了小弟,原因就是Google相信算法的结果,把所有事都交给算法做,而Yahoo,很多索引都是人工编辑的。我想,也许有一天,Wekipedia和Wolfram|Alpha也会出现这样的情况。

问答推荐技术

其实这不能称为一个技术,应该属于知识库的技术。不同的是,这个技术针对的是一些生活信息,这些信息的地域化程度很高,典型代表为Yelp。由于这东西比较简单,就不仔细介绍了。

其实在国内,这方面的网站也有,那就是大众点评网这些。相关信息

在iphone4S的苹果发布会中苹果称SiriVoice原Siri应用界面(现已下架)[4]Assistant

将会成为iOS的一部分。Siri原是一个第三方应用,是苹果在去年花费2亿美元购买所得的。虽然在收购后很长的一段时间里我们仍能在AppStore上看到这一应用的身影,不过它将近有一年多的时间没有更新。而直到今天苹果在发布会上介绍Siri这一功能后,Siri这一应用才正式下架。

大家可能没有注意到的是,Siri下架是精心安排的:Siri在苹果大会上第一次被提及的时候,这一应用还能在AppStore上轻松的找到。但在大会结束后,这一应用就再也找不着了。看起来Siri这一应用是在大会结束的同时下架的。

为什么要下架呢?这是可能是因为苹果担心第三方应用若能够实现iPhone4S的功能的话,会影响现有的iPhone用户购买新iPhone的**,从而影响销量。

[5]北京时间2011年10月15日消息,据国外媒体报道,苹果官网Siri常见问题(FAQ)页面称,苹果语音识别个人助理功能Siri将在明年支持中文、日文、韩文、意大利文和西班牙文等更多语言。

目前Siri支持英文、法文和德文的语音识别,其中英文部分只支持美国、英国和澳大利亚的口音,对于其他国家和地区的英语口音在识别上还存在困难。

此外,被苹果定义为仍处在“测试阶段”的Siri目前支持在美国进行地图和本地搜索,不过苹果官网的SiriFAQ页面也承诺,相关功能在2012年将拓展到其他国家。siri十大功用

1.Siri变身闹钟

这应该是用户最容易想到的Siri的“正经”用法了。按住“Home”键,告诉Siri,“早上7点15的时候叫醒我”想打会儿小盹,就说“40分钟后叫醒我”。只要准确地报上时间,Siri将是最好用的闹钟。

2.用Siri寻找咖啡厅

喝咖啡是很多上班族的习惯,一杯咖啡能够迅速地将人调整成工作状态。出门在外的时候,想找个咖啡厅?利用Siri就可以搞定这一切。告诉Siri,寻找离当前位置最近的咖啡厅即可。如果你没有附加更多的要求,Siri将反馈给还算不错的答案,很可能是告诉你最近的星巴克在哪。如果星巴克还不能满足你的要求,还是用更专业的应用Yelp,它会给你更详细的答案。

3.想去哪,Siri告诉你

查找出行路线的过程中往往要输入不少文字。想省事的话,还是用Siri完成这一切。报上要去的地点,Siri会调用Google地图来寻找出行路线的方案。从测试过的这种用法的用户的反馈上看,Siri目前还没有出过什么差错,就像GPS那样好使。

4.用Siri播放随机音乐

如果你厌倦了固定顺序的音乐播放列表,可以试着用Siri播放随机音乐。首先,你需要将喜欢的音乐导入到一个名为“最爱”的播放列表中。开始听音乐的时候,告诉Siri”放皇后乐队的歌曲”。紧接着,Siri就会在“最爱”列表中匹配皇后乐队的歌曲并将其播放。这样就实现了随机播放音乐的功能。

5.发送短信,Siri代劳

还在边走路边发短信?行路不安全不说,发短信还费劲,以后用Siri代劳。走路的时候,将iPhone放在耳边,告诉Siri“用短信告诉她,我将晚点到家”。不用匆忙,告诉Siri你想表达的内容,即可轻轻松松地发送短信。

6.天气预报,Siri知道

这也是Siri十分擅长的一项功能。关于气象信息的问题,Siri都能正确理解。想要知道明天的天气怎样,问问Siri就知道了。

7.用Siri提醒日程安排

既然能把Siri当闹钟用,你当然可以用它来提醒日程安排。很多人都有使用Google日历的习惯,用Google日历安排自己的各项日程。生活中的一些需要提醒的小事,完全没有必要一项项地加到Google日历中去,用Siri就可以搞定这个问题。比如说,“十点钟的时候,提醒我去刷牙”。

8.用Siri提醒地点

Siri提醒地点的功能目前还不是很完善。除了“家”或“上班处”,Siri对于一些位置称呼的理解能力不佳。但是,Siri对“这里”的理解十分准确,即当前的GPS坐标位置。所以你可以这样用Siri的提醒功能,途径一家不错的小店时,可以将它的位置标记为“这里”并设置好提醒,以便日后有时间时再次光顾。

9.Siri为你答疑解惑

珠穆朗玛峰现在多高?美国去年的GDP是多少?回答不上来的话,无需Google,张嘴问问Siri。Siri本身是不知道这些问题的答案的,它会从“知识问答引擎”WolframAlpha中寻找答案。所有的回答都会以自然语言的形式呈现。这也是Siri被认为将对Google重要威胁的原因。当然,Siri在相当长的一段时间肯定不能取代Google,但对Google的威胁将是长远的。当Siri足够智能的时候,人们用它取代Google并不是没有可能。

10.用Siri发推

如果你是Twitter重度用户,怎么能错过这个用法呢?不过在使用Siri发推前,还得做一些必要的设置。


上一章 目录 下一章

随机推荐