当前位置:首页>滚动 > >正文

华为在手机上,率先实现本地端自然语言搜图功能 环球速看

  • 2023-07-04 13:26:45来源:ZAKER科技

机器之心原创

作者:泽南

在手机上用自然语言搜本地相册图片,业界首个移动端多模态语义检索引擎,改变了我们的手机使用体验。


【资料图】

习惯了搜索引擎的我们,在手机上找本地文件的时候往往却束手无策:如今每个人的智能手机上,存上千张照片已是常态,有时候想找某张具体的照片就像大海捞针。

不过在今年华为的 P60 系列发布会上出现了这样一项功能 —— 智慧搜图,基于多模态大模型技术在端侧轻量化应用,手机上第一次有了自然语言图片搜索能力。既然是自然语言,就意味着在找图这件事上可以对手机讲人话了。

如果记不得想找的照片是何时何地拍摄的,只大概记得照片中出现的人或物怎么办?只要把能想到的几个词写到搜索框里,智慧搜索就能给你找到:

或者用语音唤醒小艺用一句话形容想要找的照片内容,比如搜索「去年在长白山滑雪的照片」,就可以直接找到手机里所有那次去玩的照片:再进一步,你也可以搜索「骑自行车的人」、「户外的聚会」等描述性的概念。

相比以前基于标签的照片搜索方式,智慧搜图可以让手机更加「聪明」,响应速度更快,输出结果更高效。结合多模态语义模型技术,华为的智慧搜图在云端对上亿级图文数据进行了预训练,对更通用化的语义拥有了理解能力。更重要的是,模型部署在端侧,搜索计算是在本地完成的,进一步保护隐私安全。

这不禁让人怀疑,华为的手机是不是已经有了破解图形验证码的能力?

手机自然语言搜图,为啥这么难?

以前在很多手机上,你可以通过输入时间、人物、地点等关键词找到想要的特定照片。这是通过 AI 算法识别图片类型和文字,以及地理信息等文件固有标签来实现的,不过一般来说,它们只能识别出有限的类别。

在使用「常规」方法时,你需要通过短标签及其组合进行搜索,例如「风景」、「猫」、「食物」等等,手机支持的短标签数量有限,只能满足你的一小部分意图,大部分时候还是需要手动去相册里翻找,效率很低。

标签都给你打好了,但选择的种类有限。

这并不奇怪,因为在它的后端顶多是简单的图像识别模型,搜索的自由度趋近于无,当然也不能理解人的意图。在使用这样的系统时,有时候结果会变成让我们猜模型到底能识别哪些标签。

要想实现「智慧搜图」,AI 模型需要能同时理解自然语言与图像两种模态的数据,而在手机上,我们还需要使用一系列压缩算法尽可能利用有限的算力,并从工程角度尽量加快推理速度。

具体而言,先不管部署到手机端的困难,要想实现对图片和文本的语义级理解,让手机自己「看懂照片」,我们需要经历一段三步走的过程。

物理世界产生的非结构化数据如图片、语音和文本,在 AI 算法中会被转化为结构化的多维向量,向量标识出关系,检索就是在计算向量之间的距离,通常距离越近相似度就越高。

构建智慧的搜图技术,首先需要训练多模态语义模型,通过对比学习令相同语义的文字与图片距离特别近,不同语义的数据距离特别远,从而把自然语言及图片等多模态数据转换成相同语义空间下的向量;其次,我们需要使用该多模态模型编码被检索的图片;最后当我们输入一句话时,手机就会通过检索系统快速地定位与内容相匹配的图片了。

在整个语义搜图的过程中,首要的挑战是如何更好地将语义相同的图片与文字匹配起来。多模态模型需要编码用户的个人图片,最好是将模型部署在手机端侧,而部署到手机端,就意味着必须对多模态模型进行压缩与加速,这里将需要大量的工程实践。

业界首个手机端多模态语义模型

这个「智慧搜图」的背后,是华为通过轻量化的多模态语义模型,让手机可以高效理解自然语言和照片含义,实现了业界首个可端侧部署的轻量化多模态语义模型。相比传统打标签的方式,它的体验可是要好太多了。我们不再需要猜测图片的标签,直接输入自然语言就能检索到对应的图片。毫不夸张地说,它让手机本地搜图,从难用跳到了好用。

基础:多模态模型

在人工智能领域里,Transformer 是个里程碑式的技术,它既催生了 ChatGPT 这样的 NLP 技术突破,也在视觉领域上拥有非常不错的效果。通过 Transformer 对文本与图片同时进行表征,再通过弱监督对比学习拉近相同语义的图片与文字,拉远不同语义的图片与文字,我们就能获得一个不错的多模态模型。

这其中的重点在于对比学习,如下图所示,常规的对比学习方法会将图片与文本分别编码为不同的向量,并将该向量映射到联合多模态语义空间之中。因为不同模态的数据表示之间可能存在差异,无法进行直接的比较,因此先将不同模态的数据映射到同一个多模态空间,从而有利于后续的模型训练。

选自 arxiv: 2102.12092。

在多模态的对比学习中,其目标函数即让正样本对(上图蓝框部分,I1T1、I2T2... )相似度很高,负样本对(上图白框部分)相似度很低。通过这种训练,自然语言天然就能和图像匹配上,不同模态的数据就能对齐。

为了提升模态间的对齐效果,华为通过提高正样本的相关性,并在算法层面对负样本去噪,再借助更大、更高质量的数据源,提升模型表征的准确性,从而提升语义搜索的准确性和召回率。与以往基于有限的标签集合给图片打标签,再通过标签来进行搜索的方式相比,基于语义表征进行搜索的方式能大幅提升图片检索的灵活性。

优化:模型的极致压缩

多模态是当前非常热门的 AI 研究领域,但除了华为的「智慧搜图」,还没有人能把整个推理过程都部署到手机端。其中的工程难点,显然在于如何将多模态模型在效果基本无损失的情况下,压缩到能在手机等边缘设备上运行。

在这里,也许我们需要考虑整个模型架构的参数效率,优化模型结构以在最小的计算量上达到最优的效果。例如卷积神经网络中 EfficientNet,Transformer 类模型中的 Multi Query Attention,它们都尝试优化模型结构以令参数效率达到更优。「智慧搜图」也一样,通过优化多模态模型架构,使得整体训练能获得更好的效果。

除了技术上的更新,部署到移动端更大的挑战还是在工程上。与平常我们在 GPU 上训练与推理模型不同,移动端缺少便捷高效的算子实现,优化起来也困难重重。举例来说,手机端的 CPU 芯片基本是精简指令集 Arm 架构的,那么机器学习编译器在做优化时就需要考虑很多指令层面并行处理,来最大程度利用有限的计算力。

针对底层硬件的优化适配,华为将模型的海量矩阵乘法分解到手机端 CPU 与 NPU 等设备上,并通过图算融合等方式构建出能在手机端高效运行的底层算子,进而支持整个模型的高效推理。

总结来说,华为「智慧搜图」轻量化模型通过更多的数据、更优的算法等补偿性设计及一些模型轻量化技术,首次将多模态模型部署到手机端,从而提供更好的图搜体验。

实用:向量检索引擎

我们期望通过图片信息、时空维度等不同线索,快速找到与心中期待相符的图片,而图片与自然语言请求都是多模态语义空间的向量。因此,华为面向端侧场景自研轻量级向量检索引擎,支持对海量数据进行向量索引构建,且支持时空(时间、地点)语义一站式融合检索,可以便捷、高效地通过 Query 语义特征找出匹配的照片。

上图是一个简单的向量检索引擎,假设移动端多模态模型已经将相册内的图片编码为一条条向量,并持久化存储到「Vector Database」中。每当用户有需要搜索的请求,该请求将通过「Embedding Model」,即多模态模型中的文本 Encoder 部分,将文本编码为一条向量,该向量会从向量数据库中搜索以找到一批最接近的图像。

为了在移动端获得更好的搜图效果,华为自研的轻量化向量检索引擎做了一系列创新与优化。

在构建索引时,如果采用云侧常用的离线定期全量构建的方式,将会显著的增加功耗开销,因此华为在手机端采用增量实时写入的方式。并且出于可靠性目的,增量写入的数据会持久化到索引中。

同时,为了提高索引加载和检索的效率,索引的格式也是特别定制的,语义向量检索将地点、时间等信息作为索引的一部分,在检索时可以快速实现条件过滤,并返回与查询语句最相关的结果。只要关键字落在时间、地点等常见搜索条件,索引格式创新带来的加速,相比纯数据库检索,能快十多倍。

但定制化的索引格式也会带来一些困难,即新写入的索引数据不一定都保存在索引的尾部。例如在故宫新拍了一张照片,那么该照片向量的索引,需要插到同地点的那一部分索引当中,也就导致之前所有的索引都需要覆盖重写一遍。尤其是数据越来越多,如果我有十万张图片,难道每次拍一张照,十万多条索引都需要重写一遍?

在这里,华为再次找到了创新解法,其采用索引分段及压缩合并两种方式进行优化,索引分段能显著降低单次插入索引时间,通过定期进行压缩合并,完成已删除数据占用内存 / 磁盘资源的回收,达到了显著降低资源开销的目的。

一系列优化后,智慧搜图的能力也不仅限于高配置的旗舰级手机。除目前的 P60 系列和 Mate X3 之外,更多设备未来也会随 HarmonyOS 3.1 的升级陆续获得这样的能力。

智慧搜索:打造 HarmonyOS 生态的系统级入口

当然,最新的 HarmonyOS 3.1 版中,智慧搜图只是众多新能力的一小部分。光是搜索上,华为就带来了不少黑科技。

除了智慧搜图之外,华为智慧搜索将不断跨越不同 App、端侧设备、云端和本地的边界,实现真正意义上的全局搜索,结合华为长期实践的「软硬芯云一体化」能力,让端侧预置 AI 模型实现毫秒级响应速度,消除跨终端联动的延迟感,实现「多台设备合体」的搜索体验。

现在是以 App 为主的移动互联网时代,搜索有很大一部分已从网页转移到了更封闭的 App 上,华为智慧搜索却可以做到从一站式的入口获取全局内容,打破信息孤岛。

在打通所有边界之后,华为还通过 AI 技术实现了高效率的服务流转和更聪明的「意图搜索」能力。让搜索引擎理解人的意图,提供最合适的智慧服务,手机上的搜索框再也不是简单的查询工具。

还记得四年前华为在开发者大会上发布的初版 HarmonyOS 吗?当时 HarmonyOS 的定义是一个全场景分布式系统,现在的 HarmonyOS 已经发展出了丰富的生态,下一步要做的则是统一:通过系统级能力的提升做到一个框架,掌控全局。

这种整合落到搜索上,就是无感知的大范围能力调用和响应,华为内部将其称为「全搜」能力。智慧搜索或将成为 HarmonyOS 生态的系统级入口,带来远超搜索框定义的功能与服务。

当需求不再被设备和形式所限制,一切以人为中心,这才是万物互联时代该有的样子。这也让我们对下一个 HarmonyOS 的产品,充满了期待。

THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

标签:

延伸阅读

推荐阅读

华为在手机上,率先实现本地端自然语言搜图功能 环球速看

机器之心原创作者:泽南在手机上用自然语言搜本地相册图片,业界首个移

鸢尾的呼唤_关于鸢尾的呼唤简述 今亮点

小伙伴们,你们好,今天小夏来聊聊一篇关于鸢尾的呼唤,关于鸢尾的呼唤

你离大奖只有一步之遥|「书写自愈力」最后一期来啦! 天天通讯

“阅读北京”共同书写计划笔尖树洞情绪投递站预告第七期(最后一期):

抖音流量是怎么推送的?增加抖音浏览量的方法介绍

抖音上有着比较多的用户开店,在运营的过程中都会比较关心流量问题,毕

伦敦奥运会奖牌榜2012_伦敦奥运会奖牌榜_微头条

中国目前13金6银4铜,排名第一。2012伦敦奥运会奖牌榜:国家 地区金银

环球今日讯!北大汇丰金融硕士全球排名第20!管理学硕士全球排名第17!

·包括女学生和教职员工的比例、商学院国际教职员工的比例,以及该

当前讯息:成猫如何正确护理爪子?告别抓家具的烦恼!

在本篇文章中,我们将为大家分享成猫如何正确护理爪子的方法,帮助你解

世界时讯:Shopify新升级Collabs网络

Collabs网络全新升级,帮助商家和创作者连接和展开合作。

复宏汉霖现涨超9% 预期上半年实现转亏为盈 首次实现半年度盈利

复宏汉霖(02696)盈喜后高开13%,截至发稿,涨9 04%,报12 3港元。  

奥特八兄弟_atb

1、ATB,即“ACTIVETIMEBATTLE”也成半即时回合制。2、出现《神界》战

中耳炎有啥表现 ?中耳炎常见的分类有哪些

中耳炎是生活中比较常见的耳部疾病。发作时患者会出现高热,疼痛等等一

兄弟科技07月03日获深股通增持20.33万股

07月03日,兄弟科技获深股通增持万股,已连续3日获深股通增持,共计万

【环球聚看点】篮球变小了 舞台更大了

6月29日,长春,2023吉林省小学生篮球联赛比赛中。中青报·中青网记者

父母都是癌症子女患癌几率大吗

吴昊副主任医师江苏省人民医院病情分析:父母都是癌症患者,其子女

清风头条|嘉禾县:让住房困难家庭“住有所居”

这是该县开展公租房领域专项整治行动,让群众“住有所居”的缩影。住房

即时:Navigating Time and Space: Harry's Adventure of Self-Exploration

gravitationalspace-timevortexOnanordinarynight,Harrysuddenlyfoundh

领结婚证照片是几寸的_结婚证照片是几寸的-每日热讯

结婚证照片是两寸的,需为双方近期半身免冠合影照,准备三张即可,也可

顺博合金下调可转债转股价格至16元/股 设全资子公司统筹销售管理

顺博合金7月3日晚间公告,根据《募集说明书》的相关条款及公司2023年第

雪糕到底有什么味道? 全球今日报

随着我们生活越来越好,雪糕味道和造型上多元化,口味繁多。比方榴莲味

如何讲多个excel表里数据合并到一个excel表里_把多个excel表数据合并 世界滚动

1、excel如何将多个表中的数据合并到一个表中2、如下图,Excel中有多个

当前热讯:四川南充一家三口在沿河菜地干活,因暴雨河水上涨被困 消防驾橡皮艇搜救

7月3日上午10时13分,四川省南充市蓬安县出现大范围短时强降雨,因暴雨

司法部推出一系列公证便民新举措|每日聚焦

司法部3日召开新闻发布会,介绍近期公证服务减证便民情况。据悉,保全

资讯推荐:儿童能吃什么水果菜谱(5种水果营养早餐

hello大家好,我是城乡经济网小晟来为大家解答以上问题,儿童能吃什么

世界动态:浙商银行:我行A股新增股份上市流通日为2023年7月6日

浙商银行(601916)07月03日在投资者关系平台上答复了投资者关心的问题。

全球快讯:海兰信入选2023MWC上海通信新势力榜

6月30日,2023MWC上海世界移动通信大会(以下简称“MWC上海”)落幕。本

西藏自治区政协党组成员、副主席姜杰接受中央纪委国家监委审查调查

中央纪委国家监委网站讯西藏自治区政协党组成员、副主席姜杰涉嫌严重违

焦点滚动:山东海化:拟投资34亿元建设盐化工及其产业链项目和储能绿色低碳产业

山东海化7月3日公告,公司与泰安市肥城经济开发区管理委员会签署了《投

6月人民银行对金融机构开展常备借贷便利操作共35.41亿元 全球微资讯

6月人民银行对金融机构开展常备借贷便利操作共35 41亿元:据央行,为满

潜水员戴夫海马怎么捕捉-海马捕捉方法 世界快资讯

  潜水员戴夫是一款非常好玩的冒险游戏,很多玩家想知道潜水员戴夫海

猜您喜欢

Copyright ©  2015-2022 华南服装网版权所有  备案号:粤ICP备18025786号-52   联系邮箱: 954 29 18 82 @qq.com