助农贷款、保险精准定价,背后的“星绽”机密计算全球开源
文|白 鸽
编|王一粟
河南平顶山种植日本引进白草莓的李朝阳,和山东临沂种植山楂和桃子的李东旭,都是网商银行“农户秒贷”项目的受益者。
“发果农工资,收购水果,遇上天气灾害时周转应急时,‘农户秒贷’帮了不小的忙。现在挣得比出去打工的时候更多。”李东旭说道。
事实上,在金融信贷市场中,过去农民很难被银行授信提供贷款。
原因在于农业数字化程度还比较低,农民信用信息较少,一些关键数据如土地的使用、经营等数据,也都散落在不同主体之上,而信贷又极其依赖客户的资产信息或者生产经营情况。
安徽金寨黄金梨带头人王勇获得网商银行免息贷款
而想要数据要素能够真正流通起来,其核心问题在于——“保得住安全,才能供得出数据。”蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬说,必须实现从数据的存储、传输到计算,再到最后结果输出的全链路安全保障。
网商银行的“农户秒贷”项目背后,就是由基于星绽机密计算构建的密态时空计算平台,提供数据要素可信流通的全链路安全保障。
而有机密计算的支撑,也给农村信贷带来了新的发展机会。
网商银行调研显示,超606万农户通过这一服务获得银行的贷款额度,累计授信964亿,抹去了“鞋底成本(泛指减少货币持有量而产生的成本)”。他们来自全国超2600多个县级行政区,占中国县域的93%以上,农村金融服务的便捷性和覆盖率都获得大幅提升。
助农贷款只是机密计算应用的冰山一角,这项技术其实还有很大的应用空间。为了让技术更加普及,应用更加落地,10月22日,聚焦安全可信底层技术的系统软件栈“星绽”(Asterinas)由中关村实验室、蚂蚁集团、北京大学、南方科技大学等产学研机构联合对外发布,并面向全球开源,旗下开源项目就包括星绽OS和星绽机密计算。
至此,从“隐语”可信隐私计算技术栈,到“星绽”系统软件栈——蚂蚁集团已经对外开源了密态计算技术体系中的核心技术,为与社区共建数据可信流通的底座,再添一枚关键“枢纽”。
机密计算,数据可信流通的关键“枢纽”
隐私计算、密态计算以及机密计算,往往会“傻傻分不清楚”。
从概念上来说,隐私计算作为一个庞大的技术家族,包含多方计算(MPC)、联邦学习和机密计算(可信执行环境TEE)等支持数据“可用不可见”的多种技术路线。
而密态计算作为下一代隐私计算技术,融合了密码学、多方计算和机密计算形成,可以低成本实现全链路复杂计算的密态保障能力。
这次的主角——机密计算,可以理解为是在CPU等硬件上划分一块隔离区,这一隔离区就是可信执行环境(TEE),数据从不同的主体上汇集到可信执行环境中,通过环境隔离和可信验证机制来完成数据的安全计算,从而保证敏感数据在CPU和内存使用中不被窃取。
你可能已经被名词搞到“晕到怀疑人生”了,但看起来很复杂,其实他们都是为数据加密使用做服务的,只是技术路线有差异。
一般来说,数据在流通中,主要会涉及三个流程:数据的存储、传输以及使用。
数据想要真正的发挥价值,则必须要流动起来,且往往是多方数据融合计算使用,才能够得出最终想要的结果。
比如网商银行农户秒贷项目中,就涉及多方数据,包括农业农村部掌握人地关系数据、地块矢量数据;网商银行掌握的卫星遥感数据、对应授权用户名单数据等,通过将这些数据融合计算,才能够真正还原农户的实际生产经营情况,给予农户信贷授额。
“数据要素流转是一个复杂业务计算需求,很多工作并不是一步完成”,韦韬如此说道,“正常来说,数据计算结果也要以密态方式存在,但之前的很多隐私计算技术和产品并不能够满足这一要求。”
如传统的多方计算、联邦学习等技术,在商业场景中常常只能在数据计算过程中保持加密状态,而数据融合分析计算出的中间结果,则常常会变成明文状态,这就难以保障数据的全链路安全。
“在没有全链路密算能力时,之前这种单步计算的隐私保护计算,很难构建复杂计算,使用成本也很高。”韦韬说道,“这也就导致没有办法做深层次数据融合的价值挖掘,就像把表层石油或煤矿挖出来,但没办法挖掘更广泛的页岩气一样。”
而想要保障数据的全链路安全,在没有可信根的支撑下,则只能依靠密码学,“但全链路应用密码学,成本非常高,动辄千倍万倍地增加。”
相比较来说,低成本密态计算是以机密计算为底层的关键支撑技术,在可信根的支撑下,能够高效实现从数据的密态存储、密态流转到密态融合计算,再到密态结果分发的多步组合,实现深层次复杂计算业务的同时,能够满足数据要素流转全链路安全保障升级的需求。
如果说分布式隐私计算是数据流通中的“管道技术”,那么机密计算则是“枢纽技术”。
“机密计算的主要目的就是保护使用中的数据。”蚂蚁机密计算总监刘双如此说道,其与MPC和联邦学习最主要的区别,是基于硬件实现可信根,访问控制和内存加密等安全能力,构建可信执行环境。
在交通体系中,交通枢纽往往承载着众多车辆、人流的汇聚,以及实现交通分流的功能。机密计算也是如此。
亚洲最大海上互通——杭甬高速滨海互通架梁作业
刘双提到,机密计算其实是将多方数据汇聚到一起,进行融合计算,最终得出的结果也会以加密方式提供给使用方。而密码学、联邦学习、多方计算等更像交通“管道”,让数据密态点对点流转。
在隐私计算技术实际应用中,如果想要实现全链路技术保障,在没有可信硬件的支撑,会导致系统运行非常慢,甚至还会导致数据会膨胀得非常快——比如单纯使用全同态加密技术,本来一个G的数据,很快就会膨胀成10个T,为存储、传输和计算都带来巨大的负担。
另一方面,有了基于可信根打造的机密计算之后,多步复杂操作的中间结果,就能够非常容易地做到密态保障,成本上会大大降低。
“现在业内公认,机密计算相比其他多方安全计算等技术,能够在安全、性能和大规模商用上有比较大的优势。”海光信息技术股份有限公司副总裁应志伟对光锥智能称。
可以说,基于机密计算构建低成本的全链路密态计算,可以组建完整的密态枢纽和密态管道,串起了一张数据流通的“安全交通网”,从而让数据的价值最大发挥。
摆脱硬件依赖,进入“软件可信”时代
此前,机密计算并未被大规模应用,一个原因在于:
对硬件的依赖比较严重,成本也相对比较高。
毕竟,机密计算是基于硬件打造的数据安全防护的技术,需要根据特定的硬件进行适配,通用性的问题没解决,企业的成本也会增加。
作为一家芯片设计公司的从业者,应志伟也提到:“近期有客户找到我们要合作机密计算,客户很认可这些技术,但在合作过程中也遇到很多挑战,例如每个客户的操作系统版本不一致,都需要做重新适配。不过,因为海光芯片的高兼容特性,适配迁移成本会相较其他低很多。”
事实上,在现有机密计算技术中,商用可信执行环境(TEE)方案通常存在可信根依赖国外CPU厂商,而国内CPU平台安全起步晚,能力欠佳、TEE应用编程难、业务适配成本高等问题,这就也导致国内的机密计算很难实现规模化落地。
韦韬也提到,之前机密计算在中国没有真正做起来,是因为它的可信根在CPU里,特别是英特尔、AMD等,它的可信根在国外,无法建立适合各个国家需要的机密计算体系。
因此,如果能够通过软件层面打通可信根,使其成为各个国家能够被信任的可信根,具有重要意义。在此之前,业界也并未有哪一家企业能够真正地做到这件事。
“星绽机密计算”是蚂蚁集团自研的拥有核心知识产权的普惠机密计算方案,以HyperEnclave、Occlum和TrustFlow三大核心组件为基础,构建了一个完整的机密计算生态体系。
整个星绽机密计算体系的最底层是HyperEnclave,它是一个通用的可信执行环境,用虚拟化技术实现可信执行环境和通用开放环境(REE)隔离。
“HyperEnclave本质上就是为了解决通用性的问题,它可以支持不同的硬件平台,降低对特定安全硬件的依赖。”刘双说道,“换句话说,即使过去这个平台没有机密计算能力,安装HyperEnclave之后,也可具备机密计算能力,降低企业使用门槛。”
原因在于,HyperEnclave的可信根并不在CPU上,而是在可信密码模块(TCM/TPM)上,是可信计算密码支撑平台必备的关键基础部件,可以提供独立的密码算法支撑和远程证明能力。
“它的信任是基于TCM/TPM可信技术体系,由权威机构来做整体的可信启动、可信度量以及最后远程证明的支持。”蚂蚁密算科技CTO闫守孟说。
Occlum,则是虚拟化层和应用层之间的库操作系统。
其使用Rust编程语言编写,“整体代码量要比传统Linux等要小很多,是专门为可信执行环境编写的安全库操作系统,其本身安全性天然就会更高一些。”刘双说道。
过去,在可信执行环境编程,用户往往需要手动拆分应用,决定哪些部分跑在普通环境下,哪些部分运行在可信执行环境下,这要求用户具备较强的专业能力,导致开发与移植成本非常高。
在Occlum上,支持原生应用不做修改,直接运行在可信执行环境,“Occlum目标是尽量减少应用迁移到可信执行环境的成本,尽量减少可信执行环境与外界的交互,缓解侧信道攻击。”
最顶层,则是TrustFlow的可信计算框架。TrustFlow本质上可以理解为PaaS,在这个框架内,可以为用户提供开箱即用的基础密算服务,比如远程证明、跨域管控等。
“因此,在星绽可信执行环境中,开发和部署的成本会非常低。”刘双说道。
基于此,不难看到,这三层组件相互协作,构建了从安全底座到安全服务的全栈解决方案,能够满足了不同场景下的机密计算和隐私计算需求,高效实现数据“可用不可见”。
“网商银行基于星绽机密计算软件栈构建密态时空计算平台,实现多方数据密态进入可信执行环境(TEE),安全进行融合与分析,最终结果以密态形式传输与落盘。”网商银行信息科技部副总经理苏贤明认为,使用星绽机密计算来保证银行数据的全链路安全,大大降低了使用门槛和成本。
“我们当时模拟了一个极端情况,如果服务器被偷了,别人拿到我的服务器能不能看到原始数据?经过严格的理论推演与验证,得到的结论是不能。这也是星绽机密计算给我们提供的最根本的安全保障。”苏贤明说道。
自今年5月以来,蚂蚁集团陆续公布了其密态计算技术体系,推出“隐语云”系列密算产品。2年前,蚂蚁也开源了隐语可信隐私技术栈,其也是蚂蚁集团整个密态计算体系的支撑技术。
隐语可信隐私技术栈与星绽机密计算两者的区别在于,后者聚焦安全可信基础设施,是整个技术栈更底层的技术,隐语侧重“端到端”的管道模式,星绽机密计算侧重“端云协同”的枢纽模式。
而通过“星绽机密计算”提供的核心能力与服务,加之在机密计算体系之上的密态计算能力,可以解决诸多应用场景中“信任”难题。
如,多个不互信组织之间的数据融合与联合分析、链上智能合约的机密性保护、公有云平台对外部或内部攻击的防御、高敏感信息(如密码学材料、医疗档案等)的安全保护等。
PoC落地速度加快,大规模商用仍需3-5年
正如开头的农业助贷案例,星绽团队从去年7月份和农业农村部开始合作,已经帮助600万农户抹掉信贷成本。
短短一年多的时间,星绽机密计算技术就在实际场景中进行了落地应用,对于一个还处于早期的技术来说,落地的速度已经很快。
对一个技术人来讲,当技术真正产生社会价值,这也是最有成就感的一刻。
“之前做PoC(项目概念验证)都落地很慢,做完可能就搁置了。但近两年能够明显感受到,做完PoC之后可能半年就落地了。”刘双谈到这里,明显兴奋起来。
机密计算技术的落地加快,得益于国家对整个数据要素流通市场的推动。但市场兴起的同时,数据泄漏造成的安全成本也在日益提升。
据IBM发布的《2024年数据泄露成本报告》指出,一场数据泄露的平均成本从2023年的445万美元飙升至2024年的488万美元,增幅达10%。
而在此前一些算力基础设施在做安全技术部署时,不仅没有密态的CPU/GPU,甚至可信根都没有,“没有可信根,想要真正保证数据可信流通,只能使用密码学,其成本非常高。”
“但只要上了可信根,具备可信执行环境,密算成本就可控制在明文计算的2倍以内,高价值、高敏感的数据可控制在明文计算的10倍以内。”韦韬说道,“这对于产业来说,成本是完全能够被覆盖的。”
蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬
目前除了银行,在新能源车险场景中,密态计算也可以降低保险成本。
根据申万宏源研报,2023年新能源车险的平均赔付率近85%,2024年新能源渗透率持续走高,赔付率预计将达到87%,这已经比燃油车高出近15个百分点。新能源车保费比较高的原因之一,是新能源车是一体化成型,且传感器众多,单个零部件损坏后维修成本非常高。
而且,新能源车的动力性能也非常好,这就导致驾驶习惯不好的车主,损坏率更高。
因此,蚂蚁密算也与蚂蚁保以及各家保险公司合作,综合了“从人、从车、从险”多维数据,通过密态计算、人工智能等技术,实现了安全合规条件下的全链路融合计算,全面评估车主用车风险,做到精准定价。
应用该技术后,38%的新能源车主保费可平均下降10%,车主保费水平人均预计降低300元,将保险公司定价区分度提升超过70%。
“目前头部的保险公司已经全部加入到这个项目中,整体项目规划扩展得非常快,很快就会在全国范围内推广,甚至在国际上也会推广。”韦韬说道。
事实上,作为一个基于底层硬件基础设施,且多用在云端的数据安全防护技术,除了蚂蚁密算,云厂商们也在纷纷加码机密计算。
机密计算正在成为全球云厂商和硬件厂商争相布局的技术路线。自2002年ARM提出TrustZone技术以来,机密计算已经走过了20多个年头。
2015年,Intel推出了SGX,机密计算技术进入了快速发展的阶段;
2019年8月,Linux基金会联合国内外科技巨头宣布成立“机密计算联盟”(Confidential Computing Consortium),标志着机密计算在工业界的进一步发展和壮大。
2022年IEEE的技术预测评选了16项将在未来几年产生重大影响的技术,机密计算技术作为唯一的安全技术入选其中。
业界认为,机密计算有望成为AI计算的基础设施之一。
韦韬表示:“数据可信流通应该是跨云的,信任应该是基于技术,而不是基于运营方。这不是单独某一家云厂商的问题。”
现如今,很多数据被绑在一家云上,这其实已经制约了数据的跨区域流动。因此,韦韬认为,从这个角度来说,密态计算从业者和云厂商是很好的配合关系。
刘双也提到:“目前国内基本没有这种全栈式开源技术产品。我们从底层安全虚拟化层,到操作系统,再到上层基础服务构建了全栈技术体系,每一层都各具特色,且能够解决实际问题。”
一套能够通用的机密计算技术体系,无疑能够降低技术应用的成本。同时,随着近年来数据要素流通需求日益增长,以及机密计算技术体系的完善,整个行业需求也日益增长。
不过,密态计算体系仍处于发展早期,在很多行业级应用已经取得了令人欣喜的成效,但距离大规模商业化应用落地还有一段距离。
韦韬认为,大概还需要3-5年时间,特别是相关技术标准和数据可信流通利用基础设施仍然需要有大量工作要做。
而北京大学讲席教授,北京大学计算机学院软件科学与工程系主任谢涛也认为,新的技术应用也强调要“沿途下蛋”。在技术发展过程中,也要找到合适的场景率先落地,才能够持续展现其价值,“沿途下蛋,才能够收割成果。”