在当今数字化时代,数据已成为驱动各行各业创新发展的核心资源。但随着数据应用的日益广泛,隐私保护问题愈发突出,尤其在跨机构数据合作场景中,如何在不泄露原始数据的前提下实现高效的联合查询与分析,成为亟待破解的难题。对此,字节跳动安全研究团队和南京大学的研究人员共同推出了创新性的隐私保护联合查询系统 Jeddak FedQuery,为这一难题提供了突破性解决方案。
相关研究成果《Towards Efficient and Secure Collaborative SQL Analyses of Billion-Scale Datasets》已被信息安全领域顶级期刊《IEEE Transactions on Information Forensics and Security》(TIFS)收录。
一、背景:数据孤岛与隐私保护的双重挑战
在数字化浪潮下,数据作为核心资源的价值愈发凸显,但数据流通与隐私保护的矛盾也日益尖锐。随着《数据安全法》《个人信息保护法》等法律法规的出台,机构间直接的数据交换已不符合隐私保护要求,“数据孤岛” 现象加剧。如何打破流通壁垒,在保护原始数据的前提下实现跨机构联合统计分析,成为行业普遍面临的痛点。
字节跳动安全研究团队研发的隐私保护联合查询系统Jeddak FedQuery,正是针对这一痛点的创新方案。其相关研究成果已被国际电气与电子工程师协会(IEEE)旗下安全领域顶级期刊《IEEE Transactions on Information Forensics and Security》(TIFS)收录。TIFS 以严苛的评审标准和高影响力著称,在学术界与工业界均具权威地位,此次收录既彰显了Jeddak FedQuery 在隐私保护联合查询领域的创新性,也标志着字节跳动在数据安全技术研发领域的领先地位。
联邦查询(Federated Query)基于多方安全计算(Secure Multi-Party Computation)技术,支持多个互不信任的参与方在不暴露私有数据的前提下,共同完成约定查询,且仅输出计算结果、不泄露其他信息。但现有技术存在明显局限:不支持一对多等值连接,且等值连接计算复杂度高,难以应用于大规模数据处理场景。
二、系统架构:多角色协同的隐私保护查询框架
Jeddak FedQuery 创新设计了多角色协同架构,通过用户(Users)、数据所有者(Data Owners)、代理(broker)、执行器(Executors)四类角色的协同,实现多所有者联合数据的安全查询,核心流程如下:
用户提交 SQL 查询请求;
代理验证查询的合法性与安全性,将其转换为可执行计划并分发给执行器;
执行器通过不经意连接(oblivious join)对齐多方数据,利用秘密分享(secret sharing)进行协同分析;
最终通过恢复协议(recovery protocol)生成结果并返回给用户,且用户无法获取连接中间结果,从而抵御成员攻击(membership attack)。
三、技术创新:破解大规模数据协同分析的效率与安全难题
现有基于安全多方计算(MPC)的协同分析方案,要么受限于数据规模(仅支持百万级数据),要么因通信与计算开销过大难以落地。Jeddak FedQuery 通过三大核心技术创新,实现了 “安全与效率” 的双重突破:
3.1 高效的不经意连接(oblivious join)协议:降低内存开销,抵御隐私攻击
传统的不经意连接操作需缓存大量密文,且易泄露数据交集大小,存在成员攻击风险。Jeddak FedQuery 设计了 Oblivious Mapping 协议与 Oblivious Matching 协议,并基于此构建新型不经意连接协议,实现三大优化:
内存效率跃升:通过共享值替代密文存储,仅需 16MB 即可处理同等规模数据,内存开销降至传统方案的 1.6%;
隐私保护增强:引入随机映射与秘密置换,隐藏匹配记录数量,并通过添加 dummy 元素使结果规模与较小数据集一致,彻底阻断成员攻击路径;
性能优势显著:通信成本为线性复杂度 O (n),交互轮次为常数级,当数据量达 2²⁰时,成本较现有方案降低 50% 以上。
3.2 混合不经意排序与 SQL 算子:兼顾安全性与计算效率
Jeddak FedQuery 创新设计了适配不同规模数据的不经意算子与协议,解决了密态下排序、分组、聚合等操作的效率瓶颈:
Z 字形独热排序:将排序的通信轮次从现有最优方案(SOTA)的 O (log n) 降至 O (1);
混合排序策略:针对小类别排序场景,采用 Z 字形独热排序;针对大类别排序需求,在 Z 字形独热排序基础上提出基数为 4 的 radix 排序,通信轮次较传统基数为 2 的方案减少 50%;
全链路隐私算子:实现了 FILTER、SUM/COUNT/AVG、MAX/MIN、GROUP BY 等核心 SQL 算子的密态处理。
3.3 分块 MPC 与流水线协议:突破内存限制,支持十亿级数据
面对十亿级数据集,传统 MPC 方案因内存不足频繁读写磁盘,性能急剧下降。Jeddak FedQuery 通过以下创新突破限制:
分块 MPC:采用数据分段与合并策略,将大规模数据集分割为可载入内存的小块,逐块计算后合并结果,避免全量数据占用内存。针对不同 SQL 操作设计针对性策略:
安全分块连接(blockwise-JOIN):传统按明文连接键分块的方式可能泄露键的统计信息,存在隐私风险。FedQuery 通过双盲连接键哈希随机分块 —— 对双重加密的连接键进行哈希处理,按哈希值分块,确保合并时各块大小均匀(仅最后一块可能因数据不完整不同),既避免信息泄露,又保证分块计算安全;
带分组的聚合操作(Aggregation with Grouping):分组聚合的合并阶段需对千万级键进行不经意排序,易引发内存压力。FedQuery 将合并阶段交由查询方执行,允许在合并前将分组键解密为明文 —— 由于分组键本身需向查询方披露,此操作不会增加信息泄露风险,且大幅降低内存占用。
流水线执行:将不经意协议拆解为 “盲化 - 匹配 - 对齐” 三阶段流水线,前一块数据处理的同时即可启动下一块,大幅减少 I/O 等待时间。
通过上述创新,Jeddak FedQuery 成为首个支持十亿级数据集直接 SQL 查询的安全系统,可在 14 小时内完成十亿级数据的复杂 TPC-H 查询,较同类方案(如 Scape、Secrecy)效率提升 4 倍以上,通信成本降低 99%。
四、实验结果:支持十亿级隐私保护联合查询
4.1 实验设置
硬件环境:Intel (R) Xeon (R) Platinum 8336C CPU(2.30GHz),16 线程,32GB RAM,Docker 部署;网络条件包括 LAN(0.2ms 延迟,10Gbps 吞吐量)和 WAN(20ms 延迟,100Mbps 吞吐量)。
对比方案:4 个主流 MPC-based 系统(Secrecy、Scape、Meta’s PCF、AHKNPT)。
测试场景:基础算子(JOIN、GROUP BY、ORDER BY 等)、TPC-H 基准查询、营销分析(MA)查询,数据规模从百万级到十亿级。
4.2 实验结果
JOIN 算子性能:数据量达 2²⁰(约 100 万条)时,Jeddak FedQuery 的 JOIN 协议成本(时间和带宽)仅为 AHKNPT 方案的 50% 以下;内存开销从传统方案的 1GB 降至 16MB。
GROUP BY 与排序:采用混合排序策略(独热排序 + 基数 4 radix 排序),较 AHKNPT 在 ORDER BY、SUM GROUP BY、MAX GROUP BY 任务中节省 20%~40% 时间;通信轮次较基数 2 的 radix 排序减少 50%。
复杂查询优化:处理 MA-Q4(含 JOIN 和 GROUP BY)时,较 Secrecy 查询时间减少 99%,WAN 环境下通信开销降低 4000 倍以上;TPC-H 查询(Q12、Q17、Q19)效率较 Scape 提升 4~6 倍,尤其在 Q17 中通过明文过滤优化进一步降低成本。
大规模数据支持:在十亿级数据集上,完成 MA-Q3 和 MA-Q4 查询分别耗时不足 8 小时和 14 小时,而对比方案均无法支持该规模。
五、实践价值:核心特性与广泛应用场景
Jeddak FedQuery 秉持 “数据可用不可见” 的设计理念,支持多个互不信任的参与方在不暴露私有数据的前提下共同完成查询,且仅输出计算结果、不泄露其他信息,其核心特性如下:
隐私保证:基于秘密分享与不经意计算,全程不泄露原始数据、中间结果及 join 交集;
易用性:支持标准 SQL 语法,用户无需掌握密码学知识即可发起查询,降低工业级落地门槛;
大数据支持:可支持十亿级数据联合查询分析。
依托 Jeddak FedQuery 平台,业务方能够通过 SQL 语法构造跨域多表查询,并在各参与方单服务实例条件下,完成数亿级数据的查询分析,有效解决广告、A/B 测试、群体画像等场景中的隐私度量、归因和聚合等分析需求。其应用场景已覆盖多个行业:
金融行业:在联合风控场景中,帮助银行、保险等机构在不泄露客户敏感信息的前提下,联合查询分析信用数据等,实现更精准的风险评估与欺诈检测;
广告营销:助力广告主与媒体平台联合查询广告曝光等数据,准确衡量广告效果,优化投放策略,提升营销效率。
六、结语:引领隐私保护技术新发展
Jeddak FedQuery 入选 TIFS,是对字节跳动在隐私保护技术领域创新实力的高度认可。未来,字节跳动安全研究团队将持续深耕隐私计算技术,不断优化 Jeddak FedQuery 的性能与功能,并通过火山引擎的商业化产品Jeddak可信隐私计算平台赋能客户,以应对更复杂的数据安全挑战。
同时,团队将积极推动 Jeddak FedQuery 在更多行业场景的落地应用,助力企业在合规前提下充分释放数据价值,为数字经济的健康发展贡献技术力量。
如果你对Jeddak可信隐私计算感兴趣,欢迎点击阅读原文联系我们
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...