集智俱乐部 昨天
自然·通讯:如何挖掘复杂系统中的三元交互
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

导语

复杂系统通常包含超越成对网络的高阶交互。三元交互,即一个节点调节另外两个节点之间的交互,是许多生物系统中存在的一种高阶动力学的基本形式,从神经元 - 胶质细胞通信到基因调控和生态系统均可见其身影。然而,三元交互至今大多被忽视。本文提出了三元感知机模型,该模型表明,三元交互可以调节两个相连节点动态状态之间的互信息。基于这一发现,作者构建了三元交互挖掘算法,以从节点元数据中提取三元交互,并将此框架应用于基因表达数据,发现了与急性髓系白血病相关的新三元交互候选对象。研究结果强调了三元交互中常被忽视的关键特征,提供了一个能够深化我们对生物学、生态学和气候科学中复杂系统理解的新框架。

关键词:高阶三元交互(higher-order triadic interactions),三元交互挖掘算法(Triadic Interaction Mining, TRIM)、三元感知器模型(Triadic Perceptron Model, TPM)、急性髓系白血病(Acute Myeloid Leukemia, AML)、互信息(mutual information)

Lynne 丨作者

赵思怡丨审校

论文题目:Mining higher-order triadic interactions

论文链接:https://www.nature.com/articles/s41467-025-66577-z

发表时间:2025 年 11 月 25 日

论文来源:nature communications

代码链接:https://github.com/anthbapt/TRIM

引言:被忽视的 " 第三者 " 力量

当我们思考网络——无论是社交网络、神经网络还是基因调控网络时,脑海中首先浮现的往往是节点(个人、神经元、基因)和连接它们的边(关系、突触、调控关系)。长期以来,网络分析领域大多聚焦于成对节点之间的联系。然而,现实世界的复杂性常常要求我们看得更深。在许多系统中,交互并非仅仅发生在两两之间,一个 " 第三者 " 可以深刻地影响甚至决定另外两者之间的关系。这种一个或多个节点调节其他两个节点之间交互的现象,被称为三元交互。

在生态系统中,物种 A 可能通过改变环境或行为,来增强或削弱物种 B 与物种 C 之间的竞争或共生关系。在大脑中,胶质细胞可以调节神经元之间的突触传递效率,从而控制信息处理。在基因调控网络中,调节因子可以促进或抑制某个转录因子与其靶基因的交互。这些都不是简单的 A-B、A-C、B-C 关系的叠加,而是一种独特的高阶交互模式。

尽管三元交互如此重要且普遍,但如何从海量的网络数据和节点时间序列中有效检测三元交互,仍然是一个尚未得到充分探索的科学挑战。现有的高阶网络分析方法,如基于超图或单纯复形的方法,往往无法捕捉这种 " 边调节 " 的动态本质。

对此,作者提出了一套融合动力学建模与信息论的全新框架 —— 通过三元感知器模型(Triadic Perceptron Model, TPM)揭示三元交互的作用机制,再借助三元交互挖掘算法(Triadic Interaction Mining, TRIM)实现从数据中精准提取三元交互。

定义核心:什么是三元交互网络?

要理解这项研究,首先需要厘清一个核心概念模型:三元交互网络。研究者将其定义为一个由两部分组成的异构网络(heterogeneous network)。

第一部分是结构网络(structural network),由节点(如基因、蛋白质)和连接它们的边(如物理互作、功能关联)构成。它描述了系统中 " 谁和谁有直接关联 "。

第二部分是调控网络(regulatory network),是一个带符号的二分网络(signed bipartite network)。一端是结构网络中的节点(即潜在的调控者),另一端则是结构网络中的边(被调控的对象)。连接这两类节点的边,就是调控交互(regulatory interactions)。

这种调控作用通过带符号的矩阵进行编码:当矩阵元素为 1 时,代表该节点是对应边的正向调节器(positive regulator),会增强另外两个节点的交互;当元素为 - 1 时,该节点是负向调节器(negative regulator),会抑制目标边的交互;元素为 0 则表示无调控关系。值得注意的是,同一个节点不能同时对同一条边产生正向和负向调控,但可以对不同的边分别发挥正向或负向调控作用。

图 1 三元交互示意图。(图 a)调控节点 Z(regulator node),以正向或负向方式调控另外两个节点 X 和 Y 之间的交互时,便形成了三元交互。被调控的边可概念化为因子节点(factor node)。(图 b)包含三元交互的网络可被视为 " 网络的网络 ",由一个简单的结构网络(structural network)和一个连接着调控节点与被调控边(即因子节点)的二分调控网络(bipartite regulatory network)构成。

理论基石:三元感知机模型(TPM)

为了揭示三元交互如何影响系统的动力学行为,作者构建了一个精巧的数学模型——三元感知机模型(Triadic Perceptron Model, TPM)。

在这个模型中,每个节点都有一个连续的动态变量,并通过朗之万方程(Langevin equation)描述网络演化。在没有三元交互的情况下,节点动力学会形成一个由网络结构决定的平衡态,节点间的相关性矩阵可以反推出底层的连接模式,这是一种经典的高斯过程。

引入三元交互后,连接节点 X 和 Y 的耦合强度不再是固定的,而是变成了一个动态变量。这个耦合强度由一个类似于人工神经网络中 " 感知机 " 的机制控制:它取决于所有能调控这条边的 " 调控节点 "(如 Z)的动态状态之和。当这个总和超过某个阈值时,X-Y 边的耦合强度切换到高值;反之则切换到低值。调控节点 Z 的集体状态,像一个开关,实时地控制着 X 和 Y 之间的交互强度,从而在动力学模型中真实还原了三元交互的作用机制。

由此产生的动态过程变得异常复杂,且无法保证动力学的稳态。模拟结果清晰地显示,当存在三元交互时,X 和 Y 之间的条件互信息会随着 Z 的状态变化而发生显著波动。相反,对于没有三元交互的节点对,这个条件互信息则基本保持恒定。因此其动力学无法简化为仅由成对交互决定的动力学。那么能否从观测数据中挖掘出此类交互呢?

核心武器:三元交互挖掘(TRIM)算法

基于 TPM 模型揭示的原理,作者开发了 TRIM 算法,其目标是从观测到的时间序列数据中,自动、定量地识别出三元交互。

算法的核心在于从数据中捕捉互信息的动态变化。对于一个候选三元组(节点 X,Y 及其潜在调控节点 Z),TRIM 算法的核心步骤如下:

条件分割与互信息计算:首先,根据调控节点 Z 的时间序列值,将其划分为若干个区间(例如,按分位数划分,保证每个区间数据量相同)。对于 Z 的每一个取值区间,计算在该区间内,节点 X 和 Y 之间的条件互信息 MIz。

量化波动特征:如果 Z 确实在调控 X-Y 交互,那么如上一步计算出的条件互信息值 MIz,应该在不同 Z 区间上表现出明显的波动。算法通过两个统计量来捕获这种波动:(1)这些条件互信息值 MIz 的标准差(Σ),反应整体波动范围;(2)其最大值与平均值之间的绝对差(T),反应极端情况下的波动幅度。波动越大,存在三元交互的信号越强。

统计显著性检验:关键的一步是判断观察到的波动是否真的显著,而非随机噪声所致。为此,TRIM 采用了双重零模型验证策略。第一种是随机化零模型(randomization null model),通过打乱 Z 的时间序列来破坏其与 X、Y 的动态关联。第二种是最大似然高斯零模型(maximum likelihood Gaussian null model),假设 X、Y、Z 三者服从一个多元正态分布。最后根据两种零模型的结果,识别三元交互。

功能模式分类:对于通过检验的显著三元组,算法还会进一步分析其特征。它使用决策树拟合条件互信息随 Z 变化曲线,识别出 Z 的不同取值区间(通常为 2-3 个)。然后,通过计算一个归一化熵分数 S,来量化在不同 Z 区间内 X 与 Y 联合概率分布的多样性。当所有 Z 状态区间内 X 和 Y 的联合分布都较为分散时,熵分数接近 1;当分布都高度集中时,熵分数接近 0。S 值越高意味着调控作用越明显。

TRIM 算法的强大之处在于,它不预设调控函数的形式(例如必须是单调的),因此能捕捉到更复杂、非单调的调控模式。同时,双重零模型的设置也极大地减少了因网络结构相关性或数据异常值导致的误报。

图 2 三元交互挖掘算法(Triadic Interaction Mining, TRIM)示意图。TRIM 算法从已知的结构网络及其节点相关的动力学变量出发,识别涉及潜在三元交互的节点三元组(X、Y、Z)。对于网络中每个潜在的三元交互节点三元组(图 a)——这些节点属于结构和动力学均已知的网络(图 b),首先分析条件互信息的功能行为(图 c),再结合零模型评估观察到的条件互信息调制效应的显著性(图 d)。设定既定置信水平后,可通过这些统计数据识别显著的三元交互(图 e)。该流程可扩展至网络中不同的节点三元组,进而全面识别网络中存在的三元交互(图 f)。

模拟演练:合成数据下的高效性能

为了验证 TRIM 算法的有效性,本文首先在 TPM 模型生成的合成数据上进行了测试。研究者构建了一个包含 10 个节点、12 条边和 5 个三元交互的小型网络,通过模拟 TPM 模型的动力学过程,生成节点的时间序列数据,再用 TRIM 算法进行检测。

结果显示,对于涉及三元交互的节点三元组,其条件互信息 MIz 随调控节点状态的变化呈现出显著的波动;而对于不涉及三元交互的三元组,条件互信息则保持相对稳定(图 3),这与 TPM 模型的理论预测完全一致。分析联合分布的条件变化发现,正调节交互导致 MIz 在高 Z 值时上升,而负调节则相反(图 4)。

通过绘制受试者工作特征曲线(ROC 曲线)和精确率 - 召回率曲线(PR 曲线),研究者发现,算法的检测准确率在不同动力学参数下均保持较高水平,尤其是当模型中的 α 参数(与哈密顿量深度相关)较大时,性能更为优异。此外,算法的假阳性发现率(false positive rate)较低,且假阳性结果多集中在 " 短程三元组 " —— 即调控节点 Z 与目标边(X,Y)的端点 X、Y 在结构网络中距离较近(图 5)。

图 3 三元交互对相连节点间互信息的调节作用示意图。作者构建了一个含 10 个节点、12 条边和 5 个三元交互的网络(图 a)。图 ( b ) 和图 ( c ) 展示了三元交互对互信息分布 MIz 的影响:图 ( b ) 为涉及正向三元交互的节点三元组 [ 4, 9, 5 ] 的 MIz 分布,图 ( c ) 为不涉及三元交互的节点三元组 [ 1, 2, 6 ] 的 MIz 分布。

图 4 含三元交互的连续模型中节点三元组的代表性结果。是图 3 所示网络中具有三元交互特性的节点三元组 [ 4, 9, 5 ] 的分析结果:图 ( a ) 呈现了在 Z 的不同取值区间下,变量 X 和 Y 的条件联合分布;图 ( b ) 展示了互信息 MIz 随 Z 的分位数变化的行为特征,该特征明显偏离了无三元交互时预期的恒定状态;图 ( c ) 为拟合 MIz 功能行为的决策树,通过该决策树可确定 Z 的取值范围——在这些范围内,Z 条件下变量 X 和 Y 的联合分布差异最为显著。本图所用模型参数与图 3 保持一致。

图 5 TRIM 算法在 10 节点测试基准网络上的性能表现。采用图 3 ( a ) 所示的网络结构,对含三元交互的动力学模型进行随机动力学积分,得到时间序列数据后,使用 TRIM 算法进行分析。图 ( a ) 展示了在不同参数值(见图例标注)下,TRIM 算法的 ROC 曲线;图 ( b ) 为相同参数设置下对应的 PR 曲线。

为了测试算法的可扩展性,作者还在更大规模的网络上进行了验证:构建包含 100 个节点的随机厄尔多斯 - 伦伊网络(Erd ő s-Renyi network),添加 25 个随机的三元交互,再用 TRIM 算法进行检测(图 6)。结果显示,真实的三元交互均被赋予了较高的显著性分数,且熵分数普遍大于 0.5;而当网络中移除所有三元交互后,算法未检测到任何显著的三元组,进一步证明了算法的稳健性。这些验证结果表明,TRIM 算法不仅在小型网络中有效,还能稳健地应用于更大规模的系统,为处理真实世界的复杂数据奠定了基础。

图 6 TRIM 算法在含三元交互的 100 节点随机网络上的性能表现。 ( a ) 每个数据点代表一个节点三元组(X、Y、Z):纵轴为显著性分数 Θ ∑,横轴为 X 与 Y 的条件互信息(CMI),数据点颜色对应熵分数(S)的取值(用于表征该三元组的熵特征)。合成数据来源于含 100 个节点的随机厄尔多斯 - 伦伊网络(Erd ő s-Renyi network),网络平均度 c=4,并额外添加了 25 个随机三元交互(即随机边与随机节点之间的交互)。星号代表真实的三元交互,叉号代表经高斯零模型筛选后被排除的三元组。 ( b ) 直方图展示了网络中所有三元组的显著性分数值 Θ ∑分布(浅蓝色),以及 25 个真实三元交互对应的显著性分数值 Θ ∑分布(深蓝色)。 ( c ) 直方图展示了相同拓扑结构和动力学参数,但移除所有三元交互的网络中,三元组的显著性分数值 Θ ∑分布(橙色)。

实战应用:

在急性髓系白血病基因数据中发现新线索

随后,研究进入了最具挑战性的环节:在真实的生物医学数据中挖掘三元交互。研究选取了急性髓系白血病(Acute Myeloid Leukemia, AML)的基因表达数据,并结合了人类蛋白质 - 蛋白质互作网络( Protein-Protein Interaction network, PPI)作为先验结构网络。

通过 TRIM 算法对 AML 数据进行分析,发现了一批具有高度统计显著性的三元交互(图 7)。例如,三元组(GATA1, KLF1, ETV1)和(HOXB3, MEIS1, GLIS3)均被检测为显著三元交互,其中 GATA1、HOXB3、MEIS1 等基因已被证实与 AML 的发生发展密切相关。在排名前 50 的显著三元组中,高达 84% 包含至少一个已知与 AML 相关的基因。此外,算法还检测到部分非单调的调控关系,表明基因之间的调控作用可能比以往认为的更为复杂,需要通过更精细的模型来描述。

图 7 TRIM 算法在基因表达数据中的应用结果。图 ( a ) 展示了急性髓系白血病(Acute Myeloid Leukemia, AML)数据集中显著三元组的分析结果:散点图纵轴为显著性分数 Θ ∑,横轴为条件互信息(CMI),数据点颜色对应熵分数(S)的取值。本图仅展示随机化零模型下 p 值≤ 0.001、且未被高斯零模型排除的三元组;圆形代表所有连接均存在于最小生成树(minimum spanning tree)中的三元组,方形代表涉及生物学相关基因的三元组。图 ( b ) - ( c ) 展示了两个代表性三元组的条件分布,两者均被 TRIM 算法判定为高显著性,提示存在具有生物学意义的关联:图 ( b ) 为三元组 X=GATA1、Y=KLF1、Z=ETV1,根据随机化替代零模型,该三元交互的 p ∑ =0.00、Θ ∑ =4.7、∑ =0.4、S=0.6;图 ( c ) 为涉及两个生物学相关基因的三元组 X=HOXB3、Y=MEIS1、Z=GLIS3,根据随机化替代零模型,其 Θ ∑ =3.9、p ∑ =0.00、∑ =0.3、S=0.6。

讨论与展望:开启复杂系统研究的新维度

这项工作为我们理解和分析复杂系统提供了一个强有力的新范式。它表明,要真正捕捉系统的组织原则,必须超越成对交互,关注那些调节交互本身的 " 高阶纽带 "。TPM 模型从理论上确立了三元交互如何编码在动态信息流中,而 TRIM 算法则提供了一把实用的钥匙,可以从观测数据中解锁这些隐藏的模式。

从网络科学的角度看,这项工作为高阶网络的建模与推断开辟了新路径。未来的研究可以探索三元交互在离散变量节点动力系统中的作用,或引入调控的时间延迟效应。

从生物学和医学的角度看,TRIM 算法为解读复杂的基因调控逻辑提供了新工具。它可以帮助我们系统性地发现那些 " 背景依赖 " 的调控关系——即只有在特定调控基因活跃或不活跃时,两个基因才会发生强关联。这对于理解疾病的机制、寻找组合药物靶点具有深远意义。

此外,该框架完全可以扩展到其他领域,如金融或气候科学,具有极其广阔的应用前景。

总而言之,这项研究不仅深刻揭示了三元交互这一普遍现象的动态本质,更将我们从 " 知道其存在 " 推进到 " 能够测量和发现它 " 的新阶段,可以成为我们解码复杂世界深层结构的重要探针。

高阶网络社区

随着对现实世界探索的不断深入,人们发现在许多真实的复杂系统中,组成系统的个体之间不仅存在二元交互关系,也广泛存在多个体同时(或以特定顺序)进行交互,即高阶交互现象。为此,研究人员分别发展出了基于超图、单纯复形、依赖关系等的网络高阶表示模型,为复杂网络分析和研究提供了新的思路。

由电子科技大学吕琳媛老师、任晓龙老师及中国地质大学(北京)管青老师在集智俱乐部联合发起了【高阶网络读书会】。读书会围绕高阶交互网络的基本概念、模型、方法与应用等研究进行研讨,按照「基础理论」+「深入理论」+「案例研讨」的模式展开。读书会第一季已经圆满结束,第二季正在筹备中。现在报名加入可以解锁第一季全部录播视频并加入社群交流。

详情请见:

探索复杂系统高阶交互的奥秘 | 高阶网络读书会启动

推荐阅读

1.  " 科学探索奖 " 得主吕琳媛:探索网络高阶结构,破解复杂系统难题

2.  单纯复形重构:如何从数据中发现复杂网络潜在高阶关系?

3.  陈关荣:探讨复杂网络的高阶拓扑及其应用

4.  系统科学前沿十讲:探究复杂世界演变背后的规则(二)

5.  集智学园精品课程免费开放,解锁系统科学与 AI 新世界

6.  高考分数只是张入场券,你的科研冒险在这里启航!

7.  加入集智字幕组:成为复杂科学知识社区的 " 织网人 "

点击 " 阅读原文 ",报名读书会

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

白血病 基因 生物 生物学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论