潜在的优化方式:NIG过程

2024-08-27

模拟限制地球生物量的这个想法,已经转化成了2024年“启研”计划的申报项目,这不得不提一嘴曲折的申报过程:一切都来得十分仓促,当收到通知决定要申报时,距离截止已经不足两周。 然而当组员发送邮件寻找指导老师时,出了差错,群发且均显地送到了诸多南京古生物所的老师手中……所幸最终并无乱子,甚至有两位老师先后愿意认领。 我们满怀感激地选择了朱茂炎院士作为指导领衔(纵使届时是外籍院士,我们也非常乐意如此称呼)。


在朱老师发送的文献 Landis (2017) 中,关于海洋脊椎动物体型变化的建模,给予了我巨量的感慨: 尽管文献中的数学表达非常高级和完善,但其本质和我之前设想的漂变行为是出奇的相似!这既是对我想法的佐证和肯定,也降低了我创新性的上限——虽然我的设想也是独立完成的。


在很早之前,我就想象过这种“他人先登”的情况,但也没料到竟然如此之快地就遭遇了,到头还是稍显沮丧的。 积极来说,毕竟别人团队的数学功底是远好于我的,因此可以学习补充很多启发性极强的数学知识,因此我把最感兴趣的整理到下方:


正态逆高斯过程简称NIG过程,是一种特殊的 Lévy 过程,它由组合正态分布和逆高斯分布混合构建,形式为:

\[X_t=\mu t+\beta G_t + \delta B_{G_t}\]

其中:

\(\mu\)是漂移参数,控制整体走向过程;

\(\beta\)是偏移参数,影响过程的偏移方向;

\(\delta\)是扩散参数,决定过程的波动性;

\(B_{G_t}\)是布朗运动,\(G_t\)是独立的逆高斯分布过程;


随机变量\(X\)的条件分布\(X|Y=y \sim N(\mu +\beta y, \delta^2 y)\),而\(Y \sim \text{IG}\left(\frac{1}{\alpha},\frac{1}{\beta}\right)\)为逆高斯分布,则:

\(X\)的边缘分布为NIG分布。

NIG 过程的性质:


稳定性:

NIG过程是一种具有自我相似性的 Lévy 过程,意味着在某些条件下,它的比例缩放后的分布仍然保持相似性;


无穷跳跃:

与复合泊松过程不同,NIG过程属于“无限活动”过程,意味着它在任意时间间隔内会产生无穷多次小幅度的跳跃,但这些跳跃大多数都很小,适用于描述连续但伴随不规则波动的现象;


厚尾特性:

NIG过程的尾部分布较重,这意味着极端跳跃的发生概率虽小,但一旦发生,其影响非常显著,这种厚尾性质在很多生物进化模型中被广泛使用,因为它可以有效捕捉极端事件的影响;


可调偏峰:

通过调整参数\(\alpha\)和\(\beta\),NIG 过程可以产生不同的偏度和峰度,从而适应不同的实证数据特性,使得NIG过程在建模具有不对称性和极端值现象的数据时非常有用。

在生物进化模型中,NIG过程特别适用于描述以渐进为主、偶尔发生较大变异的进化现象,这与地球生物进化方式不谋而合,因此或许能更好地捕捉物种进化过程中的极端事件及其影响。


现在又必须提到逆高斯分布(IG)的数学问题,一般只接触过高斯分布即正态分布,我刚看到IG的时候也感到困惑,因此也摘录要义如下:

IG PDF: \(f(x;\mu,\lambda)=\sqrt{\frac{\lambda}{2\pi x^3}}e^{-\frac{\lambda(x-\mu)^2}{2\mu^2 x}},\space x,\mu,\lambda>0\)


其中:\(\lambda\)为尺度参数,\(E(X)=\mu\),\(D(X)=\frac{\mu^3}{\lambda}\),IG分布为正右偏分布,有重尾特性。

这个模型其实完美解决了时间变化演化过程中,如何随机产生抽取值\(\lambda\)的问题(详见随笔)。 此前的抽取都是基于一个固定的正态分布,且抽取时间固定,这显然是存在缺陷的,于是我希望能够引入NIG分布来实现优化。 且我在非线性方程中使用的 non-Markov Chain,只包含大跳变的随机信息,Lévy 过程中含有的布朗过程也的确是个非常重要的参考,它能为我提供平缓波动演变的方案。


但这不得不从基因与环境影响的第一性原理,去考虑这种修正的合理性:生物量积累对于突变的响应,到底服从何种分布?


我与学术能力很强大的陈家航同学(当然诸多年后或称为陈院士)私下交流,首先是对于这种生物量模型合理性保持怀疑—— 毕竟每种随机过程看上去都可以解释一通,但这又说明它处处都不甚合理,它的限制将会空前地困难,或者产生不可估量的不确定性。 不过总的说回来,他认为或许也会遵循某种泊松分布,或是像 Landis 的模型那样直接全过程随机。此后我还是对NIG过程更感兴趣,这是不可名状的直觉,也很可能是错的,我喜欢去叛逆地猜。


事后我还请教了遗传学主讲梁前进关于突变影响服从的分布问题。 写段小插曲,在撰写该网页前,我不曾知道他是北京师范大学的教授,默认成了本校老师。梁老师认为,从单个基因的突变行为上看,它的影响期望应当遵从正态分布,若是多基因情况,则会变得复杂而随机。 我追问如果是一整个基因库,甚至是生物圈内所有的基因,再考虑环境影响的情况,梁老师补充:统计累积下的基因库的突变响应应该又回归到了正态分布,但环境的变动会影响峰值的偏移,也就是最适度位置的改变。 因此在考虑环境的互作和变化后,整个影响很可能服从某个偏峰的类正态分布,而NIG过程和泊松过程都具有这种特征,只是偏峰的方向不同,这是相当宝贵的信息!


鉴于生物进化经典的“多害少利”结论,粗浅地讲,右偏的分布可能更适合优化目的,当峰值处于近中性时,右偏可以为有害突变提供更多的概率。(但也感觉可能并非如此)


总的来说最近一个月也并非没有进展,在间断地调研文献后,也深刻意识到自己知识面的浅薄和数学基础的不牢。 大佬陈家航为我推荐了一本科普向的《进化动力学》作为生物数学的入门读物,里面的内容不仅包含了之前很多我之前的独立思考的结果,还有其他大量的理论和设想,令人神往。 做这个项目也算是不虚此行了,就算最终没能通过实际数据,来限制到一个非常可靠而稳定的随机模型,在这个过程也属实学到了海量课堂上所无法接触的知识。

参考文献

     Landis MJ, Schraiber JG. Pulsed evolution shaped modern vertebrate body sizes. Proc Natl Acad Sci USA. 2017;114(50):13224-13229.

联系我

感谢您的第一次接触

电话

+86 19911712580

邮件

yangjinrui22@mails.ucas.ac.cn

地址

中国科学院大学玉泉路校区,北京,石景山