第一百一十一章 炼丹
头上悬着三把剑:
如何逆转非编码区基因突变进程?
腺病毒如何通过影响非编码rna影响植物?
倒计时2548天。
每当看到着四行字时,卢赫都觉得真的有一个大宝剑虚贴在自己的后脑勺上,好像下一秒就要被破瓢。
头痛。
不过并不是每一个人都像他一样痛苦。因为倒计时的尽头是什么,只有少数人知晓。
事实上,也就是像他一样的小年轻才会纠结为什么会从13年缩水到7年。混过职场的老油条对此都是见怪不怪的:
拖延症是打工人的专属,领导们一般都有强迫症和妄想症。因为他们总是恨不得项目一申下来,立刻就给做完。
所以重要的时间节点,一般都会往前定,给出一定的余量与缓冲。对于这种关乎人类存亡的事情,余量6年更是无可厚非。
至于7年的真正缘由谁知道谁不知道,分辨起来也很简单。
只要搬把椅子坐到门口,翘着二郎腿,心不在焉地扫一眼来人的表情,便可轻易知晓:
刚被奇奇怪怪的早餐摧残过,神情呆滞地直视一眼横幅便一股脑往里冲的,大概率是不知道的。
本来脚步轻快,却在看到横幅后停顿一下,然后开始皱眉的,大概率是知道的。
虽然这个鉴别同胞的想法在卢赫脑中存在很久了,但他从未真正实践过。
因为研究的推进比他想象得要快,短短几天内,基于海昼天基因组的数据集已经建好了,他们可以开始炼丹了。
之所以称之为炼丹,是因为机器学习模型的训练过程,受到超参数的影响。
所谓超参数就是人为预先设定的参数,设得好,模型训练得就快;设得不好,模型可能压根就不收敛。
至于什么是好,什么是不好,只有全知全能老天爷才能知道。
天心最难揣度。
说到底,除了扎实的基础和丰富的经验以外,想要快速训练出一个能用的模型、炼出一个能不把人吃死的丹药,运气最重要。
而炼丹是要时间的,七七四十九天之后,如果这丹药不能用,那么这时间就被完全浪费掉了。
所以,他跟着那帮专业炼丹的人开了大半天的会,讨论了怎样分配有限的炼丹炉。
虽然他听不懂那些高深的特征增广、小样本学习、时间序列预测、给数据驱动模型添加物理约束等理论。但作为一个通识课上学了9个学时,就被要求一个暑假里手撸一个图像识别算法的高材生,他有他自己的想法。
他要用强化学习。
“对于强化学习而言,我们的样本太少了。”哪里都要掺一脚的郑k一如既往地苦着脸说。
“少就少呗,又不是不能用。再说了,我们不是正在用老鼠造模吗?造完了样本就多了。”卢赫不以为然。
“具体思路呢?”郑k忧心忡忡地问。
“跟你们一样。特征是某时间点的基因组,标签是未来的突变位点,然后让单碱基编辑的载着相应向导rna的crispr系统在那里等着,一旦突变了,就立刻给修复。把病扼杀在摇篮里。
非要说有什么不同,第一,我这是黑箱,只能发挥作用,却不知道怎么发挥作用;第二,我这基本算是端到端的、全自动的,人工干预只在定期查基因组和设计crispr系统,这部分工作未来也有希望自动化。
功过相抵,中规中矩。”
散会后,卢赫坐到电脑跟前,摩拳擦掌。
虽然不是专业人士,但一直跟进这方面进展的他,始终觉得那些在数年间如雨后春笋般涌现出来的大几十种方法里,强化学习最有前途。
因为这是最接近人类本能学习方式的一种。
它的原理也很简单,就是让懵懂的小人工智障在环境里学习,它的每个动作都对应一个奖励或者惩罚。
就像还在蹒跚学步的小时候的我们一样,我们看到了火,好奇心趋势我们走近,我们感受到了温暖,奖励加一;手贱去摸了一下被烫到,惩罚加一。
于是,聪明的我们就会知道,火很暖和但不能靠得太近。
只不过与人不同得是,小人工智障无法一次就学会,而是需要大量数据去支撑它在环境里反复探索,直到把自己训练成人工智能。
如果用玩超级玛丽来打比方,小人工智障在游戏的第一帧获得初始状态;
在此基础上,我们可以逼迫它往前走一步,不论前方是不是有蘑菇怪。这样它会主动做出第一个行动。
这时,它所处的环境发生了变化,获得了新的状态;
同时,根据它死没死,环境会给它一个奖励或惩罚。
如此循环下去,便得到了一个由状态、行动和奖励组成的序列。小人工智障的目标就是调整自己的状态和行动,以使奖励的期望值最大。
如果训练的顺利,它便有望进化为一命通关的人工智能外挂
。
不同时间点的海昼天的基因组就是环境,逼迫小人工智障跑到基因组的某一个位置上改一个或多个碱基就是行动,根据改了以后海昼天得不得病来施加奖励和惩罚。