(1)介绍了数据清洗、MGRA领域算法、领域工程和mtDNA数据质量的背景和相关国内外研究现状,阐述了mtDNA注释、mtDNA重排和数据清洗规则的理论,详细介绍了领域工程、PAR方法和产生式编程相关方法。
(2)提出了一种实用的mtDNA数据清洗框架MitoCF。该框架利用mtDNA结构固定和特定的基因排列顺序等特征,设计了规则约束和方法,并制定了规则的优先级,采用规则顺序执行的方式驱动数据清洗流程,构建了一个系统化的mtDNA数据清洗框架。为了验证MitoCF的实用性与可行性,本研究采用5853个后生动物中脊椎动物全mtDNA数据作为实验数据源,运行框架进行数据清洗并生成清洗报告。实验结果表明,MitoCF在数据清洗的准确率和召回率方面均取得了优异表现,验证了其在实际应用中的有效性和实用价值。
参考文献(略)
