在利用文本挖掘方法获得现有的微生物基因组数据集的基础上,目前,对微生物基因序列进行多序列比对的主要工具是Clustal、MEGA,基于上述技术可以产生进化树。上文提到,通过分析基因关系,进一步可以了解遗传信息,进而应用到生物、医药、工林业等等领域,现有的技术基本上是利用关系数据库存储生物信息,并探索该数据库的搜索技术,进行单序列或者多序列的比对。本次研究,方向是引入新型数据库,即图数据库neo4j,利用图数据库本身处理大数据,搜索功能强大等优势,开拓出生物信息处理的新方法、新思路。
1.3 国内外研究现状
1.4 本文结构
本课题拟设计一种新型微生物基因组系统分析树系统,第四章介绍生物学传统序列分析方法,构建出微生物基因组序列系统发育树,第五章重点介绍图数据库neo4j的应用,在neo4j中构建新图,以及对图中的节点进行查询。第一章绪论部分,简单介绍了研究课题所处的大环境。第二章中提及相关技术,包括neo4j图形的构建是基于微生物基因组序列分析软件生成的进化树,以及从网络中获取的基因组数据集。第三章是简单的分析流程图以及定义介绍。第六章会对研究作一个总结,提出难点重点,走过的弯路,以及对本课题的展望。最后部分分别是致谢和参考文献。
2 相关技术的研究文献综述
使用文本挖掘方法,如网络爬虫技术,从网络中获取相关信息,对微生物基因组的研究成果有了一定的了解,应用多序列比对技术,实现在基因测序基础上的基因序列比对,然后在图数据库的大背景下,利用neo4j的构图以及查询技术,把微生物基因信息形象地展现出来。下面来一一叙述相关技术:
2.1 网络爬虫技术
网络爬虫技术简单理解就是一种自动提取信息的程序,它功能强大。从狭义上来讲,网络爬虫利用http协议,根据超链接和Web文档检索的方法遍历互联网信息空间。从广义上来讲,所有能利用http协议检索Web文档的软件都称之为网络爬虫。互联网本身是由相互链接的网站和网页组成,由于网站和网页的链接组成非常复杂,爬虫需采取一定的爬行策略(遍历策略),才能遍历到网上所有相关页面,网络爬虫技术主要有如下两种遍历策略:
1. 深度优先策略
在网页中,当一个超链接被选择后,沿着链接方向一直向前搜索,直到没有新的链接为止,然后返回到首页,沿着另一个链接再向前搜索,一般要设置遍历深度。其优点是容易达到深层网页或文件。缺点是因为网页结构及其深,可能有进去以后出不来的情况发生。源:自~优尔-·论`文'网·www.youerw.com/
2. 宽度优先策略
先搜索到一个页面中所有的超链接,不是沿着其中一个向前爬,而是把发现的所有链接爬一遍,然后依据第二层链接搜索第三层,再继续搜索下一层,直到底层为止。宽度优先策略通常是实现爬虫的最佳策略,因为它相对来说实现比较容易,而且期望的功能比较完善。但是如果遍历的页面较深,宽度优先策略需要花较长的时间才能做到。
一般来说,深度优先和宽度优先策略是混合使用的,这样既可以搜索到尽量多的网站也能便于搜索到一部分网站的内页。
2.2 人类肠道微生物宏基因组测序
基于Illumina公司的宏基因组测序法,即Illumina公司基因组分析仪技术(GA),这作为MetaHIT(人类肠道束的宏基因组学)项目的一部分,使用SOAPdenovo19,一个基于图形的专为短序列设计的工具,集中并突出地描述了330万个非冗余微生物基因,是从来自124个欧洲人排泄物样本的序列的576.7个碱基中推断出来的。大约80%的576.7 Gb的Illumina GA序列可以和有一个阈值为90%的片段保持一致