因此,实现网页的自动分类是必要的,更是必需的。此技术还逐步与信息检索技术、信息过滤等技术相结合,成为解决人们网上信息获取的重要手段。网页的自动提取与自动分类密不可分,都成为信息时代比较重要的研究领域。
2相关技术
通过网页信息提取技术获取网页内容,然后对网页内容进行分析,也就是对分词进行分析,最后通过自动分类技术对采集到的内容进行分类。
2.1网页内容自动抓取
2.1.1基本概念
传统的网页内容抓取,完全是通过手动的复制粘贴,随着网络信息量的爆炸式增长,传统的网页内容抓取已经赶不上时代的步伐,效率低下。网页自动抓取是将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中的自动化过程。
网页内容抓取其实就是数据挖掘在网络信息中的应用,简单地说,数据挖掘就是是从海量数据中抓取取或“挖掘”知识。该术语实际上有点用词不当。注意,从石头或沙粒中挖取黄金称为黄金挖掘,而不是砂石挖掘。因此,数据挖掘应该更正确地取名为“从数据中挖取知识”,但是它太长了。“知识挖掘”是一个短术语,可能不能强调从大量数据中挖掘。毕竟挖掘是一个很动感的术语,它抓住了从很多的、未经过加工的原料中找到少量金子这个过程的特征。这样,这种用词不当携带了“挖掘”和“数据”,成了流行的选择。还有一些术语虽然和数据挖掘类似,但稍却有不相同的含义,比如数据库中的知识挖掘、数据/模式分析、知识提取、数据捕和数据考古。
数据挖掘的步骤:
网络信息挖掘是数据挖掘技术在网络信息处理中的应用。网络信息挖掘是从大量训练样本的基础上得到数据对象间的内在特征,并以此为依据进行有目的的信息提取。网络信息挖掘技术沿用了Robot、全文检索等网络信息检索中的优秀成果,同时以知识库技术为基础,综合运用人工智能、模式识别、神经网络领域的各种技术。应用网络信息挖掘技术的智能搜索引擎系统能够获取用户个性化的信息需求,根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻。
2.1.2基本步骤
网站信息挖掘可以宏义的定义为从万维网中发现和分析所需的信息。网络信息挖掘(Web Mining)相关技术是简历在已知数据库样本的基础上,在通过学习归纳、机器学习、分析统计等方法获取数据对象间的潜在特性,据此采用数据过滤技术在网络中抓取用户所感兴趣的信息,获取更高一层次的知识和规律。
网络信息的挖掘大致分为以下4个步骤,资源发现,即检索有用的网络文档;信息预处理和选择,即从已获得的网络资源中自动选择和预先处理得到对应的信息;概括化,即从单一的网络站点以及多个站点之间发掘普遍的模式;分析,即对发掘出的模式进行解释或确认。根据发掘的对象不同,网络信息的挖掘可以分为网络用法挖掘、网络结构挖掘和网络内容挖掘。
流程:
第1步,确立相关目标样本,即由用户选择目标的文本提取用户的特别信息。
第2步:获取特征信息,即根据目标样本的词频分布,从统计词典中提取出挖掘目标的特征向量并计算出相对应的权值。源[自[优尔``论`文]网·www.youerw.com/
第3步网络信息抓取,即先利用搜索引擎站点选择等待采集的站点,再利用Robot程序采集静态网络页面,最后获取被访问站点的网络数据库中的动态信息,生成万维网信息索引库。 面向新闻同步的网站内容自动提取与分类研究(3):http://www.youerw.com/jisuanji/lunwen_71410.html