法与步骤简单描述如下:
3.1 用标准的矢量形式表示文本内容。要实现内容的自动聚类,首先要把待聚类的内容集用标准的矢量形式表示出来。由于给不同的文本内容建立关键字是可行的,而且关键字又是最易于代表文本内容语义的,因此可以通过文本内容的关键字作为中间桥梁将内容表示成标准的矢量形式。用标准的矢量形式表示文本内容,这是利用神经网络实现内容的自动聚类的基础。
3.2 选择样本文档。kohonen网络采用的是无监督学习算法,因此在通过该网络对内容进行聚类前需要选择样本内容作为训练集,使自组织网络学习如何对内容进行聚类。样本的选择应当具有代表性与广泛性。
3.3 初始化网络的输入节点、输出节点以及连接权值。将以n个关键字或文本特征表示文本内容的n维矢量作为输入向量,同时生成含有m个输出节点的二维映射。
3.4 将代表文本内容的特征向量输入到网络中。
3.5 在输出节点中选择最佳匹配节点。计算输入节点与所有的输出节点权值的接近程度,选择距离最小,即输出节 点权值与输入值最接近的节点作为获胜节点。
3.6 调整权值。调整获胜节点及其邻域的节点的权值,从而使这些输出节点的权值与输入值更接近。
3.7 标注代表不同类的输出节点。不断重复以上过程,学习算法结束后,各输出节点的权值显示了聚类中心,将不同的类加以标注,以示区分。经过训练的网络可以用上述同样的方法对新的文本内容进行聚类。
3.8 对分类结果中包含大量输入样本的类别,递归应用以上步骤,继续在大类下划分更小的类。
经过以上过程便可以得到文本内容的分类结构,该分类结构可能是类与类之间相互独立的结构,也可能是层次结构。基于这种由智能聚类得到的分类结构,我们便可以利用经过训练的网络用同样的方法实现对不同文本内容的分类。
参考文献:
[1]朱爱华.基于语义网格的内容管理系统[j].广播与电视技术.2009.(01).
[2]薛勤,何险峰.内容分类与元数据在内容管理系统中的应用[j].四川气象.2007.(04)
上一页 [1] [2]