聚类系数,小世界,交通,网络搜索 |
|
|
聚类系数,小世界,交通,网络搜索
1网络论坛分析 为了整合多个论坛中的信息就需要对多个论坛的信息进行分析并抽象出共同的特征。目前,绝大数论坛都是由板块和帖子构成,即若干主题相关的帖子聚合形成板块,若干板块聚合构成论坛。每个论坛中的帖子地址和板块地址都具有相同的URL地址格式。帖子的URL地址显示了该帖子的内容;而板块的URL地址显示的是帖子标题列表,由于一个板块具有多个帖子,所以往往要划分为多个页面来显示,所以这里的板块URL地址是第一页,通过翻页地址可以链接到该板块的下一页。以“采购经理人论坛”网站为例,帖子的URL地址格式如下:http://bbs.purchasingbbs.com/forum.php?mod=viewthread&tid={articlEid}&extra=page%3D{nextPage? Id}。其中{articleId}是帖子的数字编号,{nextPageId}是翻页地址的数字编号,即当前板块的页面编号。板块的URL地址的格式如下:http://bbs.purchasingbbs.com/forum.php?mod=forumdisplay&fid={boardId}。其中{boardId}是板块的数字编号。板块翻页URL地址的格式如下: http://bbs.purchasingbbs.com/forum.php?mod=forumdisplay&fid={boardId}&page={nextPageId},这里的{boardId}是板块的数字编号而,{nextPageId}是板块的页面编号。wWw.yBaSK.cOm 因此,本文认为一个论坛可以通过论本文由论文联盟http://*.html\board10\board10_20111202\article120.html 2.5提取内容 提取程序的功能是将帖子的保存形式从html格式转化为xml格式。不同论坛中的帖子格式不尽相同,但是都包括如下信息:帖子的标题、帖子的地址、帖子的发表时间、帖子的内容、帖子所属的论坛。帖子在保存为html文件后将被提取程序转换为xml文件,xml文 [1] [2] [3] [4] [5] 下一页 |
|
|
|
上一个论文: 网络“人肉搜索”事件的传播学研究 下一个论文: 聚类系数对小世界交通网络搜索路径的影响 |
|