[目的]构建适应大数据环境的中文网络健康社区用户信息需求挖掘框架,以肿瘤科为例分析用户信息需求.[方法]使用潜在语义索引(LSI)模型和MapReduce分布式文本聚类技术对中文网络健康社区——求医网肿瘤板块的全部提问数据(共计24 305条)进行用户信息需求挖掘.[结果]挖掘出用户的5个信息需求类目及其占比:治疗(43.3%)、病理及病因(34.5%)、检查(12.1%)、术后(7.0%)、预防(3.1%),各类目下Top20关键词;发现国内外各需求类目占比差异巨大;预防信息需求将持续上升;需求的性别差异显著,男性最关注治疗信息、女性最关注病理及病因信息;需求的年龄差异较大,青年群体占比极高(83.79%)等.[局限]可能存...