摘 要:在学术搜索系统中,根据某学术用户历史搜索行为对该用户在下一时间段中所需文献的数量和时间进行预测,有助于提升用户对学术文献推荐结果的满意度。本文通过挖掘学术用户各类行为序列特征提高学术用户下载行为(下一下载session中的下载次数以及距下一下载session的时间间隔)预测的准确度。首先,本文将学术用户下载行为预测问题转化为时间序列预测问题;其次,分别从学术用户查询重构行为、查询表达式与下载行为三个角度抽取特征,并在此基础上利用LSTM (long short-term memory)模型将学术用户历史session建模为时间序列,从而实现对下载行为的预测;最后,对比分析本文提出特征与已有研究提出特征的预测性能,分别探讨不同特征集合以及单个特征的预测效果。本文提出的特征能提高预测任务的准确度,基于对不同学术用户的聚类,在不同类簇上训练得到的LSTM模型具有最佳的整体预测性能。其中,查询表达式相关特征对下一下载session中的下载次数预测效果最佳,下载行为相关特征对距下一下载session的时间间隔预测效果最佳。
关键词:学术用户;文献下载行为预测;日志会话;学术搜索;特征挖掘
【本文第一作者系四川大学公共管理学院副教授,论文的资助基金为国家社会科学基金一般项目“时间感知的个性化学术文献引文推荐研究”(项目编号:21BTQ072)。】