2019-04
作者:刘夏,黄灿,余骁锋
随着专利数量的迅速增长,如何预测专利质量,已成为企业、政府以及学术界越发关注的问题。传统的统计分析方法虽然对专利质量评估进行了多方面探索,却较少对专利质量进行预测,尤其是充分利用到专利数据的海量样本和持续更新的优势。本文以2010—2011年国家知识产权局受理的共计85万余件专利申请为研究对象,抓取申请文档中以及相关引文的特征信息,搭建完整的随机森林模型,对后续被引情况进行机器学习及预测。除此之外,随机森林对特征重要性的评估结果显示,专利的向前引证专利的特征比该专利本身的特征对后续引证的预测提供了更多有效信息,进一步显示出专利审查中对前引专利检索工作的重要性。同时,文章结尾指出了本文模型的局限性以及今后借助机器学习对专利预测的改进方法。
全文已发表在《情报学报》,2019,38(04):402-410,欢迎下载阅读。