1、通过分析国内核心期刊中科技论文的格式特征与存储标准,结合多维科技论文的结构化存储要求,分析并提炼论文要素信息,设计并实现了一个科技论文结构化析取的总体技术框架。
2、提出一种 Word 文档结构化信息析取算法:由于各期刊的论文发表格式不尽相同,先对各期刊的传统论文分别进行样本学习,标识 Word 文档中各论文要素的文本、格式特征,生成析取规则并存入规则文档库。其次,选择与预析取期刊论文相对应的析取规则,从 Word 文档提取出相应的论文各要素信息。也可对期刊存储目录的论文进行批量提取。最后,自动生成基于 XML 的符合多维科技论文存储格式的结构化多维科技论文;并对算法进行测试与评估。
3、设计并实现一个基于特征的传统科技论文结构化析取系统XWordExchanger。以科技论文为析取对象,设计并实现了一个传统科技论文信息析取系统,系统开发集成信息析取技术、XML 结构化技术和机器学习技术。
特别声明:本站持有《出版物经营许可证》、《增值电信业务经营许可证》, 主要从事杂志订阅与学术咨询,不是任何杂志官网,不涉及出版事务,特此申明。
如有侵权,请立即联系我们网站,我们立即下架或删除。
工信部备案:苏ICP备20026650号-6 公安备案号:32040202000415
出版物经营许可证:新出发苏零字第D-T086号 增值电信业务经营许可证:苏B2-20220836
© 2001-2023 www.qwqk.net 版权所有:权威期刊网