求引文解析器 [英] Seeking citation parser

查看:176
本文介绍了求引文解析器的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我需要一个解析器来扫描学术文本,提取引文,并将这些引用解析为它们的组成部分(作者,标题,出版日期等)。

I need a parser that will scan scholarly texts, extract citations, and parse those citations into their component parts (author, title, publication date, etc).

我尝试过Paracite,但速度慢得令人沮丧,并没有产生高质量的结果。

I've tried Paracite, but it is abominably slow and doesn't produce high quality results.

任何语言都可以,但Java是首选。

Any language is OK, but Java is preferred.

推荐答案

看看 ParsCit


这是主页ParsCit项目,执行两个
任务:1)引用字符串解析,有时也称为引用
解析或引用提取,以及2)
scienfific文档的逻辑结构解析。它被构建为受监督的机器
学习过程,它使用条件随机场作为其学习
机制。您可以下载以下代码,在线解析字符串,或者
将批处理作业发送到我们的Web服务。该代码包含
培训数据,特征生成器和shell脚本,用于将
系统连接到Web服务(在此网站上使用)。

This is the home page of the ParsCit project, which performs two tasks: 1) reference string parsing, sometimes also called citation parsing or citation extraction, and 2) logical structure parsing of scienfific documents. It is architected as a supervised machine learning procedure that uses Conditional Random Fields as its learning mechanism. You can download the code below, parse strings online, or send batch jobs to our web service. The code contains both the training data, feature generator and shell scripts to connect the system to a web service (used on this web site).

这篇关于求引文解析器的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆