使用正则表达式从文本中提取单词和逗号之间的名称 [英] Extract name between a word and comma from text with regex

查看:183
本文介绍了使用正则表达式从文本中提取单词和逗号之间的名称的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有数千个带有大文本的.txt文件.我想从这些文件中提取一些信息,例如一些名称,数字和日期.有些字段遵循某种模式以能够提取信息,而其他字段则没有.我附上三个文本示例.

I have a thousands .txt files with a large text. I want to extract some information from these files, like some names, numbers and dates. There are fields that follow a pattern to be able to extract the information, but others do not. I attach three examples of text.

当我需要提取公司创建者的姓名和公司名称时,就会出现问题.要提取创建者的名称,请在文本中添加一个模式.提取公司名称.

The problem comes when I need to extract the name of the creator of a company and the name of that company. To extract the name of the creator, there is a pattern in the text. To extract the name of the company no.

模式是:以"antemí:"开头,后跟姓氏,并以逗号结尾.

The pattern is: start with the words "ante mí:" followed by a name with last names and ending in comma.

我正在使用以下代码:

# Libreria RegEx de Python.
# coding=utf-8
import re

f = open ('/Users/anna/PycharmProjects/extractData/DiarioOficial/aaa1381582.pdf.txt','r')

mensaje = f.read()
mensaje = mensaje.replace("\n","")

print re.findall(r'\s ante mí,+[a-zA-Z]{6-24}\s', mensaje)

但是我认为正则表达式是错误的.

But I think that the regular expression is wrong.

有人可以帮助我吗?

CVE 1381582     

|     

Director: Juan Jorge Lazo Rodríguez    

Sitio Web:   

 www.diarioficial.cl    

|     

Mesa Central:   

 +562 2486 3600    

    Email:    

consultas@diarioficial.cl   

Dirección:    

Dr. Torres Boonen N°511, Providencia, Santiago, Chile.       

Este documento ha sido firmado electrónicamente de acuerdo con la ley N°19.799 e incluye sellado de tiempo y firma electrónica  

avanzada. Para verificar la autenticidad de una representación impresa del mismo, ingrese este código en el sitio web www.diarioficial.cl                           

DIARIO OFICIAL    

DE LA REPUBLICA DE CHILE    

Ministerio del Interior y Seguridad Pública      

V    

SECCIÓN       

CONSTITUCIONES, MODIFICACIONES Y DISOLUCIONES DE SOCIEDADES Y COOPERATIVAS                      

Núm. 42.031    

|    

Viernes 13 de Abril de 2018    

|    

Página 1 de 1      

Empresas y Cooperativas    

CVE 1381582        

EXTRACTO     

     

VALERIA RONCHERA FLORES, Notario Titular Décima Notaría Santiago, oficio  

Agustinas 1235, piso 2, CERTIFICO: Por escritura pública hoy ante mí: DANIEL ROLANDO  

CORNEJO GALLARDO, chileno, soltero, factor de comercio, con domicilio en Pueblo Hundido  

sin número, comuna de Rengo, Sexta Región del Libertador Bernardo OHiggins, de paso en  

ésta; constituyó sociedad por acciones denominada AGRÍCOLA Y TRANSPORTES SAN  

DANIEL SpA, nombre de fantasía SAN DANIEL SpA. Objeto Social: Objeto. La Sociedad  

tiene por objeto, la explotación integral del rubro agrícola, ganadero y forestal, por cuenta propia  

o ajena, de predios rústicos propios o ajenos, la importación, exportación, transformación y  

comercialización de productos agrícolas, ganaderos o forestales. En general, la realización de  

toda clase de negocios relacionados con el agro, la producción agropecuaria, frutícola o  

maderera, la compra, venta y exportación de la producción, sea la propia o ajena, servicios de  

embalaje, envasado, packing y de asesoría a productores, y la elaboración de alimentos, de toda  

clase a partir de esa producción; actuar como comisionista o mandatario, para la venta y  

comercio de productos agrarios; realizar inversiones en toda clase de bienes muebles o  

inmuebles, administrarlos y percibir sus frutos o rentas. Asimismo, el transporte de carga y/o  

pasajeros, en vehículos propios, arrendados o en leasing o encomendados a terceros; la  

representación de empresas extranjeras o nacionales de transporte y embalaje; todo lo  

relacionado, de cualquiera forma, en la actualidad o en el futuro, con el flete, traslado y  

transporte de pasajeros o bienes de toda clase y su embalaje, incluyendo las gestiones portuarias  

y aduaneras, en su caso. También el ejercicio de la actividad comercial en sus formas más  

amplias y, en especial, la compraventa, importación, exportación, distribución y  

comercialización de toda clase de bienes, por cuenta propia o ajena, la representación de  

empresas nacionales y extranjeras; y todo otro negocio o actividad conexa con el giro que  

acuerden los socios. Domicilio: Comuna y ciudad de Santiago, Región Metropolitana, sin  

perjuicio de que pueda establecer agencias, sucursales u oficinas en el resto del país o en el  

extranjero. Duración: Indefinida. Capital: $100.000.000.- dividido en 1.000 acciones,  

nominativas, de una sola serie y sin valor nominal; de las cuales el socio constituyente paga 10  

acciones, equivalentes a $1.000.000.-, al contado, en efectivo, que ingresan a caja social, el saldo  

de 990 acciones serán pagadas en un plazo de 3 años a contar de la suscripción del presente  

contrato. Administración: Por accionista constituyente DANIEL ROLANDO CORNEJO  

GALLARDO.- Demás pactos escritura extractada. "Santiago, 9 abril 2018".

推荐答案

使用模式([^,]*)将所有内容匹配到逗号

Use the pattern ([^,]*) to match everything upto a comma

>>> re.findall(r'\sante mí:\s+([^,]*)', mensaje)
['DANIEL ROLANDO  CORNEJO GALLARDO']

这篇关于使用正则表达式从文本中提取单词和逗号之间的名称的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆