text-extraction相关内容

使用POWER查询按数字串的最小长度从文本中提取数字

问题 我的任务是整理一些包含文本和数字的非常杂乱的数据,并希望使用POWER QUERY将代码与数据分开。幸运的是,需要分隔的代码仅由数值组成,长度为7个字符(假设为6个或更多)。 下面是我希望如何分隔数据的示例: 目前: 到目前为止,我有以下代码: let Source = Excel.CurrentWorkbook(){[Name="Table5"]}[Content], # ..
发布时间:2022-03-30 20:57:50 其他开发

Jsoup - 提取文本

我需要从这样的节点中提取文本: 一些带有标签的文本可能会去这里. 还有段落 更多文字可以不用段落 我需要构建: 一些带有标签的文本可能会去这里.还有段落更多文本可以不带段落 Element.text 只返回 div 的所有内容.Element.ownText - 不在子元素内的所有内容.两者都是错误的.遍历 children 会 ..
发布时间:2022-01-24 11:47:22 Java开发

ColdFusion 从文本文件中提取值

技术细节 我想从包含参数名称和值的文本文件中提取值.对于以“request.config"开头的每一行.(有空行、带有注释的行等,我不想从中提取任何内容)我想提取这些值(粗体): request.config.my_param_1 = "一些随机字符串"; 我认为最好的方法可能是使用 REGEX,但我该怎么做呢? 我认为会有类似正则表达式的东西,可以提取 2 个值 requ ..
发布时间:2022-01-09 15:14:01 其他开发

通过排除导航和 chrome 内容从 HTML 页面中提取纯内容/文本

我正在抓取新闻网站,想提取新闻标题、新闻摘要(第一段)等 我插入了 webkit 解析器代码,以轻松地将网页作为树进行导航.为了消除导航和其他非新闻内容,我采用了文章的文本版本(减去 html 标签,webkit 提供了相同的 api).然后我运行 diff 算法比较来自同一网站的各种文章的文本,这导致相似的文本被消除.这给了我内容减去常见的导航内容等 尽管采用了上述方法,但我的最终文 ..

如何从一系列文本条目中提取常见/重要的短语

我有一系列文本项目——来自 MySQL 数据库的原始 HTML.我想在这些条目中找到最常见的短语(不是最常见的短语,理想情况下,不强制逐字匹配). 我的例子是 Yelp.com 上的任何评论,它显示了来自给定餐厅数百条评论的 3 个片段,格式为: “尝尝汉堡"(在 44 条评论中) 例如,此页面的“评论要点"部分: http://www.yelp.com/biz/sushi ..
发布时间:2022-01-02 17:22:10 其他开发

从小文本内容(如推文)生成标签

我之前已经问过一个类似的问题,但我没有注意到我有很大的限制:我正在处理小文本集,例如用户推文以生成标签(关键字). 而且似乎已接受的建议(逐点互信息算法)旨在处理更大的文档. 有了这个限制(处理一小组文本),我如何生成标签? 问候 解决方案 多词标签的两阶段方法 您可以将所有推文合并到一个更大的文档中,然后从整个推文集合中提取n 个最有趣的搭配.然后,您可以返回并使 ..
发布时间:2021-12-25 20:32:44 其他开发

使用 Scikit-Learn CountVectorizer 根据文本语料库中的出现次数列出词汇表中的单词

我已经为 scikit-learn 中的一些文档安装了一个 CountVectorizer.我想在文本语料库中查看所有术语及其对应的频率,以便选择停用词.例如 'and' 123 次,'to' 100 次,'for' 90 次,......等等 是否有任何内置函数? 解决方案 如果 cv 是你的 CountVectorizer 并且 X 是向量化的语料库,然后 zip(cv.get_ ..

从包含子字符串中特定字符的字符串中提取单词

在 MS Excel 中,我想使用公式仅从文本中包含特定字符 ("=") 的单元格中提取单词. A2:多莉给我做了一个自制的蛋糕和一些松饼 A3:我们晚餐吃了奶酪=蛋糕 A4:每个人都喜欢面包店如何制作一些很棒的蛋糕 A5:约翰尼昨晚自己做了晚餐,然后打扫了厨房 A6:有大量降雨 State=Oklahoma 我希望列 (A2:A4) 中的以下内容在列 (B2: ..
发布时间:2021-12-25 12:35:05 其他开发

如何使用 Vim 提取文件中的所有正则表达式匹配项?

考虑以下示例: case Foo:...休息;案例栏:...休息;案例更多:案例复杂:...休息:... 假设,我们想要检索正则表达式的所有正则表达式匹配项(整个匹配文本,或者更好的是,\( 和 \) 之间的部分)case \([^:]*\):,它应该给我们(最好是在一个新的新缓冲区中)类似于: Foo酒吧更多的复杂的... 另一个用例示例是提取某些部分,例如从 HTML 文件中提取图像的 ..
发布时间:2021-12-24 08:36:45 其他开发

C# 使用 PdfSharp 从 PDF 中提取文本

是否有可能使用 PdfSharp 从 PDF 文件中提取纯文本?我不想使用 iTextSharp 因为它的许可证. 解决方案 参考了 Sergio 的回答,做了一些扩展方法.我也把字符串的累加改成了迭代器. 公共静态类 PdfSharpExtensions{公共静态 IEnumerableExtractText(此 PdfPage 页面){var content = ContentRea ..
发布时间:2021-12-22 19:53:43 C#/.NET

如何从图像中检测文本区域?

我想从图像中检测文本区域作为 tesseract OCR 引擎的预处理步骤,当输入仅为文本时引擎运行良好,但当输入图像包含非文本内容时,它会下降,所以我只想检测文本内容图像,任何关于如何做到这一点的想法都会有所帮助,谢谢. 解决方案 看看这个 边界框 使用 OpenCV 代码演示的技术: 输入: 侵蚀: 结果: ..
发布时间:2021-12-18 11:27:24 C/C++开发

使用 Python 解析 PDF - 提取格式化文本和纯文本

我正在寻找一个 PDF 库,它可以让我从 PDF 文档中提取文本.我看过 PyPDF,这可以很好地从 PDF 文档中提取文本.这样做的问题是,如果文档中有表格,表格中的文本将与文档的其余部分一起提取.这可能会带来问题,因为它会生成无用且看起来乱码的文本部分(例如,大量数字混在一起). 我想从 PDF 文档中提取文本,排除任何表格和特殊格式.有没有图书馆可以做到这一点? 解决方案 你也 ..
发布时间:2021-12-14 16:01:29 Python

从给定坐标提取 PDF 文本

我想使用 Ghostscript 从 PDF 的一部分(使用坐标)中提取文本. 有人可以帮我吗? 解决方案 是的,使用 Ghostscript,您可以从 PDF 中提取文本.但是不,它不是完成这项工作的最佳工具.不,你不能在“部分"中做到这一点.(单页的一部分).您可以做什么:仅提取特定范围页面的文本. 第一:Ghostscript的 txtwrite 输出设备(不太好) ..
发布时间:2021-12-14 15:24:06 其他开发

用于将 PDF 转换为文本的 Python 模块

是否有任何python模块可以将PDF文件转换为文本?我尝试了 一段代码在使用 pypdf 的 Activestate 中找到,但生成的文本之间没有空格并没有用. 解决方案 尝试 PDFMiner.它可以从 PDF 文件中提取 HTML、SGML 或“标记 PDF"格式的文本. Tagged PDF 格式似乎是最干净的,去掉 XML 标签只留下裸文本. Python 3 版本位 ..
发布时间:2021-12-14 15:03:36 Python

从 HTML 标签中的文件中抓取文本

我有一个要从中提取日期的文件,它是一个 HTML 源文件,因此里面充满了我不需要的代码和短语.我需要提取包含在特定 HTML 标记中的日期的每个实例: abbr title="((这是我需要的文字))" data-utime=" 实现这一目标的最简单方法是什么? 解决方案 如果您使用的是 Excel VBA,请设置对 MSHTML 库(名为 Microsoft HTML Obj ..
发布时间:2021-11-27 11:59:23 其他开发

如何使用正则表达式提取子字符串

我有一个包含两个单引号的字符串,' 字符.单引号之间是我想要的数据. 如何编写正则表达式从以下文本中提取“我想要的数据"? mydata = "一些字符串,里面有'我想要的数据'"; 解决方案 假设您想要单引号之间的部分,请使用带有 Matcher: "'(.*?)'" 示例: String mydata = "一些带有'我想要的数据'的字符串";模式 pattern = Pat ..
发布时间:2021-11-25 13:18:18 Java开发