text-extraction - IT屋-程序员软件开发技术分享社区

使用POWER查询按数字串的最小长度从文本中提取数字

问题我的任务是整理一些包含文本和数字的非常杂乱的数据，并希望使用POWER QUERY将代码与数据分开。幸运的是，需要分隔的代码仅由数值组成，长度为7个字符(假设为6个或更多)。下面是我希望如何分隔数据的示例：目前：到目前为止，我有以下代码： let Source = Excel.CurrentWorkbook(){[Name="Table5"]}[Content], # ..

发布时间：2022-03-30 20:57:50 excel split extract powerquery text-extraction 其他开发

检测字符串中的@METERIONS将从一个匹配项返回两个元素

我有以下代码： $string = "Manual balls knit cardigan @120rb ORDER BB 28AFF6A6 atau 25AE5DB3 Phone 081298249949 atau 081310570229 Line indy2212 atau indy2281 FORMAT Nama Alamat Telp Kode barang"; i ..

发布时间：2022-03-29 11:03:48 php regex preg-match text-extraction mention PHP

Jsoup - 提取文本

我需要从这样的节点中提取文本: 一些带有标签的文本可能会去这里. 还有段落更多文字可以不用段落我需要构建: 一些带有标签的文本可能会去这里.还有段落更多文本可以不带段落 Element.text 只返回 div 的所有内容.Element.ownText - 不在子元素内的所有内容.两者都是错误的.遍历 children 会 ..

发布时间：2022-01-24 11:47:22 java iteration jsoup text-extraction Java开发

ColdFusion 从文本文件中提取值

技术细节我想从包含参数名称和值的文本文件中提取值.对于以“request.config"开头的每一行.(有空行、带有注释的行等，我不想从中提取任何内容)我想提取这些值(粗体): request.config.my_param_1 = "一些随机字符串"; 我认为最好的方法可能是使用 REGEX，但我该怎么做呢? 我认为会有类似正则表达式的东西，可以提取 2 个值 requ ..

发布时间：2022-01-09 15:14:01 regex coldfusion extract text-parsing text-extraction 其他开发

通过排除导航和 chrome 内容从 HTML 页面中提取纯内容/文本

我正在抓取新闻网站，想提取新闻标题、新闻摘要(第一段)等我插入了 webkit 解析器代码，以轻松地将网页作为树进行导航.为了消除导航和其他非新闻内容，我采用了文章的文本版本(减去 html 标签，webkit 提供了相同的 api).然后我运行 diff 算法比较来自同一网站的各种文章的文本，这导致相似的文本被消除.这给了我内容减去常见的导航内容等尽管采用了上述方法，但我的最终文 ..

发布时间：2022-01-02 17:59:24 html artificial-intelligence nlp html-content-extraction text-extraction AI人工智能

如何从一系列文本条目中提取常见/重要的短语

我有一系列文本项目——来自 MySQL 数据库的原始 HTML.我想在这些条目中找到最常见的短语(不是最常见的短语，理想情况下，不强制逐字匹配). 我的例子是 Yelp.com 上的任何评论，它显示了来自给定餐厅数百条评论的 3 个片段，格式为: “尝尝汉堡"(在 44 条评论中) 例如，此页面的“评论要点"部分: http://www.yelp.com/biz/sushi ..

发布时间：2022-01-02 17:22:10 nlp text-extraction nltk text-analysis 其他开发

从小文本内容(如推文)生成标签

我之前已经问过一个类似的问题，但我没有注意到我有很大的限制:我正在处理小文本集，例如用户推文以生成标签(关键字). 而且似乎已接受的建议(逐点互信息算法)旨在处理更大的文档. 有了这个限制(处理一小组文本)，我如何生成标签? 问候解决方案多词标签的两阶段方法您可以将所有推文合并到一个更大的文档中，然后从整个推文集合中提取n 个最有趣的搭配.然后，您可以返回并使 ..

发布时间：2021-12-25 20:32:44 twitter nlp text-extraction nltk text-analysis 其他开发

使用 Scikit-Learn CountVectorizer 根据文本语料库中的出现次数列出词汇表中的单词

我已经为 scikit-learn 中的一些文档安装了一个 CountVectorizer.我想在文本语料库中查看所有术语及其对应的频率，以便选择停用词.例如 'and' 123 次，'to' 100 次，'for' 90 次，......等等是否有任何内置函数? 解决方案如果 cv 是你的 CountVectorizer 并且 X 是向量化的语料库，然后 zip(cv.get_ ..

发布时间：2021-12-25 14:38:38 python machine-learning scikit-learn text-extraction countvectorizer AI人工智能

从包含子字符串中特定字符的字符串中提取单词

在 MS Excel 中，我想使用公式仅从文本中包含特定字符 ("=") 的单元格中提取单词. A2:多莉给我做了一个自制的蛋糕和一些松饼 A3:我们晚餐吃了奶酪=蛋糕 A4:每个人都喜欢面包店如何制作一些很棒的蛋糕 A5:约翰尼昨晚自己做了晚餐，然后打扫了厨房 A6:有大量降雨 State=Oklahoma 我希望列 (A2:A4) 中的以下内容在列 (B2: ..

发布时间：2021-12-25 12:35:05 string excel excel-formula text-extraction 其他开发

如何使用 Vim 提取文件中的所有正则表达式匹配项?

考虑以下示例: case Foo:...休息;案例栏:...休息;案例更多:案例复杂:...休息:... 假设，我们想要检索正则表达式的所有正则表达式匹配项(整个匹配文本，或者更好的是，$ 和 $ 之间的部分)case $[^:]*$:，它应该给我们(最好是在一个新的新缓冲区中)类似于: Foo酒吧更多的复杂的... 另一个用例示例是提取某些部分，例如从 HTML 文件中提取图像的 ..

发布时间：2021-12-24 08:36:45 regex vim match text-extraction 其他开发

C# 使用 PdfSharp 从 PDF 中提取文本

是否有可能使用 PdfSharp 从 PDF 文件中提取纯文本?我不想使用 iTextSharp 因为它的许可证. 解决方案参考了 Sergio 的回答，做了一些扩展方法.我也把字符串的累加改成了迭代器. 公共静态类 PdfSharpExtensions{公共静态 IEnumerableExtractText(此 PdfPage 页面){var content = ContentRea ..

发布时间：2021-12-22 19:53:43 c# text text-extraction pdfsharp C#/.NET

如何从图像中检测文本区域?

我想从图像中检测文本区域作为 tesseract OCR 引擎的预处理步骤，当输入仅为文本时引擎运行良好，但当输入图像包含非文本内容时，它会下降，所以我只想检测文本内容图像，任何关于如何做到这一点的想法都会有所帮助，谢谢. 解决方案看看这个边界框使用 OpenCV 代码演示的技术: 输入: 侵蚀: 结果: ..

发布时间：2021-12-18 11:27:24 c++ image-processing tesseract text-extraction C/C++开发

在 java 中获取 URL 参数并从该 URL 中提取特定文本

我有一个 URL，我需要从这个 URL 中获取 v 的值.这是我的网址:http://www.youtube.com/watch?v=_RCIP6OrQrE 我该怎么做? 解决方案我认为最简单的方法之一是解析 URL.getQuery() as public static MapgetQueryMap(字符串查询){String[] params = query.split("& ..

发布时间：2021-12-16 23:47:21 java url text-extraction Java开发

如何从 .doc & 中提取纯文本.docx 文件?

有谁知道他们可以推荐的任何东西，以便从 .doc 或 .docx 中提取纯文本? 我找到了这个 - 想知道是否还有其他建议? 解决方案如果你想要纯纯文本(我的要求)那么你只需要 unzip -p some.docx word/document.xml |sed -e 's/]\{1,\}>//g;s/[^[:print:]]\{1,\}//g' 我在命令行 fu 它解压 ..

发布时间：2021-12-14 23:51:42 unix extract docx doc text-extraction 服务器开发

使用 Python 解析 PDF - 提取格式化文本和纯文本

我正在寻找一个 PDF 库，它可以让我从 PDF 文档中提取文本.我看过 PyPDF，这可以很好地从 PDF 文档中提取文本.这样做的问题是，如果文档中有表格，表格中的文本将与文档的其余部分一起提取.这可能会带来问题，因为它会生成无用且看起来乱码的文本部分(例如，大量数字混在一起). 我想从 PDF 文档中提取文本，排除任何表格和特殊格式.有没有图书馆可以做到这一点? 解决方案你也 ..

发布时间：2021-12-14 16:01:29 python pdf parsing text-extraction information-extraction Python

从给定坐标提取 PDF 文本

我想使用 Ghostscript 从 PDF 的一部分(使用坐标)中提取文本. 有人可以帮我吗? 解决方案是的，使用 Ghostscript，您可以从 PDF 中提取文本.但是不，它不是完成这项工作的最佳工具.不，你不能在“部分"中做到这一点.(单页的一部分).您可以做什么:仅提取特定范围页面的文本. 第一:Ghostscript的 txtwrite 输出设备(不太好) ..

发布时间：2021-12-14 15:24:06 pdf ghostscript text-extraction 其他开发

用于将 PDF 转换为文本的 Python 模块

是否有任何python模块可以将PDF文件转换为文本?我尝试了一段代码在使用 pypdf 的 Activestate 中找到，但生成的文本之间没有空格并没有用. 解决方案尝试 PDFMiner.它可以从 PDF 文件中提取 HTML、SGML 或“标记 PDF"格式的文本. Tagged PDF 格式似乎是最干净的，去掉 XML 标签只留下裸文本. Python 3 版本位 ..

发布时间：2021-12-14 15:03:36 python pdf text-extraction pdf-scraping Python

如何使用 grep、regex 或 perl 按照模式提取字符串

我有一个看起来像这样的文件: 我需要提取name=后面的引号内的任何内容，即con ..

发布时间：2021-12-10 17:58:59 regex perl sed html-parsing text-extraction 其他开发

从 HTML 标签中的文件中抓取文本

我有一个要从中提取日期的文件，它是一个 HTML 源文件，因此里面充满了我不需要的代码和短语.我需要提取包含在特定 HTML 标记中的日期的每个实例: abbr title="((这是我需要的文字))" data-utime=" 实现这一目标的最简单方法是什么? 解决方案如果您使用的是 Excel VBA，请设置对 MSHTML 库(名为 Microsoft HTML Obj ..

发布时间：2021-11-27 11:59:23 excel web-scraping extract analysis text-extraction 其他开发

如何使用正则表达式提取子字符串

我有一个包含两个单引号的字符串，' 字符.单引号之间是我想要的数据. 如何编写正则表达式从以下文本中提取“我想要的数据"? mydata = "一些字符串，里面有'我想要的数据'"; 解决方案假设您想要单引号之间的部分，请使用带有 Matcher: "'(.*?)'" 示例: String mydata = "一些带有'我想要的数据'的字符串";模式 pattern = Pat ..

发布时间：2021-11-25 13:18:18 java regex string text-extraction Java开发

text-extraction相关内容