mining - IT屋-程序员软件开发技术分享社区

从字符串中删除所有标点符号，除非它在数字之间

我有一个包含单词和数字的文本.我举个有代表性的文字例子: string = "这是文本的 1 个示例.但是，它仅占所有数据的 2.5%" 我想将其转换为类似: “这是文本的 1 个示例，但它仅占所有数据的 2.5%" 因此删除标点(可以是. , 或string.punctuation 中的任何其他内容)并放入数字和单词连接时的空格.但是在我的例子中保持像 2.5 这样的浮点数. 我使 ..

发布时间：2021-09-06 19:10:33 python regex string text mining Python

使用命名实体注释将标签合并到我的文件中

在学习文本挖掘的基础知识时，我遇到了以下问题:我必须使用命名实体注释来查找和定位命名实体.但是，当找到时，该标签必须包含在文档中.例如:“Hello I am Koen"必须导致“Hello I am Koen . 我想出了如何查找和标记命名实体，但我一直坚持以正确的方式将它们放入文件中.我试过比较 ent.orth_ 是否在文件中，然后用标签 + ent.orth_ + 结束标签替换它. ..

发布时间：2021-09-04 19:21:41 tags spacy named-entity-recognition mining 其他开发

是否存在Python文本挖掘脚本来对具有多个分类的文本进行分类?

将描述分为几类我有一个问题，涉及确定文本描述所属的类别.这些文本描述由用户输入，并且可能包含可以与特定类别匹配的关键字.每个类别都有一组可以匹配的关键字和短语.大约有100个类别. 例如，一个文本描述可能看起来像这样，“带有边缘的粗麻布过道赛跑者"，并且类别“面料"包含关键字“粗麻布"，这样文本说明就可以归入此类文字描述/类别带有边线/织物的橙色粗麻布走道跑步者但是 ..

发布时间：2020-06-30 22:22:22 python text classification mining Python

因此，我已从运行Ubuntu Server& amp;的Amazon租用了VPS.我正在尝试建立一个莱特币矿池，以便我的矿工可以指向它. (这本来是一个私人泳池) 到目前为止，我已经安装了Litecoin软件包，进行了更新，并启动并运行了Litecoind，下载了所有区块并保持最新状态.我已经按照我使用的指南中的指示安装了UNOMP并设置了配置文件. (在此处找到: https://blockge ..

发布时间：2020-06-30 22:22:16 node.js ubuntu mining 其他开发

显示相关内容或文章的技巧

我一直在尝试学习“集体智慧"领域中的文本挖掘和其他相关内容.我有兴趣制作一个可以扫描文档并在页面上显示相关帖子/文章的应用. 什么算法可以帮助检索所需的信息? 谢谢 /A 解决方案一种简单的方法是计算页面上非常用单词及其实例.一个单词显示的越多，描述该帖子的内容就越好.然后，您可以使用它来查找其他文章/帖子. ..

发布时间：2020-06-30 22:21:12 text artificial-intelligence data-mining mining AI人工智能

超级账本中的PBFT算法

谁能详细解释 PBFT算法，而没有给出相同的任何链接?以及它在 hyperledger 中的工作方式.因此，一旦交易发送到blockchain: 谁验证交易? 如何在交易中达成共识? 交易如何提交到区块链? 解决方案 “超级账本"是Linux基金会下的一个区块链财团.目前在Hyperledger下至少有4种不同的区块链框架实现: Fabric(IBM) Corda ..

发布时间：2020-06-30 22:21:10 blockchain hyperledger corda mining 其他开发

哈希集处理可避免在迭代过程中陷入循环

我正在研究图像挖掘项目，并且我使用Hashset而不是array来避免在收集url时添加重复的url，我到达了代码点，以迭代包含主url的Hashset，并且在迭代过程中进行了迭代并下载主URL的页面并将其添加到Hashet中，然后继续，在迭代期间，我应排除每个扫描的url，并且还应排除(删除)所有以jpg结尾的url，直到url的Hashet计算达到0，问题是我在此迭代中遇到了无限循环，我可能会 ..

发布时间：2020-06-30 22:21:06 url hashset mining 其他开发

如何检查系统在C#中是否具有AMD或NVIDIA?

我正在尝试使用C#创建一个以太坊挖矿客户端，并且我需要检查系统是否具有AMD或NVIDIA.这是因为程序需要知道是否应该通过CUDA或OpenCL挖掘以太坊. 解决方案您需要使用System.Management命名空间(可以在引用/程序集下找到) 添加名称空间后，需要导航ManagementObject的所有属性，并导航propertydata的所有属性，直到在name属性上创建 ..

发布时间：2020-05-20 19:01:50 c# cuda opencl ethereum mining C#/.NET

将文档术语矩阵转换为包含大量数据的矩阵会导致溢出

让我们进行一些文本挖掘在这里，我站在文档术语矩阵的基础上(来自tm软件包) dtm ..

发布时间：2020-05-07 18:47:01 r memory-management text matrix mining 其他开发

Web挖掘-classification算法

我的高级项目是确定的网page.I抓取DMOZ的主要类别。现在我想建立ARFF。从那以后，我会用一些特征提取方法和分类算法。你知道哪些特征提取方法进行很好的与任何分类算法Web挖掘？解决方案 uClassify 使用的贝叶斯的网络并声称能够进行分类的网页。 uClassify是一个免费的网络服务，您可以轻松地创建自己的文本分类。例如：在垃圾邮件过滤器网页分类自动电子邮件支持语 ..

发布时间：2015-11-30 21:01:48 algorithm data-mining mining AI人工智能

mining相关内容