data-science相关内容

对JS数组进行概率置乱

假设我有一个这样的数组: const alphabet = ['a', 'b', 'c', 'd']; 这代表4名政治候选人和一张等级选择票,其中候选人a是第一选择,b是第二选择,依此类推。 我希望将其随机排列成一组顺序,但在本例中,我希望a以可能60%的概率出现在第一位,b以20%的概率出现在第二位,c以10%的概率出现在第三位,所有其他顺序可能以10%的概率出现。是否有一些loDa ..
发布时间:2022-08-04 15:02:50 前端开发

词汇空间大小模型';en_core_web_sm';

我试着在Spacy Small模型中查看词汇量: model_name="en_core_web_sm" nlpp=spacy.load(model_name) len(list(nlpp.vocab.strings)) 它只给了我1185个单词。我还在同事的机器上试了试,得到了不同的结果(1198和1183)。 只有这么小的词汇量来训练词性标注,难道就应该是这样吗?当我在我的 ..
发布时间:2022-07-20 12:31:13 AI人工智能

使用Python计划任务栏时,无法打开并且无法执行任何操作

我用python语言编写了一个桌面应用程序程序。并为员工创建了一个登录表单,登录后,我创建了一个时间表,调用了一个用于检查员工是否登录的API,并打开了一个确认员工登录的弹出消息。 我的问题是计划什么时候开始,这样我才能停止代码 import PySimpleGUI as sg import requests from psgtray import SystemTray import ..
发布时间:2022-06-28 17:41:52 Python

计算R中每个ID的平均重复数

我的数据如下: id 日期 1 a 1 a 1 b 1 c 1 c 1 c 2 z 2 z 2 e 2 x 我想计算每个id的平均重复项数,即,对于id=1,我们有2a、1b、3c,我希望输出为2。 结果应该如下所示: id 平均值 1 2 2 1.333 推荐答案 使用data.table包 library(data.table) # ..
发布时间:2022-06-28 17:15:08 其他开发

Pandas:将一列与数据帧的所有其他列进行比较

我有一个场景,我让新的主题接受一系列特征的测试,其中结果都是字符串分类值。测试完成后,我需要将新数据集与所有对象的主数据集进行比较,并查找给定阈值的相似性(匹配)(比方说90%)。 因此,我需要能够以最佳性能将新数据集中的每个新主题与主数据集中的每一列以及新数据集中的其他主题进行分栏(按主题)比较,因为生产数据集大约有50万列(还在增长)和10,000行。 以下是一些示例代码: ..
发布时间:2022-04-05 17:58:17 Python

LDA生成的组件比Python中要求的少

我正在处理以下数据集: http://archive.ics.uci.edu/ml/datasets/Bank+Marketing 可以通过单击数据文件夹链接找到数据。存在两个数据集,一个训练集和一个测试集。我使用的文件包含两个集合中的组合数据。 我正在尝试应用线性判别分析(LDA)来获得两个组件,但是,当我的代码运行时,它只产生一个组件。如果设置“n_Components=3” ..

在卫星数据集上进行光谱聚类后使用Networkx绘制图形的步骤

我已经生成了包含20个点的卫星数据集,并对其进行了光谱聚类。我想在Networkx的帮助下使用最近邻居=3来形成一个图。其中数据点是节点,聚类后生成的亲和度矩阵是不同节点之间的边上的权重。我还需要帮助更改两个群集的节点的颜色和形状,以便将一个群集的节点与另一个群集的节点区分开来。代码如下所示。下面给出了输出图像。我只想使用近邻=3在输出图像的节点之间绘制一个图。 import numpy a ..

帕累托分布:R与Python-不同的结果

我正在尝试使用scipy.stats在Python中复制R的fitdist()结果(引用,不能修改R代码)。结果完全不同。有人知道为什么吗?如何在Python中复制R的结果? data = [2457.145, 1399.034, 20000.0, 476743.9, 24059.6, 28862.8] R代码: library(fitdistrplus) library(actu ..
发布时间:2022-03-02 11:13:09 Python

基于换行符的空格自定义句子切分

我正在尝试将this文档拆分成段落。具体地说,只要有换行符( ) ,我就想拆分文本 这是我正在使用的代码,但没有产生我希望的结果 nlp = spacy.load("en_core_web_lg") def set_custom_boundaries(doc): for token in doc[:-1]: if token.text == " ": ..
发布时间:2022-03-02 11:09:55 Python

查找距离点最近的坐标

我有城市坐标:(52.2319581, 21.0067249)和Python字典,上面提到的城市周围有城市。如何从给定的坐标中获取最近的3个城市: ({'Brwinów': (52.133333, 20.716667), 'Warszawa Bielany': (52.283333, 20.966667), 'Legionowo': (52.4, 20.966667), 'Warszawa- ..
发布时间:2022-03-02 11:04:12 Python