data-science - IT屋-程序员软件开发技术分享社区

如何通过测试生成器消除错误？

我的培训生成器和有效生成器工作正常，但当我尝试预测时，我得到了某种错误，我认为这是来自测试生成器。 train_datagen = ImageDataGenerator(rotation_range=15, rescale=1./255, shear_range=0 ..

发布时间：2022-08-04 15:11:16 python tensorflow machine-learning keras data-science AI人工智能

对JS数组进行概率置乱

假设我有一个这样的数组： const alphabet = ['a', 'b', 'c', 'd']; 这代表4名政治候选人和一张等级选择票，其中候选人a是第一选择，b是第二选择，依此类推。我希望将其随机排列成一组顺序，但在本例中，我希望a以可能60%的概率出现在第一位，b以20%的概率出现在第二位，c以10%的概率出现在第三位，所有其他顺序可能以10%的概率出现。是否有一些loDa ..

发布时间：2022-08-04 15:02:50 javascript algorithm data-science voting voting-system 前端开发

如何将输入图像赋予训练好的模型？INPUT_1应为4维，但获得了具有形状(224,224，3)的数组

import tensorflow as tf from tensorflow import keras from keras.models import load_model from keras.preprocessing import image import numpy as np import cv2 import matplotlib.pyplot as plt model=tf.k ..

发布时间：2022-08-04 14:52:48 python opencv tensorflow data-science Python

词汇空间大小模型'；en_core_web_sm'；

我试着在Spacy Small模型中查看词汇量： model_name="en_core_web_sm" nlpp=spacy.load(model_name) len(list(nlpp.vocab.strings)) 它只给了我1185个单词。我还在同事的机器上试了试，得到了不同的结果(1198和1183)。只有这么小的词汇量来训练词性标注，难道就应该是这样吗？当我在我的 ..

发布时间：2022-07-20 12:31:13 machine-learning nlp data-science spacy AI人工智能

使用Python计划任务栏时，无法打开并且无法执行任何操作

我用python语言编写了一个桌面应用程序程序。并为员工创建了一个登录表单，登录后，我创建了一个时间表，调用了一个用于检查员工是否登录的API，并打开了一个确认员工登录的弹出消息。我的问题是计划什么时候开始，这样我才能停止代码 import PySimpleGUI as sg import requests from psgtray import SystemTray import ..

发布时间：2022-06-28 17:41:52 python data-science Python

如何获取 pandas 应用函数中所有df数据

import pandas as pd test_df =pd.DataFrame({"col1":[1,12,3,4], "col2":[3,14,5,6], "col3":[4,5,6,7]}) print(test_df) col1 col2 col3 0 1 3 4 1 12 14 5 ..

发布时间：2022-06-28 17:37:53 python pandas data-science Python

在Python中计算多个词典上的Jaccard相似度？

我有一本词典是这样的： my_dict = {'Community A': ['User 1', 'User 2', 'User 3'], 'Community B': ['User 1', 'User 2'], 'Community C': ['User 3', 'User 4', 'User 5'], 'Community ..

发布时间：2022-06-28 17:26:10 python dictionary data-science similarity Python

计算R中每个ID的平均重复数

我的数据如下： id 日期 1 a 1 a 1 b 1 c 1 c 1 c 2 z 2 z 2 e 2 x 我想计算每个id的平均重复项数，即，对于id=1，我们有2a、1b、3c，我希望输出为2。结果应该如下所示： id 平均值 1 2 2 1.333 推荐答案使用data.table包 library(data.table) # ..

发布时间：2022-06-28 17:15:08 r data-science 其他开发

如何在带有模式的Spacy模型中从简历中解析出生日期

我添加了多个取数模式date_of_birth，有时取数正确，但有时得到的日期不是出生日期。您可以看到我添加的patterns DOB_PATTERN = [ # dates of the form 23-12-2018 [{'IS_DIGIT': True}, {'ORTH': '/'}, {'IS_DIGIT': True}, {'ORTH': '/'}, {'I ..

发布时间：2022-06-21 16:25:33 python machine-learning data-science spacy training-data AI人工智能

修改数据集的行和列

发布时间：2022-05-07 14:46:35 python excel jupyter-notebook data-science data-manipulation Python

在R中对嘈杂的1/x数据进行建模，从摘要中获得本质上完美的拟合-为什么？

我只是试着用下面的玩具示例来指导我自己如何将倒数函数与数据进行拟合： # includes library(ggplot2) library(forecast) library(scales) # make data sampledata ..

发布时间：2022-04-16 15:50:12 r data-science curve-fitting data-analysis 其他开发

Pandas：将一列与数据帧的所有其他列进行比较

我有一个场景，我让新的主题接受一系列特征的测试，其中结果都是字符串分类值。测试完成后，我需要将新数据集与所有对象的主数据集进行比较，并查找给定阈值的相似性(匹配)(比方说90%)。因此，我需要能够以最佳性能将新数据集中的每个新主题与主数据集中的每一列以及新数据集中的其他主题进行分栏(按主题)比较，因为生产数据集大约有50万列(还在增长)和10,000行。以下是一些示例代码： ..

发布时间：2022-04-05 17:58:17 python pandas dataframe analytics data-science Python

LDA生成的组件比Python中要求的少

我正在处理以下数据集： http://archive.ics.uci.edu/ml/datasets/Bank+Marketing 可以通过单击数据文件夹链接找到数据。存在两个数据集，一个训练集和一个测试集。我使用的文件包含两个集合中的组合数据。我正在尝试应用线性判别分析(LDA)来获得两个组件，但是，当我的代码运行时，它只产生一个组件。如果设置“n_Components=3” ..

发布时间：2022-03-02 11:23:48 python python-3.x machine-learning scikit-learn data-science AI人工智能

在卫星数据集上进行光谱聚类后使用Networkx绘制图形的步骤

我已经生成了包含20个点的卫星数据集，并对其进行了光谱聚类。我想在Networkx的帮助下使用最近邻居=3来形成一个图。其中数据点是节点，聚类后生成的亲和度矩阵是不同节点之间的边上的权重。我还需要帮助更改两个群集的节点的颜色和形状，以便将一个群集的节点与另一个群集的节点区分开来。代码如下所示。下面给出了输出图像。我只想使用近邻=3在输出图像的节点之间绘制一个图。 import numpy a ..

发布时间：2022-03-02 11:20:58 python machine-learning data-science cluster-analysis networkx AI人工智能

如何在不使用Pandas的情况下迭代地读入R中的文件，并将每个文件的内容保存在不同的变量中？

我有一个场景，在这个场景中，我有一堆名称相同的文件，只是名称中有一个数字。我想创建与我拥有的文件一样多的变量。到目前为止，我的代码如下所示： for(i in 1:26) { if ( i ..

发布时间：2022-03-02 11:17:08 r for-loop iteration data-science file-handling 其他开发

帕累托分布：R与Python-不同的结果

我正在尝试使用scipy.stats在Python中复制R的fitdist()结果(引用，不能修改R代码)。结果完全不同。有人知道为什么吗？如何在Python中复制R的结果？ data = [2457.145, 1399.034, 20000.0, 476743.9, 24059.6, 28862.8] R代码： library(fitdistrplus) library(actu ..

发布时间：2022-03-02 11:13:09 python r scipy data-science Python

基于换行符的空格自定义句子切分

我正在尝试将this文档拆分成段落。具体地说，只要有换行符( ) ，我就想拆分文本这是我正在使用的代码，但没有产生我希望的结果 nlp = spacy.load("en_core_web_lg") def set_custom_boundaries(doc): for token in doc[:-1]: if token.text == " ": ..

发布时间：2022-03-02 11:09:55 python nlp nltk data-science spacy Python

获取给定次数内具有超过特定值的列的值

我有一个数据帧dfAS： Election Year Votes Votes % Party Region 0 2000 42289 29.40 Janata Dal (United) A 1 2000 27618 19.20 Rashtriya Janata ..

发布时间：2022-03-02 11:06:50 python pandas dataframe data-science Python

查找距离点最近的坐标

我有城市坐标：(52.2319581, 21.0067249)和Python字典，上面提到的城市周围有城市。如何从给定的坐标中获取最近的3个城市： ({'Brwinów': (52.133333, 20.716667), 'Warszawa Bielany': (52.283333, 20.966667), 'Legionowo': (52.4, 20.966667), 'Warszawa- ..

发布时间：2022-03-02 11:04:12 python python-3.x data-science Python

使用特定条件和添加新列将宽数据帧转换为长数据帧

我有如下所示的示例数据帧。 import pandas as pd import numpy as np NaN = np.nan data = {'ID':['A','A','A','A','A','A','A','A','A','C','C','C','C','C','C','C','C'], 'Week': ['Week1','Week1','Week1','Week1',' ..

发布时间：2022-03-02 11:00:25 python-3.x pandas dataframe data-science data-preprocessing Python

data-science相关内容