在本章中,我们将讨论如何导入数据集和库.让我们首先了解如何导入库.
让我们从导入Pandas开始,这是一个管理关系的好库(表格式)数据集. Seaborn在处理DataFrames时非常方便,DataFrames是用于数据分析的最广泛使用的数据结构.
以下命令将帮助您导入Pandas :
# Pandas for managing datasets import pandas as pd
现在,让我们导入Matplotlib库,这有助于我们自定义我们的情节.
# Matplotlib for additional customization from matplotlib import pyplot as plt
我们将使用以下命令导入Seaborn库 :
# Seaborn for plotting and styling import seaborn as sb
我们已导入所需的库.在本节中,我们将了解如何导入所需的数据集.
Seaborn在库中附带了一些重要的数据集.安装Seaborn后,数据集会自动下载.
您可以使用这些数据集中的任何一个来学习.借助以下函数,您可以加载所需的数据集
load_dataset()
在本节中,我们将导入数据集.默认情况下,此数据集作为Pandas DataFrame加载.如果Pandas DataFrame中有任何函数,则它适用于此DataFrame.
以下代码行将帮助您导入数据集 :
# Seaborn for plotting and styling import seaborn as sb df = sb.load_dataset('tips') print df.head()
以上代码行将生成以下输出 :
total_bill tip sex smoker day time size 0 16.99 1.01 Female No Sun Dinner 2 1 10.34 1.66 Male No Sun Dinner 3 2 21.01 3.50 Male No Sun Dinner 3 3 23.68 3.31 Male No Sun Dinner 2 4 24.59 3.61 Female No Sun Dinner 4
要查看Seaborn图书馆中的所有可用数据集,您可以使用以下命令使用 get_dataset_names()函数,如下所示 :
import seaborn as sb print sb.get_dataset_names()
上面的代码行将返回数据集列表可用作以下输出
[u'anscombe', u'attention', u'brain_networks', u'car_crashes', u'dots', u'exercise', u'flights', u'fmri', u'gammas', u'iris', u'planets', u'tips', u'titanic']
DataFrames 以矩形网格的形式存储数据,通过它可以轻松查看数据.矩形网格的每一行包含实例的值,并且网格的每一列是保存特定变量的数据的向量.这意味着DataFrame的行不需要包含相同数据类型的值,它们可以是数字,字符,逻辑等.用于Python的DataFrames带有Pandas库,它们被定义为二维标记数据结构可能有不同类型的列.
有关DataFrame的更多详细信息,请访问我们的教程.大熊猫.