python 怎样读


python 怎样读

文章插图
在如何使用Python脚本转换数据和命令行中,我们将深入探讨如何使用Python脚本和命令行来转换数据 。
但是首先,值得提出一个您可能正在思考的问题:“ Python如何适合命令行,为什么当我知道我可以使用IPython笔记本完成所有数据科学工作时,为什么还要使用命令行与Python进行交互?还是Jupyter实验室?” 。
笔记本非常适合快速进行数据可视化和探索,但是Python脚本是将我们学到的东西投入生产的一种方式 。
假设您想建立一个网站,以帮助人们发布具有理想标题和提交时间的Hacker News帖子 。
为此,您需要脚本 。
本教程假定您具有函数的基本知识,并且有一点命令行经验也不会受到损害 。
如果您以前从未使用过Python,请随时查看我们涵盖Python函数基础的任务,或者更深入地研究我们的一些数据科学课程 。
最近 , 我们发布了两个新的交互式命令行课程:“ 命令行元素”和“命令行中的文本处理”,因此如果您想更深入地研究命令行,我们也建议您 。
也就是说,不必过分担心先决条件!我们将解释我们正在做的所有事情,所以让我们开始吧! 。
熟悉数据 。
Hacker News是一个站点,用户可以在该站点上通过Internet(通常是有关技术和创业公司)提交文章,而其他人可以“赞扬”这些文章,表示他们喜欢它们 。
提交的投票越多,在社区中就越受欢迎 。
热门文章进入Hacker News的“首页” , 在其他网站上它们更有可能被他人看到 。
我们将使用的数据集是由Arnaud Drizard使用Hacker News API编译的,可以在此处找到 。
我们从数据中随机抽取了10000行 , 并删除了所有多余的列 。
我们的数据集只有四列: 。
submission_time -故事提交时 。
upvotes -提交的投票数 。
url —提交的基本域 。
headline—提交的标题 。
用户可以对其进行编辑,而不必与原始文章的标题相匹配 。
我们将编写脚本来回答三个关键问题: 。
哪些新闻最常出现在头条新闻中? 。
哪些域名最常提交给Hacker News? 。
大多数文章什么时候提交? 。
切记:在编程时,有多种方法可以处理任务 。
在本教程中,我们将逐步解决这些问题 , 但是肯定还有其他方法同样有效 , 因此请随时尝试并尝试提出自己的方法! 。
使用命令行和Python脚本读取数据 。
要加注星标,让我们Transforming_Data_with_Python在桌面上创建一个文件夹 。
要使用命令行创建文件夹,可以使用mkdir命令,后跟文件夹名称 。
例如,如果要创建一个名为的文件夹test , 则可以导航到Desktop目录 , 然后键入mkdir test 。
我们将稍后讨论为什么创建文件夹 , 但是现在,让我们使用cd命令导航到创建的文件夹 。
该cd命令允许我们使用命令行更改目录 。
尽管有多种使用命令行创建文件的方法,但我们可以利用一种称为管道传输和重定向输出的技术来一次完成两件事:将输出从stdout(命令行生成的标准输出)重定向到文件中并创建一个新文件!换句话说,我们可以让它创建一个新文件并使它的输出成为该文件的内容,而不是让命令行仅打印其输出 。
要做到这一点,我们可以使用>和>>,这取决于我们想用文件来完成 。
如果文件不存在,两者都会创建一个文件;但是 , >将使用重定向的输出覆盖文件中已有的文本,同时>>将任何重定向的输出附加到文件中 。
我们希望将数据读入该文件并创建一个描述性的文件名和函数名称 , 因此我们将创建一个名为的函数 , load_data()并将其保存在名为的文件中read.py 。
让我们使用读取数据的命令行创建函数 。
为此,我们将使用该printf函数 。
(我们将使用printf它 , 因为它允许我们打印换行符和制表符,我们将使用它们来使脚本对自己和其他人更具可读性) 。
为此,我们可以在命令行中输入以下内容 。
printf "import pandas as pd\n\ndef load_data():\n\thn_stories = pd.read_csv('hn_stories.csv')\n\thn_stories.colummns = ['submission_time', 'upvotes', 'url', 'headline']\n\treturn(hn_stores)\n" > read.py 。
检查上面的代码,有很多事情要做 。
让我们将其分解 。
在函数中,我们是: 。
a.请记住 , 我们要使脚本可读,我们正在使用printf命令通过命令行生成一些输出,以在生成输出时保留格式 。


推荐阅读