python 怎样读( 三 )


您可以在我们的spaCy教程中找到更多有关停用词的信息;如果要扩展此项目,则从我们的分析中删除停用词将是一个有趣的下一步 。
【python 怎样读】即使包含了停用词,我们也可以发现一些趋势 。
除了停用词之外,这些词中的绝大多数都是与技术和创业相关的术语 。
考虑到HackerNews专注于科技创业公司 , 这并不奇怪,但是我们可以看到一些有趣的特定趋势 。
例如,谷歌是该数据集中最常提及的品牌 。
Facebook,Apple和Twitter等其他品牌也是讨论的热门话题 。
探索域提交 。
现在我们已经探索了不同的标题并显示了前100个最常用的词,现在我们可以探索域提交了!为此,我们可以执行以下操作: 。
1)domains.py使用命令行创建一个名为的文件 。
2)load_data从导入read.py,并调用函数以读取数据集 。
3)使用value_counts()大熊猫中的方法来计算列中每个值的出现次数 。
4)遍历该系列并打印索引值及其关联的总数 。
这是命令行形式的外观: 。
printf "from read import load_data\n\nstories = load_data()\ndomains = stories['url'].value_counts()\nfor name, row in domains.items():\n\tprint('{0}: {1}'.format(name, row))\n" > domains.py 。
再一次,如果我们cat domains.py在命令行中输入来检查domains.py , 我们应该看到: 。
探索提交时间 。
我们想知道大多数文章何时提交 。
一种简单的重组方法是查看文章的提交时间 。
为了弄清楚这一点,我们需要使用该submission_time列 。
该submission_time列包含如下时间戳:2011-11-09T21:56:22Z 。
这些时间以UTC表示,UTC是大多数软件用于保持一致性的通用时区(想象一个数据库中填充的时间都具有不同的时区;要使用它会非常麻烦) 。
要从时间戳获取小时,我们可以使用该dateutil库 。
中的parser模块dateutil包含parse函数 , 该函数可以带一个时间戳,如何使用Python脚本转换数据和命令行https://www.aaa-cg.com.cn/data/2304.html并返回一个datetime对象 。
这是文档的链接 。
解析时间戳后,hour结果日期对象的属性将告诉您文章提交的时间 。
为此,我们可以执行以下操作: 。
1)times.py使用命令行创建一个名为的文件 。
2)编写一个函数以从时间戳中提取小时 。
此函数应首先用于dateutil.parser.parse解析时间戳,然后从结果datetime对象中提取小时,然后使用来返回小时.hour 。
3)使用pandas apply()方法创建提交时间列 。
4)使用value_counts()大熊猫中的方法来计算每小时发生的次数 。
5)打印结果 。
我们在命令行中执行以下操作: 。
printf "from dateutil.parser import parse\nfrom read import load_data\n\n\ndef extract_hour(timestamp):\n\tdatetime = parse(timestamp)\n\thour = datetime.hour\n\treturn hour\n\nstories = load_data()\nstories['hour'] = stories['submission_time'].apply(extract_hour)\ntime = stories['hour'].value_counts()\nprint(time)" > times.py 。
这是它看起来像一个单独.py文件的样子(如上所述,您可以通过cat times.py从命令行运行以检查文件来进行确认): 。
现在,我们已经创建了Python脚本,我们可以从命令行运行脚本,以获取特定时间内发布了多少篇文章的列表 。
为此,您可以从命令行键入python times.py命令 。
运行此脚本 , 您将看到以下结果: 。
您会注意到大多数提交内容是在下午发布的 。
但是请记住,这些时间是UTC时间 。
如果您有兴趣扩展此项目,请尝试在脚本中添加一个部分,以将UTC的输出转换为本地时区 。
下一步 。
在如何使用Python脚本转换数据和命令行中,我们探索了数据并建立了一个短脚本目录,这些短脚本可相互配合以提供所需的答案 。
这是构建我们的数据分析项目的生产版本的第一步 。
但是 , 当然,这仅仅是开始!在如何使用Python脚本转换数据和命令行中,我们没有使用过upvotes数据,因此这是扩展分析范围的一个不错的下一步: 。
a.标题长度最大才能获得最多投票? 。
b.提交时间最多的是什么? 。
c.投票总数随时间变化如何? 。
我们鼓励您结合自己的问题,并在继续探索此数据集时发挥创造力! 。
https://www.toutiao.com/i6831049808313057804/ 。


推荐阅读