那年,我们一起爬过的文件
大家学习爬虫是为了爬哪些东西呢?作者学习爬虫,肯定是为了批量下载一些"学习资源"啊。本文就来探讨一下,怎么存储获得的学习资源。
TXT文本文件存储
文本,不仅是我们日常生活最常见的数据,应该也是我们在爬虫中遇到的最多的数据类型了,小说,数据,往往都是以文本的形式藏在网页源代码之中。
通常,对于文本数据,我们习惯用TXT文件去存储。
要想去操作一个文本文件,其他文件也一样,实现创建,添加,修改,等操作,我们首先应该打开这个文件,打开文件的方法很简单,就是使用python自带的open()函数,常用的语法是:
1 | with open(filename,mode) as f: |
with语法会保证在语句段结束的最后,自动调用一个exit方法,在这里就是结束后会自动加上一个close()方法,关闭打开的文件,
open函数常用的有两个参数,第一个参数是filename,是打开文件的路径,是一个字符串,第二个参数mode代表对文件进行操作的模式,具体有如下几种:
r:read,以只读格式打开文件,只能读取数据,不能写入;
rb:以二进制只读格式打开文件;
r+:以读写格式打开文件,既可以读入数据,也可以写入;
rb+:以二进制读写格式打开文件;
w:write,以写入方式打开一个文件,文件存在则覆盖已有内容,文件不存在的新建文件;
wb:以二进制写入方式打开一个文件;
w+:以读写方式打开一个文件,文件存在则覆盖已有内容,文件不存在的新建文件;
wb+:以二进制读写方式打开一个文件;
a:以追加方式打开一个文件,如果文件已存在,则在文件的最后追加内容,如果文件不存在,则新建文件;
ab:以二进制追加方式打开一个文件;
a+:以读写方式打开一个文件,文件打开时是追加模式;
ab+:以二进制读写方式打开一个文件,文件打开时是追加模式;
End~~ 撒花ฅ>ω<*ฅ花撒