那年,我们一起爬过的文件

大家学习爬虫是为了爬哪些东西呢?作者学习爬虫,肯定是为了批量下载一些"学习资源"啊。本文就来探讨一下,怎么存储获得的学习资源。

TXT文本文件存储

文本,不仅是我们日常生活最常见的数据,应该也是我们在爬虫中遇到的最多的数据类型了,小说,数据,往往都是以文本的形式藏在网页源代码之中。

通常,对于文本数据,我们习惯用TXT文件去存储。

要想去操作一个文本文件,其他文件也一样,实现创建,添加,修改,等操作,我们首先应该打开这个文件,打开文件的方法很简单,就是使用python自带的open()函数,常用的语法是:

1
2
with open(filename,mode) as f:
file_operation

with语法会保证在语句段结束的最后,自动调用一个exit方法,在这里就是结束后会自动加上一个close()方法,关闭打开的文件,

open函数常用的有两个参数,第一个参数是filename,是打开文件的路径,是一个字符串,第二个参数mode代表对文件进行操作的模式,具体有如下几种:

r:read,以只读格式打开文件,只能读取数据,不能写入;

rb:以二进制只读格式打开文件;

r+:以读写格式打开文件,既可以读入数据,也可以写入;

rb+:以二进制读写格式打开文件;

w:write,以写入方式打开一个文件,文件存在则覆盖已有内容,文件不存在的新建文件;

wb:以二进制写入方式打开一个文件;

w+:以读写方式打开一个文件,文件存在则覆盖已有内容,文件不存在的新建文件;

wb+:以二进制读写方式打开一个文件;

a:以追加方式打开一个文件,如果文件已存在,则在文件的最后追加内容,如果文件不存在,则新建文件;

ab:以二进制追加方式打开一个文件;

a+:以读写方式打开一个文件,文件打开时是追加模式;

ab+:以二进制读写方式打开一个文件,文件打开时是追加模式;

End~~ 撒花ฅ>ω<*ฅ花撒