python读取文件_python这么受欢迎,你知道如何以正确的方式来读取文件内容吗

前言

对于互联网的开发人员来说,读取写入文件几乎是代码中常见的一种操作。但是经常性的打开关闭文件,浪费资源不说,当文件大的时候读取的效率也不高。所以今天我们一起看一个便捷的模块linecache。linecache顾名思义,就是从内存中读取指定文件的第几行。本文接下来会从三个方面来介绍这个模块,相信大家读了之后会有一定的知识收获

  • linecache如何使用
  • linecache的源码分析
  • 对于这个模块的一些思考和总结

注:本文所说的linecache是针对于python这门语言中自带的一个模块

linecache如何使用

了解python语法的读者应该知道,我们在使用一个模块的时候,首先需要把它导入程序中。

1.import linecache

2.from linecache import *

第一种和第二种导入模块的方法效果是一样的,具体我们来看看,linecache模块一共有三个功能函数getline(读取文件的某一行),clearcache(清空已经读到内存的文件cache),checkcache(检查丢掉其中过期的一些cache)。我们重点来看下getline这个函数。举个例子,假如我们有一个bytedance.txt文件,文件内容如下:

1.welcome to bytedance

2.*********************

3.welcome to toutiao

我们想要获取第三行的内容,如果程序中使用的是第一种模块导入的方式,那么可以通过linecache.getline("bytedance.txt",3)来直接获取文件第三行的内容。如果使用了第二种模块导入的方式,那么就是getline("bytedance.txt",3)

f60970abbd10bef5269480d476e9f4ce.png6f0b44f9befe9b3372a64ebe3b2a1b71.png

linecache的源码分析

这一块让我们具体来看下源码的内容,源码是怎样实现这些功能的函数呢?

07e4e79b968c1ab0b88f09fb20a0de25.png

__all__ = ["getline", "clearcache", "checkcache"]

首先源码中写明了这个模块可以导入的功能函数有三个,对于__all__这个属性,用来表明这个模块中的哪些函数可以被外部程序导入。

def getline(filename, lineno, module_globals=None):

lines = getlines(filename, module_globals)

if 1 <= lineno <= len(lines):

return lines[lineno-1]

else:

return ''

我们先来看下getline这个函数,这个函数就是传入文件名称,第几行这两个参数。然后根据lineno获取lines的第(lineno-1)个元素,也就是我们想要读取的目标行。

注:程序中默认从0开始计数,所以读取lineno行,其实就是获取lines[lineno-1]

52defae6bbfafc97bc7879f2dfb69b1d.pngf3f22b42b1b21fd1b15c30fd6a8953e9.png

def getlines(filename, module_globals=None):

"""Get the lines for a file from the cache.

Update the cache if it doesn't contain an entry for this file already."""

if filename in cache:

return cache[filename][2]

try:

return updatecache(filename, module_globals)

except MemoryError:

clearcache()

return []

getline先是调用getlines这个函数获取文件的所有内容。那么getlines这个函数又做了哪些逻辑处理呢?两个方面,假如读取的这个文件已经存在cache内存中,那么就返回内存中的文件内容。如果cache中之前没有读取这个文件,那么就需要调用updatecache这个函数重新读取这个文件。也就是以下这部分代码

try:

with open(fullname, 'rU') as fp:

lines = fp.readlines()

except IOError:

return []

07f1d287a918f32583281600a3ef4fbc.png

对于这个模块的一些思考和总结

linecache本质上就是预读,读取一次文件,然后将读取到的内容和文件名称作为键值对写入字典中,之后程序在需要读取文件内容的时候,就不用重新打开文件读取内容了,可以直接从存储在内存的字典中获取想要的文件内容,非常的方便。那么当文件很大,达到几百MB或者达到G级别的时候,将整个文件读取到内存中是否合适,这个时候开销会怎样呢。毫无疑问,文件特别大的时候,一次性读入内存的开销是很大的,如果不需要频繁的读取文件,那么不建议将大文件直接一次性的读取到内存中。具体需要怎样去使用,还是需要贴合我们业务场景来决定。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部