新网创想网站建设,新征程启航
为企业提供网站建设、域名注册、服务器等服务
这篇文章主要介绍了golang如何高效处理大文件,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。
创新互联公司服务项目包括向阳网站建设、向阳网站制作、向阳网页制作以及向阳网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,向阳网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到向阳省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!
问题:今天在处理快手的用户数据时,遇到了一个差不多600M的txt文本,用sublime打开都蹦了,我用pandas.read_table()去读,差不多花了近2分钟,最后打开发现差不多3千万行数据。这仅仅是打开,如果要处理不知得多费劲。
解决:我翻了一下文档,这一类读取文件的函数有两个参数:chunksize、iterator
原理就是不一次性把文件数据读入内存中,而是分多次。
read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。
table=pd.read_table(path+'kuaishou.txt',sep='t',chunksize=1000000) for df in table: 对df处理 #如df.drop(columns=['page','video_id'],axis=1,inplace=True) #print(type(df),df.shape)打印看一下信息
我这里又对文件进行了划分,分成若干个子文件分别处理(没错,to_csv也同样有chunksize参数)
iterator=True同样返回的是TextFileReader对象
reader = pd.read_table('tmp.sv', sep='t', iterator=True) df=reader.get_chunk(10000) #通过get_chunk(size),返回一个size行的块 #接着同样可以对df处理
直接看看pandas文档在这一方面的内容吧。
golang可以做服务器端开发,但golang很适合做日志处理、数据打包、虚拟机处理、数据库代理等工作。在网络编程方面,它还广泛应用于web应用、API应用等领域。
感谢你能够认真阅读完这篇文章,希望小编分享的“golang如何高效处理大文件”这篇文章对大家有帮助,同时也希望大家多多支持创新互联,关注创新互联行业资讯频道,更多相关知识等着你来学习!