南京北大青鸟

全国免费电话:400-885-5191

三分钟了解北大青鸟
当前位置:北大青鸟 > 新闻动态 > 焦点资讯

用Python编程如何进行处理大数据?处理技巧有哪些

来源:Python资讯      作者:北大青鸟中博校区      发布时间:2020-01-14 09:55:17

    很多都知道Python编程,可是大多人对于Python编程的印象仅仅就是用来爬取数据,这只是一部分功能,其实Python的作用很多,可以用来进行处理大数据。

  python被称之为胶水语言,应用非常广泛,很多人可能都不知道Python编程也可以处理大数据,那么用Python编程如何进行处理大数据?处理技巧有哪些北大青鸟的老师今天要给你解答的疑问。
 

  1.文本处理效率

  这里举例ascii定长文件,因为这个也并不是分隔符文件,所以打算采用列表操作实现数据分割。但是问题是处理20w条数据,时间急剧上升到12s。本以为是byte.decode增加了时间。遂去除decode全程bytes处理。但是发现效率还是很差。最后用最简单方式测试,首次运行,最简单方式也要7.5秒100w次。
 

  2.大文件读取效率

  面对100w行的大数据,在测试了各种文件读取方法之后,我们得出以下结论:方式最快,100w行全遍历2.7秒。基本上满足了大中型文件处理效率的需求。 如果将rb更改为r,则速度要慢6倍。 但是用这种方式处理文件,fLine是字节类型的。 但是python编程本身会断行,并且仍然可以以行为单位处理读取的内容。
 

Python编程
 

  3.python处理技巧


  (1)对于字典

  多使用iteritems()少使用items(),iteritems()返回迭代器:字典的items函数返回的是键值对的元组的列表,而iteritems使用的是键值对的generator,items当使用时会调用整个列表 iteritems当使用时只会调用值。
 

  (2)列表处理

  def fun(x):尽量选择集合、字典数据类型,千万不要选择列表,列表的查询速度会超级慢,同样的,在已经使用集合或字典的情况下,不要再转化成列表进行操作
 

  (3)文件属性

  如果遇到某个文件,其中有属性相同的,但又不能进行去重操作,没有办法使用集合或字典时,可以增加属性,比如将原数据重新映射出一列计数属性,让每一条属性具有唯一性,从而可以用字典或集合处理

 

  (4)实用模块

  Python编程数据统计分析技术,今后会在测试结果分析中用到,程序自动触发技术,可用于测试脚本程序的自动执行,读写文件技术,今后会用到测试数据的参数化和测试报告写作功能中,图表展示技术,在今后的测试框架中相关测试报告会用到,数据处理技术,今后测试脚本的测试数据处理过程可以用到。

 

  以上的内容对于小白同学看的可能还是很不明白,不过没有关系,对于你不明白地方可以咨询北大青鸟中博校区的客服,我们很乐意为您解答疑问。

(责任编辑:南京北大青鸟)

分享到:

抢免费试听名额

名额仅剩66名

教育改变生活

WE CHANGE LIVES