武汉课工场大数据培训:学数据科学,尝试九大编程语言之Perl
数据科学在相当长一段时间以来一直是一件大事。在当今飞速发展的技术世界中,当人类倾向于生成大量数据时,我们必须知道如何分析,处理和使用这些数据以获取更多可了解的业务见解。
Perl
Perl是高级编程语言,通用编程语言,并且是解释性的动态编程语言。由于Perl语言依赖于轻量级数组,因此Perl能够更有效地处理数据查询,而不需要程序员的过多处理。
为什么选择Perl?
由于它具有通用脚本语言的多功能性,因此作为动态类型化的脚本语言它与Python有很多共同点。Perl在诸如生物信息学,金融和统计分析等定量领域中得到了应用。
随着Perl 5的发布,处理大型数据集的能力比以前的版本要好得多。它正在用Perl 6实现“大数据精简版”。波音,西门子以及更多的财富500强企业都已经准备好在数据科学领域积极尝试Perl。
Perl通过协调大规模的数据插入和查询,以简单,可维护的架构映射或减少TB级的数据。Perl 6的计划是提供一种模块化,可插入的体系结构,并具有针对大数据管理的灵活性和定制性。
为什么不选择Perl?
Perl并不是一种仅靠学习就可以使您成为高效的数据科学家的语言。它的速度不够快,语法也不友好。由于它是一种相对不受欢迎的语言,因此社区对数据科学的支持较少。值得一提的是,“ Perl开发人员”社区正在变得越来越多。总体而言,目前并没有将Perl开发为数据科学语言的动力。
perl基础——散列
散列, 也叫哈希 hash, 是Perl中一种比较特殊, 有趣的基础技术结构。
散列存储的是成对的数据, 也就是说散列中的数据都是俩俩关联的。
散列使用%作为前缀:
散列中存储的数据都是以key-value这样的结构, 因此我们赋值的时候可以这样:
也可以一次性赋值多组数据:
作为key的字符串, 可以省略引号。
这里最后一个元素后面也加上逗号, 这个习惯很重要, 这样当你或者其他人, 以后需要在后面继续添加元素时, 就不容易出错。
对于散列, 有2个很重要的特性需要记住
- 散列存储的数据是无序的, 每次添加数据都是在随机的位置也就是说, 我们不能像数组那样使用数字下标来获取指定的元素。
- 但是, 当我们需要根据key(或者value)来进行有序的输出时, 我们可以对它们先进行排序, 然后再输出:
- sort keys %hash;
- 散列中存储的key是唯一的
- 数据唯一性这个特性很重要, 因为这个特性, 散列常被用来统计数据出现的次数。
- 也就是说,每次我们对同一个key进行赋值, 后续的值会盖掉前面的值, 而不是保存两份数据:
当我们取key是Mike的数据时, 取到的只能是\’user\’ .
我们简单归纳一下Perl的三种基本数据类型:
- 标量:单一个数据
- 数组:有序的,可以重复的一组数据
- 散列:无序的, 唯一的,键-值对形式的数据
本文作者及来源:Renderbus瑞云渲染农场https://www.renderbus.com
文章为作者独立观点不代本网立场,未经允许不得转载。