武汉课工场大数据培训:学数据科学,尝试九大编程语言之Perl

数据科学在相当长一段时间以来一直是一件大事。在当今飞速发展的技术世界中,当人类倾向于生成大量数据时,我们必须知道如何分析,处理和使用这些数据以获取更多可了解的业务见解。

Perl

Perl是高级编程语言,通用编程语言,并且是解释性的动态编程语言。由于Perl语言依赖于轻量级数组,因此Perl能够更有效地处理数据查询,而不需要程序员的过多处理。

为什么选择Perl?

由于它具有通用脚本语言的多功能性,因此作为动态类型化的脚本语言它与Python有很多共同点。Perl在诸如生物信息学,金融和统计分析等定量领域中得到了应用。

随着Perl 5的发布,处理大型数据集的能力比以前的版本要好得多。它正在用Perl 6实现“大数据精简版”。波音,西门子以及更多的财富500强企业都已经准备好在数据科学领域积极尝试Perl。

Perl通过协调大规模的数据插入和查询,以简单,可维护的架构映射或减少TB级的数据。Perl 6的计划是提供一种模块化,可插入的体系结构,并具有针对大数据管理的灵活性和定制性。

为什么不选择Perl?

Perl并不是一种仅靠学习就可以使您成为高效的数据科学家的语言。它的速度不够快,语法也不友好。由于它是一种相对不受欢迎的语言,因此社区对数据科学的支持较少。值得一提的是,“ Perl开发人员”社区正在变得越来越多。总体而言,目前并没有将Perl开发为数据科学语言的动力。

perl基础——散列

散列, 也叫哈希 hash, 是Perl中一种比较特殊, 有趣的基础技术结构。

散列存储的是成对的数据, 也就是说散列中的数据都是俩俩关联的。

散列使用%作为前缀:

散列中存储的数据都是以key-value这样的结构, 因此我们赋值的时候可以这样:

也可以一次性赋值多组数据:

作为key的字符串, 可以省略引号。

这里最后一个元素后面也加上逗号, 这个习惯很重要, 这样当你或者其他人, 以后需要在后面继续添加元素时, 就不容易出错。

对于散列, 有2个很重要的特性需要记住

  1. 散列存储的数据是无序的, 每次添加数据都是在随机的位置也就是说, 我们不能像数组那样使用数字下标来获取指定的元素。
  2. 但是, 当我们需要根据key(或者value)来进行有序的输出时, 我们可以对它们先进行排序, 然后再输出:
  3. sort keys %hash;
  4. 散列中存储的key是唯一的
  5. 数据唯一性这个特性很重要, 因为这个特性, 散列常被用来统计数据出现的次数。
  6. 也就是说,每次我们对同一个key进行赋值, 后续的值会盖掉前面的值, 而不是保存两份数据:

当我们取key是Mike的数据时, 取到的只能是\’user\’ .

我们简单归纳一下Perl的三种基本数据类型:

  • 标量:单一个数据
  • 数组:有序的,可以重复的一组数据
  • 散列:无序的, 唯一的,键-值对形式的数据

本文作者及来源:Renderbus瑞云渲染农场https://www.renderbus.com

点赞 0
收藏 0

文章为作者独立观点不代本网立场,未经允许不得转载。