选型指南:详解8大支持机器学习的数据库

来源:计算机世界

本文中介绍的这些数据库尽管在方法和功能上存在差异,但是都允许用户在数据所在的位置上构建机器学习模型。

选择平台的首要原则是“靠近数据”,让代码靠近数据是保持低延迟的必要条件。

机器学习,特别是深度学习往往会多次遍历所有数据(遍历一次被称为一个epoch)。对于非常大的数据集来说,理想的情况是在存储数据的地方建立模型,这样就不需要大量的数据传输。目前已经有部分数据库在一定程度上支持这种功能。我们会很自然地问到一个问题,即哪些数据库支持内部机器学习,它们又是如何做到的?下面我将对这些数据库进行探讨。

|Amazon Redshift|

Amazon Redshift为托管的PB级数据仓库服务,旨在让使用现有商业智能工具对数据进行分析的工作变得更加简单且经济高效。其专门针对数据集进行了优化,成本合算下来每年每TB不到1000美元。

Amazon Redshift ML可让SQL用户能够更加轻松地使用SQL命令创建、训练和部署机器学习模型。Redshift SQL中的CREATE MODEL命令可定义用于训练和目标列的数据,然后通过同一区域中加密的Amazon S3 bucket将数据传输给Amazon SageMaker Autopilot以用于训练。

在AutoML训练之后,Redshift ML将编译最佳模型并将其注册为Redshift集群中的预测函数。随后,用户可以通过在SELECT语句中调用预测函数的方式调用模型进行推测。

总结:通过SQL语句,Redshift ML可使用SageMaker Autopilot利用指定数据自动创建预测模型。在这过程中,SQL语句会被提取到S3 bucket中。最佳的预测函数会被注册在Redshift集群中。

|BlazingSQL|

BlazingSQL是一个建立在RAPIDS生态系统顶层上的由GPU加速的SQL引擎,虽然是开源项目,但是提供付费服务。RAPIDS为一套得到了Nvidia支持的开源软件库和API,其使用了CUDA并且采用了Apache Arrow列式内存格式。作为RAPIDS的一部分,cuDF为一个类似于Pandas的GPU数据帧库,主要用途是对数据进行加载、连接、聚合、过滤等操作。

开源工具Dask可将Python套件扩展到多台机器上。此外,Dask还可在同一系统或多节点集群中通过多个GPU分发数据和计算。整合了RAPIDS cuDF、XGBoost和RAPIDS cuML的Dask可用于GPU加速的数据分析和机器学习当中。

总结:BlazingSQL可以在Amazon S3的数据湖上运行GPU加速的查询,然后将生成的数据帧传输给cuDF进行数据操作,最后再使用RAPIDS XGBoost和cuML执行机器学习,或是使用PyTorch和TensorFlow执行深度学习。

|谷歌Cloud BigQuery|

BigQuery是谷歌Cloud托管理的PB级数据仓库。用户可以通过BigQuery对大量数据进行近实时分析。BigQuery ML允许用户使用SQL查询在BigQuery中创建和执行机器学习模型。

BigQueryML支持用于预测的线性回归、用于分类的二元多类逻辑回归、用于数据分割的K-均值聚类、用于创建产品推荐系统的矩阵分解、用于执行时间序列预测的时间序列、XGBoost分类和回归模型、分类和回归模型专用的基于TensorFlow的深度神经网络、AutoML Tables、TensorFlow模型导入。用户可以使用来自多个BigQuery数据集的数据模型进行训练和预测。虽然BigQuery ML不会从数据仓库中提取数据,但是用户可以使用CREATE MODEL语句中的TRANSFORM子句,通过BigQuery ML执行特征工程。

总结:BigQuery ML通过SQL语法将谷歌Cloud机器学习引入到了BigQuery数据仓库,从而不从数据仓库中提取数据。

|IBM Db2 Warehouse|

虽然IBM Db2 Warehouse是一个托管的公有云服务,但是用户可以在本地或在私有云中部署它们。作为一个数据仓库,IBM Db2 Warehouse包含有内存数据处理和用于在线分析处理的列式表格等功能。其Netezza技术提供了强大的分析功能,可高效查询数据。此外,IBM Db2 Warehouse的大量的库和函数可以帮助用户获得所需的精确洞察力。

Db2 Warehouse支持Python、R和SQL中的数据库机器学习。IDAX模块中有分析存储程序,包括方差分析、关联规则、数据转换、决策树、诊断、K均值聚类、K近邻、线性回归、元数据管理、naive贝叶斯分类、主要素分析、概率分布、随机抽样、回归树、序列模式与规则,以及参数和非参数统计等等。

总结:IBM Db2 Warehouse包含一系列数据库内SQL分析,例如一些基本的机器学习功能。此外,IBM Db2 Warehouse对R和Python也提供数据库内支持。

|Kinetica|

Kinetica 流数据仓库(Streaming Data Warehouse)将以往的流数据分析与本地的智能和人工智能整合在了一个单一的平台上,所有这些都可以通过API和SQL进行访问。Kinetica为GPU加速数据库,不仅具有快速、分布式、柱状和内存优先等特点,还整合了过滤、可视化和聚合等功能。

为了实现大规模的实时预测分析,Kinetica将机器学习模型和算法与用户的数据集成在一起,并且允许用户对分析数据管道、机器学习模型、数据工程的生命周期以及流计算功能进行优化。Kinetica为GPU加速的机器学习提供了一个全生命周期解决方案,包括管理Jupyter笔记本,通过RAPIDS进行模型训练,以及Kinetica平台中的自动模型部署和推理。

总结:Kinetica为GPU加速的机器学习提供了一个完整的数据库生命周期解决方案,并且可以利用流数据进行预测。

|微软SQL Server|

微软SQL Server机器学习服务在SQL Server RDBMS中支持R、Python、Java、PREDICT T-SQL命令和rx_Predict存储程序,在SQL Server Big Data Clusters中支持SparkML。在R和Python语言中,微软提供了多个用于机器学习的套件和库。用户可以将经过训练的模型存储在数据库中或是数据库外部。Azure SQL Managed Instance支持Python和R专用的Machine Learning Services进行预览。

R语言可以处理来自磁盘和内存中的数据。SQL Server提供了一个扩展框架,以便R、Python和Java代码可以使用SQL Server数据和函数。SQL Server Big Data Clusters可在Kubernetes中运行SQL Server、Spark和HDFS。当SQL Server调用Python代码时,Azure机器学习也可以被调用,生成的模型将被保存在数据库中以用于预测。

总结:当前版本的SQL Server可使用多种编程语言训练和推断机器学习模型。

|甲骨文数据库|

甲骨文云基础设施(OCI) Data Science 是一款托管无服务器平台,可供数据科学团队使用包括Oracle Autonomous Database和Oracle Autonomous Data Warehouse在内的OCI构建、训练和管理机器学习模型。该平台包含有由开放源码社区和Oracle Accelerated Data Science (ADS) Library开发的以Python为中心的工具、库和套件,支持预测模型端到端的生命周期:

数据采集、分析、准备和可视化

特征工程

模型训练(包括Oracle AutoML)

模型评估、解释和说明(包括Oracle MLX)

Oracle Functions中的模型部署

OCI Data Science还与包括Functions、Data Flow、Autonomous Data Warehouse和对象存储等OCI堆栈进行了整合。

目前支持的模型包括:

Oracle AutoML

Keras

Scikit-learn机器学习库

XGBoost

ADSTuner (超参数优化)

此外,ADS还支持MLX(机器学习可解释性)。

总结:甲骨文云基础设施(OCI)可以托管与其数据仓库、对象存储和函数集成的数据科学资源,从而实现完整的模型开发生命周期。

|Vertica|

Vertica分析平台为可扩展的列式存储数据仓库,其有两种运行模式:Enterprise和EON,前一种模式将数据存储在本地组成数据库的节点内的文件系统中,后一种模式将数据存储在公共的计算节点上。

Vertica使用大规模并行运算处理PB级数据,并通过数据并行进行内部机器学习。该产品有8个用于数据准备的内置算法、3个回归算法、4个分类算法、2个聚类算法以及多个模型管理函数,并具备将已训练的TensorFlow和PMML模型导入至其他地方的功能。在导入了模型之后,用户就可以使用它们进行预测。Vertica 还允许用户使用由C++、Java、Python或R等语言编译的自定义扩展程序。此外,用户还可以使用SQL语法进行训练和推理。

总结:Vertica内置了一套优秀的机器学习算法,并且可以导入TensorFlow和PMML模型。用户既可以使用导入的模型进行预测,也可以使用自己训练的模型进行预测。

|其它选择:MindsDB|

如果用户的数据库不支持内置机器学习,那么他们可以使用MindsDB。该款产品集成了6个数据库和5个商业智能工具,支持的数据库包括MariaDB、MySQL、PostgreSQL、ClickHouse、微软SQL Server和Snowflake。目前MindsDB还正在努力与MongoDB整合,2021年晚些时候还将会与流数据库实现集成。MindsDB支持的商业智能工具包括SAS、Qlik Sense、微软Power BI、Looker和Domo。

MindsDB的功能还包括AutoML、AI表和可解释的人工智能(XAI)。用户可以从MindsDB Studio、SQL INSERT语句或Python API调用中调用AutoML训练。用户可以选择使用GPU进行训练,也可以选择创建时间序列模型。

用户可以将模型另存为数据库表,然后从已保存模型专用的SQL SELECT语句、MindsDB Studio或Python API调用中调用它们。此外,用户还可以通过MindsDB Studio对模型质量实现评估、解释和可视化。

与此同时,用户还可以将MindsDB Studio和 Python API 与本地和远程数据源联接在一起。MindsDB还额外提供了一个可在PyTorch上运行的简化版深度学习框架Lightwood。

总结:MindsDB为许多不支持内置机器学习的数据库带来了机器学习功能。

越来越多的数据库开始在内部支持机器学习。虽然机制各不相同,但是有些机制确实性能更加出众。如果拥有大量数据,且需要为采样子集选择适当的模型,那么上面所列的8个数据库,以及支持MindsDB的其他数据库都可以帮助用户为完整的数据集构建模型,并且不需要担心因数据导出导致费用严重超支。

本文来自【计算机世界】,仅代表作者观点。全国党媒信息公共平台提供信息发布及传播服务。

ID:jrtt

医管案例 | 医院档案的网络化管理

医院档案信息资料医院信息载体,是医院管理的组成,信息资源做为医院最为宝贵的一大资源,能否对其,将直接到医院的生存与发展。医院地医学信息资源,都会对医院分散、庞杂的信息资源收集、加工,使其能更地为全院医护人员,其价值。但我国事业的发展,医院档案包括文书档案、人事档案和病案等管理传统的工作模式和方法已不新的需要,迫切需要现代化。医院档案信息资料管理应从封闭式转变为开放式管理,计算机网络化管理,才能体现出医院档案的价值,的为医院的医、护、教、研和管理服务,为需要医院档案的领域服务。

医院络化建设是以计算机、通信技术和数据库为其构成要素,以资源共享和开发为目的。将图书、档案、病案信息整合加工的检索平台和搜索引擎,使医护人员能够在办公室,医院计算机网络,随时信息资源。

一、计算机网络技术对医院档案工作的影响

1、档案载体多样化:

档案在网络化管理中的多样化,现代档案工作的发展和办公自动化的普及,档案以文字的,而且更多的是以人们在办理公务和事物或交流信息过程中产生的电子文件档案,如文本、图像、声音或影像等,档案管理主要计算机来。

2、档案收集的化:

收集是档案管理工作的起点和开端,是整个档案管理工作的基础“络技术的发展,电子档案有许多不同于纸质档案的特点”它可以施行前端控制,逻辑收集归档是实时的;在档案正式和收到的,都可以网络来传输,为档案收集工作开辟了一条新途径;网络技术,采集站点的数据信息,节约了,而且在尽大的范围内了档案的内容。

3、档案服务多样化:

传统的档案信息服务已不新时期档案事业的发展。档案信息资源社会信息资源一的地位和作用越来越显露。互联网的了信息资源的共享,计算机管理服务、光盘存贮服务、现代通信网络服务、公共服务及视听传播服务,服务可多途径地获取档案信息。

4、档案管理人员专业化:

工作的变革给档案管理人员带来了前所未挑战,仅是对知识和技能要求的,更的是观念上的更新。计算机网络环境要求档案人员转变传统的管理理念。档案管理人员是档案信息的拥有者,着珍贵的信息资源,并且承担着信息资源开发、加工和的任务。其日常的工作已越来越依赖于自动化的档案系统,档案工作不再是滞后、被动的,而关系的,在知识经济时代,全新的计算机网络下的档案工作,档案管理人员创新意识,培养信息能力和开发能力。

二、医院档案网络化管理的内容

1、文书过程和归档网络化管理

文书工作是档案工作的基础,文书过程的好、坏直接着档案的内在质量。 为新下的工作需求,把每天收到的文件用计算机登记,批办的次序在局域网内传阅,并设定传阅和催办。若传阅文件未返回,催办程序会发出信息,提醒承办人阅文,并对完毕的文件随时预立卷整理,以以往档案人员年终整理档案工作量大的。发文过程也可网络,由拟稿人将稿件输入计算机—办公室审核—签发人签发—办公室修改、缮印、盖章、分发—信息中心归档原来需要几小时、几天、几十天办完的事情,现在几分钟、几钟、几小时就可以,大大了文书的工作量,减轻了档案人员的负担。

2、病历档案网络化管理

医学事业的发展,疾病谱的和新技术、新项目的, 创伤性手术的包括腹腔镜、胸腔镜下手术的名称编码输入计算机,运用计算机综合查询分析功能,将手术及疗效情况一一列出,局域网反馈到各临床科室,使医务人员在科研活动和撰写论文时能查阅,计算机对病案信息加工后再反馈给临床科室,以便能总结经验,找出问题,改进,医务人员的医疗服务。

3、人事档案网络化管理

运用现代化手段,和人事档案网络化管理,从实体管理向网络管理转变,人事档案的管理,把日常工作中遇到的问题分门别类,查阅统计、档案变更、报表、系统等多种功能的管理。

4、医院图书馆网络化管理

图书馆的拓展,档案知识的结晶和的信息资源越来越被人们认识。对在工作中的经验和认识在各个环节中自然和产生的知识、数据、资料等信息成品或半成品记录下来,档案,并网络传递来知识交流,共享知识,将隐性知识转化为显性知识,最大限度地档案信息隐性知识的价值。对图书档案的再整合,为读者更快捷、更有价值的信息。

三、档案管理计算机网络化的建议

1、更新观念是关键

档案综合管理是医院管理现代化的组成。只是医院主体医疗管理的辅助,但却是医院决策所依据的信息体系。在21世纪科学技术日新月异的,原档案管理模式在许多当前的档案信息化建设。这就需要更新观念,对档案工作的思想认识;档案管理模式,使管理模式从单纯的纸质收集、整理、的管理,过渡到计算机网络化管理,档案在医院整体信息化建设和科学决策中的作用。

2、网络设备先行是基础

网络化发展,硬件先行。硬件建设要有前瞻性,要一套先进的计算机网络系统和灵活的结构化布线系统。考虑到医院档案管理以数据保存、和应用为主,在选择技术和产品时应选择的先进性、可即时扩展且易于的。医院了微机局域网络,但微机局域网的要高起点,富于规划,不但内部信息的交流,还应配备扫描、拷贝、打印等系列化配套设备来信息的输出。

医院局域网。局域网适用范围小,网络独立性强,故其安全性最高。医院档案在规范室藏的基础上局域网,将文书、病案、人事和图书档案纳入,扩建医院信息中心,并在中心网络平台上编制一套文书、病案、人事和图书档案管理的自动化软件,主要功能有档案管理、文书、电子论坛、公布、档案查阅等内容。要与各科室签订协议,互相遵循规则,共享档案网络信息。

3、人员素质的是必备条件

计算机技术的发展是网络技术的应用着传统的档案管理模式,要求档案人员在收集、整理、编目、检索、借阅、统计工作。现代化档案管理工作中,档案人员除了具备档案专业知识外,还要具备的计算机网络知识及运用操作能力。而医院现档案专业人员知识结构较为单一,是计算机网络技术的应用能力较低,知识面较窄,档案专业人才的培养显得了。学习和培训,档案干部队伍的综合素质,才能计算机技术、信息技术发展的需要,才能档案计算机管理的优势,这当今档案管理现代化发展解决的问题。

老杨学堂—通信网的硬件构成要素

老杨引言通信是什么?通信就是打电话,能上网?通信网是由什么硬件构成的?老杨带上你,话说“通信网”构成要素基本概念。

知识归纳卡

名 称:通信网的构成要素(硬件)

章 节:通信网

历年真题次数:5次

重要度:★★★★★

宝典卡片

真题题目

【2019真题】1.下列不属于交换节点设备的是( )

A.电话交换机 B.交换机

C.用户小交换机 D.转发器

【老杨解析】答案:C。

P1。交换节点是通信网的核心设备,最常见的有电话交换机、分组交换机、路由器、转发器等。用户小交换机属于终端节点设备。通信网硬件组成部分、功能和常见设备(口诀:传输业务终交换)。

通信网的构成要素

通信网概念

通信网是由软件和硬件按特定方式构成的一个通信系统,每一次通信都需要软硬件设施的协调配合来完成。从硬件构成来看通信网由终端节点、 交换节点、业务节点和传输系统构成,它们完成通信网的基本功能: 接入、交换和传输。

1

终端节点

最常见的终端节点有电话机、传真机、计算机、视频终端、智能终端和用户小交换机。其主要功能有:

(1)用户信息的处理:主要包括用户信息的发送和接收,将用户信息转换成适合传输系统传输的信号以及相应的反变换。

(2)信令信息的处理:主要包括产生和识别连接建立、业务管理等所需的控制信息。

2

交换节点

交换节点是通信网的核心设备,最常见的有电话交换机、分组交换机、路由器、转发器等。交换节点负责集中、转发终端节点产生的用户信息,但它自己并不产生和使用这些信息。其主要功能有:

(1)用户业务的集中和接人功能,通常由各类用户接口和中继接口组成。

(2)交换功能,通常由交换矩阵完成任意人线到出线的数据交换。

(3)信令功能,负责呼叫控制和连接的建立、监视、释放等。

(4)其他控制功能,路由信息的更新和维护、计费、话务统计、维护管理等。

3

业务节点

最常见的业务节点有智能网中的业务控制节点(SCP)、智能外设、语音信箱系统,以及Internet上的各种信息服务器等。它们通常由连接到通信网络边缘的计算机系统、数据库系统组成。其主要功能是:

(1) 实现独立于交换节点业务的执行和控制;

(2) 实现对交换节点呼叫建立的控制;

(3)为用户提供智能化、个性化、有差异的服务。

4

传输系统

传输系统为信息的传输提供传输信道,并将网络节点连接在一起。其硬件组成应包括:线路接口设备、传输媒介、交叉连接设备等。

传输系统一个主要的设计目标就是提高物理线路的使用效率,因此通常都采用了多路复用技术,如频分复用、时分复用、波分复用等。

老杨给予学习建议

千里之行,始于足下

打开通广实务课本第一页,第一眼就看到通信网的基础概念,合上课本走到考场,考卷第一个选择题通常是通信网基础概念的送分题。掌握好基础知识,如鱼儿般轻盈地飞跃潜入通信知识的海洋深处里遨游、探索。

励志寄语

坚持是毅力,仿佛一轮炽热不落的艳阳;

坚持是灵魂,仿佛一群屹立不倒的山林。

本文作者及来源:Renderbus瑞云渲染农场https://www.renderbus.com

点赞 0
收藏 0

文章为作者独立观点不代本网立场,未经允许不得转载。