抽取数据模型

概要

抽取数据模型其实是一个简单的ETL的过程。 E指的是（extract）、T指的是转换（transform）、L指的是加载（load）。

抽取的定义

抽取是将数据从一个表复制到另外一个表的过程。有数的抽取是将用户数据库的表拷贝到有数mpp的过程（mpp可以把他看成分布式的数据库）.因此抽取是一个数据库隔离的过程。
如图可知：

TABLE-A是用户数据库的表，当采用抽取，会把TABLE-A表拷贝进入有数的mpp中形成一个叫TABLE-A-COPY的表。

抽取的适用场景

正常情况下，对数据实时性要求不高的数据（即为离线数据）都可以采用抽取。如：今天分析昨天的数据。

如何实现数据同步？

抽取只是将数据进行拷贝。正常情况下用户的数据库数据是实时变化的，如果我们把数据模型变成抽取，那么意味拷贝只发生一次。那么对于变化的数据我们变无法获取。所以此时如何实现数据同步变得至关重要。
目前有数提供两种同步模式：一种是定时同步，一种是触发同步。

定时同步

定时同步，类似设置一个时间管理器。如定时任务：设置每天9点抽取。那么有数系统会在每天的9点执行抽取计划。这种方法的优势是：设置简单。缺点是：如果用户源头数据有问题，导致数据延迟。那么同步的数据准确性会有问题。

同步

触发同步，是有数提供接口，用户直接调度接口去同步。优点是：自主性和规则可以自己设定，可以保证数据准确性。缺点是：使用难度较高，对于用户需要具备一定的开发经验。

抽取的意义

1.可以对数据进行隔离，避免在用户库上频繁操作。 2.可以实现跨数据库建模。 3.提供性能优越的查询库。

数据分析及可视化

数据研发

数据治理

数据服务化

计算服务

网络服务

数据库

消息

存储与 CDN

管理与监控

其他