(原创)Alluxio安装及初步分析报告

Alluxio
(原创)Alluxio安装及初步分析报告

Alluxio安装及初步分析报告     Alluxio是一个开源的高容错的分布式内存文件系统,目前在很多公司中使用,主要用来做大数据平台的缓存等。本文的主要内容是关于 Alluxio 的安装和简单的分析,仅供参考。 备注:如果因为网络无法打开或者加载缓慢,需要下载材料,请发邮件到我邮箱 document.querySe...

(原创)TiDB和Splice Machine的初步对比

Database
(原创)TiDB和Splice Machine的初步对比

TiDB和Splice Machine的初步对比     Splice Machine 和 TiDB 都是优秀的开源 HTAP 数据库,一个针对大数据技术栈更加友好,完全不脱离大数据组件,比如 Hadoop/HBase/Spark 。另一个脱离了大数据技术栈,走自主研发(TiKV)。相比 TiDB 而言,Splice Machine 具有更加完整的关系...

(原创)Cloudera 商业云战略及CDP平台介绍

CDP
(原创)Cloudera 商业云战略及CDP平台介绍

Cloudera 商业云战略及CDP平台介绍     今年年初写的,最近在写一些大数据行业的分析报告,目前有数据库、各种 ETL 软件以及各种商业软件的试用报告。最近会找一些脱敏之后然后发出来,给需要的朋友,或者和朋友做交流用在线的 PPT 播放方式也比较方便,我用的是 Zoho Show 嵌入代码到 Markdown 里,感兴趣的小伙伴可以去试试。 ...

(原创)Stream Sets Data Connector分析报告

StreamSets
(原创)Stream Sets Data Connector分析报告

说明: 最近在工作中有用到Stream Sets公司开源DataOps工具Data Connector,因此有了以下分析报告,该 PPT 主要是分为三部分来介绍Stream Set Open Sorce Data Connector: 第一部分主要介绍了Stream Sets公司以及创始人 第二部分主要介绍了Stream Sets公司的一些产品 第三部分主要介绍了DataOps的概念 第四...

(原创)Flink轻量级异步快照(ABS)

Flink
(原创)Flink轻量级异步快照(ABS)

Flink轻量级异步快照(ABS)算法     最近刚开始学习Flink,在看到恰好一次语义(Exactly Once)的时候发现,Flink中涉及到了这个ABS(Asynchronous Barrier Snapshots)算法,它是由CLA(Chandy Lamport Algorithm)<算法改进而来的,然后就去学习了一下,也翻出了相关论...

(原创)智能化数据治理

数据治理
(原创)智能化数据治理

智能化数据治理       最近在学习一些关于数据治理的一些东西,比如Teradata 开源的Kylo,它是一个数据湖的管理工具,感兴趣的可以看下Kylos Github](https://github.com/Teradata/kylo)、[Kylos Doc。我这个PDF不知道哪里来的,反正是邮箱收到的,索性就分享出来了,可以...

(转载)数据库三范式介绍

Database
(转载)数据库三范式介绍

范式(Normal Form):    是一种离散数学的知识,为了解决一种数据的存储与优化的问题,保存数据的存储后,范式能够通过关系寻找出来的数据,坚决不再重复存。他是一种分层的结构,每一层都比上一层要更加严格,,若要满足下一层范式,前提是必须满足上一层范式。     六层范式:1NF / 2NF / 3NF / 4NF / 5NF / 6NF 其中 1NF 是最底...

(转载)MySQL综合优化

Database
(转载)MySQL综合优化

MySQL如何实现优化?1、数据库设计要合理(3F)1F 原子约束当关系模式R的所有属性都不能在分解为更基本的数据单位时,称R是满足第一范式的,简记为1NF。简单的来说就是列无法再进行分割。 ①、每一列属性都是不可再分的属性值,确保每一列的原子性 ②、两列的属性相近或相似或一样,尽量合并属性一样的列,确保不产生冗余数据。 2F保证唯一性主键 (不能用id作为订单号码,订单号码利用分布式锁...

(转载)MySQL语句优化

Database
(转载)MySQL语句优化

SQL语句优化怎么加快查询速度,优化查询效率,主要原则就是应尽量避免全表扫描,应该考虑在where及order by 涉及的列上建立索引。 建立索引不是建的越多越好,原则是: ①、一个表的索引不是越多越好,也没有一个具体的数字,根据以往的经验,一个表的索引最多不能超过6个,因为索引越多,对update和insert操作也会有性能的影响,涉及到索引的新建和重建操作。 ②、建立索引的方法论为: ...

×
  • {title}