`

【转】Spark & Shark & Tachyon 简介 .

阅读更多

Spark是一个高效的分布式计算系统相比Hadoop,它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。

Shark类似“SQL on Spark”,是一个在Spark上数据仓库的实现,在兼容Hive的情况下,性能最高可以达到Hive的一百倍。 

Tachyon是一个高效的分布式存储系统。目前发布的为整体项目的部分功能(缓存部分),此部分功能在一次写、多次读的环境下为系统的性能带来最大的提升。

 

 

原帖地址:http://blog.csdn.net/lijiajia81/article/details/17080715

分享到:
评论

相关推荐

    yahoo Analytics on Spark & Shark

    NULL 博文链接:https://coolsunchen.iteye.com/blog/2001126

    spark-shark-cookbook:安装Apache Spark&Shark的厨师食谱

    介绍 本食谱将安装以下3个组件: ... 与Spark版本相同的shark scala版本2.10.4 ,发行版1 ,使Chef软件包版本为2.10.4-1 您可以使用构建以下软件包: fpm -s tar -t rpm -v 0.9.1 -n spark --prefix /u

    wireless.shark.epub

    wireless.shark.epub

    Spark实战.docx

     BDAS包含了Spark、Shark(相当于Hive)、BlinkDB、Spark Streaming(消息实时处理框架,类似Storm)等等 3. Spark与MapReduce 优势:  MapReduce通常将中间结果放到HDFS上,Spark是基于内存并行大数据框架,中间...

    Transforming Big Data with Spark and Shark

    Transforming Big Data with Spark and Shark,intel内部讲义

    Spark经典论文合集

    An Architecture for Fast and General Data Processing on Large Clusters.pdf Discretized Streams An ...Spark SQL Relational Data Processing in Spark.pdf spark.pdf 大型集群上的快速和通用数据处理架构.pdf

    Tim Tully:集成Spark/Shark到雅虎数据分析平台

    该文档来自Spark Summit 2013峰会上Yahoo高级...Tim Tully从Hadoop架构的问题出发,反思其中的不足,通过对比雅虎以往架构,解释雅虎未来的架构模式为什么集成Spark/Shark,以及Shark的硬件条件和物理部署等情况。

    @gs_1241_com.shark.jizhang_

    @gs_1241_com.shark.jizhang_

    Real-Time Analytical Processing _RTAP_ using Spark and Shark Presentation

    Real-Time Analytical Processing _RTAP_ using Spark and Shark Presentation

    开源的分布式内存文件系统 Tachyon.zip

     AMPLab在大数据领域最知名的产品是Spark,它是一个内存中并行处理的框架,Spark的创造者声称:使用Shark运行并行处理Job速度要比MapReduce快100倍。又因为Spark是在内存运行,所以Shark可与Druid或者SAP's HANA...

    利用Spark and Shark快速循环分析不同数据

    ClearStory Data创办人Vaibhav Nivargi专注于查询优化、高性能数据处理和分布式系统。他是Aster Data的第一个工程师,开发Aster MapReduce平台的关键部分。...此次峰会他介绍了他们公司使用Spark的情况。

    Catalyst:一个Spark和Shark的查询优化框架

    Databricks高级软件工程师Michael Armbrust,在此次峰会上就什么是查询优化、简捷的查询规划、优化执行、优先工作、Catalyst做了详细介绍,总之Catalyst是一个关系运算符的优化树架构。

    数据仓库系统Shark.zip

    Shark 是一个大型的数据仓库系统为 Spark 的设计与 Apache Hive 兼容。它处理 Hive QL 的性能比 Apache Hive 快 30 倍。支持 Hive 查询语言、元存储、序列化格式和用户自定义函数。 要求: Scala 2.10.3 AMPLab's...

    jaws-spark-sql-rest.zip

    代号为 Jaws 的 jaws-spark-sql-rest 是一个 Spark SQL/Shark 队列的 RESTful 服务,基于 Spark ,提供 Mesos 和 Tachyon 支持。当前支持 Spark 0.9.x 和 Shark 作为后端框架。

    Spark快速数据处理.pdf

    《Spark快速数据处理》系统讲解Spark的...如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。

    spark应用开发详解

    spark,大数据,sparksql, spark python, scala , java spark , shark

    大数据分析

    Shark: SQL Interface over a Distributed System................................................................... 42 Mesos: Cluster Scheduling and Management System.......................................

    Shark_1.0.2.apk sharkReader.apk

    Shark_1.0.2.apk SharkReader.apk

    Spark大数据处理技术

    资源名称:Spark大数据处理技术内容简介:《Spark大数据处理技术》以Spark 0.9版本为基础进行编写,是一本全面介绍Spark及Spark生态圈相关技术的书籍,是国内首本深入介绍Spark原理和架构的技术书籍。主要内容有...

    spark简介及使用

    介绍Spark集群计算框架,及运行于Spark框架上的Hive工具Shark。

Global site tag (gtag.js) - Google Analytics