存档

  • [论文阅读笔记]An Overview of Business Intelligence Technology

    2011年8月这一期的CACM上有一篇“An Overview of Business Intelligence Technology”,总结了商业智能(Business Intelligence, BI)的运行组成部分和相关关键技术,对于理解整个商业智能的架构很有帮助。 这篇文章特别说明了一些BI领域在“大数据(big data)”时代面临的挑战和需要关注的技术,并对在内存处理、分布式、统计等比较流行和实用的技术的应用进行了介绍。     BI的典型结构(typical business intelligence architecture):       关于BI中涉及的相关技术的概览(思维导图):     关于BI中的CEP:作为不同于传统BI的模式,这篇文章中提到了实时商业智能(Near Real-Time BI)中的一类系统是CEP引擎,通过预定义想要发现的模式在流数据中跟踪实时趋势等(注:这仅仅是rule-based CEP),并讲解了BI中CEP遇到的挑战(Paul Vincent以“ACM Overview of BI Technology misleads on CEP”对这部分进行了点评,纠正了一些对CEP认识的偏差,并特别提到某些所谓需要进行的优化CEP领域已经做得不错了)。     附:两种不同的引擎CEP和搜索结构的比较(对于理解CEP模式很有帮助): CEP引擎结构(Complex event processing server architecture): 企业搜索引擎结构(Enterprise search architecture (integrated model)):

    2011年7月29日 | 归档于 Distributed Event-Processing, Paper Reading
    标签: , ,
  • [论文阅读笔记]MapReduce and Parallel DBMSs: Friends or Foes?

    Summary: MR complements DBMS technology rather than competes with it.      由SIGMOD 2009文章“A Comparison of Approaches to Large-Scale Data Analysis”引发了关于并行数据库和MapReduce模型的讨论。SIGMOD’09这篇文章作者 和 Jeffery Dean分别写了一篇辩论的文章发表在CACM 2010 January这一期上,Jeffery的“MapReduce: A Flexible Data Processing Tool”说明了MapReduce的一些有点并指出了SIGMOD‘09文章中的一些错误,而SIMGMOD’09文章的作者的文章“MapReduce and Parallel DBMSs: Friends or Foes”中观点温和了许多。       结论是大家喜欢的:大家各有所长。 Characteristics of MR: Simplicity —-Parallel DBMSs provide the same computing model as MR, with the added benefit [...]

    2010年12月3日 | 归档于 Paper Reading
  • [Paper阅读笔记]Yahoo的分布式流计算平台S4

    Yahoo流计算系统S4的一点介绍。         目前最流行的大规模数据处理是MapReduce,不过MapReduce只是一个面向批处理的框架。其它情况则是流处理系统或针对特定问题的特殊解决方案(比如Pregel、GraphLab等等),当然还有“应用最广”的并行数据库。       流计算来自于一个信念:数据的价值随着时间的流逝而降低,所以事件出现后必须尽快地对它们进行处理,最好数据出现时便立刻对其进行处理,发生一个事件进行一次处理,而不是缓存起来成一批处理。       S4(Simple Scalable Streaming System)是Yahoo最新发布的一个开源流计算平台,引用项目开源地址(http://s4.io/)首页对S4的介绍:     S4 is a general-purpose, distributed, scalable, partially fault-tolerant, pluggable platform that allows programmers to easily develop applications for processing continuous unbounded streams of data.       即S4是一个通用的、可扩展性良好、具有部分容错能力、支持插件的分布式流计算平台,在该平台上程序员可以很方便地开发处理流数据的应用。       S4发布之后自然是立刻得到了大家的广泛关注(相对比较落后的我都在半个月前就看过本篇论文了,无奈在集中精力准备学位课考试),以下是我的论文阅读笔记 :   ==== (这是liulixiang.info上有意义的分割线)====   S4: Distributed Stream Computing Platform   by Leonardo Neumeyer, Bruce [...]

    2010年11月18日 | 归档于 Distributed Event-Processing, Paper Reading
‘Paper Reading’ 分类的存档