存档

  • 云计算经济学

    2010年云计算讲座课阅读作业。   云计算经济学 View more documents from Lixiang Liu

    2011年7月18日 | 归档于 IT Notes, Large Scale Systems, Reading Notes
    标签:
  • TUP第九期参会乱侃

    “云计算技术沙龙——大规模互联网架构实战”活动笔记和一点感言。       虽然原则上我觉得自己跟云计算没有什么关系,不过对策划的三个主题演讲主题都很有兴趣,而且这次就在计算所的一楼举办,没有犹豫地报名参加了。      首先对各个议题内容的一些记录和乱评(由于去得较迟,只能坐在倒数第二排,加之各种因素漏过了许多内容,这里只是部分记下的感兴趣的内容,具体内容只能参考CSDN后面放出的slides和现场视频了):   简朝阳的“机遇MySQL的B2C电商系统前端数据层架构”        根据简朝阳描述,麦包包这种B2C企业产品不多,在数据库上的变更也不多,数据量也不大,交易写数据不多,而基于浏览的读比较多,应用模式更接近传统媒体网站的模式。     采用便于管理的集中式结构、按需复制、表的水平拆分、交易数据的向上扩展(分布式事务)、浏览数据的弱一致性……等等,即都是利用现有的前端数据层解决方案。      主要难题来自于与后端的分析推荐系统的结合,即数据的收集、过滤清洗、分析这种模式。提到的解决方案是收集引擎BlackHole+MySQL数据仓库InfoBright。      从应用特点入手,结合MySQL针对每个问题综合现有技术一一解决,不愧是技术应用实战的高手,有理有据。   栾义来的“应对规模和复杂性挑战——凡客历程分享”      由于栾义来基本经历了凡客的发展过程,这个主题主要谈的更多的是一些非技术细节的东西,他根据凡客诚品的发展过程,应该算毫无保留底分享了自己对B2C企业各个发展阶段应该怎么做的理解(没有废话地“拖堂”很久)。      个人总结而言这个议题的核心思想即“实用至上”,从初期的求生存过程中技术人员甚至简单堆砌代码,到生存下来后高速发展过程中不惜“用金钱换时间”保障各个问题的解决,到壮大后的思考用户体验涉及的各种从后端为了满足业务人员需要的各种重构优化,最后才到像Amazon那种以技术为核心推动业务发展。      以实例而言,凡客诚品用的是Windows Server+SQL Server的微软模式,从初期来讲就是因为用这种模式搭建的B2C系统比较简单,在初期是普通毕业生都能完成的,甚至网上都有现成的代码;都后来直接购买负载均衡解决方案;某些电商直接用小型机+Oracle死扛了很多年;为了应付仓储增多而重构后台;目前在研究SOA和开放API……      在栾义来看来凡客的发展很大方面是依托中国B2C迅猛发展的大环境,当然也少不了自身定位以及在用户体验等各方面的努力。凡客的成功主要是靠业务的成功,而由于没到第四阶段技术更多的是支撑作用(我想起了马云原来也是这么看技术的)。      另外,各电商都是经过相同的几个阶段成长起来的,应用模式差不多,遇到的问题也差不多,制胜的关键更多的是靠自身的产品和体验等方面的优势。      丰富的内容不是可以简单总结的,各种方案以及更多的内容可以参考演示文稿和视频。   马如悦的“我的Hadoop 2.0”       首先点评电商,细节(用户体验)的重要性,比如京东针对淘宝的优势,另外还根据前面提到的电商在后台方面基本类同的特点,提出了从云计算角度出发,电商共同组建后台的解决方案。        接下来是对下一代Hadoop的理解。由于现场调查发现了解hadoop的不多,真正运用hadoop的人更少,所以这个主题跳得比较快。        这个主题主要关于下一代Hadoop,由于目前hadoop在扩展性等方面无法满足海量数据增长的需要,所以整个社区参考其它系统如Lustre、Ceph、S3等的优点,利用分布式块设备、扁平目录、层次化、局部性等设计新的架构的文件系统。如悦对Yahoo、Apache社区以及百度根据自身实践提出来的新的架构进行了对比。     估计最爆料的估计是那句被误传的“百度拥有世界上最大的集群”,实际上是百度用比Yahoo小的集群应对了世界上最大的hadoop负载(1万多台普通服务器一天处理6PB的数据量)。 其它内容和思考 B2C红海问题:现场有提出目前也在做B2C,遇到最大的问题是生存,问是否还能杀出一条血路来。结合大家的回答和看法,目前B2C是红海,现在再做不是那么容易,当然如果真的有好的产品和模式,借助好的体验等各种力量也许可以成功,但是偶然性太大。 电商公建平台或第三方平台的模式:由于中国特色,简朝阳、栾义来都说自己目前不敢使用,要等到大环境的改变,是个无解的问题。 盗版问题:这个是误解栾义来在说选型时不要考虑太多,提到在上市前再考虑licence的问题而引发。凡客有钱所以不在乎,但是如果一个企业做得不大不小某天碰上了微软等找麻烦,这也许是个问题。 云计算的探讨:移动互联网是云计算大展宏图的好地方,目前国内炒作云计算的大部分是硬件厂商,圆桌讨论时三位演讲人都觉得大家都还在用着分布式计算的相关技术,关心的是解决问题而不是“云”。 分布式系统和机器学习:一是需要应对爆炸性增长数据的需要,一是需要在数据中找出自己需要的有价值的知识。这是如悦认为目前以及未来最火的两个方向,这也是很多业界同仁的看法。 分布式计算的模式:除了Google三驾马车为核心的大规模批处理技术外,各个企业另外还利用Pregel图模型,传统的HPC等各种办法自有的优势应对海量数据的挑战。 至于现场一位东南融通同仁问到得流计算的问题,当时马如悦的回答是百度内部应用部门在根据自身需要改造糅合了MySQL、脚本等各种技术在应对这种挑战。由于对此有所关注,我个人认为由于相关问题的存在,大家都根据自己的优势已经或正在解决,而相关的概念如云计算是厂商或学术界推广需要而已。 版权保护的问题(我当时也不知道是由何而发:是针对栾义来说的没上市就不用关心授权来?针对百度近期的文库事件?)马如悦评论了一下对文库、生态链的看法。被告知问的是对于企业内部代码的保护问题,大家对内部代码的保护没异议,电商方认为技术上没有特别的地方,不需要特别保护,另外百度鼓励内部申请专利,但是其实国内的专利意义不大。另外大家对目前互联网发展的生态很关注,目前国内的环境确实需要改善,抄袭、以大欺小、客户端强推等问题都需要解决。   无意义的吐槽 [...]

    2011年4月24日 | 归档于 IT Notes
    标签: , ,
  • Notes of Jeffrey Dean’s Lecture on SoCC’2010

        Jeffrey Dean在SoCC 2010作了一个关于大规模分布式系统设计模式的演讲,演讲题目是“Evolution and Future Directions of Large-Scale Storage and Computation Systems at Google”(翻译为“google大规模存储和计算系统的演变和未来方向“)     其中对云计算未来面临的一些挑战进行了说明,对google目前和接下来的分布式系统架构进行了展示,并对大规模系统设计的一些经验进行了重点介绍。 ——一点笔记—— 未来面临的挑战: 计算环境/客户端: 1、用户希望在不同设备上都能使用自己的数据; 2、即使离线(断网),设备也能提供部分功能;(网络连接的不稳定性) 3、(富客户端)转移部分计算到客户端; 4、(多样化的服务)计算能力更加强大(超过客户端能力); (硬件特性)一个典型的新集群的机器硬件特性: ——以上数据说明硬件的不可靠性(reliability/availability),这必须从软件层面解决。 google集群软件现状(系统架构) google集群的软件环境:由文件系统(GFS或Colossus)加集群调度系统 构建核心服务; 通常每个作业使用的节点数以千(k)计算; 系统主要组成为: GFS(下一代文件系统:Colossus) Cluster scheduling system MapReduce BigTable(下一代表格系统:Spanner) . 下一代BigTable——Sppaner的一些特性: 跨多个数据中心的存储计算系统(规模:百万到上亿的机器、上百p的存储量,上百个数据中心); 单个全局的namespace(用目录代替row、更好的副本和权限管理……); 数据中心间的强、弱一致性; 相比BigTable更多的自动化操作; 跟好地满足用户定义的上层要求:数据的获取时间限制;备份数目和分布等等。 . 一些系统构建经验和分布式系统设计模式     关于分布式系统设计模式,某人做了笔记进行了归纳:《SYSTEM DESIGN PATTERNS》(ikewu对该文进行了翻译:《来自Jeffrey Dean的分布式系统设计模式》)     一些做系统设计必须要记住的数字: ——相关资源——     SoCC上的讲演视频地址: http://hosted.mediasite.com/mediasite/Viewer/?peid=1330ca0a008f4394917c2b7eb3163f1b1d     我将其中的演示文稿截图保存在slideshare上了: Jeffrey dean [...]

    2010年8月21日 | 归档于 Large Scale Systems
文章标签 ‘云计算’