讲座信息
11.10| 树状大数据系统Steed与JSON数据处理
2017.10.17

报告人:陈世敏 研究员(中国科学院计算技术研究所)

  间:20171110日(星期五)下午14:00-15:30

  点:复旦大学张江校区软件楼102第二会议室

联系人:王晓阳,xywangcs@fudan.edu.cn

摘要:

JSONProtocol Buffers等为代表的树状结构数据,能够简洁地表达嵌套、多值和缺值,可用于表述高级程序设计语言中class, struct等丰富的结构,已经逐步替代了XML成为事实上的标准,并广泛应用于社交网络数据服务、Web服务、数据交换格式、分布式系统协议、物联网等,成为一种重要的大数据类型。我们研发了一个通用的树状结构数据库系统Steed,支持树状数据的行式和列式存储,和类似SQL的查询分析功能。我们对实际中存在的树状结构数据进行了分析,发现虽然树状类型本身可以表达丰富复杂的结构,但是实际中出现的结构大部分是简单的,从树根到树叶的路径中,有90%以上的路径是简单路径。利用这一发现,针对简单路径,优化了外存存储、内存数据结构、列组装算法。与现有系统PostgreSQL/JSON, MongoDB, Hive+Parquet相对比,Steed对于数据分析操作普遍有101000倍的性能提升。本报告基于SIGMOD'17VLDB'17工作。

 

报告人简介:

 陈世敏,中科院计算所研究员,分别于1997年和1999年获得清华大学计算机系学士和硕士学位,于2005年在美国Carnegie Mellon University获得计算机科学博士学位。博士毕业后,先后在美国Intel LabsCMUHP LabsResearcherSenior ResearcherResearch Manager,于2013年加入中科院计算所,并入选中科院“百人计划”。 陈世敏的研究兴趣主要集中在数据管理系统、大数据系统和计算机体系结构。曾获得ICDE04 Best PaperSIGMOD01 Runner-up Best Paper,体系结构2008年度顶级论文Top Picks08SIGMOD09是数据库领域最早研究闪存的论文之一,CIDR11是数据库领域第一篇研究新兴非易失存储的论文。担任ICDE18 PC area chair, VLDB17 PC Associate Editor, ICDCS16CIKM14PC area chair,多次担任SIGMOD,VLDB,ICDE,CIDR , ASPLOS, EUROSYS等的PC

© 2017 复旦大学计算机科学技术学院 地址:上海市张衡路825号 Tell:+86-21-51355555 Fax:+86-21-51355558 Emall:cs_school@fudan.edu.cn
复旦大学计算机科学技术学院
扫一扫了解学院