服务项目

需求沟通

数据存储真正关键的竞争优势

虽然数据库是最常见的数据存储,但是直接处理平面文件是真正关键的竞争优势,因为它提供了存储数据的最大灵活性。如今,有多种工具可以有效操作存储在本地磁盘或 S3 存储桶上的平面文件,例如:Python(带有 Jupyter 的 Pandas)、Apache Spark、Amazon Redshift Spectrum 甚至 clickhouse-local。



我们在 AWS 上使用 Apache Spark 尝试了 EMR(Elastic Map Reduce)集群,虽然设置起来相对容易,但我们仍旧花了一些时间才弄清楚如何从文件和 JDBC 源加载数据,以及如何使用 Spark 数据集和 PySpark 数据帧。我们的结论是,这可以用于具有适当扩展能力的批处理分析,但不能用作主数据库。不过,我们对 Hadoop 和 Spark 的了解有限,因此对于结论判断也会有所影响。

不过,我们仍然认为这是一个精心设计的系统,该系统以正确方式组织文件和目录,还带有相应的工具和规划好的作业,对于能够分配适当资源的高级用户而言,这可能是一个可行的选择。但是对于我们来说,我们认为它可能太脆弱且缺乏组织性,我们还需要其他一些花哨的功能。


楚一科技致力于提供咨询服务、软件研发、系统集成、互联网增值服务。可以为您提供最完美的软件开发解决方案!

联系方式:13100699922

www.whcykj.cn       

www.whcykj.com.cn

关注“楚一科技”公众号了解更多精彩资讯




上一篇: 武汉网站开发公司 下一篇: MySQL的优点
文章评论:

专业的软件开发/系统开发、品牌设计/网站建设,就选楚一科技!

选择专业的企业服务公司,服务更靠谱!

点击立即咨询>
底部客服