Apache Spark 是一个开源分布式通用集群计算框架。
相对于Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中,Spark使用了存储器内运算技术,能在资料尚未写入硬盘时即在存储器内分析运算。Spark在存储器内执行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍。
Created by Matei Zaharia
发布于 May 26, 2014
免费数据工程师视频课程,共9周课时
#计算机科学#Python 数据科学学习笔记:深度学习 (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, 大数据 (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python 核心, AWS, Linux命令
Make Your Company Data Driven. Connect to any data source, easily visualize, dashboard and share your data.
翻译 - 使您的公司数据驱动。连接到任何数据源,轻松可视化,显示板并共享数据。
Docker — 从入门到实践
#计算机科学#MLflow 是一个开源框架,旨在管理整个机器学习生命周期。 它可以在不同的平台上训练模型并为模型提供服务,让你能够使用相同的一组工具,而不管试验是在计算机本地、远程计算目标上、虚拟机上
川虎 ChatGTP,为ChatGPT/ChatGLM/LLaMA等多种LLM提供了一个轻快好用的Web图形界面
#速查表 cheatsheets#有关数据科学的 Cheatsheets
flink learning blog. http://www.54tianzhisheng.cn/ 含 Flink 入门、概念、原理、实战、性能调优、源码解析等内容。涉及 Flink Connector、Metrics、Library、DataStream API、Table API & SQL 等内容的学习案例,还有 Flink 落地应用的大型项目案例(PVUV、日志存储、百亿数据实时去重、...
#计算机科学#Distributed training framework for TensorFlow, Keras, PyTorch, and Apache MXNet.
翻译 - 针对TensorFlow,Keras,PyTorch和Apache MXNet的分布式培训框架。
【大厂面试专栏】一份Java程序员需要的技术指南,这里有面试题、系统架构、职场锦囊、主流中间件等,让你成为更牛的自己!
Deeplearning4j 是为Java以及基于JVM编写的开源深度学习库,是广泛支持各种深度学习算法的运算框架。
Doris 是百度开源的支持对海量大数据进行快速分析的MPP数据库。
#计算机科学#🧙 Build, run, and manage data pipelines for integrating and transforming data.
Delta Lake 是一个开源存储框架,可以使用 Spark、PrestoDB、Flink、Trino 和 Hive 等计算引擎以及适用于 Scala、Java、Rust、Ruby 和 Python 的 API 构建 Lakehouse 架构。
Python SQL Parser and Transpiler
#计算机科学#H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Me...
翻译 - 适用于更智能应用的开源快速可扩展机器学习平台:深度学习,梯度提升和XGBoost,随机森林,广义线性建模(逻辑回归,弹性网),K均值,PCA,堆叠集成,自动机器学习(AutoML)等。
Alluxio作为数据编排层为大数据和人工智能工作负载带来速度和敏捷性并降低成本,使用户能够迁移到对象存储等更新的存储解决方案