#面试# 一份说明可伸缩、高可靠和高性能的大规模系统模式的阅读清单。案例学习都是从服务于数百万甚至数亿用用户的线上系统总结的。
#数据库# ClickHouse是性能强悍、适合OLAP实时分析的列式数据库,支持SQL语法
#计算机科学# Python 数据科学学习笔记:深度学习 (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, 大数据 (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python 核心, AWS, Linux命令
#区块链# An open source cybersecurity protocol for syncing decentralized graph data.
翻译 - 实时,分散,离线优先的图形协议,用于同步Web。
UI for Apache Kafka。一个Kafak 图形化管理工具
#编程语言# The most widely used Python to C compiler
翻译 - 使用最广泛的Python到C编译器
StarRocks 是新一代极速全场景 MPP (Massively Parallel Processing) 数据库。StarRocks 的愿景是能够让用户的数据分析变得更加简单和敏捷。用户无需经过复杂的预处理,就可以用 StarRocks 来支持多种数据分析场景的极速分析。
#搜索# quickwit 是一个用于日志管理和分析的搜索引擎,是Datadog、Elasticsearch, Loki 和 Tempo 的替代品
Delta Lake 是一个开源存储框架,可以使用 Spark、PrestoDB、Flink、Trino 和 Hive 等计算引擎以及适用于 Scala、Java、Rust、Ruby 和 Python 的 API 构建 Lakehouse 架构。
#计算机科学# H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Me...
翻译 - 适用于更智能应用的开源快速可扩展机器学习平台:深度学习,梯度提升和XGBoost,随机森林,广义线性建模(逻辑回归,弹性网),K均值,PCA,堆叠集成,自动机器学习(AutoML)等。
Arkime is an open source, large scale, full packet capturing, indexing, and database system.
翻译 - Moloch是一个开源,大规模,完整的数据包捕获,索引和数据库系统。
DataFusion 是一个可扩展的查询执行框架,用Rust 编写,使用Apache Arrow 作为其内存格式
Data-Centric Pipelines and Data Versioning
翻译 - 大规模可再生数据科学!
Hazelcast is a unified real-time data platform combining stream processing with a fast data store, allowing customers to act instantly on data-in-motion for real-time insights.
翻译 - 开源内存数据网格