# 深度好文

## Hadoop

1. [Hadoop不同文件格式的原理](https://towardsdatascience.com/new-in-hadoop-you-should-know-the-various-file-format-in-hadoop-4fcdfa25d42b)
2. [从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）](https://blog.csdn.net/v_JULY_v/article/details/6704077)

## HDFS

1. [开始使用Kafka和Flume（导入数据到HDFS）](https://towardsdatascience.com/apache-kafka-and-flume-installation-guide-import-data-from-kafka-to-hdfs-c908b0df034c)

## MapReduce

1. [MapReduce入门](https://towardsdatascience.com/a-beginners-introduction-into-mapreduce-2c912bb5e6ac)

## Hive

1. [与Impala的区别](https://www.cnblogs.com/zlslch/p/6785207.html)

## Impala

[文档](https://impala.apache.org/docs/build/html/index.html)

1. [与Hive的区别](https://www.cnblogs.com/zlslch/p/6785207.html)
2. [性能调优](https://www.jianshu.com/p/c37d5cb54757)
3. [Impala在Hulu中的优化和改进](http://dongxicheng.org/olap/impala-in-hulu/)

## Spark

1. [使用PySpark和MLlib解决二分类机器学习问题](https://towardsdatascience.com/machine-learning-with-pyspark-and-mllib-solving-a-binary-classification-problem-96396065d2aa)

## Kafka

1. [Kafka入门](https://juejin.im/post/5ddf5659518825782d599641)
2. [对比Kafka和RabbitMQ](https://zhuanlan.zhihu.com/p/37993013)

## 缓存

1. [一致性哈希算法](https://zhuanlan.zhihu.com/p/34985026)