spark 1.2.1 的集群配置

搭建hadoop已经是上学期的事情了，当时候还好留了这个，不然完蛋，打不出来了，话不多说，进入正题

1 下载并在linux 集群上安装scala，这个是必须的。然后跟上面的配置java环境一样，去配置scala就ok了，我是在 ~/.bashrc中配置的

2 配置完scala之后，当然就是spark了，下载spark然后跟上面配置scala的方法一样，配置spark的环境变量

3 当在环境变量中配好 spark 和scala之后，就开始进入spark 中配置 scala 了，在 spark的conf， spark-env.sh中，加入

SCALA_HOME=/root/hjava/spark/scala-2.11.0

在slaves中加入

xiaoxiong2

xiaoxiong3

xiaoxiong4

然后搞定，去启动spark hdfs yarn 然后就开始学习了

Spark 源码阅读

Spark源码是有Scala语言写成的，目前，IDEA对Scala的支持要比eclipse要好，大多数人会选在在IDEA上完成Spark平台应用的开发。因此，Spark源码阅读的IDE理所当然的选择了IDEA。

本文介绍的是Windows下的各项配置方法（默认已经装了java，JDK）。

下面列举搭建此环境需要的各个组件：

IDEA，有两个版本：Ultimate Edition & Community Edition，后者是free的，而且完全能满足学习者所有的需求
Scala，Spark是用Scala语言写成的，在本地编译执行需要这个包
SBT，scala工程构建的工具
Git，IDEA自动下载SBT插件时可能会用到的工具
Spark Source Code，Spark源码

下载各个安装包。

Spark源码阅读环境的安装步骤

安装Scala。

完成后，在windows命令行中输入scala，检查是否识别此命令。
如果不识别，查看环境变量Path中是否有....\scala\bin（我的电脑右键，属性 -> 高级系统设置 -> 环境变量）,没有的手动将Scala文件夹下的bin目录的路径

安装SBT

运行SBT的安装程序，运行完成后，重新打开windows命令行，输入sbt，检查是否识别此命令。没有的话，手动配置环境变量，添加...\sbt\bin

运行完SBT的安装程序之后，并不意味着完成了sbt的安装，在windows命令放下输入sbt后，SBT会自动的下载安装它所需要的程序包，请耐心等待全部下载成功。

安装Git

运行Git的安装程序，安装完成后，重新打开windows命令行，检查时候识别git命令。

安装IDEA

安装IDEA的Scala插件

打开IDEA，在‘Welcome to IntelliJ IDEA’界面的‘Quick Start’栏，点击Configure，选择Plugins。

在弹出的窗口中可以看到已安装的插件，现在IDEA默认还没有Scala的插件。需要点击左下角的Install JetBrains plugin...，在搜索框中输入‘scala’，点击安装。安装完成后可能会要求重启一下IDEA。

解压缩Spark Source Code包

导入Spark工程

在欢迎界面‘Quick Start’栏或者是在主界面的菜单栏File下，选Import Project，找到解压之后的spark工程文件夹，OK。

选择import project from external model中的SBT project，（这个选项只有在安装了IDEA的Scala插件才会有）。

下一步，选择Project SDK为JDK，最好勾上Use auto-import，然后点击Finish。这时，IDEA会自动下载安装SBT所需的各个包，没有装Git的话可能会报错。

因为Spark是一个比较大的工程，所需的包也很多，这个过程也会特别慢，请耐心等待。

导入完成

导入完成后，自动打开工程，要等一段时间，等待sbt对这个工程进行编译

转自 http://guozhongxin.com/pages/2014/10/15/spark_source_code.html

xiaoxiong's Blog

Happy coding