1. Una vez dentro de la MV instala Java (OpenJDK v8) y otras librerías que usa Hadoop..
# apt-get update
# apt-get install openjdk-8-jre libssl-dev
2. Crea el directorio /opt/bd y descarga en el mismo la última versión estable de Hadoop (en el momento de escribir este documento era la 2.7.4), crea un enlace simbólico y define la variable HADOOP_PREFIX.
# mkdir /opt/bd
# cd /opt/bd
# wget http://apache.uvigo.es/hadoop/common/stable/hadoop-2.7.4.tar.gz
# tar xvzf hadoop-2.7.4.tar.gz
# rm hadoop-2.7.4.tar.gz
# ln -s hadoop-2.7.4 hadoop
# export HADOOP_PREFIX=/opt/bd/hadoop
4. Crea un grupo hadoop y un usuario hdmaster para ejecutar los diferentes demonios (HDFS y YARN). Cambia el propietario del directorio /opt/bd
# groupadd -r hadoop
# useradd -r -g hadoop -d /opt/bd -s /bin/bash hdmaster
# chown -R hdmaster:hadoop /opt/bd
5. Crea directorios para los datos de HDFS (NameNode, DataNodes y Checkpoint node) y haz que sean propiedad del usuario hdmaster. En un sistema real, estos directorios deberían estar en particiones separadas con suficiente espacio libre.
# mkdir -p /var/data/hadoop/hdfs/nn
# mkdir -p /var/data/hadoop/hdfs/cpn
# mkdir -p /var/data/hadoop/hdfs/dn
# chown -R hdmaster:hadoop /var/data/hadoop/hdfs
6. Crea directorios para los ficheros de log y haz que sean propiedad del usuario hdmaster.
# mkdir -p /var/log/hadoop/yarn
# mkdir -p /var/log/hadoop/hdfs
# mkdir -p /var/log/hadoop/mapred
# chown -R hdmaster:hadoop /var/log/hadoop
7. Modifica el fichero /etc/ssh/ssh_config y pon el parámetro StrictHostKeyChecking a no