В този урок ще ви преведем стъпка по стъпка за инсталиране на Apache Hadoop на Linux кутия (Ubuntu). Това е процес от две части
- Част 1) Изтеглете и инсталирайте Hadoop
- Част 2) Конфигуриране на Hadoop
Има 2 предпоставки
- Трябва да имате инсталиран и работещ Ubuntu
- Трябва да имате инсталирана Java.
Част 1) Изтеглете и инсталирайте Hadoop
Стъпка 1) Добавете потребител на системата Hadoop, като използвате командата по-долу
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Въведете вашата парола, име и други подробности.
ЗАБЕЛЕЖКА: В този процес на настройка и инсталация има възможност за спомената по-долу грешка.
"hduser не е в досието на sudoers. Този инцидент ще бъде докладван."
Тази грешка може да бъде разрешена от Login като root потребител
Изпълнете командата
sudo adduser hduser_ sudo
Re-login as hduser_
Стъпка 2) Конфигурирайте SSH
За да управлява възли в клъстер, Hadoop изисква SSH достъп
Първо превключете потребителя, въведете следната команда
su - hduser_
Тази команда ще създаде нов ключ.
ssh-keygen -t rsa -P ""
Активирайте SSH достъп до локална машина с помощта на този ключ.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Сега тествайте настройката на SSH, като се свържете с localhost като потребител на „hduser“.
ssh localhost
Забележка: Моля, обърнете внимание, ако видите грешка по-долу в отговор на 'ssh localhost', тогава има вероятност SSH да не е наличен в тази система-
За да разрешите това -
Пречистване на SSH,
sudo apt-get purge openssh-server
Добра практика е да се прочисти преди началото на инсталацията
Инсталирайте SSH с помощта на командата-
sudo apt-get install openssh-server
Стъпка 3) Следващата стъпка е да изтеглите Hadoop
Изберете Стабилен
Изберете файла tar.gz (не файла със src)
След като изтеглянето приключи, отидете до директорията, съдържаща tar файла
Въведете,
sudo tar xzf hadoop-2.2.0.tar.gz
Сега преименувайте hadoop-2.2.0 като hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Част 2) Конфигуриране на Hadoop
Стъпка 1) Променете файла ~ / .bashrc
Добавете следните редове в края на файла ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Сега източник на тази конфигурация на средата, като използвате командата по-долу
. ~/.bashrc
Стъпка 2) Конфигурации, свързани с HDFS
Задайте JAVA_HOME във файла $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
С
В $ HADOOP_HOME / etc / hadoop / core-site.xml има два параметъра, които трябва да бъдат зададени-
1. 'hadoop.tmp.dir' - Използва се за посочване на директория, която ще се използва от Hadoop за съхраняване на файловете с данни.
2. 'fs.default.name' - Това определя файловата система по подразбиране.
За да зададете тези параметри, отворете core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Копирайте долния ред между етикетите
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Придвижете се до директорията $ HADOOP_HOME / etc / Hadoop
Сега създайте директорията, спомената в core-site.xml
sudo mkdir -p
Предоставете разрешения на директорията
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Стъпка 3) Конфигурация за намаляване на картата
Преди да започнете с тези конфигурации, нека зададем HADOOP_HOME път
sudo gedit /etc/profile.d/hadoop.sh
И Enter
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
След това въведете
sudo chmod +x /etc/profile.d/hadoop.sh
Излезте от терминала и рестартирайте отново
Въведете echo $ HADOOP_HOME. За да проверите пътя
Сега копирайте файлове
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Отворете файла mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Добавете по-долу редове за настройка между таговете
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Отворете $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, както е показано по-долу,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Добавете по-долу редове за настройка между тагове
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Създайте директория, посочена в горната настройка-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Стъпка 4) Преди да стартираме Hadoop за първи път, форматирайте HDFS, като използвате командата по-долу
$HADOOP_HOME/bin/hdfs namenode -format
Стъпка 5) Стартирайте Hadoop единичен клъстер с помощта на командата по-долу
$HADOOP_HOME/sbin/start-dfs.sh
Резултат от горната команда
$HADOOP_HOME/sbin/start-yarn.sh
С помощта на инструмент / команда 'jps' проверете дали всички процеси, свързани с Hadoop, се изпълняват или не.
Ако Hadoop е стартирал успешно, тогава изходът на jps трябва да показва NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Стъпка 6) Спиране на Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh