Как да инсталирам Hadoop с конфигурация стъпка по стъпка на Ubuntu

Съдържание:

Anonim

В този урок ще ви преведем стъпка по стъпка за инсталиране на Apache Hadoop на Linux кутия (Ubuntu). Това е процес от две части

  • Част 1) Изтеглете и инсталирайте Hadoop
  • Част 2) Конфигуриране на Hadoop

Има 2 предпоставки

  • Трябва да имате инсталиран и работещ Ubuntu
  • Трябва да имате инсталирана Java.

Част 1) Изтеглете и инсталирайте Hadoop

Стъпка 1) Добавете потребител на системата Hadoop, като използвате командата по-долу

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Въведете вашата парола, име и други подробности.

ЗАБЕЛЕЖКА: В този процес на настройка и инсталация има възможност за спомената по-долу грешка.

"hduser не е в досието на sudoers. Този инцидент ще бъде докладван."

Тази грешка може да бъде разрешена от Login като root потребител

Изпълнете командата

sudo adduser hduser_ sudo

Re-login as hduser_

Стъпка 2) Конфигурирайте SSH

За да управлява възли в клъстер, Hadoop изисква SSH достъп

Първо превключете потребителя, въведете следната команда

su - hduser_

Тази команда ще създаде нов ключ.

ssh-keygen -t rsa -P ""

Активирайте SSH достъп до локална машина с помощта на този ключ.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Сега тествайте настройката на SSH, като се свържете с localhost като потребител на „hduser“.

ssh localhost

Забележка: Моля, обърнете внимание, ако видите грешка по-долу в отговор на 'ssh localhost', тогава има вероятност SSH да не е наличен в тази система-

За да разрешите това -

Пречистване на SSH,

sudo apt-get purge openssh-server

Добра практика е да се прочисти преди началото на инсталацията

Инсталирайте SSH с помощта на командата-

sudo apt-get install openssh-server

Стъпка 3) Следващата стъпка е да изтеглите Hadoop

Изберете Стабилен

Изберете файла tar.gz (не файла със src)

След като изтеглянето приключи, отидете до директорията, съдържаща tar файла

Въведете,

sudo tar xzf hadoop-2.2.0.tar.gz

Сега преименувайте hadoop-2.2.0 като hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Част 2) Конфигуриране на Hadoop

Стъпка 1) Променете файла ~ / .bashrc

Добавете следните редове в края на файла ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Сега източник на тази конфигурация на средата, като използвате командата по-долу

. ~/.bashrc

Стъпка 2) Конфигурации, свързани с HDFS

Задайте JAVA_HOME във файла $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

С

В $ HADOOP_HOME / etc / hadoop / core-site.xml има два параметъра, които трябва да бъдат зададени-

1. 'hadoop.tmp.dir' - Използва се за посочване на директория, която ще се използва от Hadoop за съхраняване на файловете с данни.

2. 'fs.default.name' - Това определя файловата система по подразбиране.

За да зададете тези параметри, отворете core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Копирайте долния ред между етикетите

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Придвижете се до директорията $ HADOOP_HOME / etc / Hadoop

Сега създайте директорията, спомената в core-site.xml

sudo mkdir -p 

Предоставете разрешения на директорията

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Стъпка 3) Конфигурация за намаляване на картата

Преди да започнете с тези конфигурации, нека зададем HADOOP_HOME път

sudo gedit /etc/profile.d/hadoop.sh

И Enter

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

След това въведете

sudo chmod +x /etc/profile.d/hadoop.sh

Излезте от терминала и рестартирайте отново

Въведете echo $ HADOOP_HOME. За да проверите пътя

Сега копирайте файлове

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Отворете файла mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Добавете по-долу редове за настройка между таговете и

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Отворете $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, както е показано по-долу,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Добавете по-долу редове за настройка между тагове и

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Създайте директория, посочена в горната настройка-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Стъпка 4) Преди да стартираме Hadoop за първи път, форматирайте HDFS, като използвате командата по-долу

$HADOOP_HOME/bin/hdfs namenode -format

Стъпка 5) Стартирайте Hadoop единичен клъстер с помощта на командата по-долу

$HADOOP_HOME/sbin/start-dfs.sh

Резултат от горната команда

$HADOOP_HOME/sbin/start-yarn.sh

С помощта на инструмент / команда 'jps' проверете дали всички процеси, свързани с Hadoop, се изпълняват или не.

Ако Hadoop е стартирал успешно, тогава изходът на jps трябва да показва NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Стъпка 6) Спиране на Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh