Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемasozykin.ru
1 Hadoop Лекция 8. Основы администрирования Hadoop
2 План Установка Hadoop Администрирование MapReduce Администрирование HDFS
3 Установка Hadoop Операционные системы: Linux (продуктивные системы и разработка) Windows (только для разработки) Unix (официально не поддерживается) Необходимое ПО: Java SSH клиент и сервер Cygwin (для Windows)
4 Дистрибутивы Hadoop Дистрибутивы: Apache Yahoo! Cloudera В курсе используется дистрибутив Apache Дистрибутивы Yahoo! и Cloudera включают патчи и дополнительные компоненты (Pig, HBase, безопасность и т.п.)
5 Режимы работы Hadoop Локальный Все задачи выполняются на одной машине, данные хранятся в локальной файловой системе Псевдо-распределенный Все задачи выполняются на одной машине, но используется HDFS и JobTracker Распределенный Работа на кластере из нескольких машин, используется HDFS и JobTracker
6 Локальная установка Установить Java 1.6 (желательно от Sun) Скачать дистрибутив Hadoop Распаковать дистрибутив В конфигурационном файле conf/hadoop- env.sh прописать путь к Java в переменную JAVA_HOME Проверить работоспособность: $ bin/hadoop
7 Karmasphere Studio Альтернативный вариант локальной установки для рабочего места разработчика: Установка Karmasphere Studio Karmasphere Studio включает преконфигурированные дистрибутивы Hadoop разных версий Установка Karmasphere Studio – см. лекцию 4. Для Windows нужен cygwin
8 Псевдо-распределенный режим Особенности локального режима: Задачи Hadoop запускаются в рамках одного процесса Java Данные берутся и записываются в локальную файловую систему Псевдо-распределенный режим: Для запуска задач используется JobTracker и TaskTracker, для Map и Reduce созлаются отдельные процессы Доступна HDFS
9 Установка в псевдо- распределенном режиме Выполнить все действия локальной установки Настроить доступ на локальную машину по SSH без пароля: $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys $ ssh localhost Отредактировать конфигурационные файлы Hadoop
10 Конфигурационные файлы Дистрибутив Hadoop состоит из трех компонентов: Core (или Common) – общие компоненты HDFS MapReduce Конфигурационных файлов тоже три, для каждого компонента: conf/core-site.xml conf/hdfs-site.xml conf/mapred-site.xml
11 Конфигурационные файлы В конфигурационных файлах прописываются только параметры, специфичные для данной установки Значения по умолчанию содержатся в файлах: src/core/core-default.xml src/core/hdfs-default.xml src/core/mapred-default.xml
12 Формат конфигурационных файлов Конфигурационный файл включает свойства, состоящие из имени и значения Используется формат xml Пример: fs.default.name hdfs://localhost:9000
13 Конфигурационные файлы для псевдо-распределенного режима Имя свойстваЗначение свойства conf/core-site.xml fs.default.namehdfs://localhost:9000 conf/hdfs-site.xml dfs.replication1 conf/mapred-site.xml mapred.job.trackerlocalhost:9001
14 Назначение свойств fs.default.name Адрес узла имен файловой системы HDFS по умолчанию dfs.replication Фактор репликации, количество копий блоков в HDFS mapred.job.tracker Адрес узла запуска задач
15 Установка в псевдо- распределенном режиме Форматирование HDFS: bin/hadoop namenode –format Запуск Hadoop: bin/start-all.sh Проверка работоспособности через Web-интерфейс: HDFS: JobTracker:
16 Установка кластера Небольшой кластер, до 10 узлов Более крупным кластерам нужна дополнительная настройка
17 Кластер Hadoop
18 Узлы кластера Hadoop: Сервер имен (NameNode), Master Сервер запуска задач (JobTracker), Master Рабочие серверы (DataNode и TaskTracker), slave В небольших кластерах допускается совмещать сервера имен и запуска задач
19 Установка кластера На всех узлах: Синхронизировать время, например по NTP Установить Java Скачать и распаковать дистрибутив Hadoop, прописать путь к Java Настроить доступ без пароля по SSH с каждого узла на каждый В файле conf/slaves прописать имена всех slave серверов, по одному в строке В conf/masters ничего писать не нужно
20 Запуск команд на узлах Часто требуется запустить одинаковые команды на всех узлах кластера Hadoop для этой цели включает специальный скрипт: $ bin/slaves.sh command Скрипт выполнит команду command на всех узлах кластера, указанных в файле conf/slaves
21 Создание каталогов для HDFS HDFS по умолчанию хранит данные во временном каталоге (/tmp в Linux) Данные могут быть потеряны Недопустимо для продуктивных кластеров!!! Необходимо создать каталоги: Для хранения метаданных на узле имен $ mkdir /home/hadoop/dfs/name Для хранения данных на slave узлах $ bin/slaves.sh mkdir /home/hadoop/dfs/data
22 Конфигурационные файлы Имя свойстваЗначение свойства conf/core-site.xml fs.default.namehdfs://dfs-mater:9000 hadoop.tmp.dir/tmp/hadoop conf/hdfs-site.xml dfs.replication2 dfs.name.dir/home/hadoop/dfs/name dfs.data.dir/home/hadoop/dfs/data conf/mapred-site.xml mapred.job.trackerjobtracker-master:9001 mapred.system.dir/hadoop/mapred/system
23 Назначение свойств hadoop.tmp.dir Адрес временного каталога Hadoop dfs.name.dir Каталог для хранения метаданных HDFS dfs.data.dir Каталог для хранения данных HDFS mapred.system.dir Системный каталог MapReduce, должен находиться в HDFS
24 Установка кластера Заполненные конфигурационные файлы необходимо скопировать на все серверы кластера Форматирование HDFS: $ bin/hadoop namenode –format Запуск кластера: $ bin/start-all.sh Проверка работоспособности через Web:
25 Запуск и остановка кластера Запуск кластера Hadoop: $ bin/start-all.sh Запускается NameNode, JobTracker и на каждом узле в файле conf/slaves DataNode и TaskTracker Запуск отдельных компонентов Hadoop: $ bin/start-dfs.sh $ bin/start-mapred.sh Остановка Hadoop: $ bin/stop-all.sh $ bin/stop-dfs.sh $ bin/stop-mapred.sh
26 Журнальные файлы Hadoop записывает журналы в каталог logs Журналы ведутся отдельно для NameNode, JobTracker, DataNode и TaskTracker Два типа журналов: *.log – журнал операций *.out – файл стандартного вывода
27 Администрирование HDFS Просмотр статуса Проверка целостности файловой системы Управление репликацией Балансировка RackAwareness
28 Средства администрирования HDFS Командная строка: $ bin/hadoop dfsadmin Web:
29 Состояние HDFS $ bin/hadoop dfsadmin -report Configured Capacity: (659.7 GB) Present Capacity: ( GB) DFS Remaining: ( GB) DFS Used: (376 KB) DFS Used%: 0% Under replicated blocks: 0 Blocks with corrupt replicas: 0 Missing blocks: Datanodes available: 3 (3 total, 0 dead)
30 Состояние HDFS
31 Проверка целостности HDFS Целостность файловой системы: Файлы не повреждены Блоки не потеряны Присутствует необходимое количество копий блоков Причины проблем: Отказ серверов Некорректное выключение кластера Ошибки в ПО Проверка целостности: $ bin/hadoop fsck
32 Управление репликацией Репликация – создание нескольких копий блоков на разных машинах Фактор репликации – количество копий блока. Рекомендации: 1 – для одного сервера 2 – для кластера из 2-4 серверов 3 – для кластера более 4 серверов Фактор репликации задается в файле conf/hdfs-site.xml, параметр dfs.replication
33 Балансировка Балансировка – равномерное распределение блоков данных по серверам Причины нарушения баланса: Добавление или удаление узлов Изменение фактора репликации Запуск балансировщика: $ bin/start-balancer.sh Остановка балансировщика: $ bin/stop-balancer.sh
34 RackAwareness RackAwareness – способность HDFS «понимать», в каком «шкафу» находятся серверы кластера и создавать копии блока в разных шкафах Имена «шкафов» в Hadoop иерархические и похожи на пути в файловой системе: /default-rack («шкаф» по умолчанию) /switch1/rack21 («шкаф» 21, подключенный к коммутатору switch1)
35 RackAwareness Имя «шкафа» Hadoop определяет по IP- адресу сервера Для определения имени «шкафа» Hadoop вызывает внешний скрипт: Имя скрипта указывается в файле conf/core- site.xml, параметр topology.script.file.name Скрипт получает IP-адрес сервера в качетсве аргумента Скрипт должен вернуть имя «шкафа»
36 Итоги Установка Hadoop: Локальный режим Псевдо-распределенный режим Кластер Администрирование Hadoop Администрирование HDFS
37 Дополнительные материалы Hadoop Single Node Setup Hadoop Cluster Setup Hadoop Commands Guide HDFS Users Guide
38 Вопросы?
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.