Информация о книге

978-5-496-00662-0

Главная  » Тематика определяется » Hadoop. Подробное руководство

Уайт Т.Х., Hadoop. Подробное руководство


серия: Бестселлеры O`Reilly
Питер, 2013 г., 978-5-496-00662-0


Описание книги

Apache Hadoop - фреймворк с открытым исходным кодом, в котором реализована вычислительная парадигма, известная как MapReduce, позволившая Google построить свою империю. Эта книга покажет вам, как использовать всю мощь Hadoop, чтобы создавать надежные, масштабируемые, распределенные системы и обрабатывать гигантские наборы данных. Программисты найдут здесь методики анализа, администраторы узнают, как установить и запустить кластеры Hadoop. Если вы работаете с большими массивами данных, гигабайтами или петабайтами информации, то Hadoop - это идеальное решение. \"Hadoop: Подробное руководство\" - книга, в которой досконально и доступно описаны все возможности Apache Hadoop. Издание охватывает последние изменения Hadoop, в том числе материалы по новой исполнительной среде MapReduce, называемой MapReduce 2, которая реализована на базе системы YARN (Yet Another Resource Negotiator) - общей системы управления ресурсами для распределенных приложений.

Ключевые слова

Поделиться ссылкой на книгу



Содержание книги

Предисловие.
Введение
Замечания
О чем рассказано в книге?
Что нового во втором издании?
Что нового в третьем издании?
Использование примеров кода
Благодарности
От издательства
Глава 1. Знакомство с Hadoop.
Данные!
Хранение и анализ данных
Сравнение с другими системами
Hadoop и РСУБД
Распределенные вычисления
Добровольные вычисления
Краткая история Hadoop
Apache Hadoop и экосистема Hadoop
Выпуски Hadoop
О чем рассказано в книге
Имена конфигураций
MapReduceAPI
Совместимость
Глава 2. MapReduce
Набор метеорологических данных
Формат данных
Анализ данных средствами Unix
Анализ данных в Hadoop
Отображение и свертка
Программа MapReduce на языке Java
Тестовый запуск
MapReduce в перспективе
Потокданных
Комбинирующие функции
Определение комбинирующей функции
Выполнение распределенного задания MapReduce
Hadoop Streaming
Ruby
Python
Hadoop Pipes
Компилирование и запуск
Глава 3. HDFS
Строение HDFS
Основные концепции HDFS
Блоки
Узлы имен и узлы данных
HDFS Federation
Высокая доступность HDFS
Преодоление сбоев и изоляция
Интерфейс командной строки
Основные операции файловой системы
Файловые системы Hadoop
Интерфейсы
Интерфейс Java
Чтение данных Hadoop по URL-адресу
Чтение данных с использованием Filesystem API
Запись данных
Получение информации от файловой системы
Удаление данных
Поток данных
Чтение файла
Запись в файлы
Модель целостности
Перемещение данных: Flume и Sqoop
Параллельное копирование с использованием
distcp
Сбалансированность кластеров HDFS
HAR
Использование HAR
Ограничения
Глава 4. Ввод/вывод в Hadoop
Целостность данных
Целостность данных в HDFS
LocalFileSystem
Checksum FileSystem
Сжатие
Кодеки
Сжатие и разбиение входных данных
Использование сжатия в MapReduce
Сериализация
Интерфейс Writable
Классы Writable
Пользовательские реализации Writable
Программные среды сериализации
Avro
Типы данных и схемы Avro
Сериализация и десериализация в памяти
Файлы данных Avro
Совместимость
Преобразование схемы
Порядок сортировки
Avro и MapReduce
Сортировка с использованием Avro MapReduce
Avro MapReduce в других языках
Файловые структуры данных
SequenceFile
Запись SequenceFile
Чтение из SequenceFile
MapFile
Глава 5. Разработка приложений MapReduce
API конфигурации
Объединение ресурсов
Расширение переменных
Настройка среды разработки
Управление конфигурацией
GenericOptionsParser, Tool и ToolRunner
Написание модульных тестов с MRUnit
Функция отображения
Функция свертки
Локальное выполнение с тестовыми данными
Локальный запуск задания
Тестирование управляющей программы
Запуск в кластере
Упаковка задания
Запуск задания
Веб-интерфейс MapReduce
Получение результатов
Отладка задания
Журналы Hadoop
Удаленная отладка
Оптимизация задания
Профилирование
МодельMapReduce
Разложение задачи на задания MapReduce
JobControl
Apache Oozie
Определение потока операций Oozie
Глава 6. Как работает MapReduce
Выполнение задания MapReduce
Классическая реализация MapReduce (MapReduce
1)
Отправка заданий
YARN (MapReduce 2)
Сбои
Сбои в классической модели MapReduce
Сбои BYARN
Планирование заданий
Fair Scheduler
Capacity Scheduler
Тасовка и сортировка
На стороне отображения
На стороне свертки
Настройка конфигурации
Выполнение задач
Среда выполнения задач
Спекулятивное выполнение
OutputCommitter
Файлы побочных эффектов
Повторное использование JVM задач
Пропуск некорректных записей
Глава 7. Типы и форматы MapReduce
Типы MapReduce
Задание MapReduce по умолчанию
Форматы входных данных
Входные сплиты и записи
FilelnputFormat
Входные пути FilelnputFormat
Текстовые входные данные
Двоичные входные данные
Множественные источники входных данных
Операции ввода (и вывода) с базами данных
Форматы выходных данных
Текстовые выходные данные
Двоичные выходные данные
Множественный вывод
Отложенный вывод
Вывод в базы данных
Глава 8. Дополнительные возможности MapReduce
Счетчики
Встроенные счетчики
Счетчики Java, определяемые пользователем
Пользовательские счетчики в Streaming
Сортировка
Подготовка
Частичная сортировка
Полная сортировка
Вторичная сортировка
Соединения
Соединения на стороне отображения
Соединения на стороне свертки
Распространение побочных данных
Использование конфигурации задания
Распределенный кэш
Библиотечные классы MapReduce
Глава 9. Создание кластера Hadoop
Оборудование кластера
Сетевая топология
Настройка и установка кластера
Установка Java
Создание пользователя Hadoop
Установка Hadoop
Тестирование установки
Конфигурация SSH
Конфигурация Hadoop
Управление конфигурацией
Настройки окружения
Важные свойства демонов Hadoop
Адреса и порты демонов Hadoop
Другие свойства Hadoop
Создание учетных записей пользователей
Конфигурация YARN
Важные свойства демонов YARN
Адреса и порты демонов YARN
Безопасность
Kerberos и Hadoop
Маркеры делегирования
Другие улучшения в области безопасности
Тестирование кластера Hadoop
Пользовательские задания
Hadoop в облаке
Apache Whirr
Глава 10. Администрирование Hadoop
HDFS
Дисковые структуры данных
Безопасный режим
Журналы аудита
Инструменты
Мониторинг
Ведение журналов
Метрики
Сопровождение
Стандартные административные процедуры
Включение и исключение узлов
Обновления
Глава 11. Pig
Установка и запуск Pig
Режимы исполнения
Запуск программ Pig
Grunt
Редакторы Pig Latin
Пример
Генерирование примеров
Сравнение с базами данных
Pig Latin
Структура
Инструкции
Выражение
Типы
Схемы
Функции
Макросы
Пользовательские функции
Фильтрующая пользовательская функция
Вычисляющая пользовательская функция
Пользовательская функция загрузки
Операторы обработки данных
Загрузка и сохранение
Фильтрация данных
Группировка и соединение данных
Сортировка данных
Комбинирование и разбиение данных
Практическое использование Pig
Параллелизм
Подстановка параметров
Глава 12. Hive
Установка Hive
Оболочка Hive
Пример
Администрирование Hive
Настройка конфигурации Hive
Сервисные функции Hive
Метахранилище
Сравнение с традиционными базами данных
Проверка схемы при чтении и записи
Обновления, транзакции и индексы
HiveQL
Типы данных
Операторы и функции
Таблицы
Управляемые и внешние таблицы
Разделы и гнезда
Форматы хранения данных
Импортирование данных
Модификация таблиц
Удаление таблиц
Запросы к данным
Сортировка и агрегирование
Сценарии MapReduce
Подзапросы
Пользовательские функции
Написание пользовательской функции
Написание UDAF
Глава 13. HBase
Знакомство с HBase
История
Концепции
Краткий обзор модели данных
Реализация
Установка
Пробный запуск
Клиенты
Java
Avro, RESTnThrift
Пример
Схемы
Загрузка данных
Веб-запросы
НВаэеиРСУБД
Масштабирование успешного сервиса
HBase
Пример из практики: HBase в Streamy.com
Переход на HBase
Глава 14. ZooKeeper
Установка и запуск ZooKeeper
Пример
Реализация списка принадлежности в ZooKeeper
Создание группы
Присоединение к группе
Вывод списка участников группы
Удаление группы
Сервис ZooKeeper
Модель данных
Операции
Реализация
Согласованность данных
Сеансы
Состояния
Построение приложений с использованием
ZooKeeper
Конфигурация
Отказоустойчивое приложение ZooKeeper
Блокировка
Другие распределенные структуры данных и
протоколы
Практическое использование ZooKeeper
Надежность и производительность
Конфигурация
Глава 15. Sqoop
Установка и запуск Sqoop
Коннекторы Sqoop
Пример импортирования
Текстовые и двоичные форматы
Сгенерированный код
Другие системы сериализации
Подробнее об импортировании
Управление импортированием
Импортирование и согласованность данных
Прямое импортирование
Работа с импортированными данными
Импортирование данных и Hive
Импортирование больших объектов
Экспортирование
Подробнее об экспортировании
Экспортирование и транзакционность
Экспортирование и SequenceFile


Об авторе


Отзывы

Как всегда перевод хромает  [12 August 2013]
Где-то планировщик обзывают пользователем, где-то трекер заданий обзывают трекером задач, где-то смысл фраз вообще непонятен. Я уже не говорю о качестве материалов, из которых делали книгу. И все это за >800р. Проблема в том, что сам я плохо усваиваю информацию на английском, хоть и могу перевести, поэтому и разорился купить ее. Пока не решил, огорчаться мне или нет.

Последние поступления в рубрике "Тематика определяется"



Лучшие задания на устройство мироздания. 1-4 классы Зеленко С.

В сборник включены занимательные задания, кроссворды, головоломки, загадки, лабиринты, шифровки, решение которых поможет ученикам начальной школы закрепить и расширить знания о растительном и животном мире, о природных явлениях и окружающей среде....

Словарные филворды и головоломки. Игры со словами для детей Зеленко С.

В сборник включены игровые задания в виде филвордов, кроссвордов, кейвордов, лабиринтов, ребусов и шифровок, решение которых поможет ученикам начальных классов закрепить знание словарных слов за курс младшей школы. Задания специально разработаны таким образом, чтобы сделать процесс запоминания сложной учебной информации простым и увлекательным....

Математические судоку и лабиринты. Игровые задания для детей Зеленко С.

Сборник математических судоку и лабиринтов включает занимательные задания, которые помогут ученикам начальных классов выучить и закрепить табличные случаи умножения и деления....

Если Вы задавались вопросами "где найти книгу в интернете?", "где купить книгу?" и "в каком книжном интернет-магазине нужная книга стоит дешевле?", то наш сайт именно для Вас. На сайте книжной поисковой системы Книгопоиск Вы можете узнать наличие книги Уайт Т.Х., Hadoop. Подробное руководство в интернет-магазинах. Также Вы можете перейти на страницу понравившегося интернет-магазина и купить книгу на сайте магазина. Учтите, что стоимость товара и его наличие в нашей поисковой системе и на сайте интернет-магазина книг может отличаться, в виду задержки обновления информации.