Информация о книге

978-5-97060-144-0

Главная  » Научно-техническая литература » Информационные технологии. Компьютеры » Базы данных » Базы данных. Проектирование, организация доступа, анализ данных » Обработка неструктурированных текстов. Поиск, организация и манипулирование

Ингерсолл Г., Иортон Т., Фэррис Э., Обработка неструктурированных текстов. Поиск, организация и манипулирование

Taming Text

серия: Программирование в действии
ДМК-Пресс, 2015 г., 978-5-97060-144-0


Наличие в интернет-магазинах

Магазинов: 1, Цена: от 1399 руб. посмотреть все

Описание книги

Наша жизнь до предела наполнена информацией, мы буквально тонем в ней. По счастью, существуют инструменты и методы обработки неструктурированных текстов, которые могут стать спасательным кругом для толкового разработчика. Вы найдете их в этой книге. В книге описаны инструменты и методы обработки неструктурированных текстов. Прочитав ее, вы научитесь пользоваться полнотекстовым поиском, распознавать имена собственные, производить кластеризацию, пометку, извлечение информации и автореферирование. Знакомство с фундаментальными принципами сопровождается изучением реальных применений. Издание предназначено для читателей без подготовки в области математической статистики и обработки естественных языков. Примеры написаны на Java, но сами идеи могут быть реализованы на любом языке программирования.

Купить эту книгу можно в интернет-магазинах

  My-Shop - 1399 руб.
  Страница товара выбранного интернет-магазина откроется в новом табе

Скачать, но не бесплатно эту книгу можно в интернет-магазинах

  Литрес - 519 руб.

Читать онлайн


Доступен для чтения фрагмент книги

Ключевые слова

Поделиться ссылкой на книгу



Дополнительно о книге

"Срывает покров тайны с очень сложных процессов." - Лиз Лидди, iSchool, Сиракузский университет
"Таким и должно быть изложение анализа и обработки текста: кратким, практичным и основанным на программах с открытым исходным кодом." - Давид Вайсс, Carrot Search s.c.
"Показывает, как извлечь и использовать информацию, скрытую в текстовых документах." - Рик Вагнер, Red Hat
"Обучение принципам обработки текста на примерах… Показано, как сделать поиск в тексте простым делом." - Дуг Уоррен, Java Web Services

Во времена, когда спрос на высококачественные средства обработки текста растет экспоненциально, трудно назвать хотя бы одну отрасль экономики, которая не зависела бы от той или иной текстовой информации. А в связи с развитием веб-экономики эта зависимость только усиливается. И вместе с ней быстро возрастает потребность в талантливых технических специалистах. Вот в таких условиях выходит на свет отличная, практически ориентированная книга «Обработка неструктурированных текстов», в которой вы найдете проверенные на реальном опыте рекомендации и инструкции. Грант Ингерсолл и Дрю Фэррис, два блистательных и в высшей степени квалифицированных инженера-программиста, с которыми я работала много лет, и Тим Мортон, внесший немалый вклад в обработку естественного языка (natural language processing, NLP), предлагают прагматическое руководство тем, кто хотел бы войти в избранный круг специалистов по обработке текстов, Грант, Дрю и Том выбрали подход, который я называю «обучение на практике ради практики», и сумели сорвать покров тайны с действительно очень сложных процессов. Для этого они не пошли по длинному пути – теоретическому семестровому курсу по NLP, а сосредоточились на существующих инструментах, реализованных до конца примерах и хорошо протестированном коде. Для инженера-программиста этих основ будет достаточно, чтобы открыть дверь в мир примеров и упоминаемых проектов с открытым исходным кодом. И гораздо быстрее, чем вам кажется, вы превратитесь в настоящего эксперта, готового к решению реальных задач.

Содержание книги

Предисловие
Вступление
Благодарности
Об этой книге
Предполагаемая аудитория
Структура книги
Автор в сети
Об иллюстрации на обложке
Глава 1. Готовимся к приручению текста
1.1. Почему так важна задача обработки текста
1.2. Предварительный обзор фактографической
вопросно-ответной системы
1.2.1. Здравствуй, доктор Франкенштейн
1.3. Понять смысл текста трудно
1.4. Прирученный текст
1.5. Текст и интеллектуальные приложения: поиск
и не только
1.5.1. Поиск и сопоставление
1.5.2. Извлечение информации
1.5.3. Группировка информации
1.5.4. Интеллектуальное приложение
1.6. Резюме
1.7. Ресурсы
Глава 2. Основы приручения текста
2.1.Основы лингвистики
2.1.1. Категории слов
2.1.2. Словосочетания и части предложения
2.1.3. Морфология
2.2.Популярные инструменты для обработки
текста
2.2.1. Инструменты для манипуляций со строками
2.2.2. Лексемы и лексический анализ
2.2.3. Частеречная разметка
2.2.4. Стемминг
2.2.5. Распознавание предложений
2.2.6. Грамматика и грамматический анализ
2.2.7. Моделирование последовательности
2.3.Предобработка и выделение содержимого из
файлов
в распространенных форматах
2.3.1. Важность предобработки
2.3.2. Извлечение содержимого с помощью Apache
Tika
2.4. Резюме
2.5. Ресурсы
Глава 3. Поиск
3.1. Пример фасетного поиска: Amazon.com
3.2. Введение в концепции поиска
3.2.1. Индексирование содержимого
3.2.2. Ввод запроса пользователем
3.2.3. Ранжирование документов с помощью
векторной модели
3.2.4. Отображение результатов
3.3.Введение в поисковый сервер Apache Solr
3.3.1. Первый запуск Solr
3.3.2. Основные концепции Solr
3.4.Индексирование содержимого с помощью
Apache Solr
3.4.1. Индексирование данных в формате XML
3.4.2. Извлечение и индексирование содержимого
с помощью Solr и Apache Tika
3.5.Поиск по содержимому в Apache Solr
3.5.1. Параметры запроса к Solr
3.5.2. Построение фасетов по извлеченному
содержимому
3.6.Факторы, влияющие на производительность
поиска
3.6.1. Оценка качественных показателей
3.6.2. Оценка количественных показателей
3.7.Повышение производительности поиска
3.7.1. Совершенствование на уровне
оборудования
3.7.2. Повышение качества анализа
3.7.3. Повышение качества обработки запросов
3.7.4. Альтернативные модели оценивания
3.7.5. Способы повышения производительности
Solr
3.8. Альтернативные поисковые системы
3.9. Резюме
3.10.Ресурсы
Глава 4. Неточное сравнение строк 1
4.1. Различные подходы к неточному сравнению
строк
4.1.1. Меры, основанные на множестве общих
символов
4.1.2. Редакционные расстояния
4.1.3. N-граммное редакционное расстояние
4.2.Нахождение строк, неточно совпадающих с
данной
4.2.1. Использование префиксного сравнения в
Solr
4.2.2. Использование префиксных деревьев для
префиксного сравнения
4.2.3. Сравнение с помощью n-грамм
4.3.Использование неточного сравнения строк
в приложениях
4.3.1. Добавления механизма автозаполнения к
поиску
4.3.2. Проверка орфографии запроса
4.3.3. Сопоставление записей
4.4. Резюме
4.5. Ресурсы
Глава 5. Распознавание имен людей,
географических названий и других сущностей
5.1.Различные подходы к распознаванию
именованных
сущностей
5.1.1. Применение правил для распознавания имен
и названий
5.1.2. Применение статистических
классификаторов для распознавания имен и
названий
5.2.Основы распознавания сущностей в OpenNLP
5.2.1. Нахождение имен и названий с помощью
OpenNLP
5.2.2. Интерпретация имен, распознанных
OpenNLP
5.2.3. Фильтрация имен на основе вероятности
5.3.Подробнее о распознавании сущностей в
OpenNLP
5.3.1. Распознавание разнородных сущностей в
OpenNLP
5.3.2. Под капотом: как в OpenNLP распознаются
имена
5.4.Качество работы OpenNLP
5.4.1. Качество результатов
5.4.2. Производительность
5.4.3. Потребление памяти в OpenNLP
5.5.Настройка OpenNLP для распознавания
сущностей
в новой предметной области
5.5.1. Зачем и как обучают модель
5.5.2. Обучение модели OpenNLP
5.5.3. Изменение входных данных для модели
5.5.4. Другой способ моделирования имен
5.6. Резюме
5.7. Ресурсы
Глава 6. Кластеризация текста
6.1. Кластеризация документов в Google News
6.2.Основы кластеризации
6.2.1. Три типа текстов, поддающихся
кластеризации
6.2.2. Выбор алгоритма кластеризации
6.2.3. Определение сходства
6.2.4. Пометка результатов
6.2.5. Как оценивать результаты кластеризации
6.3. Подготовка к созданию простого приложения
кластеризации
6.4. Кластеризация результатов поиска с
помощью Carrot2
6.4.1. Использование Carrot2 API
6.4.2. Кластеризация результатов поиска Solr с
помощью Carrot2
6.5.Кластеризация наборов документов с
помощью
Apache Mahout
6.5.1. Подготовка данных к кластеризации
6.5.2. Кластеризация методом K-средних
6.6. Тематическое моделирование с помощью
Apache Mahout
6.7. Качество кластеризации
6.7.1. Отбор и уменьшение числа признаков
6.7.2. Производительность и качество Carrot2
6.7.3. Тесты производительности кластеризации в
Mahout
6.8. Благодарности
6.9. Резюме
6.10.Ресурсы
Глава 7. Классификация, категоризация
и пометка
7.1. Введение в классификацию и категоризацию
7.2. Процесс классификации
7.2.1. Выбор схемы классификации
7.2.2. Отбор признаков для категоризации
7.2.3. Важность обучающих данных
7.2.4. Оценка качества классификатора
7.2.5. Внедрение классификатора в эксплуатацию
7.3.Построение классификаторов документов с
помощью
Apache Lucene
7.3.1. Классификация текстов с помощью Lucene
7.3.2. Подготовка обучающих данных для
классификатора MoreLikeThis
7.3.3. Обучение классификатора MoreLikeThis
7.3.4. Классификация документов с помощью
классификатора MoreLikeThis
7.3.5. Тестирование классификатора MoreLikeThis
7.3.6. Классификатор MoreLikeThis в
производитственной системе
7.4.Обучение наивного байесовского
классификатора
в Apache Mahout
7.4.1. Наивная байесовская классификация текста
7.4.2. Подготовка обучающих данных
7.4.3. Резервирование тестовых данных
7.4.4. Обучение классификатора
7.4.5. Тестирование классификатора
7.4.6. Усовершенствованный процесс
бутстрапинга
7.4.7. Интеграция байесовского классификатора
Mahout с Solr
7.5.Классификация документов с помощью
OpenNLP
7.5.1. Регрессионные модели и классификация
документов методом максимальной энтропии
7.5.2. Подготовка обучающих данных для
классификатора документов на основе алгоритма
максимальной энтропии
7.5.3. Обучение классификатора документов на
основе алгоритма максимальной энтропии
7.5.4. Тестирование классификатора документов
на основе алгоритма максимальной энтропии
7.5.5. Классификатор документов на основе
алгоритма максимальной энтропии в
производственной системе
7.6.Построение рекомендателя меток с помощью
Apache Solr
7.6.1. Подготовка обучающих данных для
рекомендателя меток ..
7.6.2. Подготовка обучающих данных
7.6.3. Обучение рекомендателя меток на основе
Solr
7.6.4. Создание рекомендаций меток
7.6.5. Оценивание рекомендателя меток
7.7. Резюме
7.8. Ресурсы
Глава 8. Пример вопросно-ответной системы
8.1. Основы вопросно-ответной системы
8.2. Установка и запуск QA-системы
8.3. Архитектура демонстрационной
вопросно-ответной системы
8.4. Установление смысла вопроса и порождение
ответов ....
8.4.1. Обучение классификатора типов ответов
8.4.2. Разбиение вопроса на блоки
8.4.3. Вычисление типа ответа
8.4.4. Генерация запроса
8.4.5. Ранжирование фрагментов-кандидатов
8.5. Усовершенствование системы
8.6. Резюме
8.7. Ресурсы
Глава 9. Неприрученный текст: на переднем
крае
9.1.Семантика, дискурс и прагматика: высшие
уровни NLP
9.1.1. Семантика
9.1.2. Дискурс
9.1.3. Прагматика
9.2. Реферирование документов и наборов
документов
9.3. Извлечение отношений
9.3.1. Обзор имеющихся подходов
9.3.2. Оценка
9.3.3. Инструменты для извлечения отношений
9.4.Выявление важного содержимого и людей
9.4.1. Глобальная важность и авторитетность
9.4.2. Персональная важность
9.4.3. Ресурсы и ссылки на тему важности
9.5.Распознавание эмоций с помощью анализа
тональности
9.5.1. Исторический обзор
9.5.2. Инструменты и данные
9.5.3. Базовый алгоритм определения тональности
9.5.4. Дополнительные темы
9.5.5. Библиотеки с открытым исходным кодом
для анализа тональности
9.6. Межъязыковой информационный поиск
9.7. Резюме
9.8. Ресурсы
Предметный указатель


Об авторе


Последние поступления в рубрике "Базы данных. Проектирование, организация доступа, анализ данных"



Интеллектуальные информационные системы Интеллектуальные информационные системы Глухих И.

В учебном пособии излагается основное содержание материала лекций по дисциплине «Интеллектуальные информационные системы», представлены тестовые задания, вопросы для самоконтроля и итогового контроля знаний, глоссарий, список литературы....

Искусственный интеллект. Инженерия знаний. Учебное пособие для вузов Искусственный интеллект. Инженерия знаний. Учебное пособие для вузов Загорулько Ю.

Пособие посвящено инженерии знаний научной дисциплине, включающей в круг изучения научные, технологические и методологические вопросы создания программных систем, основанных на знаниях. В издании рассматриваются основные модели и средства извлечения,......

Системы искусственного интеллекта. Нейросети и нейрокомпьютеры. Учебник Системы искусственного интеллекта. Нейросети и нейрокомпьютеры. Учебник Свирина А., Костров Б.В., Ручкин В.Н.

Исследуется возможность построения логических нейронных сетей на основе положений математической логики.Предлагаются методы построения обученных нейронных сетей. Рассматриваются пути повышения интеллектуальности вычислительных систем....

Если Вы задавались вопросами "где найти книгу в интернете?", "где купить книгу?" и "в каком книжном интернет-магазине нужная книга стоит дешевле?", то наш сайт именно для Вас. На сайте книжной поисковой системы Книгопоиск Вы можете узнать наличие книги Ингерсолл Г., Иортон Т., Фэррис Э., Обработка неструктурированных текстов. Поиск, организация и манипулирование в интернет-магазинах. Также Вы можете перейти на страницу понравившегося интернет-магазина и купить книгу на сайте магазина. Учтите, что стоимость товара и его наличие в нашей поисковой системе и на сайте интернет-магазина книг может отличаться, в виду задержки обновления информации.