Извлечение информации из веб-страниц

Год съёмок: 2014 Автор: Михаил Коробов

Рассказ о том, как извлеченть данные из веб-страниц с использованием Python:
- как извлечь информацию из одного-единственного сайта;
- как сделать это без написания xpath, css селекторов и т.д.;
- как извлекать информацию, если структура сайта неизвестна заранее;
- когда стоит применять методы машинного обучения и как это делать;
- какие инструменты доступны на Python.
Доклад рассчитан на тех людей, кому хочется извлекать какую-то структурированную информацию из веб-страниц или из текста. Это могут быть задачи информационного поиска, анализа данных, составления каталогов, получения информации для каких-то исследований и т.д.
Какую пользу слушатели получат?
"Ручной" разбор веб-страниц через XPath / CSS селекторы - не единственный инструмент. Возможно, некоторые задачи, которые раньше казались очень сложными, покажутся вполне решаемыми.

ВКонтакте 0

Извлечение информации из веб-страниц

Категории