What you'll learn:
- Aprenda a construir um crawler do zero para buscar o conteúdo de páginas web
- Entenda como funcionam as bibliotecas urllib e BeautifulSoup do Python para processar páginas web
- Aprenda a indexar o conteúdo de páginas web utilizando o MySql
- Aprenda como classificar documentos por conteúdo, utilizando métricas como frequência de palavras, posição da palavra no documento e distância entre palavras
- Entenda e implemente o algoritmo PageRank para classificação de documentos utilizando links externos
Os sistemas de busca em texto representam uma importante área da Inteligência Artificial. Elesconsistem em analisar grande volumede texto para retornarem para o usuário uma lista dos principais documentos encontrados de acordo com os parâmetros de busca. Os exemplos práticos mais comuns deste tipo de sistema são os motores de busca, como Google, Bing ou Yahoo; nos quais o usuário pode informar um conjunto de palavras e o sistema apresenta as páginas web mais relevantes. Para que isso seja possível, são utilizados uma série de algoritmos e/ou métricas que tem a função de indicar a ordem pela qual os documentos serão apresentados, ou seja, as páginas mais importantes serão mostradas no topo da pesquisa enquanto que as menos relavantes serão mostradas por último.
Baseado nisso, neste curso você vai aprender na teoria e principalmente na prática como desenvolver do zero um sistema para buscas em textos utilizando vários algoritmos para ordenação dos resultados. Você desenvolverá passo a passo todas as etapas de um sistema de busca,iniciando pelo crawler que buscará as páginas web utilizando oPython e as bibliotecas urllib3 e BeautifulSoup. Logo após passaremos para a fase da indexação, na qual o conteúdo das páginas web serão analisadas e faremos a gravação em uma base de dados no MySql. Por fim, implementaremos as seguintes pesquisas:consultas com uma ou múltiplas palavras, frequência de palavras, posição das palavras no documento e distância entre as palavras. Também veremos a classificação dos documentos utilizando o texto do link e por fim implementaremos o uso de links externas que é caracterizado pelo famoso algoritmo PageRank, que é considerado o algoritmo que ajudou muito na grande ascensão do Google e que hoje em dia é utilizado nos principais motores de busca. É importante enfatizar que o objetivo do curso é mostrar passo a passo a implementação do zero, portanto, não utilizaremos nenhuma biblioteca específica para esse cenário. Também não é objetivo do curso desenvolver uma interface web para a realização das pesquisas, ou seja, todos os testes serão realizados via prompt. Por fim, este material pode ser considerado de nível iniciante para quem está entrando tanto na área de Inteligência Artificial quanto na área de desenvolvimento demotores de busca.
Preparado(a) para dar um importante passo na sua carreira? Aguardo você no curso! :)