Programació del WebScraping

Eines per al projecte

  • Recollida de dades: Utilitzem unes eines que entren a les pàgines web, busquen la informació que ens interessa i la deixen neta i preparada.

  • Centre de control (Servidor): Una aplicació que fa de pont: rep els dubtes dels usuaris i s’encarrega d’enviar-los la resposta.

  • Intel·ligència Artificial: Fem servir la tecnologia de Google (Gemini) perquè el sistema pugui redactar les respostes de forma intel·ligent.

Com funciona la cerca d’informació

  • Punt de partida: El sistema comença a llegir la pàgina principal i d’allà es mou per tot el web.

  • Límit i selecció: Visita un màxim de 200 pàgines i ignora fitxers pesats (com fotos o PDF) per anar més de pressa i no perdre el temps amb coses inútils.

  • Neteja de dades: Hem configurat el sistema perquè ignori els menús i els peus de pàgina que es repeteixen sempre. Així, la intel·ligència artificial només llegeix el text important de cada apartat.

Li hem donat un pormpt al xatbot per a que sapigui que respondre.

Connexió entre el web i el sistema

  • El pont de connexió: Com que no tenim un servidor professional comprat, fem servir una eina que crea un túnel segur des d’internet fins al meu ordinador.

  • Com s’activa: Aquesta eina ens dóna una adreça web especial. Només hem d’enganxar aquesta adreça dins de WordPress per “avisar” el xat que ja pot començar a enviar-nos les preguntes dels usuaris.

Desplaça cap amunt