Skip to content

JS Crawling via chrome headless#288

Open
arnaudmolo wants to merge 26 commits intomasterfrom
grab-chrome
Open

JS Crawling via chrome headless#288
arnaudmolo wants to merge 26 commits intomasterfrom
grab-chrome

Conversation

@arnaudmolo
Copy link
Collaborator

@arnaudmolo arnaudmolo commented Jan 30, 2019

TODO:

Introduction de deux nouveaux scripts python dans l'espoir de réactiver le JSCrawling.

bin/install_chromium.py va aller télécharger chromium et chromedriver, deux outils nécessaires pour contrôler chrome headless via selenium.
Les binaires vont se placer dans un dossier temporaire dont le nom peut être modifier via env vars, et qui par défaut sera local-chromium. La version de chromium téléchargé peut elle aussi être précisé via env vars.
Attention, cette ce numéro de version n'est pas le SEMVER (ex: 73.0.3679.0) mais le numéro de build, ici 624487 par défaut.
La dernière version pour chaque plateforme peut se trouver à l’adresse https://commondatastorage.googleapis.com/chromium-browser-snapshots/{plateforme}/LAST_CHANGE (ex: https://commondatastorage.googleapis.com/chromium-browser-snapshots/Mac/LAST_CHANGE)

bin/pop_chrome.py n'est qu'un exemple d'utilisation de chrome headless avec selenium ⚠️
Ce fichier contient du code dupliqué est n'est qu'une PoC.

scrolldown_and_unfold.js a été modifier pour ne pas quitter la page tout en gardant les events JS qui afficherais des bouts de pages cachés.

@boogheta boogheta changed the title Grab chrome JS Crawling via chrome headless Jan 30, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants

Comments