Lancer PySpark sur Jupyter Notebook avec Docker

Obetnir Jupyter pySpark

Sur Docker-Hub, le port ou les conteneurs sont livrés, une simple recherche de “pyspark” suffit.

  • --rm: lancer docker avec cette commande permet d’économiser l’espace disque une fois le notebook arrêté.
  • -p 8889:8888: Expose le port 8888 de docker sur le nouveau port 8889(vous pouvez le changer s’il est déjà ooccupé)
  • -e JUPYTER_ENABLE_LAB=yes: Lance Jupyter sur le lab et non sur le notebook.
  • -v “$PWD$”: /home/jovyan/work: Permet de maintenir votre travail sur le disque dure, en effet si vous le montez pas de volume en lancant Jupyter une fois fermé vous perdez tout. $PWD$ correspond au répertoire courant et donc vous pouvez le remplacer par un autre chemin que vous voulez. Ceci permet également d’utiliser des notebook déja existant en local pour y travailler.
  • jupyter/pyspark-notebook:latest: Ce paramètre récupéré le conteneur à lancer, si au lieu de pyspark vous avez télécharger jupyter/datascience-notebook il suffit juste remplacer ainsi à ce niveau pour le lancer.

Créer un alias

Les alias permet d’éviter d’ecrir à chaque fois une ligne de commande longue. nous allons créer un alias sur le .bash_profile (OS).

configurer alias dans bash_profile
pyspark running

--

--

data, machine learning, research

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store