
🧵[THREAD]🧵 Comment faire ce dont David (@DavidBlackHat ) parle depuis des mois : Copier traduire et dupliquer. Je vais te montrer un exemple avec le site TechRadar. Je vais te montrer comment j'ai pu scraper tout le site qui compte plus de 30.000 articles.
Si tu suis David, que tu as regardé ses interviews, et que tu lis ses tweets, tu sais ce qu'il recommande : Copier, traduire, reformuler. Laisse moi te montrer comment faire avec un exemple concret :
Etant dans la tech, je cherche un site dans la tech à copier. Je me penche donc sur le plus gros qui existe : TechRadar 👨💻
Si tu connais pas, techradar c'est plus de 30.000 articles, news et review de produits, dans plus de 10 langues différentes. Donc, on va TOUT scraper.
Maintenant que j'ai trouvé mon site, voila comment je procède : 1) Scraping 2) Rewrite/Content spinning 3) Traduction Je commence donc mon étape préférée : Le scraping 😄 Voila comment je m'y prends.
👉Scraping - Méthode classique👈 1) Chercher le sitemap. 2) Set-up les données que je veux récupérer (titre, texte, img...) 3) Lancer le scraping en no-code depuis mon navigateur. 4) Télécharger toutes les données en csv.
J'utilise un outil nocode, et vu la taille du site, je ne m'inquiète pas trop sur le rate limit de mes requêtes. Je commence par chercher le sitemap:
On voit directement qu'il y a un sitemap par mois. Donc on va récupérer tous les sitemaps, et choper les urls qui sont à l'intérieur.
Pour l'exemple, je ne vais scraper que les url de type Review. Je copie colle tout dans Sublim Text, et je minify tout ça en gardant seulement les urls de type =>
Ensuite, je me rends sur une page pour étudier sa structure et les infos que je veux récupérer : Le titre La note Le prix Les + et les - du produit La review du produit Les photos...
Pour scraper, j'utilise et je recommande webscraper[.]io, qui est pour moi LE meilleur scraper web.🧪
Pour apprendre à bien l'utiliser, j'ai sorti un ebook complet de + de 60 pages & des vidéos de scraping live que j'update régulièrement 👀: J'y explique en détail le process pour scraper TechRadar :
Je set-up mes sélecteurs, rien de bien sorcier : titres, images, meta description etc Et je lance le scraping, qui va tourner sur toutes les urls du site TechRadar.
Je laisse tourner ça toute la nuit, et le lendemain, je récupère le fruit de mon travail acharné (qui aura prit 7 minutes de travail) Ca fait pas mal de contenu récupéré (~10 000 urls/ fichiers)👀
Bon, maintenant que le scraping est fait, on peut passer à l'étape suivante, la réécriture.
👉Rewrite / Content-spinning👈 Pour cette étape, 2 options possibles : - Utiliser GPT directement par API (Gratuit avec les 18$ offerts par OpenAI) - Utiliser un outil comme Quillbot, Smodin ou Botowski, mon préféré.
Lorsque j'utilise Smodin ou Botowski, j'automatise les process avec Automa et Google Sheet. Ca tourne tout seul, et la réécriture se fait automatiquement !
Une fois que mon contenu est réécrit, et que je suis sur de ne pas me faire flag pour plagiat, il ne reste que la dernière étape. La traduction.
👉Traduction👈 Pour ça, on va au plus simple et plus efficace et moins chère. J'ai nommé Google Sheet. La fonction TRANSLATE, et le tour est joué !
Ensuite, j'envoie tout ça sur un wordpress, des sous domaines pour les différentes langues, et le tour est joué. Voila, tu as sorti un site de 30.000 pages sans avoir écrit 1 seul mot. Copier, traduire, reformuler 😉
Si tu veux apprendre à scraper pour copier des sites ecommerce, des blogs, ou récupérer des milliers de leads, va prendre mon ebook : +60 pages. 10 vidéos. Du contenu ajouté fréquemment. Du concret et des exemples 🤝
Follow us on Twitter
to be informed of the latest developments and updates!
Follow @tivitikothreadYou can easily use to @tivitikothread bot for create more readable thread!