Archive for the ‘sick’ Category

Tuto Sick Scraper

Mercredi, septembre 21st, 2011

Comment ranker sur Google

-         Un contenu correctement écrit aura de la valeur, de plus il sera impérativement unique. Comprenez bien qu’il ne resservira pas ailleurs!

L’article que vous rédigerez avec soin sera aussi long que possible (250/300 mots au minimum) et sera autre chose qu’une succession de mots-clefs jetés en vrac pour faire du contenu.

Vous obtiendrez alors un article de « référence » ayant fatalement d’avantage de valeur qu’un article de 100 mots.

-          Optimisez votre site avec une architecture correcte.

-          Intégrez un netlinking interne de qualité.

-          Ayez des liens externes pointant vers votre site qui vont mettre en valeur son contenu rédactionnel.

La structure d’un lien

Un lien au format html aura la présentation suivante ; <a href=”http://www.google.fr”>Google</a> 

Le lien comprend deux parties: la cible (qui est l’URL que l’on désire ouvrir) et l’ancre (le ou les mots qui apparaissent).

Concrètement ; http://www.google.fr est ici la cible du lien, puis Google l’ancre du lien.

Autre exemple inventé ; http://www.visiter-paris-a-cheval.com pourrait avoir comme ancre « Paris à cheval » expression apparaissant comme lien cliquable.

Il suffira de créer ; <a href=”http://www.visiter-paris-a-cheval.com/ »>Paris à cheval</a>

Une ancre optimisée sert à positionner votre site dans le moteur de recherche Google, un lien contenant votre mot clé préféré vous sera plus utile qu’une ancre de type « mon site »

 

Les sources de liens !

Vous venez de comprendre à quoi servent les liens, mais il faut ensuite en trouver…

La façon la plus simple est de les propager partout, soit en mettre partout !

Vous disposez pour cela de plusieurs possibilités :

-          Les annuaires (et oui !).

-          Les liens « partenaires ».

-          Les sites de communiqués de presse.

-          Les blogs.

-          Les forums.

Lorsque notre exemple de lien « Paris à cheval » (ancre de notre url de site) sera cliqué ou vu par le moteur de recherche, il ira visiter le site http://www.visiter-paris-à-cheval.com 

Liens « propres »

Les deux premières sources de liens seront propres (et encore…), Il convient de se poser la question d’un lien propre !

Ce sera un commentaire rédigé de manière unique à chaque fois, c’est à dire à chaque endroit ou il sera mis, dans un {français|anglais} correct, sans faute de frappe/sens.

Le texte/commentaire sera contextualisé. Ne pas mettre un lien sur un site de cuisine depuis un site d’actualité informatique (à moins que vous parliez de pizza). Le lien doit être positionné dans le texte entre des mots, jamais isolé. Ainsi votre lien sera un mot faisant partie d’une phrase cohérente comme ; « J’ai visité Paris à cheval cet été avec ma cousine. Ce lien renverra directement à votre site.

 

Les footprints

Késako ?

Google nomme cela une « empreinte ». Les CMS (système de gestion de contenu) ont tous des points communs, évidement ils ont tous le même « core » (cœur du système en anglais).

Ainsi Google arrive à trouver des sites qui se ressemblent car c’est sa fonction de moteur de recherche. Nous allons utiliser cela à notre profit.

Le principe est d’acheter du beurre pour en revendre plus. La prochaine étape c’est la crémière ;)

Share !

Allons ensuite chercher des footprints. Il existe les footprints de base et ceux ajoutés par un plugin.

Choisissons les plugins avec un petit exemple.

Ce qui nous intéresse dans le lien est son « jus » et l’on va tout simplement chercher des plugins passant les liens en dofollow. C’est le cas de WP Avalanche par exemple, un plugin créé par Sylvain, un développeur bien connu.

Voici une petite liste pour récupérer des blogs WordPress :

« This site uses KeywordLuv. Enter YourName@YourKeywords in the Name field to take advantage »

-intitle: »leave a reply »

intext: »Laisser un commentaire Annuler la réponse »

« Powered by wordpress »

« ce blog est dofollow »

“leave a comment”

« U comment I follow »

« Boosté par WP-Avalanche »

On peut bien entendu combiner ces footprints entre eux pour avoir davantage de résultats, on peut toujours avoir davantage…

inurl :.org

Le inurl est une fonction du moteur de recherche pour rechercher dans l’url de la page web. Elle ne contient que des liens en .org, ce sont des noms de domaine avec un avantage.

L’intitle sert à chercher dans le titre de la page le contenu. Le titre est contenu entre les balises <title> du site.

Une liste beaucoup plus conséquente est fournie avec ce pdf.

Sick Scraper

Sick scraper est un scraper gratuit présenté sur le forum officiel de sick marketing. Il est fourni gratuitement pour faire la promotion de sick submitter, logiciel de création de backlinks automatique.

J’en détaille ici l’interface :

Menu principal

Exit vous permet de fermer le logiciel.

Merge File vous permet de fusionner des fichiers via une petite interface.

Permet d’ajouter les listes à trier via le bouton Add a list. Si l’on se trompe, il suffira de cliquer sur Remove list.

Output file spécifie le fichier de sortie du tri.

Remove domain duplicate est utilisé pour ne garder qu’une seule url par domaine, par exemple s’il y a example.com/url1 .php et example.com/url2 .php, seul la première sera conservée.

Remove URL duplicate permet de supprimer une url présente plusieurs fois. Il ne sert à rien de poser notre commentaire avisé plusieurs fois sur la même page, seul le premier serait pris en compte.

Sort list sert à trier la liste par ordre alphabétique.

Remove Duplicate vous permet de supprimer les url dupliqués.

Source file étant le fichier d’entré et Ouput file le fichier de sortie. Les deux options sont les même que celles décrites plus haut.

Onglets

Search contient ce qui est necessaire pour rechercher vos listes d’urls.

Proxies vous permet de gérer vos proxys.

Un proxy vous permet de trouver des urls à commenter de façon pertinente. Vous avez besoin de faire des requêtes à l’aide des moteurs de recherche. Sachez que Google, Bing et Yahoo ne vous autorisent qu’à 5 000 requêtes par jour, vite consommées comme vous le verrez. Pour ne pas vous faire bannir et ne plus pouvoir travailler nous allons faire bannir l’adresse IP d’autres personnes.

Le tableau contient tous les proxys que vous avez déjà ajoutés. On remarque quelques boutons au nom assez équivoque. Add proxy pour ajouter un proxy, Delete proxy pour le supprimer, Save proxy pour le sauvegarder pour la prochaine fois ou vous ouvrirez le scrapeur.

Un clic sur Test proxy servers nous permet de tester nos proxys.

Il y a soit Not working, soit un nombre en milliseconde. Ce nombre est le temps de réponse du proxy, plus il est faible mieux c’est.

 

Le bouton Load proxy sert à importer une liste de proxy au format texte.

 

Et enfin le bouton Harvest Proxies qui est le plus intéressant ici.

Il sert à trouver des proxys gratuits fournis par l’éditeur. Pour cela, il suffit de cocher toutes les sources dans la fenêtre de gauche puis de cliquer sur Harvest Now.

A ce stade, à coté de chaque source nous voyons le nombre de proxy délivrés. Vous n’en aurez pas autant pour cela car la plupart des proxys ne seront pas pratiquement utilisables au moment désiré.

Test Proxies vous servira pour connaitre les proxys utilisables ainsi que leur temps de réponse.

Stop sert à arrêter le test des proxys s’il est trop long.

(Un)Check est un bouton inutile servant à cocher ou décocher un proxy préalablement sélectionné. Vous avez la check box à coté accessible en seul clic.

Check All vous évitera de longues heures de scroll en cochant tous les proxys automatiquement. 

Uncheck All à la même utilisation pour les décocher.

Del Failed sert à supprimer les proxys non disponibles n’ayant pas répondu au ping du logiciel.

Del Slow supprime les proxys lents. Del Checked supprime le(s) proxy(s) sélectionné(s).

Submitter List Wizzard est une option pour les utilisateurs de sick submitter, mais nous n’en parlerons pas ici.

Add to List permet de passer les proxys de cette interface vers le logiciel lui-même.

Pour trouver mes proxys, je fais : sélection de toutes les sources, Harvest Now, Check All, Test Proxies, Del Failed, Add to List. Je me retrouve au final avec plus ou moins 60 proxys utilisables.

Ces proxys ont une durée de vie limitée. En relançant le même test 20min plus tard vous aurez une liste totalement différente.

Footprints

Le champ footprint sert à renseigner l’empreinte que vous recherchez. Vous pouvez la sauvegardez en cliquant sur le bouton Save current footprint . Il est possible de lui donner un nom.

Il est possible d’utiliser un ou plusieurs footprints en même temps. L’intérêt du logiciel réside ici via le bouton Footprints from file servant à sélectionner une liste de footprints mis dans un fichier txt comme celui que je vous communique avec ce pdf.

Mots-clés

N’étant pas de vilains spammeurs nous cherchons des liens en relation avec nos thématiques. Plus vous disposez de mots-clés, plus vous obtiendrez de résultats (en principe !).

Pour cet exemple inscrivons :

devenir un bh

devenir un black hat

Apprendre à spammer

automatic blog comment

 

Paramètre de recherche

Étant gourmand je coche tout afin d’obtenir un maximum de liens. Les 1ere check box servent à interroger les différents moteurs de recherche. La 2éme à utiliser nos proxys fraichement trouvés.

Use Human Emulation sert à simuler l’activité d’un humain et non celle d’un robot, chacun fait comme il le désire.

Processus

L’humain n’a que deux bras, mais le PC autant que possible. Nous  pouvons choisir le nombre d’actions à réaliser simultanément, soit entre 20 et 50 avec une configuration matérielle courante.

Recherche

C’est partiiiiiiiiiiit ! Vous avez le bouton Stop si vous en obtenez trop.

Etat

Informe du nombre de threads utilisés, c’est à dire de combien nous disposons d’urls en s’étant fait passer pour un humain.

Url trouvé

Faisons une recherche sans proxy et arrêtons-la rapidement pour réaliser un simple test.

Les urls sont répertoriées dans le tableau, faisons un Get PR et trions le tableau par PR en cliquant dessus.

10° Action sur les urls

Clear list permet de supprimer complètement la liste en cours.

Remove duplicates permet de supprimer les urls en double (il faut toujours le faire).

Remove duplicates root domain permet de supprimer une url avec un nom de domaine en double.

Remove file links supprime les fichiers : mp3, txt et autres.

Trim to root domain permet de ne garder que le domaine d’une url.

11° PR

Get google pagerank for complete URL donne le PR de la page scrapée, ce qui nous intéresse. 

Root domain nous donne le PR du domaine. Il est préférable de les trier par PR du domaine, ainsi vous constatez s’il est possible de les commenter manuellement plus tard. N’oubliez pas qu’il ne faut pas spammer n’importe quoi. Il faut garder vos grosses sources de liens/jus propres, votre objectif et de pouvoir en profiter davantage avant l’intervention des modérateurs…

12° Exportation

URLs per file sert pour définir le nombre d’urls dans un fichier, les listes d’un million d’urls sont délirantes et longues à mettre en œuvre sans compter du danger d’établir tant de liens d’un coup.

Export to Wizard dont vous pouvez vous dispenser « exporter vers l’assistant ».

Export to TXT met la liste d’url dans un fichier texte dont vous choisirez le nom.

13° Importation

Importer une liste d’url pour la compléter ou checker le PR.

14° Copier la liste  

Copie la liste dans le presse-papier (pour la coller autre part).

 

Un grand merci à Charles qui aime bien l’immobilier bouches du Rhône 13 pour sa relecture attentive.

 

Recherches menant à cet article:

  • sick scraper
  • tuto sick scraper