2 000 000 !

L’index de LeProjet Search vient de passer le cap des 2 millions de notes et articles de sites web et de blogs référencés.

J’en profite pour vous donner les statistiques complètes de l’index :
  • Nombre d’articles et notes : 2 070 058 (79% anglais, 10% français, 4% japonais, 2% néerlandais, 5% autres)
  • Nombre de blogs et sites web indexés toutes les 24 heures : 50 684
  • Nombre de blogs et sites référencés mais non indexés : 620 294
Toutes ces informations sont stockées dans une base de données MySQL dont la taille dépasse les 4,5 Go.

Enregistrez votre blog

En vue de l’ouverture du service de recherche sur les blogs et sites web et pour compléter l’indexation automatique, vous pouvez dès à présent enregistrer votre blog pour qu’il intègre dès maintenant l’index de LeProjet Search, vous permettant ainsi d’avoir un nombre plus important de vos notes indexées. Mon programme d’indexation reposant sur l’analyse des flux RSS, il ne peut connaître que les x derniers articles s’y trouvant, usuellement entre 10 et 20 articles. Si vous êtes prolifiques, vous avez tout intérêt à voir mes robots indexer vos notes au plus tôt pour qu’un maximum d’entre-elles soient présentes dans l’index au moment de sa mise en ligne.

N’ayant pour l’instant pas mis en place une procédure automatique, je vous propose de m’envoyer les informations sur votre blog à l’adresse leprojet@christopheberge.com :
  • Son titre
  • Son adresse web (URL)
  • L’adresse de la page RSS ou Atom (si elle n’est pas déjà renseignée dans la page web du blog)
  • Sa description (si différente de celle contenue dans la page RSS ou Atom)
  • Sa fréquence de mise à jour en nombre d’heures (ex : 8, 24, 72, etc.)
Votre blog sera ajouté à l’index dés réception de votre email et indexé dans les 24 heures.

Premières statistiques

Cela fait maintenant 3 semaines que j'ai commencé à indexer des blogs est sites web proposant du contenu au format RSS. Après ces 3 semaines, il est temps de faire un premier bilan de cette indéxation. Voici donc l'état actuel de mon l'index :
  • 16 000 blogs et sites dont les contenus sur indéxés toutes les 24 heures (60% anglais, 35% français, 5% autres langues)
  • 350 000 articles présents dans la base de données
  • 520 000 blogs référencés mais non indexés
Pour l'instant le fichier de données de la base MySQL a une taille de 1,5 Go.