Comment installer leptonica + tesseract sur Windows sans Visual Studio à utiliser dans Anaconda?

Je voulais effectuer une reconnaissance de texte à partir d’images et je veux utiliser Python. J’ai installé Anaconda. Maintenant, je veux installer Tesseract mais je dois aussi installer Leptonica. Je n’ai trouvé aucune instruction claire sur la façon de le faire dans Windows. Pour Leptonica, je ne souhaite pas installer Visual Studio. Donc, quelqu’un pourrait-il donner des instructions claires sur l’installation de leptonica et de tesseract sous Windows sans Visual Studio à utiliser dans anaconda? Merci.

Voici un ensemble simple d’étapes pour avoir la version de dev 3.02 de tesseract à partir du 22/04/2016 à la fois sur les machines Windows 7 et Windows 8:

1- installer tesseract à partir de son exécutable à partir de la page officielle tesseract-ocr (la version 3.02 pour windoes suffit)

2- téléchargez les deux fichiers suivants pour la version de tesseract 3.05 dev à partir de http://domasofan.spdns.eu/tesseract/

Il y a 2 fichiers exe:

  • tesseract-core-yyyymmdd.exe Application de base Tesseract sans données de langue
  • tesseract-langs-yyyymmdd.exe Toutes les données linguistiques disponibles pour Tesseract.

(aaaammjj signifie année 4 chiffres, mois 2 chiffres et jour 2 chiffres.)

L’application est portable, vous pouvez donc l’installer sur une clé USB ou ailleurs.

Sous étapes pour les installer:

  1. Téléchargez les packages tesseract-core et tesseract-langs.
  2. Double-cliquez sur le paquet tesseract-core et extrayez-le dans un répertoire où vous voulez qu’il soit (un nouveau dossier temporaire appelé “Tess_temp”).
  3. Double-cliquez sur le package tesseract-langs et extrayez-le dans le même répertoire mais ajoutez-y \ tessdata dans le dossier ci-dessus “Tess_temp”. Par exemple, si j’avais extrait tesseract-core dans c: \ Tess_temp, tesseract-langs doit aller à c: \ Tess_temp \ tessdata.

  4. Maintenant, copiez ce que vous avez dans “Tess_temp” à l’endroit où tesseract 3.02 a été installé à l’étape 1 ci-dessus (c’est généralement dans C: \ Program Files (x86) \ Tesseract-OCR) (remplacez 3.02 par 3.05)

  5. Il devrait fonctionner maintenant avec la version 3.05 sur Windows. copiez un exemple d’image test.png (avec du texte) dans ce dossier tesseract-ocr et ouvrez un cmd et tapez les commandes suivantes:

    allez dans le dossier tesseract: cd C:\Program Files \Tesseract-OCR

    lance tesseract sur test.png: tesseract -l eng test.png test_text -psm 6

ça va vous montrer

 Tesseract Open Source OCR Engine v3.05.00dev with Leptonica 

toutes nos félicitations ! (vérifiez test_txt.txt pour le texte extrait)