11주차 5일

tesseract - ocr

pip install pillow

pip install pytesseract로 설치

tesseract프로그램도 인터넷을 통해 설치

이후

이 유튜브를 참고해 진행했다.

그런데 계속해서 막히는 것이었다. 정확히는 파일이 저장이 안되고 있었다.

혹시나 해서 request.FILES가 아닌 request.POST로 파일의 이름이 제대로 받아와 지는가 실험을 했었는데

이름이 제대로 받아와졌다.

아마 여기서 2~3시간은 끙끙거렸을 것이다.

html에서 input의 이름이나 id를 없애거나 바꿔보기도 하면서 말이다.

결론은 간단했다.

오타였다.

여기서 enctype을 받았어야 했는데

entype으로 c를 빼먹어 버렸다.

그래서 파일을 읽지 못하고 있었던 것이었다.

그래서 파일을 저장하고 그걸 다시 읽는 방식으로 ocr을 테스트 하였더니 되었다.

다만 궁금한점은 왜 tesseract는 kor이나 eng처럼 3글자인가였다.

html lang같은 경우는 ko나 en처럼 2글자인데 말이다.

헷갈려서 좀 그랬다.

뭐라도 해야할 것 같아서