본문 바로가기

카테고리 없음

11주차 5일

tesseract - ocr

pip install pillow

pip install pytesseract로 설치

tesseract프로그램도 인터넷을 통해 설치

 

이후 

https://www.youtube.com/watch?v=h5TzYhkyIbU&t=177s

이 유튜브를 참고해 진행했다.

그런데 계속해서 막히는 것이었다. 정확히는 파일이 저장이 안되고 있었다.

혹시나 해서 request.FILES가 아닌 request.POST로 파일의 이름이 제대로 받아와 지는가 실험을 했었는데

이름이 제대로 받아와졌다.

 

아마 여기서 2~3시간은 끙끙거렸을 것이다.

html에서 input의 이름이나 id를 없애거나 바꿔보기도 하면서 말이다.

 

결론은 간단했다. 

오타였다.

<form action="/coocr_upload/" method="post" enctype="multipart/form-data">

여기서 enctype을 받았어야 했는데

entype으로 c를 빼먹어 버렸다.

그래서 파일을 읽지 못하고 있었던 것이었다.

그래서 파일을 저장하고 그걸 다시 읽는 방식으로 ocr을 테스트 하였더니 되었다.

다만 궁금한점은 왜 tesseract는 kor이나 eng처럼 3글자인가였다.

html lang같은 경우는 ko나 en처럼 2글자인데 말이다.

헷갈려서 좀 그랬다.