tesseract - ocr
pip install pillow
pip install pytesseract로 설치
tesseract프로그램도 인터넷을 통해 설치
이후
https://www.youtube.com/watch?v=h5TzYhkyIbU&t=177s
이 유튜브를 참고해 진행했다.
그런데 계속해서 막히는 것이었다. 정확히는 파일이 저장이 안되고 있었다.
혹시나 해서 request.FILES가 아닌 request.POST로 파일의 이름이 제대로 받아와 지는가 실험을 했었는데
이름이 제대로 받아와졌다.
아마 여기서 2~3시간은 끙끙거렸을 것이다.
html에서 input의 이름이나 id를 없애거나 바꿔보기도 하면서 말이다.
결론은 간단했다.
오타였다.
<form action="/coocr_upload/" method="post" enctype="multipart/form-data">
여기서 enctype을 받았어야 했는데
entype으로 c를 빼먹어 버렸다.
그래서 파일을 읽지 못하고 있었던 것이었다.
그래서 파일을 저장하고 그걸 다시 읽는 방식으로 ocr을 테스트 하였더니 되었다.
다만 궁금한점은 왜 tesseract는 kor이나 eng처럼 3글자인가였다.
html lang같은 경우는 ko나 en처럼 2글자인데 말이다.
헷갈려서 좀 그랬다.