본문 바로가기

직접 만든 소프트웨어

(OCR 버전)화면 글자를 인식하여 추출하는 프로그램

반응형

(추가!!!)

이 게시물에서 소개하는 OCR버전은 인식률이 그리 좋지 않습니다.

잘 정돈된 문서에서는 그나마 인식을 잘 하지만 그게 아닌 경우라면 거의 인식하지 못하는 단점이 있습니다.

패턴을 찾아 분석하는 OCR 기술의 한계입니다.

 

그래서 인공지능으로 문자를 추출하는 버전을 따로 만들었습니다.

인공지능 버전에 대해서는 아래 링크로 이동해서 확인 바랍니다.

 


 

화면에 보이는 글자를 인식하여 추출해 주는 프로그램(인공지능 버전)

 

화면에 보이는 글자를 인식하여 추출해 주는 프로그램(인공지능 버전)

1. 개요 일전에  '헌짱 글자 추출기'라는 이미지속 문자를 추출해주는 프로그램을 업로드 한 적 있습니다.화면에 보이는 글자를 인식하여 추출해 주는 프로그램 (choogo.net)(링크) 위 프로그램은

www.choogo.net

 


 

아래의 OCR 버전 프로그램은 위 인공지능 버전을 사용하기 힘든 경우에 대체용 정도로 사용하시길 바랍니다.

다만, 문자 인식 성능은 인공지능 버전에 비해 현저히 떨어지는것을 감안하시고 사용하시기 바랍니다.

 

 

1. 개요.

 

PDF나 그림, 문서 등에서 글자를 복사해서 붙여넣어야 하는 경우가 많습니다.

그런데 원본에 복사방지 기능이 적용되어 있거나 이미지나 동영상 등 아예 복사를 할 수 없는 것에서 문자를 추출해야 할 때도 많습니다.

이런 경우 사용할 수 있는 프로그램을 만들어 봤습니다. 

 

 

2. 프로그램 화면 구성 및 설명.

 

제가 만든 프로그램명의 이름은 "헌짱 텍스트 추출기"입니다. (작명이 조금 촌시럽네요..)

화면에서 이미지를 캡처하고 캡쳐된 이미지에서 OCR 을 사용하여 텍스트를 추출해 줍니다.

가독성을 위해 이미지를 프로세싱 하는데 대조, 블러, 그리고 이진화 임계값과 같은 이미지 처리 매개변수를 직접 조절하면 텍스트 추출 결과에 영향을 끼칠 수 있습니다. 

게임 Ready or Not 타이틀 화면에서 추출

 

위와 같이 캡쳐된 화면을 그대로 사용하는 것이 아니라 이미지 프로세싱을 통해 가독성을 높여 문자를 인식하게 됩니다.

일반적인 문서들은 문자와 여백과의 구분이 명확하여 영역을 대충 설정해도 대체로 문자인식이 잘 되는 편이나 게임/동영상 등에서는 영역을 지정할 때에 불필요하게 너무 크게 설정하면 저렇게 문자가 아닌 부분까지도 문자로 인식하기도 하니 필요한 텍스트부분만 영역으로 설정하는 것이 좋습니다.

 

 

3. 사용법.

  • 직사각형을 그려 화면의 특정 영역을 캡처합니다.
  • 대조, 블러, 그리고 임계값과 같은 이미지 처리 매개변수를 조절할 수 있습니다.
  • 캡처한 이미지에서 텍스트를 추출합니다.
  • 추출된 텍스트를 클립보드에 복사합니다.

 

4. 다운로드.

 

!!! 주의 !!!

개인이 만든거라 100% 바이러스 백신 프로그램에 감지될겁니다.

제가 만들었는데도 제 컴퓨터에서조차 바이러스 프로그램일수 있다며 삭제되더군요;;

(실시간 감시를 끄고 다운을 받아야 하며 몇번의 경고를 넘긴뒤에야 다운이 되고 그마저도 다운이 완료되어 실행을 해도 신뢰할수 없는 게시자 경고를 무시하고 넘어가는 난리를 쳐야 사용 할 수 있습니다..)

해결방법은 제가 프로그램을 빌드할때 인증서를 발급받고 프로그램 빌드하는 건데..인증서 발급 비용이 꽤 들어가서 포기했습니다..

 

하지만 위험한 코드는 절대 없음을 분명히 말씀드립니다.!

 

 

Capture_OCR(v1.0).zip.001
19.00MB
Capture_OCR(v1.0).zip.002
19.00MB
Capture_OCR(v1.0).zip.003
19.00MB
Capture_OCR(v1.0).zip.004
19.00MB
Capture_OCR(v1.0).zip.005
19.00MB
Capture_OCR(v1.0).zip.006
19.00MB
Capture_OCR(v1.0).zip.007
19.00MB
Capture_OCR(v1.0).zip.008
14.56MB

 

 

OCR 인식에는 Tesseract-OCR 을 사용했는데 실행파일만 있으며 별도의 설치 없이도 돌아가도록 만들다보니 Tesseract-OCR 를 실행파일에 같이 빌드하여 용량이 꽤 커졌네요.

 

Tesseract OCR 별도 설치하여 사용하시고자 하는 분들이 계시면 아래 버전을 받으셔도 됩니다.

 

CaptureOCR(1.0 Tesseract OCR 미포함).zip
15.14MB

 

실행파일 이 있는 위치에 Tesseract-OCR 폴더가 있도록 세팅하셔서 사용하시면 됩니다.

Tesseract는 아래에서 받으시면 됩니다.

 

https://github.com/tesseract-ocr/tesseract

 

GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

Tesseract Open Source OCR Engine (main repository) - tesseract-ocr/tesseract

github.com

 

 


다시한번 말씀드립니다.

이 게시물에서 소개하는 OCR버전은 인식률이 그리 좋지 않습니다.

잘 정돈된 문서에서는 그나마 인식을 잘 하지만 그게 아닌 경우라면 거의 인식하지 못하는 단점이 있습니다.

패턴을 찾아 분석하는 OCR 기술의 한계입니다.

 

그래서 인공지능으로 문자를 추출하는 버전을 따로 만들었습니다.

인공지능 버전에 대해서는 아래 링크로 이동해서 확인 바랍니다.


 

화면에 보이는 글자를 인식하여 추출해 주는 프로그램(인공지능 버전)

 

화면에 보이는 글자를 인식하여 추출해 주는 프로그램(인공지능 버전)

1. 개요 일전에  '헌짱 글자 추출기'라는 이미지속 문자를 추출해주는 프로그램을 업로드 한 적 있습니다.화면에 보이는 글자를 인식하여 추출해 주는 프로그램 (choogo.net)(링크) 위 프로그램은

www.choogo.net

 

댓글