개발
퍼블리싱
디자인
기획
기타

OCR 및 데이터 크롤링 프로토 프로그램

개발자/무관 0.2개월 재택 300 ~ 300만원 (협의가능)
     월단가 : 300 ~ 300만원

프로젝트 필수 스킬

pythonVBA

상세내용

모집마감일 2020-10-20
개발진행 상황
 
개발
프로젝트 내용
 
※프로젝트의 현재 상황

- 최초 온/오프라인 미팅

- 사무실위치 : 서울시 중구 광화문 부근

- 원격, 재택근무

- 룩센트 광화문 오피스 상주근무 시 점심 저녁 식사 및 식대 제공

※프로젝트의 현재 상황

- 경영 컨설팅 프로젝트의 한 모듈 중 웹 크롤링을 통해
상품 데이터 DB를 구축하고자 합니다.

- 찾고자 하는 상품 종류와 필요한 정보 및 크롤링 타케팅하고자 하는
사이트는 명확히 가이드 드릴 수 있습니다.

+ 용도

- 특정 시스템 구축 이전에 테스트 용도의 수집 프로그램 입니다.
:: 프로토 버전이라고 생각해주세요.

- 외부 OCR 오픈소스 활용시 어느정도의 완성도가 나오는지 확인

- 완벽한 OUTPUT은 아니더라도 프로젝트 결과물 보고서에 활용할 예정.


※상세한 업무 내용

[ OCR 및 데이터 크롤링 프로토 프로그램 ]

+ 과업 분류

+ 웹 프로그램

- 데이터 크롤링

- OCR 데이터 추출



+ 개발 내용

- 1. 인스타그램 API를 활용해서 해시태그 #와인, #와인스타그램을
검색해서 나오는 이미지 (291만개 또는 54.3만개)를 우선 크롤링합니다.
:: 성능, 양에 대한 부분은 추후 협의

- 2. 기대하는 이미지는 인스타그램에 올라온 와인병 이미지 이고
와인병에 보이는 와인 브랜드 및 상품명이 보이는 이미지 수집을 목적으로 합니다.

:: 물론 크롤링하는 과정 중에서 와인병이 아닌 이미지와 와인 브랜드와 상품명이
보이지 않는 이미지도 포함이 되어도 상관 없습니다.

- 3. OCR을 활용해서 크롤링된 와인병 이미지 안 와인 브랜드 및 상품명을
Text로 변환해 1차 브랜드 상품명 DB를 구축합니다.

:: 와인병이미지가 아닌 내용 혹은 부정확한 이미지들은 100% 정확하게
Text 변환할 필요는 없습니다.

:: 목표하는 수는 291만개 또는 54.3만개중 1~2만개 정도라도 와인 브랜드상품명
DB를 모으는 것을 목표로 합니다.

:: 물론 다다익선이지만 너무 정밀하고 엄격한 기준의 목표치를 잡는 것은 아닙니다.

- 4. 1~2만개 정도 모아진 와인 상품명 DB를 활용해서 2번째 상품정보
수집 웹 크롤링을 진행합니다.

:: Wine Search Platform에 접근을 해서 1차로 수집된 와인 상품명을 Query를 활용해 검색합니다.

:: 검색된 와인의 와인명 / 와인수입사 / 제조국 / Vintage /가격 등 정보를 수집합니다.

- 5. 최종적으로 1~2만개의 Wine 상품 DB를 엑셀로 구축합니다.



# 킥오프 : 10월 4째주 ( 빠를 수록 좋음 )

# 개인 프리랜서 개발자

# 합리적인 선에서 기간, 견적 협의 진행



※참고 / 유의 사항

- 미팅시 유무선상을 통해 전달
담당업무
 
모집인원
 
1 명
총 투입인력
 
1 명

프로젝트 참여 신청자

정*진
경력 27 년
ANDROIDDB...

OO대학교 교원인사시스템 구축 및 전자결재 고도화

OOO 스마트 펙토리 시스템 구축

OO대학교 종합정보시스템 재구축

백*기
경력 00 년
.NETASP...

등록된 프로젝트 수행 경력이 없습니다

스마트 매칭서비스

김○○
개발자

CSSDBHTML

08 년 4.0

강○○
개발자

DBHTMLJAVA

14 년 3.5

지○○
개발자

ASPDBHTML

18 년 3.5