본문 바로가기

IT정보

크롤링 뜻 이해하기

 

크롤링이란 말을 처음 들은 건 구글 애드센스 사이트입니다. 애드센스 승인이 거절된 후 애드센스 정책 위반을 개선하기 위해 애드센스 사이트에 접속하였을 때 크롤링이란 단어를 처음 보았습니다.

정책 위반 원인 중에 콘텐츠를 크롤링할 수 없다는 말이 나옵니다. 생소한 단어라 어떤 점을 위반했는지 이해가 가질 않았습니다. 애드센스 본사가 구글이라 한국식으로 번역하기 어려운 점도 있을 겁니다.

 

아무튼 무엇을 잘못해서 애드센스 거절이 되었는지에 대해 자세히 공부할 수 있는 기회가 되었습니다.

낯설고 어려운 단어인 크롤링에 대해 살펴보는 시간 갖도록 하겠습니다.

 

 

 

 

웹사이트크롤링-크롤러-웹크롤링
웹크롤링

 

 

 

 

크롤링이란 무슨 뜻

 

웹 사이트(web site), 하이퍼링크(hyperlink), 데이터(data), 정보 자원을 자동화된 방법으로 수집, 분류, 저장하는 것을 뜻한다고 합니다.

 

 웹 크롤링(web crawling) 또는 데이터 크롤링(data crawling)으로도 불립니다. 다양한 정보 자원을 자동화된 방법으로 수집해서 분류 및 저장하는 것을 말합니다.

 

더 쉽게 풀이하자면 소프트웨어 등이 웹을 돌아다니며 유용한 정보를 찾아 특정 데이터베이스로  수집해 오는 작업을 뜻합니다.

 

 

크롤링 기술

 

▷ HTML 페이지에서 관련 하이퍼링크를 찾아 데이터를 분류하고 저장하는 작업을 반복합니다. 파이썬 프로그램이 크롤링 분야에 주로 사용되고 있다고 합니다.

 

크롤링 기술이 악용돼 정보를 무단 복제하게 되면 지식재산권 침해 문제가 발생할 수 있다고 합니다. 크롤링으로 취득한 콘텐츠를 상업적으로 이용하는 것 또한 문제가 될 수 있습니다.

이 같은 문제를 방지하기 위해 웹페이지 운영자는 웹페이지에 로봇 배제 표준을 사용합니다. 또는 메타 태그를 사용해 크롤러로 검색 색인이 생성되는 것을 차단합니다

 

 

▷유사한 개념으로는 SW를 통해 데이터 소스에서 데이터 자체를 추출, 특정 형태로 저장하는 스크레이핑(scraping)이 있다고 합니다. 빅데이터 분석에서는 크롤링을 통해 필요한 데이터가 어디 있는지 알아내고, 스크레이핑을 통해 수집 및 저장해서 분석에 사용하는 등 기술을 결합하기도 합니다.

 
 
크롤링기술-웹크롤링-웹사이트분석-빅데이터
크롤링기술

 

 

 

크롤링의 활용 

 

크롤링을 활용하면 오프라인에서 직접 현장에 방문하고, 사람을 만나 수요 조사 및 설문 조사를 하는 등의 작업을 생략할 수 있다고 합니다. 최근에는 금융권, 마케팅 기업을 비롯해 데이터 사이언스 등 다양한 분야에서 활용되고 있습니다.

 
 

이상으로 크롤링이란 무슨  뜻이며 어떤 경우에 사용하는지에 대해 알아보았습니다. 애드센스에서 거절당한 것이 전화위복이 되길 바라는 마음입니다. 

 

 

 

 

 

728x90