수동 추가

CSS 선택자 이용해 수동으로 크롤링할 사이트를 추가할 수 있는 기능입니다.

CSS 선택자를 모르실 경우는 CSS 선택자에 대한 메뉴얼을 참고해주세요.

크롬 개발자 도구를 사용하기 때문에 크롬 브라우저가 설치되어 있어야 합니다.

1. 파싱할 사이트 선정

예시로는 클리앙 새로운 소식 게시판을 사용하겠습니다.

https://www.clien.net/service/board/news

2. 페이지 이동 및 목록 URL 입력

게시판 하단의 페이지 이동 기능을 이용해 4페이지로 이동합니다.

URL을 확인하면 아래와 같이 페이지 번호가 따라 코드가 따라 붙습니다.

https://www.clien.net/service/board/news?&od=T31&category=0&po=4

해당 숫자를 변수 [[page]] 로 대체하여 "목록 URL" 에 입력 합니다.

https://www.clien.net/service/board/news?&od=T31&category=0&po=[[page]]

3. 각 게시글 a태그(링크) 선택

목록 화면의 글 제목 에서 마우스 우클릭 후 "검사" 버튼을 클릭합니다.

개발자도구의 "요소" 탭에서 목록의 각 게시글 a태그(링크)의 선택자를 확인할 수 있습니다.

a태그(링크) 클래스명 list_subject 로 되어 있는 것을 확인할 수 있습니다.

.list_subject

또는 상위 요소 포함

.list_title a.list_subject

등 여러형식 으로 추출 가능 합니다.

"[목록] 제목 a 태그" 입력란에 입력합니다.

4. 게시글 제목 선택

게시글 화면에서 제목을 추출 하는 단계입니다.

제목에서 마우스 우 클릭 후 "검사" 버튼을 클릭하여 "개발자 도구"를 실행해 줍니다.

게시글 제목에 사용된 선택자가 post_subject 라는 클래스명의 H3 태그안의 SPAN 태그로 감싸져 있는 것을 확인할 수 있습니다.

h3.post_subject span

게시글 제목 선택자를 "[게시글] 제목" 에 입력해 주세요.

5. 게시글 내용 선택

게시글 내용 요소 중 일부분에 마우스 우클릭 하여 "검사" 버튼을 선택하여 "개발자 도구" 를 실행해 줍니다.

article 태그 안에 post_article 클래스명을 가진 태그로 감싸져 있다는 것을 확인할 수 있습니다.

article .post_article

게시글 내용 선택자를 "[게시글] 본문" 에 등록해 주세요.

6. 테스트

"테스트" 버튼을 클릭하여 테스트를 진행해 줍니다.

테스틀 결과에서 본문 내용에 <html>태그로 시작되어 프레임으로 한번 더 감싸져 있다는 것을 알 수 있습니다. 프레임 내부 body 태그 다음부터 내용이 시작하기 때문에 뒤에 하위 요소로 body를 추가해줍니다.

article .post_article body

"[게시글] 본문" 을 수정 후 다시 "테스트" 버튼을 클릭해 테스트를 진행 해줍니다.

게시글 내용까지 정상적으로 수집되는 것을 확인하였습니다.

7. 등록

"추가" 버튼을 클릭하여 커스텀 크롤러 등록을 완료 합니다.

Last updated