나무위키는 크롤링 진짜 빡세게 막아놓는 것 같네

본문

(백업)유머 게시판(2021-)

[잡담] 나무위키는 크롤링 진짜 빡세게 막아놓는 것 같네 [3]

루리웹-185435056 (3659462)

활동내역 작성글 쪽지 마이피 타임라인

출석일수 : 3344일 | LV.46

Exp.56%

추천 1 | 조회 3485 | 비추력 24839

작성일 2022.04.13 (00:08:45)

IP : (IP보기클릭)1.251.***.***

프로필 열기/닫기

루리웹-185435056 (3659462)

1 | 3 | 3485 | 비추력 24839

프로필 열기/닫기

2022.04.13 (00:08:45)

아님 내가 못뚫는 거거나

토이 프로젝트로 나무위키 실검 크롤러 만들어서 엄청 간단한 웹서비스 하나 만들어 보려고 했는데

클라우드플레어 장벽에 막혀서 실패...

크롤러가 돌아가는 백엔드 서버를 구현하긴 해놔서 그게 내 집 컴퓨터에서 돌아가도록 할 수는 있지만

대부분 서버들이 블랙리스트에 올라가있는지 인스턴스에다가 올리면 죄다 막혀... 캡챠...

아무튼 하루짜리 셀프 해커톤용 프로젝트로 시작했다가 크롤링에 대해서는 엄청 배운 것 같네

그리고 beautifulSoup, Selenium, 기타 ajax 라이브러리들 등등 전전하다가

돌고돌아 순정, cURL이 최고다 라는 사실 또한..

처음엔 나무위키 메인 페이지를 긁어와서 검색창에 포커스 이벤트를 발생시킨 뒤 나오는 인기 검색어 목록을 파싱했다가,

그것이 엄청나게 번거롭고 불안정한 방법이라는 것을 깨닫고

브라우저 개발자 도구 켜서 해당 이벤트가 발생할 때 어떤 url로 요청이 가는지 파악

https://search.namu.wiki/api/ranking

여기로 보내는거 확인하고 생각보다 일이 쉬워지겠구나 싶었는데 저기다가 요청 보내니까 칼같이 가로막힘

아무리 userAgent를 주고 헤더를 브라우저랑 똑같이 설정해도 라이브러리들이 힘을 못쓰고,

오직 curl 명령어로 하는 테스트에서만 정상적으로 작동하는 상황에서

그냥 차라리 자식 프로세스 생성해서(Child_process로) curl 실행시킨 다음에 그 결과 받아서 쓰자 라는 아이디어로 흘러갔고

그렇게 성공적으로 크롤러가 동작하는 거 확인하고 성공이다 외친다음에 서버 인스턴스(tmi, 올해 6월에 무료티어 끝남)에 올려놓으니까

결국 다시 가로막힘...

으엑

뭔가 많이 했는데 결과물도 안좋고 자랑할 데도 마땅치 않아가지고 막 횡설수설 말이 많아지는구만

배포하려고 뭐 애저도 가봤다가, 네이버 클라우드 플렛폼도 가봤다가, 오라클도 가봤다가,

좀 성격 다르지만 헤로쿠도 찔러보고

AWS는 이미 오래전에 프리티어 끝나서 쳐다도 안봤지만

으허헤헤헤 원통하고 어굴하다

나중에 개인 블로그에나 잘 정리해서 회고글 올려놔야지

글쓰기

댓글 | 총 3 개

폭신폭신곰돌이 (1738445)

(IP보기클릭)124.50.***.***

BEST
아 자기가 그걸로 생겼는데 당연히 막짘ㅋㅋㅋ

22.04.13 00:09

폭신폭신곰돌이 (1738445) (IP보기클릭)124.50.*.*	BEST 아 자기가 그걸로 생겼는데 당연히 막짘ㅋㅋㅋ 등록	22.04.13 00:09
바닷노을 (5438342) (IP보기클릭)223.39.*.*	생각보다 그쪽 네트워크가 튼튼했던걸로 등록	22.04.13 00:09
나오 (1301827) (IP보기클릭)118.221.*.*	오 와드와드! 등록	22.04.13 00:10

로그인이 필요합니다.

글쓰기