기본 콘텐츠로 건너뛰기

PhantomJS와 CasperJS 사용법

프론트앤드 개발을 하거나 웹자동화에 관심이 있는 분이라면 PhantomJSCasperJS를 많이 들어봤을 것입니다.
저도 이번에 크롤링 공부를 하면서 알게되어 잊어버리지 않기위해 간단하게 정리를 하려고 합니다.

PhantomJS (팬텀JS)

PhantomJS 홈페이지

팬텀JS는 화면이 없는 브라우저라고 보면 됩니다. 화면이 없는 브라우저를 어따가 써먹지? 라고 생각할 수도 있겠지만 웹프로그램으로 웹자동화를 개발하기에는 더없이 편리한 기능을 제공하고 있습니다. 입력상자에 값을 입력한다던가 마우스로 버튼을 클릭한다던가 특정 값을 확인한다던가 하는 일련의 작업(이벤트)들을 커맨드라인의 명령어나 javascript코드로 처리를 할 수가 있습니다.

예를들면 학교홈페이지에 로그인을 하여 공지사항 페이지로 이동하고 학생들에게만 공지한 공지사항 정보를 발췌하여 리스트에 보여주는 일련의 작업들을 PhantomJS를 통해 웹자동화로 구현하여 처리를 할 수가 있게 됩니다.

물론 이런 기능 말고도 웹 화면을 캡쳐하거나 WebApp을 테스트 하는 등.. 다양한 용도로 사용되는것이 PhantomJS 입니다.

설치

설치는 npm으로 간단하게 설치를 할 수 있습니다. 로컬에 설치를 해도 되지만 일반적으로 Global로 설치를 많이 합니다.

$ npm install -g phantomjs

정상적으로 잘 설치가 되었는지 확인하기 위해서 설치버전을 검색해 봅니다.

$ phantomjs -v
2.1.1

리눅스(CentOS)를 사용한다면 한글폰트의 사용을 위해 아래의 폰트관련 패키지를 별도로 설치해 주어야 합니다.

$ sudo yum install freetype
$ sudo yum install fontconfig

CasperJS (캐스퍼JS)

CasperJS 홈페이지

CasperJSPhantomJSSlimerJS를 좀더 쉽고 편하게 사용하기 위한 기능들을 모아놓은 라이브러리라고 보시면 됩니다. 그래서 CasperJS를 사용하기 위해서는 PhantomJS나 SlimerJS가 먼저 설치가 되어 있어야 합니다.

CasperJSstart()명령어와 run() 명령어 사이의 명령어를 순서대로 처리합니다. 다른 javascript와 마찬가지로 비동기로 처리가 기본이지만 then() 명령어를 사용하면 동기화 처리가 가능하여 위의 명령어가 끝나야지만 다음 명령어를 수행하게 됩니다.

사용에 대한 자세한 설명은 해당 CasperJS 홈페이지를 참조하시면 됩니다.

설치

CasperJS의 설치도 npm으로 간단하게 설치를 할 수 있습니다. 로컬에 설치를 해도 되지만 일반적으로 Global로 설치를 많이 합니다.

$ npm install -g casperjs

예제 프로그램

아래와 같이 몇가지 예제코드를 찾아서 공유 합니다.

CasperJS를 사용하여 Google 검색 결과 캡쳐


//CasperJS 객체 생성
var casper = require('casper').create();

// CasperJS처리 시작
casper.start();

// 화면 사이즈 설정
casper.viewport(1400, 800);

// UserAgent 설정
casper.userAgent('User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36');

// 강아지로 검색
var text = encodeURIComponent("강아지");
casper.open('https://www.google.co.kr/search?q=' + text);

// 화면 캡쳐---- (¦4)
casper.then(function(){
  this.capture('google-capture.png',{
    top:0, left:0, width: 1400, height: 800
  });
});

// 실행개시
casper.run();

페이스북에 로그인해서 이미지들 URL 가져오기


var fs = require('fs')

var casper = require('casper').create({
    pageSettings: {
        loadImages: false, // 이미지 로딩은 하지 않음
        loadPlugins: false, // 플러그인 로딩은 하지 않음
        userAgent: 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'
    }
});

//Facebook 열기
casper.start().thenOpen("https://facebook.com", function() {
    console.log("Facebook website opened");
});

//Facebook 로그인
casper.then(function(){
    console.log("해당 id와 pw로 로그인 합니다.");
    this.evaluate(function(){
        document.getElementById("email").value="your_id";
            document.getElementById("pass").value="your_password";
            document.getElementById("loginbutton").children[0].click();
    });
});

//스크린샷 찍고 페이지 저장하기
casper.then(function(){
    console.log("6초 후에 AfterLogin.png 으로 저장됩니다.");
    this.wait(6000, function(){
      this.capture('AfterLogin.png');
      fs.write("./hello.html", this.getHTML(), "w")
    });
});

//이미지 주소 받아오기
casper.then(function(){
    var images = this.evaluate(function(){
        var facebookImages = document.getElementsByTagName('img');
        var allSrc = [];
        for(var i = 0; i < facebookImages.length; i++) {
            if(facebookImages[i].height >= 100 && facebookImages[i].width >= 100)
                allSrc.push(facebookImages[i].src);
        }
        return JSON.stringify(allSrc);
    });
    console.log(images);
})

casper.run();

댓글

이 블로그의 인기 게시물

CSS에서 ellipsis('...')를 처리하는 방법

이번에 ellipsis에 대해 정리해 보도록 하겠습니다. 보통 게시판 리스트의 제목부분이 길어질 경우 php나 jsp등의 프로그램단에서 일정 글자수 이상이 되는 것에 대해 '...'으로 마무리 하는 경우가 많은데요.. 이것을 프로그램이 아닌 CSS만 가지고도 처리할 수 가 있습니다. 한줄라인 글자수 제한 한줄 라인 글자수 를 제한하는 방법은 아래와 같습니다. <div class="txt_line">통영의 신흥보물 강구안의 동쪽벼랑인 동피랑의 벽화마을을 다녀왔다</div> .txt_line { width:70px; padding:0 5px; overflow:hidden; text-overflow:ellipsis; white-space:nowrap; } Block레벨 테그에서만 적용됨. overflow:hidden : 넓이가 70px를 넒어서는 내용에 대해서는 보이지 않게 처리함 text-overflow:ellipsis : 글자가 넓이 70px를 넘을 경우 생략부호를 표시함 white-space:nowrap : 공백문자가 있는 경우 줄바꿈하지 않고 한줄로 나오게 처리함 (\A로 줄바꿈가능) 멀티라인 글자수 제한 멀티라인에 대해서 글자수를 제한하는 방법은 아래와 같습니다. <p class="txt_post">통영의 신흥보물 강구안의 동쪽벼랑인 동피랑의 벽화마을을 다녀왔다.&nbsp; 비도 추적추적 내리고 일정상 늦으막해서 그런지 사람이 많지는 않았다. 덕분에 보통때는 한참을 기다려야 겨우 날개달린 사진을 찍을 수 있었을 텐데, 이번에는 바로 천사날개를 달고 사진을 찍을 수 있는 행운까지 얻었다. 이번이 동피랑 벽화마을 방문 3번째인데 예전에 왔을때에 비해서 벽화가 많이 바뀌어 있었다</p> .txt_post { overflow: hidden; text-ove...

Google 스프레드시트로 구글캘린더에 일정 연동하는 방법

저는 구글 제품을 많이 사용하는 편입니다. 제 주력 캘린더도 Google 캘린더 고요. 이번에 모임의 임원을 맡게 되면서 회원들의 생일을 캘린더에 등록해야 할 일이 생겼어요. 그냥 하나하나 등록을 하는 도중 "내가 지금 뭐하고 있나.." 라는 자괴감이 들기 시작했어요. 구글 시트에 있는 날짜 정보(생일)을 한 번에 쉽게 일괄 등록할 수는 없을까라는 생각이 뇌리를 스쳤습니다. 그래서 찾아봤더니.. 약간의 매크로 프로그램을 작성하면 가능할 것 같더라고요. 그래서 열심히 개발을 해봤습니다. 1시간이면 등록할 것을 8시간 걸려서 프로그램을 짜 봤어요. 결과적으로는 더 비효율적이었네요. ㅠㅠ 그러나... 나에게는 비효율 적이었지만 이코드를 공개하면 다른 사람에게는 큰 도움이 될 수 있겠구나 생각을 하고 코드를 공개해 보려고 합니다. 준비물 준비물은 Google 스프레드시트, Google 캘린더만 있으면 돼요. 당연히 무료고요. Google 캘린더 먼저 Google 캘린더를 만들거나 사용하고 있는 캘린더를 준비합니다. 적용하기 원하는 캘린더의 우측의 ... 를 클릭하고 설정 및 공유 를 선택합니다. 캘린더 ID를 잘 기억해 놓습니다. 나중에 이 ID를 활용할 예정입니다. Google 스프레드시트 회원생일 스프래드시트 공유 Google 스프레드시트로 명단과 생일을 작성합니다. ▲ 위와 같이 작성을 하면 되고 중요한 사항은.. 생년월일 이 구글 시트의 날짜 형식에 맞아야 합니다. 그리고 갤린더등록 , 캘린더상태 의 항목은 필수로 있어야 합니다. 캘린더등록 : 캘린더에 등록할지 제거할지를 표시 (ADD / DEL) 캘린더상태 : 현재 캘린더에 해당 항목이 적용되었는지 확인 (Y / ' ') 매크로 프로그램 작성하기 기본적인 준비는 끝났습니다. 이제부터 Apps Script를 제작하고 트리거를 등록하면 됩니다. Apps Script 작성하기 Apps Script 는 구글 제품에 대...

Google캘린더(달력)에 대한민국 휴일 표시하기

구글 캘린더에 대한민국 휴일을 표시하는 설정에 대해서 소개합니다. 네이버 달력이라면 그냥 기본으로 나오겠지만 구글캘린더의 경우는 별도의 설정을 해 주어야 합니다. 휴일의 표시는 각 나라의 휴일을 구글에서 미리 작성해 놓은 것을 내 캘린더에 불러와 적용하는 방식으로 되어 있습니다. 대한민국 공유일 표시하기 먼저 설정화면으로 이동합니다. 캘린더 화면의 우측상단의 설정 아이콘을 클릭합니다. 메뉴 중 설정 을 클릭합니다. 설정화면 중 좌측 메뉴에서 캘린더 추가 메뉴를 선택합니다. 관심분야와 관련된 캘린더를 선택합니다. 지역 공휴일의 모두 둘러보기 를 선택하면 각나라의 휴일을 선택할 수 있습니다. 우리는 대한민국의 휴일 을 선택합니다. 캘린더에서 공휴일 보기 대한민국 휴일에 대한 설정을 했다면 이제 보기 좋게 표시하면 됩니다. 설정을 정상적으로 했다면 좌측메뉴에 대한민국의 휴일 이라는 캘린더가 보입니다. 캘린더명의 우측끝에 더보기 아이콘 을 선택합니다. 색상을 빨간색으로 선택합니다. (보통 공휴일은 빨간색이므로.. ㅎ) 그러면 캘린더에 휴일의 명칭이 빨간색 으로 표시되게 됩니다. 감사합니다.