티스토리 뷰
HTML 형식으로 된 파일 컨텐츠를 읽어서 분석하거나 추출해야 되는 상황이 있었는데, 이전까지 HTML은 XML의 일종으로 보고 관련 CLASS라든지 함수들을 사용해보려고 했지만 대부분 HTML 코드가 완전한 XML 문법을 쓰지 않는 경우라 제대로 XML 관련 클래스나 함수를 사용하기가 쉽지 않았다.
몇일전 필요한 일이 있어서 - HTML 테이블 형식의 xls(엑셀파일)을 읽어서 DB로 부어야 해서 - HTML Parser 로 검색하니 1년 넘게 찾던 바로 그 솔루션을 찾아 냈다.(검색도 머리 좋아야 고생안하지 ㅠㅠ)
약간 아쉬운 건 요구사항이 PHP 5 이상(요새 호스팅은 거의 5 이상이긴 하다)이라는 점? 특징은 잘못된 HTML 형식도 사용가능하고 jQuery등과 같은 자바스크립트 라이브러리(프레임웍?)에서 사용되는 셀렉터 형식과 비슷한 사용법을 제공한다. 라이브러리를 사용한 경험이 있다면 더 사용하기 쉽다.
내부코드를 보면 file_get_contents 같은 함수가 사용되는데 호스팅 상태에 따라 이 함수가 없는 경우도 있다.(보안때문에 막아 놓은거 같다) 이럴땐 curl관련 함수를 사용해서 대체해야 할 것 같다.
홈페이지 : http://simplehtmldom.sourceforge.net/
메뉴얼 : http://simplehtmldom.sourceforge.net/manual.htm
다운로드 : http://sourceforge.net/projects/simplehtmldom/files/
글쓰는 시점의 버전은 1.11
include_once("simple_html_dom.php");
$html = new simple_html_dom;
$html->load_file("import.xls");
$tableRows = $html->find("tr");
$tableRow->find("td",0)->plaintext
엘리먼트나 노드의 사용은 배열 및 오브젝트간 혼용이 가능하다.(정말 잘 만들어놨다 ㅠㅠ)
'Old' 카테고리의 다른 글
IE 브라우저에 Mootools Drag'n Drop에 문제가 있다면... (0) | 2010.07.29 |
---|---|
Mootools Overlay Plugin (0) | 2010.07.17 |
RWAPM 5.7.4.2 릴리즈 (0) | 2009.12.24 |
Mootools를 이용 Checkbox 전체선택 (0) | 2009.12.08 |
Mootools 1.2.4 릴리즈 와 최근소식 (0) | 2009.09.23 |
- Total
- Today
- Yesterday
- 무툴즈
- NODE_PATH
- ajax
- swfupload
- buffer-size
- mootools
- rwapm
- kisa
- 델타포스
- 리눅스
- css
- 설치
- 버퍼사이즈
- Repository
- 노바로직
- novalogic
- javascript
- 버퍼문제
- 업데이트
- 자바스크립트
- 모듈 경로
- 캐슬
- Style
- castle
- epel
- 게임
- php
- IE
- 보안
- deltaforce
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |