기사 가져오기 • N2H4

library(N2H4)

네이버 뉴스의 기사는 여러 부분으로 구성되어 있습니다. 제목, 본문, 게시시간, 수정시간, 신문사 등 입니다.

기사의 링크로 위 데이터를 가져오는 함수는 getContent() 입니다.

dat <- getContent("https://n.news.naver.com/article/374/0000300375")
dat
#> # A tibble: 1 × 8
#>   url   original_url section datetime            edittime            press title
#>   <chr> <chr>        <lgl>   <dttm>              <dttm>              <chr> <chr>
#> 1 http… https://biz… NA      2022-08-27 11:11:01 2022-08-27 21:07:01 SBS … 어떻…
#> # ℹ 1 more variable: body <chr>
str(dat)
#> tibble [1 × 8] (S3: tbl_df/tbl/data.frame)
#>  $ url         : chr "https://n.news.naver.com/article/374/0000300375"
#>  $ original_url: chr "https://biz.sbs.co.kr/article_hub/20000077824?division=NAVER"
#>  $ section     : logi NA
#>  $ datetime    : POSIXct[1:1], format: "2022-08-27 11:11:01"
#>  $ edittime    : POSIXct[1:1], format: "2022-08-27 21:07:01"
#>  $ press       : chr "SBS Biz"
#>  $ title       : chr "어떻게 독주 체제 굳혔나…어딜 가나 올리브영만 보이는 이유[브랜드의탄생]"
#>  $ body        : chr "화장품숍이야 편의점이야최초 한국형 드럭스토어의 시작      CJ올리브영은 최초의 '한국형 드럭스토어'입니다. 드럭스"| __truncated__

데이터의 각 컬럼은 아래와 같은 의미를 가집니다.

url: 데이터를 수집한 기사의 주소입니다.
정치, 경제, 생활, 세계 등이 있습니다.
section: 네이버 뉴스의 기사 카테고리입니다. 3개의 숫자로 되어 있습니다. getMainCategory() 함수에서 한글명을 확인할 수 있습니다. datetime: 기사가 최소 게시된 시간입니다. 원신문사의 게시시간과 차이가 있을 수 있습니다.
edittime: 기사가 수정된 시간입니다. 기사가 수정되지 않았다면 datetime과 같은 값입니다.
press: 기사를 송고한 매체입니다. 보통 신문사나 방송사등의 이름입니다.
title: 기사의 제목입니다.
body: 기사의 본문입니다.
value: 기사의 데이터를 가져왔는지 확인하는 컬럼입니다. 기사의 주소가 옮겨졌거나 삭제되었다면, FALSE, 정상이라면 TRUE가 입력됩니다.

getContent() 함수는 필요한 컬럼만 가져올 수 있습니다.

getContent(
  "https://n.news.naver.com/article/374/0000300375",
  c("title", "body")
)
#> # A tibble: 1 × 2
#>   title                                                                  body  
#>   <chr>                                                                  <chr> 
#> 1 어떻게 독주 체제 굳혔나…어딜 가나 올리브영만 보이는 이유[브랜드의탄생] "화장…