네이버 뉴스의 기사는 여러 부분으로 구성되어 있습니다. 제목, 본문, 게시시간, 수정시간, 신문사 등 입니다.
기사의 링크로 위 데이터를 가져오는 함수는 getContent()
입니다.
dat <- getContent("https://n.news.naver.com/article/374/0000300375")
dat
#> # A tibble: 1 × 8
#> url original_url section datetime edittime press title
#> <chr> <chr> <lgl> <dttm> <dttm> <chr> <chr>
#> 1 http… https://biz… NA 2022-08-27 11:11:01 2022-08-27 21:07:01 SBS … 어떻…
#> # ℹ 1 more variable: body <chr>
str(dat)
#> tibble [1 × 8] (S3: tbl_df/tbl/data.frame)
#> $ url : chr "https://n.news.naver.com/article/374/0000300375"
#> $ original_url: chr "https://biz.sbs.co.kr/article_hub/20000077824?division=NAVER"
#> $ section : logi NA
#> $ datetime : POSIXct[1:1], format: "2022-08-27 11:11:01"
#> $ edittime : POSIXct[1:1], format: "2022-08-27 21:07:01"
#> $ press : chr "SBS Biz"
#> $ title : chr "어떻게 독주 체제 굳혔나…어딜 가나 올리브영만 보이는 이유[브랜드의탄생]"
#> $ body : chr "화장품숍이야 편의점이야최초 한국형 드럭스토어의 시작 CJ올리브영은 최초의 '한국형 드럭스토어'입니다. 드럭스"| __truncated__
데이터의 각 컬럼은 아래와 같은 의미를 가집니다.
url
: 데이터를 수집한 기사의 주소입니다.
정치, 경제, 생활, 세계 등이 있습니다.section
: 네이버 뉴스의 기사 카테고리입니다. 3개의 숫자로
되어 있습니다. getMainCategory()
함수에서 한글명을 확인할
수 있습니다. datetime
: 기사가 최소 게시된 시간입니다.
원신문사의 게시시간과 차이가 있을 수 있습니다.edittime
: 기사가 수정된 시간입니다. 기사가 수정되지
않았다면 datetime
과 같은 값입니다.press
: 기사를 송고한 매체입니다. 보통 신문사나 방송사등의
이름입니다.title
: 기사의 제목입니다.body
: 기사의 본문입니다.value
: 기사의 데이터를 가져왔는지 확인하는 컬럼입니다.
기사의 주소가 옮겨졌거나 삭제되었다면, FALSE
, 정상이라면
TRUE
가 입력됩니다.
getContent()
함수는 필요한 컬럼만 가져올 수
있습니다.
getContent(
"https://n.news.naver.com/article/374/0000300375",
c("title", "body")
)
#> # A tibble: 1 × 2
#> title body
#> <chr> <chr>
#> 1 어떻게 독주 체제 굳혔나…어딜 가나 올리브영만 보이는 이유[브랜드의탄생] "화장…