코딩 및 데이터분석/웹크롤링
-
주요 게임 매체 스크랩하기(bs4 활용)코딩 및 데이터분석/웹크롤링 2023. 7. 26. 00:04
각 기사 옆에 'Summary'라는 이름으로 본문 세 줄 요약까지 해버리고 싶은데, 아직 초보라 방법을 모르겠다. 그리고 이 결과로 만든 xlsx파일을 컴퓨터로 봐봤자 의미가 없기 때문에 모바일로도 간편하게 받아보고 싶은데... 이 역시 방법을 모르겠다. GPT 선생이 없었으면 혼자 힘으로는 절대 이 코드를 얻지 못했을 것이다. AI란 정말 신묘하다. 앞으로 해외 매체들도 추가해볼 생각이다. 각 매체 별로 기사 탭에 들어가면 제일 먼저 보이는 메인 페이지에 노출된 기사의 제목, 링크만 10~20개 정도 추출하는 것이라, 아마 각 홈페이지에 이 스크랩으로 인한 부담은 없을 것이라고 생각한다. 버전 2023.8.10 GameDeveloper 비즈니스 섹션 추가 import requests import pan..
-
주요 게임사 뉴스_키워드 출현 빈도순 정렬코딩 및 데이터분석/웹크롤링 2023. 6. 28. 04:48
네이버뉴스에서 '관련도순', '최근 6개월' 옵션을 선택하고 99페이지까지(즉 1000개 기사) 크롤링한 뒤, 뉴스 제목에 사용된 단어를 출현 빈도순으로 정렬했다. 이때 일반적인 불용어 외에도 각 기업명과 너무 자주 쓰이는 단어는 제외했다. (예: '업데이트', '출시', '신규', '게임', 엔씨소프트 기사일 때 "엔씨소프트", 넥슨 기사일 때 "넥슨" 등) 아래는 그 결과이다. 연습삼아 해보았는데, 뉴스 제목을 단어로 자를 때 좀 세심하게(?) 자르는 방법이 없는 건지 고민을 해봐야겠다. '배틀그라운드'가 '배틀', '라운드'로 잘리고, '김창한'이 '김창' '한'으로 잘리고... 이 문제를 해결하지 못하면 실제 적용하기 좀 애매할 듯하다. 1. 넥슨 2. 엔씨소프트 3. 넷마블 4. 크래프톤