본문 바로가기

네이버

네이버 검색어 세션 순서 크롤링 프로그램 개발일지 안녕하세요 오늘은 네이버 세션 순서를 크롤링하는 프로그램을 개발해볼려고합니다 바로 시작! 1. 세션순서란 네이버에 컴퓨터 추천 이라는 검색어로 검색했을때 결과입니다 컴퓨터 추천검색어는 VIEW -> 네이버 쇼핑 -> 지식iN -> 플레이스 -> 네이버 책 -> 이미지 순으로 세션이 표시가 됩니다 우리는 이걸 지식인 이나 VIEW세션이 최상단(맨 위)에 올라와 있는 키워드를 찾아 저장하는 프로그램을 제작해보도록 하겠습니다 2. 작업환경 설정 지금까지 selenium을 사용해 왔습니다 셀레늄을 사용한 가장 큰 이유는 사이트에 과부화를 주지 않으면서 서버가 요구하는 값들을 정상적으로 출력하기 위함입니다 이번에는 requests를 이용해보고 requests가 되지 않으면 셀레늄으로 개발하는 방식으로 하겠습니다 .. 더보기
네이버 서로이웃 자동 추가 프로그램 개발일지 2020년 12월 19일 시작 블로그에 글을 작성하니 블로그 활성화가 눈에 들어오기 시작했다 활성화 방법 중 하나 일 것 같은 서로 이웃부터 시작하기로 했다 (내 생각이다) 일단은 이것도 마찬가지로 네이버에 로그인을 해야 하니 셀레늄을 사용하고 로그인 코드는 이전 포스팅(아래 링크)에서 확인할 수 있다 로그인을 한 후 블로그 홈으로 접속해보자 여기에서 블로그들의 아이디를 가져와 서로 이웃을 추가해보도록 하겠다 일단은 일상. 생각을 주제로 포스팅을 하는 블로거를 선택했다 마찬가지로 셀레늄과 beautifulsoup를 이용하여 블로거 아이디를 크롤링해보겠다 크롤링하기 전 html 코드를 분석한다 이번에는 list형식이 아닌 div형식으로 되어있다 일단은 list_post_article의 클래스 명을 선택해보.. 더보기
네이버 지식인 질문 자동 답변 프로그램 개발일지 2020년 12월 15일 시작 지식인 질문 프로그램을 제작 도중 일단은 질문에 답을 하는 프로그램을 제작해보기로 했다 ​ 일단 생각한 로직은 키워드로 검색 후 검색된 제목을 찾아 제목에 특정 단어가 들어가거나 내용에 들어가면 질문에 답을 하는 것이다 ​ 로그인 -> 지식인 키워드 검색 -> 제목, 내용 인식 -> 답변 ​ 간단해 보이는 작업이다 한번 빠르게 시작해보도록 한다 일단은 모든 작업을 하기 위해 작업 환경을 결정해야 하는데 파이썬을 사용하고 selenium을 사용하기로 하였다 selenium 같은 경우에는 설정만 잘해준다면 실제 사용자와 동작이 매우 유사하기 때문이다 ​ 1. 로그인 전에 사용했던 로그인을 사용해보자 driver.get('https://nid.naver.com/nidlogin.l.. 더보기
네이버 지식인 질문 크롤러 개발일지 2020년 12월 08일 시작 쿠파스를 사용하기 위해 파이프라인을 알아보던 중 네이버 지식인을 선택하게 되었다 생각한 것은 질문이 올라오면 지정된 홍보문구로 답변을 하는 것. 하지만 질문이 생각보다 많이 올라오지 않았다 그래서 생각했다, 여태 올라온 질문은 크롤링해 내가 질문을 하면 되지 않을까? 2020년 12월 08일 시작합니다 2020년 12월 09일 네이버 지식인에 들어가서 질문을 크롤링하려고 한다. 지식인에 접속한 후 카페에서 많이 접했던 '노트북'키워드로 검색하여 검색 결과를 가져올 것이다. 크롤링하여 2777줄에 해당하는 정보를 얻을 수 있었다 홀수는 질문 제목, 짝수는 질문내용이니 질문의 개수는 1388개이다 마지막 한 줄은 개행 문자(\n)이다 얻은 질문들을 살펴보니 중복된 글이 많아 지.. 더보기