[코드스테이츠 PMB 8기 #W6D4] 아마존 베스트셀러(2009-2019) 데이터...

[코드스테이츠 PMB 8기 #W6D4] 아마존 베스트셀러(2009-2019) 데이터...

* 블로그는 코드스테이츠 PMB 과정의 과제로 작성하였습니다. 단어, 개념, 특정 프로덕트에 대해 틀린 정보가 있을 수 있습니다. 혹시 발견하신다면 말씀 부탁드립니다. 반영해서 개선하도록 하겠습니다!

'데이터'라고 하면 자신감이 떨어지고 위축된다.😂 사실 개인적으로 학부생 때부터 사실에 대한 뒷받침 근거를 제시하기 위해 객관적 데이터에 집착해 왔는데, 데이터 수치 자체를 손쉽게 얻더라도 수치가 나온 시대적 맥락과 사건을 탐색하는 시간이 굉장히 길었던 것으로 기억한다. 탐구하다보면 맥락을 따라 세웠던 가설이 데이터 상으로 틀렸다는 것도 알게되고. 그래서 그런지 '데이터'라는 단어는 나를 명징하게 해주는 동시에 아직도 뼈가 시린 느낌을 준다.

여담이지만 어제의 <문토>에서 잠시 언급했던 19세기 살롱문화가 쇠퇴하게 된 이유에는 신문이 등장하며 살롱이라는 제한적, 엘리트주의적 공간에서 '대중'으로 옮겨갔기 때문인데, 찾아본 사료에 20세기 초까지 종이재료와 인쇄비용이 비쌌기 때문에 부르주아에 제한된 매체였다고 기술되어있다. 나는 당시 신문의 가격이었던 6센트가 노동자들이 감당하기 어려운 수준이었다고 생각했지만 실제로 6센트는 노동자들이 일일 혹은 일주에 소비하는 주류비용과 비슷했다. 결과적으로 신문의 타겟이 부르주아에 제한됐던 것은 상업과 논단적인 내용만을 다뤘고 노동자들은 신문을 사느니 술을 마셨던 것이다.(노동자에게 식수를 대신하는 주류의 중요성과 여러 이유들이 있지만 생략.) 신문의 비용은 점차 떨어지지만 실제로 신문의 소비자가 '대중'으로 확산되는 것은 내용이 생활광고, 삽화, 소설을 포함하면서 부터이다. 19세기로 배우는 비교 데이터의 중요성은 여기까지.

하지만, 이런 분석적인 데이터를 차치하고서 '데이터'는 우리 삶 곳곳에 산재해 있고 특히나 정보의 홍수 속에서 일정 수준 이상의 정보 해석력이 요구되는 지금 '데이터 시각화 Data Visualization'은 일상의 경험이라고 볼 수 있을 것이다. 간단히 예를 들어 자동차 계기판을 보자. 기름이 얼마나 남았고, 우리 차가 지금까지 얼마나 달렸는지, 속도는 어느 정도인지. Km/h, L, K 등 운전시 알아야하는 정보를 간결하게 시각화 해 그때그때 제공한다. 와이파이 사용량, 매일 보는 뉴스의 강수확률, 지도의 온도들은 모두 가장 필요한 데이터를 필요한 곳에 적절히 시각화 한 좋은 예시다. 네트워크 시대에 데이터는 일상 자체로 볼 수 있다.

데이터와 조금 친밀함을 느끼게 됐다면, 조금 더 (내 수준에서) 깊은 이야기를 풀어보고자 한다. 프로덕트를 만들고, 개선하고, 고도화하기 위해 지금까지 데이터 중심(Data-Driven) 의사결정의 중요성을 지속적으로 상기해왔다. 이때 누적된 방대한 데이터를 효과적으로 활용하고 잘 활용하는 방법이 바로 오늘의 주제인 '데이터 시각화 Data Visualization'이다. 데이터의 분석 결과를 시각적으로 표현할 때 많은 장점을 요약하자면 아래와 같다.

1️⃣ 많은 양의 데이터를 한 눈에 표현해 데이터가 의미하는 바를 직관적으로 찾고 이해할 수 있다.

2️⃣ 데이터 분석 전문가가 아니더라도 데이터를 빠르게 인지해 패턴을 근거로 쉽게 인사이트를 찾을 수 있다.

3️⃣ 요약된 통계 수치보다 시각화 결과물의 패턴을 근거로 데이터를 정확하게 이해하고 탐색할 수 있다.

4️⃣ 시각 자료는 지적 측면, 정서적 측면 모두 공감이 가능한 강력한 도구다. 데이터 시각화 자료로 메시지 스토리텔링을 전달, 효과적으로 데이터 인사이트를 공유해 데이터 기반 의사결정이 가능하다.

5️⃣ 데이터 시각화는 어떤 분야이든 활용이 무궁무진하다. (금융, AI, 심지어 대통령 연설문도 시각화가 가능하다.)

* 이때 데이터 유형에 따라 가장 적절한 형태를 취해야

오늘의은 무료 데이터를 제공하는 Kaggle, Dacon 등의 사이트에서 추출한 데이터를 통해 데이터 시각화를 연습하는 것이 과제이다. 드라마 스타트업에서 보던 '해커톤'에 두근두근하며 들어갔지만, 현실은 👀👀👀👀데이터가 너무 많고, 원하는 데이터는 찾기가 어려워서 현실적인 타협안으로 kaggle의 'Amazon Top 50 Bestselling Books 2009 - 2019' 데이터를 가져와 보았다.

많이 밀린... 위클리 과제인 '리더스'가 도서 플랫폼이고, 내가 지속적으로 관심을 가졌던 프로덕트들이 특정 주제를 중심으로 한 소셜링 혹은 커뮤니티 기능이 있었다. 10년 동안의 베스트셀러 목록을 통해 사람들이 '정보'를 얻는 가장 고전적인 출구인 도서를 통해 약간의 인사이트를 얻고자 했다. 다만 도서 카테고리에 대한 인덱스가 없었기 때문에 Fiction과 Non Fiction을 중심으로 독서의 목적과 독서와 연관된 프로덕트를 만들게 되었을 때 무엇을 고려해야 할지에 대해 가설을 세우고 접근했다.

Amazon Top 50 Bestselling Books 2009 - 2019 에서 데이터로 가설을 세우고 분석해보기

Data 설명

Kaggle에서 데이터를 엑셀로 받았을 때 Name, Author, User Rating, Reviews, Price, Year, Genre 6개 항목에 대한 정보를 얻을 수 있었다. 2009년부터 2019년까지 10년 간 아마존에서 제공하는 Best Seller 50권 씩 총 550권의 책이 리스트화 되어있다. 해당 도서들의 장르는 Fiction, Non Fiction 2가지로 분류된다.

개인적으로 소팅을 하기 위해 Number를 붙이고, 베스트셀러의 경우 영화화 되는 경우가 있고 매출에 직접적인 영향을 끼칠 것이라고 판단해 개인적으로 영화화된 작품을 표시하고자 했다. 또 다른 판매 요인인 수상여부도 기입하려고 했으나 추후 시간이 되면 보완 예정이다.

SQL 문을 통해 데이터를 도출해보려고 했으나 아직 역량이 부족해, 해당 도서들을 모두 50단위로 그룹화하고 Countif 함수를 사용해 비율 데이터를 얻었다. *초보는... 초보만의 방법으로..

(1) Fiction 과 Non Fiction 중 어떤 장르가 더 베스트 셀러로 많이 올랐을까?

2019년 Kosis의 '도서 선호 분야 : 성인' 통계를 참고한다면 선호 장르는 1위 문학도서(29.5%), 2위 장르소설(14.4%), 3위부터 자기계발, 취미, 사상 종교 철학 등의 비문학 장르가 56.1%를 차지했다. 비문학 장르가 차지하는 비중이 크지만 선호도 면에서 소설 등 문학 장르가 높았다. 2019년 한국시장 기준의 통계이나, 미국도 유사한 선호도를 가질 것으로 생각해 '사람들이 가장 많이 선호하는' 베스트셀러로 Fiction이 높을 것'이라고 가정했다.

(좌) 출처: Kosis, 2019년 성인대상 도서 장르 선호도

결과는 2014년을 제외하고 매해 Non Fiction 분야의 도서가 Fiction 분야의 도서보다 조금 더 높은 비중을 차지했다. 결과 값이 나온 이유로 1) 비문학 장르의 도서수가 더 문학 도서보다 많다. 2) 사람들은 문학을 선호하지만, 문학보다 비문학 도서에 더 많은 돈을 쓴다. 를 생각할 수 있다. 미국시장이 아닌 한국시장의 데이터를 찾기 위해 교보문고의 종합 연간 베스트(영업점과 인터넷에서 도서와 eBook을 합산하여 1년간 가장 많이 판매된 순위)를 찾아보았는데 1-10위 중 문학은 비문학이 8권, 문학은 2권(3위, 10위)이었다. 특히 '비용'의 경우 사람들이 상상을 기반으로 한 세계관을 확장하는 문학보다, 실질적 '정보'를 얻을 수 있는 매체인 비문학 도서에 비용을 지불하길 더 선호한다고 볼 수 있을 것이다.

출처 : 교보문고. 종합 연간 베스트 도서 1-10위까지

* 통계와 실제 판매된 베스트셀러가 다른 부분은 재미있는 지점이다. 이제 우리는 안다. '고객이 원한다고 말하는 것'과 '진짜 원하는 것'은 다르다!

*2014년은 10년 동안 단 한 번 문학 장르의 판매율이 더 높았던 해이다. 2014년 미국의 빅뉴스를 얕에 찾아봤지만, 문학과 의미있는 연결점은 찾지 못 했다. 매해의 베스트셀러처럼 2014년 또한 영화화된 도서들의 리뷰수가 상위에 있었으며, 동일 작가의 도서는 2-3종류에 불과했다. 당시의 데이터와 사회의 유의미한 연결점을 찾는 것 또한 재미있는 과정이 될 것으로 보인다.

(2) 그렇다면 Non Fiction 분야의 도서에 리뷰가 더 많을까?

리뷰를 작성하는 건 '구매' 이후 이어지는 적극적인 활동이다. 일종의 유저 생산 콘텐츠로 기능하며 좋은 리뷰는 다른 고객들이 도서를 구매하는데 결정적인 역할을 하게 된다. 위의 데이터를 기반으로, 판매량이 많은 Non Fiction 도서의 리뷰수가 Fiction 도서의 리뷰수 보다 많을 것이며, 사람들이 더 많이 이야기를 나누고 싶어할 것이라고 가설을 세웠다.

그러나, 이번에도 가설이 틀렸다. 가장 리뷰가 많은 도서를 순서대로 정렬하고 50개의 그룹으로 나누어 수를 세었을 때 문학장르 도서의 비율이 유의미하게 높았고, 비문학일 수록 리뷰수가 적은 경향이 있었다. 리뷰가 비용이 들지 않는 활동임을 고려했을 때 1) 사람들은 감성을 자극하는 문학 장르에 대해 자신의 생각/주장을 타인과 공유하고 싶어하는 경향이 있다.

그러나 편의를 위해 50개씩 그룹화하여 시각화 했을뿐 실제로 1위와 50위까지의 리뷰수는 6만건 이상 차이가 있다. 오히려 51-100위까지의 도서의 경우 리뷰수가 26,234~21,834건으로 5000건 미만으로 차이가 나고, 101~150위의 도서의 리뷰수도 비슷한 수준으로 차이가 있다. 51~150위까지 리뷰수에 따른 베스트셀러의 장르 분포를 고려한다면, 2) 여전히 사람들은 문학 장르에 대한 리뷰를 남기고 싶어하지만, 비문학 장르에 대한 생각/주장을 공유하고 싶어하는 고객 또한 꾸준히 존재한다고 볼 수 있다.

위의 데이터에 대해 약간의 인사이트를 얻었는데, 커뮤니케이션을 활성화시키기 위해 고객의 '감정'과 '감각'을 건드리는 콘텐츠가 필요하며, 비용을 지불하게 하기 위해 '지식'과 '정보'를 얻고자 하는 욕구를 충족시켜야 한다. 이 지점은 도서뿐만 아니라 여러 프로덕트에 적용이 가능할 것 같다. 예를 들어 '오늘의 집'의 입점상품 리뷰는 감성적인 부분에 부각되지만 가구가 어떤 분위기에 어울리고, 색감을 배치했을 때 어떤지 정보를 얻을 수 있다. 특히 크게 노출되는 유저들의 스타일링샷은 더 상세한 정보를 얻을 수 있는 콘텐츠로 볼 수 있다.

(3) 평점이 높은 도서는 리뷰도 많을까?

조금 평이하게 리뷰가 높은 도서가 평점도 높을 것이라는 가설을 세워보았다. 사실 실제 판매량과 순위를 대조해야 하는 부분이지만, 주어진 데이터를 통해 할 수 있는 만큼의 데이터를 추출해 보았다.

데이터를 분석하니 대체로 대부분의 베스트셀러 도서들이 4점 이상을 받았다. 가장 리뷰수가 많은 도서 2권은 약간 다른 평가를 받았는데 가장 많은 87,841개의 리뷰를 받은 Where the Crawdads Sing (Delia Owens, 2019)는 4.8점, 79,446개의 리뷰를 받은 리뷰수 2위 The Girl on the Train (Paula Hawkins, 2015)는 4.1점을 받았다. 두 도서 모두 문학장르이며 리뷰수 3위는 2014년에 출간된 The Girl on the Train이다. 도서의 출판시기와 리뷰어들의 성향, 내용을 비교해 본다면 같은 상위권의 도서에서 다른 결과가 나온 이유를 추론할 수 있을 것으로 보인다.

<참고 사이트>

Kosis 도서 선호 분야 : 종이책 (성인) https://kosis.kr/statHtml/statHtml.do?orgId=113&tblId;=DT_113_STBL_1015227

Kaggle https://www.kaggle.com/jaykumar1607/amazon-s-top-50-bestsellers-2009-2019-eda/notebook

교보문고 http://www.kyobobook.co.kr/bestSellerNew/bestseller.laf

abc News, The Biggest News Stories of 2014

from http://gold-sony.tistory.com/24 by ccl(A) rewrite - 2021-11-09 20:00:16

댓글