お役立ち情報 INFORMATION

来店客数予測システムの概要

来店客数予測システムの概要

来店客数を正確に予測する為には、来店客数に影響を及ぼす要因を特定する必要があります。要因としてはいろいろ考えられますが、経験的に考えられるのは(1)曜日、(2)天候、(3)気温、(4)イベントなどです。

一般的には、平日よりも土日・祭日の方が来店客数は多いでしょうし、雨の日は外出を控える人が増えて来店客数は少なくなるでしょう。また、売り出しセールやポイント特典などがあれば、イベントが無い通常の日より来店客数は確実に増えると言っていいでしょう。

来店客数予測にあたって

我々が行った来店客数の予測は、3つの説明変数(天候、曜日、企画)から目的変数である来店客数を予測するものです。
来店客数の予測を行う手法としては、「回帰分析」の中でも、複数の説明変数を同時に取り扱える「重回帰分析」という多変量解析手法を使用しています。

以前は多変量解析を行う場合、それなりの能力を有したコンピュータを使用していたが、今ではパソコンクラスでも十分にその威力を発揮してくれます。また、多変量解析ソフトも進化し、アプリケーションプログラムから利用できる組込み型の関数も豊富に準備されています。 更に、Excelソフトでも多くの統計分析用関数などが標準で用意されているので、検証段階での使用であれば十分に利用価値があると言えます。

当システムでも、Windowsサーバーで稼働する多変量解析ソフトを利用して来店客数の予測を行っていますが、 実用に耐えられる十分なレスポンスが得られています。
いずれにせよ、来店客数を直近の実績データを基に日々最新の状態で予測していくためには、ベースとなる多変量解析ソフトの存在なくしては成り立たないと言えます。

来店客数予測における統計分析手法

来店客数予測において使用する統計分析手法としては、「重回帰分析」を利用することは前述しましたが、ここでは、我々が実際に行っている来店客数予測のプロセスを実例ベースで説明したいと思います。

(ステップ1)過去の客数実績とその日の天気、曜日、企画の情報を収集する。

表1

上記表は、店舗における1日~14日までの客数実績、及び当日の「天気」、「曜日」、「企画」です。客数実績はPOSデータとして日々収集しているデータであり、「天気」は外部の天気予報会社から日々入手しているデータから持ってきています。「曜日」、「企画」はカレンダー情報から持ってきています。

なお、過去何日分の実績を分析対象としたら良いかという点では、唯一の正解というものはく、対象とする企業の特性などをよく検討して決める必要があると考えています。

(ステップ2)収集した実績データから、(表2)の表を作成する。
その際、数値では表せない「晴れ」、「曇り」、「雨」などは(表2)の様に、0又は1で表現する。例えば、1日は「晴れ」の為、晴=1、曇り=0、雨=0と表わす。同じ様に、1日は「月曜」の為、月=1、火~日=0と表わす。企画A,Bも、企画がある日は1、企画が無い日は0と表わします。
なお、次表では実数で表される説明変数が1つもなく、すべて0か1に置き換えて表現されていますが、この様な場合の分析は、「重回帰分析」の中でも「数値化理論Ⅰ類」というように呼ばれています。

表2



(ステップ3)回帰分析用データに編集する。
上記表のデータから、天気からは「晴」の列を、曜日からは「月」の列を、企画からは「無」の列をそれぞれ削除してから、回帰分析に渡すデータを作成しています。
なぜ、それぞれの列を削除するかは統計分析上の決め事であり、1つの列を削除しても他の列のデータから削除した列のデータは一意に決まり、削除しても問題なく分析はできることになっています。
なお、どの列を削除するかは任意であり、得られる結果は同じです。

表3



(ステップ4)回帰分析ソフトに渡し「回帰分析」を実施する。
上記表のデータを重回帰分析ソフトに渡すと、その結果として、以下の予測値を「係数」という形で得ることができます。

表4



1) 「切片」は、回帰分析の際に列を削除した「晴れ」、「月曜」、「企画A無」、「企画B無」に該当する日の来店客数を意味している。 (1,263人)
2) 「曇り」の日は、「晴れ」の日より16人多いことを意味している。
3) 「雨」の日は、「晴れ」の日より180人少ないことを意味している。
4) 「火曜」は、「月曜」より62人少ないことを意味している。
5) 「水曜」は、「月曜」より207人多いことを意味している。
6) 「木曜」は、「月曜」より47人少ないことを意味している。
7) 「金曜」は、「月曜」より55人少ないことを意味している。
8) 「土曜」は、「月曜」より73人多いことを意味している。
9) 「日曜」は、「月曜」より165人多いことを意味している。
10) 「企画A有」は、「企画A無」より246人多いことを意味している。
11) 「企画B有」は、「企画B無」より102人多いことを意味している。

一見すると、「何で晴れの日より曇りの日の方が、客数が多いのだろう?」とか、「何で水曜日は月曜日より207人も多いのだろう?」などと言った疑問が出てくると思います。
しかし、それがその店舗の特性であり、何らかの理由が必ずある筈です。その理由を考察して、自分の店舗の特性を理解することが大きな前進であり、データを知識に変えられることに繋がると考えています。

来店客数分析結果の検証方法

ここまでで得られた結果が信用するに足るものか否かの評価を行う必要があります。
通常、分析結果と同時に、予測の信頼度を表わした「重相関 R」という数値を渡してくれます。実際に使用しているのは「補正 R2」を利用していますが、この係数が0.5以上であれば分析結果の信頼性はあると一般的には言われています。
今回の「補正 R2」(表4)は、0.874であり、分析結果は十分信頼するに足るものであると判断できます。

更に、上記の分析結果(係数)を元に翌週15日~24日までの予測を行い、実際の実績(15日~29日)との比較を行ってみると以下の様になります。

表5


誤差率が5%以下なら予測精度はかなり良いと考えており、上記を誤差率毎の発生件数でグラフ化すると以下のグラフのようになりました。このグラフを見ると、誤差率が5%を超える日は全体の約2割であり、一方5%以内の日は8割を占めています。また、10%を超えるような誤差率は無いという点からも、今回の事例に関しては十分精度高く予測されていると言えます。

5%以上の誤差率がなぜ生じたかという点は、個別の状況を見なければなりませんが、今回の場合は、「曇りの予報だったが、ピーク時間帯に急に雨が降った」、「同じ企画でも曜日によって来店客数に違いが出た」というような状況がありました。

いずれにせよ、さまざまな観点から誤差を追求していくことで、より精度の高い来店客数の予測が可能になってくるものと考えています。

表5


以上が我々の実施している来店客数の予測プロセスであり、決して難しいものではないと考えています。 皆さんも一度エクセルで検証してみては如何でしょうか?