続・わかりやすいパターン認識 ひとり読書会 7
今回はベル数の求め方を順を追って考えていきます。これも話が長いので読書会7, 8の二回に分けて記載します。読書会7では概要と包除原理の証明を行い、その結果を受けて読書会8では第二種スターリング数からベル数を求めます。
続パタ読書会 1:ディリクレ過程混合モデル
続パタ読書会 2:ディリクレ過程混合モデルのアルゴリズム
続パタ読書会 3:実験
続パタ読書会 4:実装
続パタ読書会 5:事前確率P(s)の妥当性 1
続パタ読書会 6:事前確率P(s)の妥当性 2
続パタ読書会 7:ベル数 1
続パタ読書会 8:ベル数 2
続パタ読書会 9:P(s_k|x_k, s_-k, θ)の導出
続パタ読書会 10:演習問題12.5の計算
続パタ読書会 11:演習問題12.6の計算 1
続パタ読書会 12:演習問題12.6の計算 2
ベル数 1
概要
ベル数はクラスタリングの言葉で言うならば「(区別のある)個のパターンを個のクラスタに分ける場合の総数」のことを指し、記号ではで表します。例えば3個のパターンを個のクラスタに分ける場合の総数ならば
一個のクラスタの場合
二個のクラスタの場合
三個のクラスタの場合
ですので5つとなります。つまりです。これはまさにの組み合わせの数に他なりません。ベル数を求めるためには
- の場合の包除原理を証明する
- 一般(の場合)の包除原理を証明する
- 第二種スターリング数を求める
- ベル数を求める
という順序で求めていくことになります。
の場合の包除原理の証明
wikipediaによると包除原理は
「有限集合との和集合に属する元の数を計算するには、まずそれぞれに属する元の数とを足しあわせた後、それらの共通部分に属する元の数を引き去ればよい」
という原理のことを指すとされています。これは集合が二つの場合の話で式・ベン図で表せば
という見慣れたものです。直観的には明らかなこの原理も証明するとなると多少回りくどくなります。この原理の証明のためにまずは真偽値を定義します。
- 真偽値の定義
- 性質Pに対し真偽値を
- と定義する
全体集合における有限な部分集合の要素数をこの真偽値を用いれば
とあらわせます。この表現を用いるとは
とあらわせます。また真偽値において以下が成り立つことが明らかです。
1.
2.
ここではの否定を表し、も同様性質を表します。この1. 2.を利用し式の右辺におけるに関して以下を得ます。
よって式は
と計算でき、の場合の包除原理が証明されました。
一般の場合の包除原理の証明
の場合の包除原理はの場合を利用して
となります。このの場合の式を見ると
のように、部分集合を組み合わせる数が一つずつ増えながら共通部分の要素数について可算・減算を交互に繰り返すという形になっていることが分かります。このことから包除原理は一般に
となると仮定できそうです。ではこの仮定が事実成り立つことを証明していきます。まずは最後の式における右辺には部分集合の共通部分が何回表れているかを考えます。例えば三個の部分集合のみからなる共通部分についてならば、
- 一個の部分集合(の共通部分)
- 二個の部分集合の共通部分
- 三顧の部分集合の共通部分
のように三個以下の部分集合の共通部分にそれぞれ含まれます。これらがそれぞれ順に可算・減算・可算と交互に計算されますので
となります。これを個の共通部分に一般化すると
とあらわすことが出来ます。どのようなを選んでもこの値がとなるのであれば包除原理における右辺の式ではすべての共通部分が一度ずつ表れているということなり式が成立している事を証明できます。そこでこの値がによらずになることを証明するのですが、帰納的に証明するとなるとだらだら長くなるため二項定理を用いたちょっとしたアイデアを使用します。具体的にはを二項定理で展開したものを使用し下記のように計算していきます。
以上より一般の場合の包除原理の式が成立していることが証明できました。
今回はここまでにして次回は今回証明した包除原理を用いて第二種スターリング数を求め、その結果からベル数を求めていきます。
続パタ読書会 1:ディリクレ過程混合モデル
続パタ読書会 2:ディリクレ過程混合モデルのアルゴリズム
続パタ読書会 3:実験
続パタ読書会 4:実装
続パタ読書会 5:事前確率P(s)の妥当性 1
続パタ読書会 6:事前確率P(s)の妥当性 2
続パタ読書会 7:ベル数 1
続パタ読書会 8:ベル数 2
続パタ読書会 9:P(s_k|x_k, s_-k, θ)の導出
続パタ読書会 10:演習問題12.5の計算
続パタ読書会 11:演習問題12.6の計算 1
続パタ読書会 12:演習問題12.6の計算 2