抜取検査の統計的な意味(規準型抜取検査)

抜取検査(計数抜取検査)においては、製品のロットから、サンプル数を決めて検査を行い、何個不適合品があるかで、ロットの合格、不合格を決定します
品質の良いロットでも、すべてが合格するとはかぎりません
また品質の悪いロットでも、すべてが不合格ではなく、合格をしてしまうロットもあります

抜き取り検査には限界があり、使用するには以下の注意点があります

  • 抜取検査はある程度不適合品の混入が許せるときに適用
    同じ品質のロットでも合格になったり不合格になったりする
  • 破壊検査など全数検査が出来ないときなど
  • ロットの品質に関する情報が不足しているとき実施する
  • 悪いロットだけ選別したいとき
  • ロットの品質が安定していないので、間接検査移行には不十分な場合
  • 非常に小さい不適合率のときは、不適合品の検出が困難

規準型抜取検査 αとβ

このように抜取検査には、同じ品質のロットでも合格になったり不合格になったりする問題があります
ここで、出荷側に対する保護と受け取り側に対する保護の二つを規定し、両者の要求を満足するように組み立てた規準型抜取検査が考えられています
すなわち、 出荷側に対しては生産者危険(α)を、受取り側に対しては消費者危険(β)を、それぞれ一定の小さい値に決めて、このα、βを満足させるOC曲線を見つけ出し、OC曲線のサンプル数(n)、合格判定個数(c)を決定する検査法です
右の図のように、αとβはそれぞれ、5%(α)と10%(β)とJISで決まっています
あとは、
p0:なるべく合格させたいロットの不適合品率の上限
p1:なるべく不合格としたいロットの不適合品率の下限
を決定すれば
ロットから検査のために抜き出すサンプル数(n)と、そのサンプルから不適品が何個までは、合格させるかの個数(c)が決まります
この規準型抜取検査は、このような原理で検査するサンプル数と不適合品数によって検査します

計算はたいへんなのでJISより計数規準型1回抜取検査表が発行されています

抜取検査の統計的な意味(二項分布と確率累積曲線そしてOC曲線)

一般に良くサンプルを抜き取って検査をして合否を判定しているが、この合否判定(計数抜取検査)の統計的な根拠を考える
この統計的な考えは、戦後、日本の産業界にQC(Qulity Control)を広めたジュラン博士が説明したことで有名な話である
白い球900個の中に赤い玉を100個入れてよく混ぜてから、無作為に40個取り出すと赤い玉は何個あるのでしょう
このたとえ話は赤い玉は不適合品(不良品)ということになります
1000個で100個の不適合品ですから、100/1000=10%の不適合品率(不良品率)ということになります
さて最初の問題ですが、40個取り出した玉(サンプル)に赤い玉は、40個×10%=4個でしょうか?


答えは0個~40個の間というのが答えになります
可能性としては0個の時も40個の時も考えられます
しかし40個の確率はかなり低いと考えられます
4個の確立が一番高いのですが、各個数によって確率が異なります
この確率を算出するのが二項分布といわれている計算です


計算式はめんどくさいのでExcelの関数で計算しましょう
二項分布の確率関数の値を計算するBINOMDIST関数です
=BINOMIDST(成功数,試行回数,成功率,関数形式) c:成功数—赤い玉が出た個数 n:試行回数—取り出した数量、サンプル数 p:成功率
不適合品(赤い玉)が出る個数の確率は
赤い玉が0個 BINOMIDST(0,40,0.1,fales)=0.01478=1.48%の確率
赤い玉が1個 BINOMIDST(1,40,0.1,fales)=0.06569=6.57%の確率
赤い玉が2個 BINOMIDST(2,40,0.1,fales)=0.14233=14.23%の確率
赤い玉が3個 BINOMIDST(3,40,0.1,fales)=0.20032=20.03%の確率
赤い玉が4個 BINOMIDST(4,40,0.1,fales)=0.20588=20.59%の確率
赤い玉が5個 BINOMIDST(5,40,0.1,fales)=0.16470=16.47%の確率
赤い玉が6個 BINOMIDST(6,40,0.1,fales)=0.10675=10.68%の確率
赤い玉が7個 BINOMIDST(7,40,0.1,fales)=0.05761=5.76%の確率
赤い玉が8個 BINOMIDST(8,40,0.1,fales)=0.02640=2.64%の確率
赤い玉が9個 BINOMIDST(9,40,0.1,fales)=0.01043=1.04%の確率
赤い玉が10個 BINOMIDST(10,40,0.1,fales)=0.00359=0.36%の確率
・・・・・・・
赤い玉が40個 BINOMIDST(40,40,0.1,fales)=0.00000=0.00%の確率


ピンク色が不適合率10%の確率の曲線

このことから合否判定をするために10%の不適合品率の品物の1000個のロット中から、サンプルを抜き取ったときに
0個の1.48%
1個に6.57%
2個の14.23%
不適合品が2個までならば合格とすると
0個+1個+2個の確率の合計となり22.28%の確率でロットは合格することになります
0個の時に合格とすると
1.48%の確率でしか合格しない・・・すなわちほとんどのロットは不合格になると言うことです

それでは不適合品率を半分の5%に改善するとするとどうでしょうか
BINOMIDST(0,40,0.05,fales)=0.12851=12.85%の確率で合格します
さらに改善して不適合品率を1%にすると
BINOMIDST(0,40,0.001,fales)=0.66897=66.90%の確率で合格します
究極の改善をして不適合品率を0.1%にするとどうなるのでしょうか
BINOMIDST(0,40,0.0001,fales)=0.96077=96.08%の確率で合格し・・・ほとんどのロットが合格することになります
しかし不適合品率を0.1%まで向上させても100%-96.08%=3.92%の確率でロットは不合格となります


累積確立曲線(適合率p=10%のサンプル数n=40の中に不適合品c=2があるときの合格率)

今まではExcelのような便利な関数が無かったので、累積確率曲線でロットの合格率を算定していました
X軸にnp(n:サンプル数×p:不適合率) Y軸に確率 各、判定する不適合数(c)を斜めの曲線で表示しています
左から0、1、2・・・・と続きます 上記の例ですとc:判定個数=2、n:サンプル数=40、p:不適合率=0.1とすると np=40×0.1=4 X軸の4(np=4)を垂直にあげてc=2の曲線に接したら横に移動して確率を読むと22.28%と読むことが出来ます


ここで問題です ロットの大きさ2000の部品の購入検査を、n=100、c=1で実施して、ロットの不良率がp=4.0%のときに、このロットが合格する確率を求める BINOMIDST(0,100,0.04,fales)=0.01687 BINOMIDST(1,100,0.04,fales)=0.07029 合計 0.01687+0.07029=0.087163≒9% 9%の確率でしか合格しない このように累積すれば答えを出すことが出来ますが、少しめんどくさいのでfalseをtrueにすることによって、累積確率となります
BINOMIDST(1,100,0.04,true)=0.087163≒9%


サンプル数と合格判定個数を一定にして、不適合品率(X軸)、合格率(Y軸)

OC曲線(Operating Characteristic Curve)
n(サンプル数)とc(不適合品数)を固定して、不適合品率(p%)を横軸に変動させたグラフをOC曲線と言います
この曲線で不適合品率4.0%から垂線を上げて、曲線の接点の水平に移動して縦軸の確率を読むと9%と読めます
このOC曲線ならば不適合率に対して合格する確率が一目で確認できます
不適合品率が低くなれば合格する確率は高くなりますが、良い品質のロット(たとえば1%)でもすべて合格はしません
また、反対に悪い品質のロット(たとえば6%)でも合格するロットはあります
これが抜き取り検査の限界といえます
ロットの中に不適合品があるからといって本当に品質が悪いかどうかわかりません、あくまで確率の問題です

分散分析

統計的品質管理で使われるツールに分散分析がある
分散分析の計算方法は複雑で手間がかかっていたが、Excelでは分析ツールを使うことでたやすく答えを出すことが出来る
Excelで計算可能な分散分析には一元配置と二元配置があり、二元配置には繰り返し無しと、繰返しありがある
分散分析はどのような使い方をするかというと、ある現象をサンプルで確認するときに、その結果は何の因子(要因)で変化するのかを導き出す手法といえる
開発などにおける実験結果の分析や統計的現象の原因を究明するのに役立つ手法である

一元配置の分散分析
サンプルのデータが一つの因子で左右されると仮定して分析する、繰返しデータを採取して、因子を変えることによって結果に影響を及ぼすか否かを調べる
二元配置の分散分析(繰返し無し)
サンプルのデータが二つの因子で左右されると仮定して分析するが、二つの因子によるデータはマトリックスに表現される
二元配置の分散分析(繰返しあり)
サンプルのデータが二つの因子で左右されると仮定して分析するが、どちらかの因子は何回か繰返しをしてデータを採取する、このことにより二つの因子が相互作用(お互いに影響し合う)があるかどうかも分析できる
多元配置
特性に影響を与えると考えられる因子を三つ以上取り上げて効果の有無を調べる手法である
この多次元配置はExcelの分析ツールでは計算できない

これらのように一元配置実験、二元配置実験、多次元配置実験を総称して要因実験という
多次元配置実験で解析するにはデータの実験を数多くしなければならないようになる
これらを効率よく実験回数を減らすのが直交配列の実験計画である

分散分析の統計的手法の原理
因子別に採取したサンプルのデータ値を因子の効果による値と誤差による値とに分解して、因子による効果の偏差と誤差による偏差の不偏分散を算出し、不偏分散比(F値)を計算してそのF値がF分布の棄却域に入れば、因子が変化してもデータは同じであるという帰無仮説(H0)は破棄され、同じではないという対立仮説(H1)が成立する

自由度2、21のF分布グラフ

自由度2、21のF分布グラフ

ここで分散比(F値)は自由度1(因子の数-1)、自由度2(因子の数×(繰返し数-1))にしたがうという法則により判定される
一般に5%の棄却域が使われる
F分布に関するExcelの関数
FDIST:F確率分布を返す  FDIST(不偏分散比,自由度1,自由度2)
FINV:F確率分布の逆関数を返す FINV(確率,自由度1,自由度2) 確率には0.05が使われる FINV(0.05,2,21)=3.4167 となる

分散分析一元配置の事例で説明してみる

繰り返し 肥料A 肥料B 肥料C 1 7.66 6.19 7.22 2 5.67 6.99 9.21 3 4.82 7.8 7.53 4 7.36 6.73 6.21 5 6.36 5.26 6.91 6 4.21 5.79 7.4 7 5.61 8.13 6.94 8 6.76 5.12 9.66 平均 6.056 6.501 7.635 6.731

t分布とは

t分布

図-1 t分布

統計的品質管理ではt分布を使って検定や推定を行なう
このt分布は何を示しているかというと、ある母集団と、とられたサンプルのデータから平均値が差があるか無いかの検定(母平均の検定という)をするときに、母集団の標準偏差(σ)が既知であることには、その正規分布を使ってZ検定をおこなう
また母集団の標準偏差(σ)が分っていないときは、サンプルの標準偏差(s)からt分布を使ってt検定をおこなう

多くの場合には母集団の標準偏差は分らないことが多いため、t検定が現実的であるといえる
t分布は自由度(φ=サンプル数-1)によって分布の形が変わる、サンプル数が多くなれば分布の山は高くなり検定の精度は上がり、サンプル数が少なければ山は低くなり検定の精度は低くなる
これは検定に使うt値はサンプルから得られた標準偏差(s)を使うため、サンプル数が増えれば標準偏差の精度が上がるために当たり前であるといえる
サンプル数が無限に増えて行けば正規分布と同じとなるため、t分布での検定はサンプル数がn<100で行い100以上になったときは正規分布を使ったZ検定で実施する

t_bunpu_P002

図-2 t値から算出されるP値(確率)

t分布におけるt値(分布の水平軸の値)が分れば、t分布表やExcelの関数で分布の中心からt以上離れた値が出る確率(P値)を出すことが出来る
ただし注意しなければならないのは、この時算出されるP値は分布の両裾の値の合計であり、片側だけ検定するときはP/2する必要がある

t分布表

図-3 t分布表

t分布表(図-3)ではP値(確率)自由度(φ=サンプル数-1)からt値を算出する
Excelにおいてt分布に関するの関数は二ある

サンプル数とP値(確率)からt値を求めるにはTINV関数を使う
t=TINV(確率,自由度)
例えばP(確率)=0.01で φ=10の計算をすると
t=TINV(0.01,10)= 3.169262・・・と算出される
図-3のt分布表の数値はt=3.169である
上の事例とは逆にサンプル数とt値からP値(確率)を求めるTDIST関数
P=TDIST(t,自由度,尾部)
尾部=1:片側の確率を算出
尾部=2:両側の合計の確率を算出(図-2の場合)
例えばt値=2.764で φ=10の計算をすると
P=TDIST( 2.764,10,2)=0.01992・・・であり図-3t分布表から算出されるP=0.02とほぼ同じ数値となる

正規分布での累積分布のNORMDIST関数

Excelにおいて正規分布の確率密度関数、累積分布関数の関数がNORMDIST関数
NORMDISTはNormal Distributionの略である
累積確率=NORMDIST(xの値,平均,標準偏差,関数形式)
正規分布の平均(μ)、標準偏差(σ)、においてx値での確率を計算する

関数形式=TRUEの場合

NORMDIST(x,μ,σ,TRUE)

NORMDIST(x,μ,σ,TRUE)

関数型式=FALSEの場合

NORMDIST

NORMDIST(x,μ,σ,FALSE)

逆に確率(P)からx値を計算する関数がNORMINV関数である
x=NORMINV(確率,平均,標準偏差)

正規分布の平均(μ)、標準偏差(σ)、において確率(P)からx値を計算する

NORMINV(P,μ,σ)

NORMINV(P,μ,σ)

検定(TEST)とは

両側検定

両側検定

計量値の検定では、サンプルから得られたデータがある母集団と同じであるか否かを調べるために、仮説(hypothesis)を設定してその仮説が成り立っているかどうかを問うことであり、その仮説には二つの仮説を立ててどちらの仮説がもっともらしいか確率で判断する
二つの仮説とは帰無仮説(null hypothesis)と対立仮説(alternative hypothesis)である
具体的には帰無仮説が正しいと仮定してサンプルから得られたデータが母集団で発生する確率を計算し、確率が小さい場合には帰無仮説を否定する、すなわち帰無仮説を破棄する
このことを統計的に表現すると棄却域(R:rejection region)に入り有意であり帰無仮説を棄却するという
また確率が小さくなかったときは、受容域(acceptance region)の範囲に入り、帰無仮説を破棄できなかったといって、対立仮説が成り立っていることを意味する
対立仮説は1の記号で表す
この確率の計算には母集団の正規分布から一般に5%(有意水準または危険率と呼ばれαで表す)の確率に入るかどうかを検定することになる

帰無仮説は ”できたら破棄したい仮説”という意味を込めたネーミングであると言われていてH0の記号で表現する
すなわちその仮説を捨てること(破棄する)に意味があり、捨てることを期待している仮定であるといえる
帰無仮説は常に検定するサンプルのデータと母集団のデータは等しいと仮定して、そのサンプルの検定統計量(T)が有意水準(α)で設定された破棄域には入り、検定するデータが等しくないということを期待することになる
破棄域に入らず帰無仮説が成立しないときは、対立仮説は”等しいとはいえない”として成立しする

検定の手順

  • 仮説(H0)・対立仮説(H1)・有意水準(α)を設定する
  • サンプルを抽出する
  • サンプルの平均と標準偏差を計算する
  • 検定統計量(T)の値を計算
  • 有意水準(α)から設定された棄却域の値とT値とを比較する
  • T値が棄却域に入り帰無仮説が破棄できるかどうか判定し結論を導く

統計的検定の種類

  • 1標本:1集団の検定
    母平均の検定
    母平均の検定にはZ検定とt検定大きく分類される
    母平均の検定の計算

    母平均の検定の計算

    母比率の検定
    ****
    母分散の検定
    ****
  • 2標本:2集団の検定
    母平均の検定
    ****
    母比率の検定
    ****
    母分散の検定
    ****

自由度

品質管理の統計的手法において使う自由度の意味はなかなか分かりにくい
色々な説明があるが、あまり専門的な統計学になると理解できなくなる
統計学における自由度( Degree-of-freedom)の定義をいくつか集めてみた

  • 自由度は平方和に独立な誤差の2乗和が何個含まれているかを示す値である
  • 変数のうち独立に選べるものの数、すなわち、全変数の数から、それら相互間に成り立つ関係式(束縛条件、拘束条件)の数を引いたものである
  • ケース数 n の標本を k 個のカテゴリーに分割する場合,k-1 個のカテゴリーには任意のケースを割り振れるが,残る 1 カテゴリーに割り振れるケース数は必然的に定まる。すなわち,各カテゴリーに該当するケース数の和が n であるとういう制約条件が 1 個あるので,自由に割り振れるカテゴリー数は 1 つ減ることになる
  • n個の変数があり、そのうちにk個の条件がつけられると、自由度はn-kとなる
  • 標本の数から作業に必要な平均値の数を引いたもの

定義は分り難いですね、もう少し事例で説明してみます

母集団から6つのサンプルデータを抽出すると、このデータはお互いに何の束縛もなく自由であり、それぞれの値は自由を保障されているので自由度は6といえます
ここでこの6つのサンプルデータの平均をある数で決められてしまうと、5つのデータは自由に変えられますが、最後の1つは平均値を決まった数にするためには自由にかえることは出来ません
そのため自由度は6(サンプルデータ)-1(平均値の個数)=5となり、自由度はn-1となります

分散の計算において自由度n-1について考える
平方和は個々のデータと平均との差を二乗し、すべてを合計した値であり、この平方和をデータの個数で割った値が分散である
この場合は各データの平均値が1つ決まっているので、n-1ということになる
このデータ数(n)で割る時に自由度n-1を使うが、その理由は数学的に以下の証明式となる
jiyuudo