Voir le post précédent ici .
Échantillons et populations
En science statistique, les termes «échantillon» et «population» ont des significations particulières. Une population, ou population générale, est l'ensemble des objets qu'un chercheur souhaite comprendre ou sur lesquels tirer des conclusions. Par exemple, dans la seconde moitié du 19e siècle, le fondateur de la génétique Gregor Johan Mendel) a enregistré des observations sur les plants de pois. Bien qu'il ait étudié des variétés végétales très spécifiques dans des conditions de laboratoire, sa tâche était de comprendre les mécanismes de base sous-tendant l'hérédité d'absolument toutes les variétés possibles de pois.
En science statistique, un groupe d'objets à partir duquel un échantillon est tiré est dit être une population, que les objets étudiés soient des êtres vivants ou non.
Puisque la population peut être importante - ou infinie, comme dans le cas des pois de Mendel - nous devons étudier des échantillons représentatifs et tirer des conclusions sur l'ensemble de la population. Afin de faire une distinction claire entre les attributs mesurables des échantillons et les attributs indisponibles d'une population, nous utilisons le terme statistiques en référence aux attributs de l' échantillon et parlons de paramètres en référence aux attributs de la population .
Les statistiques sont des attributs que nous pouvons mesurer à partir d'échantillons. Les paramètres sont des attributs d'une population que nous essayons de dériver statistiquement.
En réalité, les statistiques et les paramètres diffèrent en raison de l'utilisation de différents symboles dans les formules mathématiques:
Mesure |
|
|
|
|
n |
N |
|
x̅ |
μx |
|
Sx |
σx |
|
Sx̅ |
|
, , Sx, σx. — , , . , , , n ≥ 30.
. , , , 1 :
def ex_2_8():
'''
'''
may_1 = '2015-05-01'
df = with_parsed_date( load_data('dwell-times.tsv') )
filtered = df.set_index( ['date'] )[may_1]
se = standard_error( filtered['dwell-time'] )
print(' :', se)
: 3.627340273094217
, — 3.6 . 3.7 . , , , , .
, , , , — , , , . , , .
« » « », , .
. «confidence» , . (trust), . . -
, , . , , , . .
95% — 95% , . , 5%- , .
, 95% -1.96 1.96 . , , 1.96 95%- . z-.
z- , z-. , z- — .
1.96 , . , , scipy stats.norm.ppf
. confidence_interval
p 0 1. 95%- 0.95. 2 (2.5% 95%):
def confidence_interval(p, xs):
''' '''
mu = xs.mean()
se = standard_error(xs)
z_crit = stats.norm.ppf(1 - (1-p) / 2)
return [mu - z_crit * se, mu + z_crit * se]
def ex_2_9():
'''
'''
may_1 = '2015-05-01'
df = with_parsed_date( load_data('dwell-times.tsv') )
filtered = df.set_index( ['date'] )[may_1]
ci = confidence_interval(0.95, filtered['dwell-time'])
print(' : ', ci)
: [83.53415272762004, 97.753065317492741]
, 95% , 83.53 97.75 . , , , .
- AcmeContent - . , -. .
, , , , :
def ex_2_10():
''' ,
'''
ts = load_data('campaign-sample.tsv')['dwell-time']
print('n: ', ts.count())
print(': ', ts.mean())
print(': ', ts.median())
print(' : ', ts.std())
print(' : ', standard_error(ts))
ex_2_10()
n: 300
: 130.22
: 84.0
: 136.13370714388034
: 7.846572839994115
, , — 130 . 90 . , , 2 , , . , 95%- , confidence_interval, :
def ex_2_11():
''' ,
'''
ts = load_data('campaign-sample.tsv')['dwell-time']
print(' :', confidence_interval(0.95, ts))
: [114.84099983154137, 145.59900016845864]
95%- 114.8 145.6 . 90 . , - , . , .
, , , .
, , . , , , ( ) .
, « » (Literary Digest) 1936 . - : 2.4 . . — - . . 57% . , 62% .
. « » , . , , , , . — , . , .
, - . , . « » , , .
campaign_sample.tsv, , 6 2015 . , pandas:
''' '''
d = pd.to_datetime('2015 6 6')
d.weekday() in [5,6]
True
, . , , , — — , .
— :
def ex_2_12():
'''
, '''
df = load_data('dwell-times.tsv')
means = mean_dwell_times_by_date(df)['dwell-time']
means.hist(bins=20)
plt.xlabel(' , .')
plt.ylabel('')
plt.show()
:
. , . , , .
. , , , , . , , .
. , . :
def ex_2_13():
''' ,
'''
df = with_parsed_date( load_data('dwell-times.tsv') )
df.index = df['date']
df = df[df['date'].index.dayofweek > 4] # -
weekend_times = df['dwell-time']
print('n: ', weekend_times.count())
print(': ', weekend_times.mean())
print(': ', weekend_times.median())
print(' : ', weekend_times.std())
print(' : ', standard_error(weekend_times))
n: 5860
: 117.78686006825939
: 81.0
: 120.65234077179436
: 1.5759770362547678
( 6- ) 117.8 . 95%- . , 130 . , , .
( - ), . , . , .
, №3.