FC2ブログ

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

統計処理のこと

  統計学者に叱られるかもしれませんが、筆者は『統計学とは、ものの映像を一枚の鏡に映して、クリヤーに提示するもの(手段)』と考えています。


   所詮、サイエンスや実用・応用数学は人間の思考世界を含む自然の切り口を提示するもので、『自然を説明する』、『真理を伝える』などという大層なものでないと考えます。  切り口次第では、白くも黒くも見えるものです。  いずれにも導けるのです。  言葉の上だけでこのように書くと一般人に誤解を招き、場合によっては、自然科学者や数学者から叱られるかもしれませんけど。
  難しげな議論は措いて、「平均値」「平均操作」について書いてみます。  集団の特徴を「平均値」で語ることはよくあります。  『中学3年生の平均身長』という数値は、ある意味では、判り易く有用な数値です。  しかし、一般には、「男子」と「女子」で別々に扱わねば意味がありません。  男女同権・均等と言っても、これだけは混ぜ合わせて「平均」してはほとんど意味がありません。
  さて、「収入の平均値」が殆んど意味を持たないことは皆さんの実感でしょう。  ここは経済学や社会学の意味で議論するのではなく、「コイズモノミックス」を批判する意味でもなく、ただ足して人数で割ったのでは、男子生徒と女子生徒の慎重を一緒に統計処理する以上に「統計学」の本意から離れます。  何の「切り口」をも提示しないからです。


  次に、『中3男子の身長の平均』 だけで、成長期の男子の身体状況が語れるでしょうか?  『同じく、平均体重』 を示すと、情報量が豊富になります。  しかし、「平均値」 は所詮 「平均値」 に過ぎません。  例えば、「身長値と体重値の組み合わせ」 でものを見ると、急に情報量が増えます。  身長と体重は、完全に無関係とはいえません。  よく似た体つきならば、身長が高ければ体重は重くなります。  ですから、「身長は平均より高いが体重が平均より軽い」 という情報が与えられると、急にイメージが膨らみます。


   もう一度、「身長の値」 単体の話に戻します。  身長の値を2cm刻みに分けて、相当する人数を数えてゆきます。  「分布」 正確には 「頻度分布」 が得られます。  この分布の中で、100人中何位か? という表現方法があります。  筆者としては、認めたくないし、話題にもしたくないが、「偏差値」 の考え方です。  「平均値」 だけ示すよりは、集団の特性を表現する情報が豊富になります。  身長と体重のそれぞれの分布、あるいは組み合わせの分布を作ってその中で表現すれば、外見的な身体特徴はかなりの精度で表現できます。


==  あまりいつまでも 「判り易そうな話」 ばかりしていてもいけませんから、「条里の数理学・統計学」 に話を戻します。   たとえば、条里のメッシュの交点の位置測定には、今のようにWeb地図/紙地図上で作業する場合、
   1A)設営時の誤差あるいは地形との兼ね合いの許容量
   1B)その後の自然的改変による誤差
   1C)その後の人的社会的改変による誤差
   2A)地図作成の限界の誤差(設計目標)
   2B)地図表現の限界の誤差
   3A)目標点(地表遺構)認定の判断誤差
   3B)ポインティングの誤差などが含まれるはずです。
 1)群、2)群、3)群それぞれに誤差をもたらす主体が違うわけでうから、「平均値」 を取る(採る)ことの危うさが理解できると思われます。   読み取り値から導き出す一次的数値は、今のところ 「メッシュの方位」 と 「メッシュの間隔」 です。  メッシュの方位は、定説では、3~5km程度の範囲では一種類と考えて良いとされています。  ただ、今の地域全体で言えば、南に 「鹿田の荘」、西に 「大安寺地域の荘園」 と接する辺りが問題です。
  メッシュの間隔に関しては、筆者自身が言い出した部分があるのですが、「里線」 と 「坪線」 のそれぞれが個別の幅(剰余幅)を持つかも知れないという問題も残っています。   これらのことを勘案しながら、出来るだけ判り易い手法を編み出す必要があるのです。  ただ、ものごとを単純化するためには、「平均値」 の役割は侮れないのです。

スポンサーサイト

数理的検討 1・1

  里線候補の作る格子点について、新たに経度・緯度を読み取って、里線ごとの一群の読み取り値が作る「もっともらしい直線」を求める作業に入ります。
  他のところでも述べましたが、経度・緯度とも「度角」で与えられ、小数点以下6桁が一応有効で、5桁~6桁目に亘っての8~11程度の誤差が含まれ得ることが判っています。 取り敢えず、6桁の有効数字を失わない数値処理をする必要があります。

  これまでに読み取った数値の範囲を示すと、
 経度 133.891671~ .927277   緯度 34.656995~ .674988
ですから、経度から、仮に、 133.89 を、緯度から 34.65 を引くと、
 経度* 0.001671~0.037277   緯度* 0.006955~0.024988
が得られますから、数理的に意味があるのは4桁半程度で、下の一桁分が怪しいのです。
  別の言い方をすれば、3~4kmの範囲でデータを拾い集めていることに符合します。(緯度・経度の表示数値は10cmのオーダーで提示されるが、実質は1m程度の精度)

  数値を「距離数値」に換算して取り扱う誘惑に駆られますが、敢えて、「角度数値」のまま作業を続けます。  「距離数値」を扱う利点は、実感覚とマッチするところにありますが、その換算で精度を失うことを怖れるからです。
  ただし、「角度数値」には、上で述べた 133.89、34.65 のシフトを施した後、1000000倍します。  上に示した例で言えば、 1671~37277、6955~24988 の整数値として扱います。

===

  スペースの関係で、全ての数値を掲げるわけにはゆきませんから、代表的な例を示します;-
  予備的な作業(零次の作業)で Y=-12 と名付けたラインの例では、X=-12,-6,0,+6 のポイントの読み取り値は、この順に、(15830,18767)、(22944,18997)、(30121,19194)、(37052,19209) が得られます。 ここに、整数化した角度値(経度/緯度)を表わしています。  この例では、緯度の4つ一組のデータから「もっともらしい直線(東西里線)」を得ます。
  

数理的検討 0・1

  大晦日に記述した手法の見かけ上の最大の問題点は、(根源的には憂慮していませんが)『座標原点』 に選んだ場所には、地表の遺構が何もないということです。  なにしろ、陸上公式トラックの第三コーナー内側の、フィールドの中ですからね。

  そこで、零次の解析の改良版として、「遺構の認められる里線交点」のうちで、結果として高精度で認定されと判断できる点を「仮の基準点」に選んだ解析を試みましす。  用いたデータは変えていませんから、本質的に新しいことが出るわけではありませんが、「誤差の伝播」を、見かけ上、少しだけ改善できると思います。

  元旦に仕事をするもんじゃない・・・ という戒めがありますから、一旦筆(?)を措きます。

3日の朝に、書き継いでいます。
  もう一度書きますが、此処での試みはあくまで見通しを得るためです。  原点に採用した点が本質的な誤差を隠し持っているとき、その波及誤差が 「見えて」 しまいます。  それを 「なかりせば」 としてみる危険な仮想操作です。
  読み取りポイント群で、値の 「揺らぎ」 が少ないものを探します。  つまり、読み取り値から得られた里線ライン(平均ライン)に対するデータの「標準偏差」が小さい群を 仮に 「真の姿」を示しているものとするのです。  東西線/南北線 に関して考察すると、X=0,Y=-12 のラインがノミネートされます。  メッシュの周辺部のラインは、標準偏差としては小さい値を示しますが、「データ点が少ない=ライン長が短い」 ことに支配されているので、ノミネートは困難です。
  「X=0,Y=-12」の交点は、地図上で言えば、「旧・萬町踏切東詰め」に相当します。  この地点には、強い地表遺構は残りませんが、周囲の状況から良しとします。  これからの作業では、「『1里』の長さの推定」 に主眼があるので、全ての測定点とこの仮基準の距離を算出します。  得られる値は、それぞれ、「ある長さ」 の整数倍であることを予想しているのです。

==

  さて、結果について述べます。

ポイント間の南北距離の算定結果を棒グラフ上に描くと、

 600m|
      |
      |■■
      |■
      |
 650m|■■■■■
      |■■■■■
      |■■
      |■■    

  平均値 660.1m

ポイント間の東西距離の算定結果は

 600m|■
      |■
      |
      |■■
      |■
 650m|■
      |■■■
      |■■■
      |■■
      |
      |■

  平均値 650.6m


  この近似レベルとして、ほぼ満足すべき結果が得られていると言えそうです。  それぞれの分布の形(山なりの部分)が660m程度を示すことは、この手法に根本的な間違いがないことを示しています。

  これらはあくまでも、「零次の」 トライアルですから、余り結論的なことを言う積りはありません。  例えば、東西線/南北線から導かれる平均著を足して2で割ると、多くの文献にある 1里=655mが得られますが、そんこなとで有頂天になる場合ではありません。
  逆に、反省点(将来の改善点)として、東西間隔を導く南北線のブレ(誤差)が多いことに注目すべきです。  また、その原因の一つは判っていますが、へたな小細工を施して、見かけの上の美しさを狙うことは止めておきます。

  ここでは、途中結果(里線間距離)を「集団」として示しました。  実際は、上にグラフ化したデータは各格子点に所属していて、その配置から読み取れることもありますが、それは今後の精査の「こやし」として使うことにして、安易な結論を導くこともまた避けておきます。

数理敵検討 0・0 続き

  前の書き込みでは、すこし粗かったようでう。  軽い表現をするならば、楽観的に過ぎたのでしょう。  どうやら、このペースでは執筆途中で、年を越しそうですね。

  里線の間の距離は、当初予想したように、あまり正確に保たれていないのかもしれません。  ここで、「保たれない」 と表現したのは、2つの意味があるかも知れません。  第一は、歴史の流れの中で「保たれない」のであって、もう一つは往時の精度確保に関して、「保てなかった」のかも知れません。  ただ、もう少し、過去の技術や施行信念を信じましょう。  方位の精度を「保つことに」に関して、ひとかたならざる信念があったように見受けられるから・・・。

  まず、(現代の)こちらが反省すべき点は、方位がわずかに傾いていることを無視した、粗い数値処理を施したことです。  傾いていることを無視したとしても、サンプリング格子点が、欠測点がなく、すべてのラインで(東西/南北ごとのグループで)同数採用できたときには誤差は薄められるかも知れません。

  新しい数値処理法を考えるべきでしょう。

数理的検討 0・0

  具体的に作業を始めます。  この場合も、既に、「里境」 に関する、第一次の机の上の作業は05年10月下旬にほぼ終了しているのですが、リアルタイムの形で記述しましょう。

  最初の検討課題は、
 1)認定した候補線の直線度(揺らぎあるいは誤差の検定)
 2)東西/南北 線間の相互距離の妥当性
 3)(第零次として)得られる「1里」の長さ
などにあるので、有力なものでも、「坪境」 には注目しないで、東西線6本/南北線4本について、Web地図上で読み取ります。  交点のうち、4つは地表によりどころがないので、21点で調べます。
  読み取った全部の生の数値を列挙するには膨大すぎるので、平均的数値を示し、代表的なもの、極端なもの、特徴的なものを記載しましょう。

  まず、数量の定義と記号を示します;-
「揺らぎあるいは誤差」とは、数学的には『標準偏差σ(シグマ)』で表わし、一本のラインごとに本来同一値であると仮定した4~6個の測定値の平均値からのズレを示します。  扱う変数は、経度(緯度)角でも、距離に換算しても、数学的には変わりませんから、ここでは当面角度変数のまま扱います。  詳しく論じるならば、このレベルでは、「東西(南北)線は傾いていない」過程から出発するので、「過大」な値が得られることは承知しているものとします。
  次に、里線間の距離を考えるときには、上で述べた距離に換算する前の角度情報(の平均値)に関して差を取り、その後、必要に応じて実距離に直します。  このとき、「里線間距離の平均値」 を取るときは、注意を要します。  つまり、(A-B)+(B-C)を求める過程で、Bの情報が消えてしまうからです。  議論に応じた、最適の処理があるのですが、今は取り敢えず、基準ラインからの線間距離で表現することにします。

  休話閑題ですが、問題にしているのが我々の作業時の誤差でなく、施行時の「誤差」ならば、ラインの引き方に大きく依存します。  例えば、基準点から東西、南北に、1里ごとに 「点」 を順次に作ってゆく距離主体の手法ならば、縄の長短や測り手固有の癖などは、一方向に累積する傾向にあります。  天測などの、方位角主体の手法ならばまた考察を変えねばなりません。

  さて、数理解析の結果を示します;-
4本の南北線に関しては、経度から133度を差し引いた値0.906~0.927 程度の値を扱います。  得られた標準偏差 σ は1/10000~3/10000でした。  少し乱暴ですが、4つの標準偏差の「平均値」は、2.5/10000 度でした。  経度の 1/10000 度は、11m 程度です。
  また、6本の東西線に関しては、緯度から34度を差し引いた値0.656~0.687 程度の値を扱います。  ここで得られた標準偏差は 0.3/10000~2/10000 でした。  6つの標準偏差の平均値は、1.7/10000 度でした。  緯度の 1/10000 度は 9.1m 程度です。
  ここまでだけを纏めると、傾きまで含めた「揺らぎ」の値が、長さに直して20~30mということは、充分小さい値なので、議論を先に進める意味がありそうです。  余り厳密に考えても意味がないことですが、東西線の「揺らぎ値」に較べて南北線のそれが大きめなのは、南北里線候補の認定に難渋した(地表遺構が乏しい)ことの反映と考えられます。

  里線間距離に関しては、注目する里線の標準線からの距離を考えます。  距離は、上で得られた緯度(経度)角度値[里線毎の平均値]の差から換算し、「1里」当たりの m で示しています。ます。  里線は、今まで使っている記号番号を用いるものとして、次の表のようになります。

   +6X  635.3m    +6Y  628.2m
    0X   -         0Y   -
   -6X  662.5m    -6Y  665.9m
  -12X  621.9m   -12Y  661.1m
                 -18Y  664.8m
                 -24Y  658.1m

  この「里線間距離」は当初の期待では、650m前後の値になることが予想されています。  得られた値は誤差が大きいようにみえますが、「里線の方位が傾いている効果」や「里線の直線揺らぎ」などからもたらされる誤差を考慮すれば、取り敢えず満足できる範囲にあると言えそうです。

  強いて言うならば、-12X のラインについては、基準線に選んだラインから「約 1244m 西にある」と算出されたので、仮に「1里=654m」のゲージを採用するときには、50m以上の不足となり、注目しておく必要がるかも知れません。

===
  -12Xのラインについて、Web地図上で読み直しをしました。  転記ミスがあったようで、修整の結果、「1里」 相当長さとしては、639.6m が得られました。  正確に言えば、此処を修整すると、前段で書いた値も2~3桁目が僅かに修整されなければなりませんが、ここは「零次」のトライアルですからご容赦願います。 (06/01/01 追記)

プロフィール

ラスカル君

Author:ラスカル君
ブログ『極道』へようこそ!
予測を裏切る可愛い顔ですみません。
大昔、某私大の学生さんが、更に
20年前を想像して書いてくれた、
『Y教授の若い頃』

最近の記事
最近のコメント
最近のトラックバック
月別アーカイブ
カテゴリー
ブロとも申請フォーム

この人とブロともになる

ブログ内検索
RSSフィード
リンク
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。