ทำธุรกิจอย่างไรให้ประสบความสำเร็จ
  • บ้าน
  • ตกแต่ง
  • วิธีการวิเคราะห์ข้อมูลเชิงสำรวจเชิงกราฟ เครื่องมือสถิติสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจเชิงกราฟ สถิติพรรณนา การจัดกลุ่ม การวิเคราะห์เชิงสำรวจ กฎความสัมพันธ์ ตัวอย่างการวิเคราะห์เชิงสำรวจในสถิติ

วิธีการวิเคราะห์ข้อมูลเชิงสำรวจเชิงกราฟ เครื่องมือสถิติสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจเชิงกราฟ สถิติพรรณนา การจัดกลุ่ม การวิเคราะห์เชิงสำรวจ กฎความสัมพันธ์ ตัวอย่างการวิเคราะห์เชิงสำรวจในสถิติ

บทนี้ยังคงเป็นหัวข้อของการสร้างและวิเคราะห์ตาราง เราขอแนะนำให้คุณทบทวนแล้วเริ่มอ่านข้อความนี้และแบบฝึกหัดของ STATISTICA

การวิเคราะห์สารบรรณ (ในภาษาอังกฤษ การวิเคราะห์การตอบสนองที่สอดคล้องกัน) เป็นวิธีการวิเคราะห์เชิงสำรวจที่ช่วยให้คุณสำรวจโครงสร้างของตารางฉุกเฉินในมิติขนาดใหญ่ได้ทางสายตาและเชิงตัวเลข

Correspondence Analysis as a Means for Developing City Marketing Strategies, 3rd International Conference on Recent Advances in Retailing and Services Science, หน้า 22-25, Juni 1996, Telfs-Buchen (Osterreich) Werani, Thomas)

การประยุกต์ใช้วิธีการเป็นที่รู้จักกันในโบราณคดี การวิเคราะห์ข้อความ ซึ่งเป็นสิ่งสำคัญในการตรวจสอบโครงสร้างข้อมูล (ดู Greenacre, M. J. , 1993, Correspondence Analysis in Practice, London: Academic Press)

นี่คือตัวอย่างเพิ่มเติมบางส่วน:

  • ศึกษา กลุ่มสังคมประชากรในภูมิภาคต่าง ๆ โดยมีรายการรายจ่ายสำหรับแต่ละกลุ่ม
  • ผลการศึกษาผลการลงคะแนนเสียงที่ UN ในประเด็นพื้นฐาน (1 - สำหรับ, 0 - ต่อต้าน, 0.5 - งดออกเสียง เช่น ในปี 2510 มีการศึกษา 127 ประเทศใน 13 ประเด็นสำคัญ) พบว่าตามปัจจัยแรกประเทศต่างๆ แบ่งออกเป็นสองกลุ่มอย่างชัดเจน: กลุ่มหนึ่งมีศูนย์กลางของสหรัฐอเมริกาและอีกกลุ่มหนึ่งมีศูนย์กลางของสหภาพโซเวียต (แบบจำลองสองขั้วของโลก) ปัจจัยอื่นๆ สามารถตีความได้ว่าเป็นการแยกตัว การไม่ลงคะแนนเสียง เป็นต้น
  • วิจัยการนำเข้ารถยนต์ (ยี่ห้อรถ - แถวโต๊ะ, ประเทศที่ผลิต - คอลัมน์)
  • การศึกษาตารางที่ใช้ในซากดึกดำบรรพ์ เมื่อมีการพยายามจำแนกตามตัวอย่างชิ้นส่วนของโครงกระดูกสัตว์ที่แยกจากกัน
  • การวิจัยข้อความ ตัวอย่างที่แปลกใหม่ต่อไปนี้เป็นที่ทราบกันดี: นิตยสาร New-Yorker ขอให้นักภาษาศาสตร์ระบุผู้เขียนหนังสือเรื่องอื้อฉาวที่ไม่ระบุชื่อเกี่ยวกับการหาเสียงของประธานาธิบดี ผู้เชี่ยวชาญได้รับข้อความจากผู้เขียนที่เป็นไปได้ 15 คนและข้อความในฉบับที่ไม่ระบุชื่อ ข้อความถูกแสดงโดยแถวของตาราง บรรทัดที่ 1 ทำเครื่องหมายความถี่ของคำที่กำหนด j ดังนั้นจึงได้รับตารางฉุกเฉิน ผู้เขียนข้อความอื้อฉาวที่มีแนวโน้มมากที่สุดถูกกำหนดโดยวิธีการวิเคราะห์จดหมายโต้ตอบ

การใช้การวิเคราะห์การติดต่อทางจดหมายในทางการแพทย์สัมพันธ์กับการศึกษาโครงสร้างของตารางที่ซับซ้อนซึ่งมีตัวแปรตัวบ่งชี้ที่แสดงว่าผู้ป่วยมีอาการหรือไม่มีอาการ ตารางประเภทนี้มีขนาดใหญ่และการศึกษาโครงสร้างเป็นงานที่ไม่สำคัญ

งานของการแสดงภาพวัตถุที่ซับซ้อนยังสามารถสำรวจหรืออย่างน้อยก็เข้าหาด้วยความช่วยเหลือของการวิเคราะห์การติดต่อ รูปภาพเป็นตารางหลายมิติ และภารกิจคือค้นหาระนาบที่ช่วยให้คุณสร้างภาพต้นฉบับได้อย่างแม่นยำที่สุด

พื้นฐานทางคณิตศาสตร์ของวิธีการการวิเคราะห์การโต้ตอบอาศัยสถิติไคสแควร์ เราสามารถพูดได้ว่านี่คือการตีความใหม่ของสถิติไคสแควร์ของเพียร์สัน

วิธีการนี้คล้ายกันมากกับ การวิเคราะห์ปัจจัยอย่างไรก็ตาม ไม่เหมือนตารางฉุกเฉินที่มีการศึกษาที่นี่ และเกณฑ์สำหรับคุณภาพของการทำสำเนาของตารางหลายมิติในพื้นที่ที่มีมิติต่ำกว่าคือค่าของสถิติไคสแควร์ อย่างไม่เป็นทางการ เราสามารถพูดถึงการวิเคราะห์จดหมายโต้ตอบว่าเป็นการวิเคราะห์ปัจจัยของข้อมูลที่เป็นหมวดหมู่ และพิจารณาว่าเป็นวิธีการในการลดขนาดด้วย

ดังนั้น แถวหรือคอลัมน์ของตารางดั้งเดิมจึงแสดงด้วยจุดในช่องว่าง ระหว่างที่คำนวณระยะทางไคสแควร์ (คล้ายกับวิธีคำนวณสถิติไคสแควร์เพื่อเปรียบเทียบความถี่ที่สังเกตได้และความถี่ที่คาดหวัง)

ขั้นต่อไป คุณต้องหาพื้นที่ที่มีขนาดเล็ก ซึ่งปกติแล้วจะเป็นแบบสองมิติ ซึ่งระยะทางที่คำนวณได้จะบิดเบี้ยวน้อยที่สุด และในแง่นี้ ให้สร้างโครงสร้างของตารางต้นฉบับให้แม่นยำที่สุดเท่าที่จะเป็นไปได้ ในขณะที่ยังคงรักษาความสัมพันธ์ระหว่างคุณลักษณะต่างๆ ไว้ (ถ้าคุณ มีแนวคิดเกี่ยวกับวิธีการปรับขนาดแบบหลายมิติ คุณจะรู้สึกได้ถึงการปรับแต่งที่คุ้นเคย)

ดังนั้นเราจึงเริ่มต้นจากตารางไขว้ทั่วไป นั่นคือตารางที่มีการเชื่อมโยงคุณสมบัติหลายอย่าง (สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตารางไขว้ โปรดดูที่บท การสร้างและการวิเคราะห์ตาราง)

สมมติว่ามีข้อมูลเกี่ยวกับพฤติกรรมการสูบบุหรี่ของพนักงานในบริษัทแห่งหนึ่ง ข้อมูลที่คล้ายกันมีอยู่ในไฟล์ Smoking.sta ซึ่งรวมอยู่ในชุดตัวอย่างมาตรฐานของระบบ STATISTICA

ในตารางนี้ การสูบบุหรี่แอตทริบิวต์จะสัมพันธ์กับตำแหน่งแอตทริบิวต์:

กลุ่มพนักงาน

(1) ไม่สูบบุหรี่

(2) ผู้สูบบุหรี่เบา

(3) ผู้สูบบุหรี่ปานกลาง

(4) ผู้สูบบุหรี่จัด

รวมต่อบรรทัด

(1) ผู้จัดการอาวุโส

(2) ผู้จัดการรุ่นเยาว์

(3) เจ้าหน้าที่อาวุโส

(4) พนักงานรุ่นน้อง

(5) เลขานุการ

รวมต่อคอลัมน์

นี่คือตารางข้ามสองอินพุตอย่างง่าย มาดูสตริงกันก่อน

เราสามารถสมมติได้ว่าตัวเลข 4 ตัวแรกของแต่ละแถวของตาราง (ความถี่ขอบ กล่าวคือ คอลัมน์สุดท้ายไม่ถูกนำมาพิจารณา) เป็นพิกัดของแถวในปริภูมิ 4 มิติ ซึ่งหมายความว่าเราสามารถคำนวณได้อย่างเป็นทางการ ระยะทางไคสแควร์ระหว่างจุดเหล่านี้ (แถวของตาราง)

ด้วยความถี่ขอบที่กำหนด จุดเหล่านี้สามารถแสดงในพื้นที่ของมิติ 3 (จำนวนองศาอิสระคือ 3)

เห็นได้ชัดว่า ยิ่งระยะทางสั้นลง ความคล้ายคลึงกันระหว่างกลุ่มก็จะยิ่งมากขึ้น และในทางกลับกัน ยิ่งระยะห่างมากขึ้น ความแตกต่างก็จะยิ่งมากขึ้น

ในตอนนี้ สมมติว่าเราสามารถค้นหาพื้นที่มิติที่ต่ำกว่า เช่น มิติที่ 2 สำหรับการแสดงจุดแถวที่เก็บข้อมูลทั้งหมดหรือเกือบทั้งหมดเกี่ยวกับความแตกต่างระหว่างแถว

แนวทางนี้อาจใช้ไม่ได้ผลกับตารางขนาดเล็กแบบด้านบน แต่มีประโยชน์สำหรับตารางขนาดใหญ่ เช่น ตารางที่พบในการวิจัยตลาด

ตัวอย่างเช่น หากการตั้งค่าของผู้ตอบแบบสอบถาม 100 คนถูกบันทึกไว้เมื่อเลือกเบียร์ 15 ชนิด จากการใช้การวิเคราะห์จดหมายโต้ตอบ จะสามารถแสดง 15 พันธุ์ (คะแนน) บนเครื่องบินได้ (ดูการวิเคราะห์การขายด้านล่าง) โดยการวิเคราะห์ตำแหน่งของจุดต่างๆ คุณจะเห็นรูปแบบการเลือกเบียร์ ซึ่งจะเป็นประโยชน์ในการจัดทำแคมเปญการตลาด

การวิเคราะห์จดหมายโต้ตอบใช้คำสแลงบางคำ

น้ำหนัก. การสังเกตในตารางถูกทำให้เป็นมาตรฐาน: ความถี่สัมพัทธ์สำหรับตารางถูกคำนวณ ผลรวมขององค์ประกอบทั้งหมดของตารางจะเท่ากับ 1 (แต่ละองค์ประกอบหารด้วยจำนวนการสังเกตทั้งหมดใน ตัวอย่างนี้ที่ 193). มีการสร้างอะนาล็อกของความหนาแน่นการกระจายแบบสองมิติ ตารางมาตรฐานที่ได้จะแสดงให้เห็นว่ามวลถูกกระจายไปทั่วเซลล์ของตารางหรือจุดในอวกาศอย่างไร ในคำแสลงของการวิเคราะห์การโต้ตอบ ผลรวมของแถวและคอลัมน์ในเมทริกซ์ความถี่สัมพัทธ์จะเรียกว่ามวลของแถวและคอลัมน์ตามลำดับ

ความเฉื่อยความเฉื่อยถูกกำหนดให้เป็นค่าไคสแควร์เพียร์สันสำหรับตารางสองอินพุตหารด้วยจำนวนการสังเกตทั้งหมด ในตัวอย่างนี้: ความเฉื่อยรวม = 2/193 - 16.442

ความเฉื่อยและโปรไฟล์ของแถวและคอลัมน์หากแถวและคอลัมน์ของตารางมีความเป็นอิสระอย่างสมบูรณ์ (ไม่มีการเชื่อมต่อระหว่างกัน - ตัวอย่างเช่น การสูบบุหรี่ไม่ได้ขึ้นอยู่กับตำแหน่ง) องค์ประกอบของตารางสามารถทำซ้ำได้โดยใช้ผลรวมของแถวและคอลัมน์ หรือในคำศัพท์ ของการวิเคราะห์จดหมายโต้ตอบ โดยใช้โปรไฟล์แถวและคอลัมน์ (ด้วยการใช้ความถี่ส่วนเพิ่ม (ดูบท การสร้างและวิเคราะห์ตารางสำหรับการทดสอบ Chi-Square ของ Pearson และการทดสอบที่แน่นอนของ Fisher)

ตามสูตรไคสแควร์ที่รู้จักกันดีสำหรับตารางสองอินพุต ความถี่ที่คาดหวังของตารางที่คอลัมน์และแถวเป็นอิสระจากกัน คำนวณโดยการคูณโปรไฟล์คอลัมน์และแถวที่เกี่ยวข้องและหารผลลัพธ์ด้วยผลรวมทั้งหมด

การเบี่ยงเบนใด ๆ จากค่าที่คาดหวัง (ภายใต้สมมติฐานของความเป็นอิสระอย่างสมบูรณ์ของตัวแปรในแถวและคอลัมน์) จะส่งผลต่อสถิติไคสแควร์

การวิเคราะห์การโต้ตอบสามารถคิดได้ว่าเป็นการย่อยสลายสถิติไคสแควร์เป็นส่วนประกอบ เพื่อค้นหาพื้นที่มิติที่เล็กที่สุดที่สามารถแสดงค่าเบี่ยงเบนจากค่าที่คาดไว้ได้ (ดูตารางด้านล่าง)

ต่อไปนี้คือตารางที่มีความถี่ที่คาดหวังซึ่งคำนวณภายใต้สมมติฐานความเป็นอิสระของคุณลักษณะและความถี่ที่สังเกตได้ ตลอดจนตารางการมีส่วนร่วมของเซลล์ในไคสแควร์:


ตัวอย่างเช่น ตารางแสดงให้เห็นว่าจำนวนพนักงานจูเนียร์ที่ไม่สูบบุหรี่นั้นน้อยกว่าที่คาดไว้ประมาณ 10 คนภายใต้สมมติฐานความเป็นอิสระ ในทางกลับกัน จำนวนผู้ไม่สูบบุหรี่ในระดับสูงมีมากกว่าที่คาดไว้ 9 คนภายใต้สมมติฐานอิสระ และอื่นๆ อย่างไรก็ตาม เราอยากได้ภาพรวม

จุดประสงค์ของการวิเคราะห์จดหมายโต้ตอบคือเพื่อสรุปความเบี่ยงเบนเหล่านี้จากความถี่ที่คาดหวังไม่ใช่ค่าสัมบูรณ์แต่ในหน่วยสัมพัทธ์


การวิเคราะห์แถวและคอลัมน์แทนที่จะเป็นแถวของตาราง เรายังสามารถพิจารณาคอลัมน์และแสดงคอลัมน์เหล่านั้นเป็นจุดในพื้นที่มิติที่ต่ำกว่า ซึ่งจะทำซ้ำความคล้ายคลึง (และระยะทาง) ระหว่างความถี่สัมพัทธ์สำหรับคอลัมน์ของตารางได้อย่างแม่นยำที่สุด คุณสามารถแสดงคอลัมน์และแถวบนกราฟเดียวกันได้พร้อมกัน ซึ่งแสดงถึงข้อมูลทั้งหมดที่อยู่ในตารางแบบสองอินพุต และตัวเลือกนี้เป็นสิ่งที่น่าสนใจที่สุด เนื่องจากช่วยให้วิเคราะห์ผลลัพธ์ได้อย่างมีความหมาย

ผลลัพธ์.ผลลัพธ์ของการวิเคราะห์การติดต่อมักจะนำเสนอในรูปแบบของกราฟดังที่แสดงด้านบนและในรูปแบบของตารางเช่น:

จำนวนการวัด

เปอร์เซ็นต์ของความเฉื่อย

เปอร์เซ็นต์สะสม

ไคสแควร์

ดูตารางนี้สิ อย่างที่คุณจำได้ เป้าหมายของการวิเคราะห์คือการหาพื้นที่มิติด้านล่างที่คืนค่าตาราง ในขณะที่เกณฑ์คุณภาพคือไคสแควร์ที่ทำให้เป็นมาตรฐานหรือความเฉื่อย จะเห็นได้ว่าหากในตัวอย่างที่พิจารณาใช้พื้นที่หนึ่งมิติ นั่นคือ หนึ่งแกน 87.76% ของความเฉื่อยของตารางสามารถอธิบายได้


สองมิติอนุญาตให้อธิบายความเฉื่อยได้ 99.51%

พิกัดแถวและคอลัมน์พิจารณาพิกัดที่ได้ในพื้นที่สองมิติ

ชื่อแถว

เปลี่ยน 1

เปลี่ยน2

ผู้จัดการอาวุโส

ผู้จัดการรุ่นน้อง

เจ้าหน้าที่อาวุโส

พนักงานรุ่นน้อง

เลขานุการ

คุณสามารถพรรณนาสิ่งนี้บนไดอะแกรมสองมิติ


ข้อได้เปรียบที่ชัดเจนของพื้นที่สองมิติคือเส้นที่แสดงเป็นจุดใกล้จะอยู่ใกล้กันในความถี่สัมพัทธ์เช่นกัน

เมื่อพิจารณาตำแหน่งของจุดตามแนวแกนแรก จะสังเกตได้ว่าเซนต์ เจ้าหน้าที่และเลขาฯ ค่อนข้างใกล้เคียงกัน หากเราให้ความสนใจกับแถวของตารางความถี่สัมพัทธ์ (ความถี่เป็นมาตรฐานเพื่อให้ผลรวมของแต่ละแถวเป็น 100%) ความคล้ายคลึงกันของทั้งสองกลุ่มในแง่ของความเข้มของการสูบบุหรี่จะชัดเจน

ดอกเบี้ยต่อบรรทัด:

หมวดหมู่ของผู้สูบบุหรี่

กลุ่มพนักงาน

(1) ไม่สูบบุหรี่

(2) ผู้สูบบุหรี่เบา

(3) ผู้สูบบุหรี่ปานกลาง

(4) ผู้สูบบุหรี่จัด

รวมต่อบรรทัด

(1) ผู้จัดการอาวุโส

(2) ผู้จัดการรุ่นเยาว์

(3) เจ้าหน้าที่อาวุโส

(4) พนักงานรุ่นน้อง

(5) เลขานุการ

เป้าหมายสูงสุดของการวิเคราะห์จดหมายโต้ตอบคือการตีความเวกเตอร์ในพื้นที่มิติล่างที่ได้ วิธีหนึ่งที่สามารถช่วยในการตีความผลลัพธ์คือการแสดงแผนภูมิแท่ง ตารางต่อไปนี้แสดงพิกัดของคอลัมน์:

มิติ 1

มิติ2

ไม่สูบบุหรี่

คนสูบบุหรี่เบา

ผู้สูบบุหรี่ปานกลาง

สูบบุหรี่จัด

เราสามารถพูดได้ว่าแกนแรกให้การไล่ระดับความเข้มของการสูบบุหรี่ ดังนั้น ความคล้ายคลึงกันอย่างมากระหว่างผู้จัดการอาวุโสและเลขานุการสามารถอธิบายได้จากการมีอยู่ของผู้ไม่สูบบุหรี่จำนวนมากในกลุ่มเหล่านี้

เมตริกของระบบพิกัดในบางกรณี ระยะระยะทางถูกใช้เพื่ออ้างถึงความแตกต่างระหว่างแถวและคอลัมน์ของเมทริกซ์ของความถี่สัมพัทธ์ ซึ่งในทางกลับกัน ถูกแสดงในพื้นที่มิติที่ต่ำกว่าอันเป็นผลมาจากการใช้วิธีการวิเคราะห์การโต้ตอบ .

อันที่จริง ระยะทางที่แสดงเป็นพิกัดในพื้นที่ของมิติที่เหมาะสมไม่ได้เป็นเพียงระยะทางแบบยุคลิดที่คำนวณจากความถี่สัมพัทธ์ของคอลัมน์และแถวเท่านั้น แต่ยังรวมถึงระยะทางที่ถ่วงน้ำหนักด้วย

ขั้นตอนการปรับตุ้มน้ำหนักได้รับการออกแบบในลักษณะที่ในช่องว่างของมิติที่ต่ำกว่า เมตริกจะเป็นเมตริกไคสแควร์ โดยที่จุดแถวจะถูกเปรียบเทียบและโปรไฟล์แถวเป็นมาตรฐาน หรือโปรไฟล์แถวและคอลัมน์เป็นมาตรฐาน หรือ เปรียบเทียบจุดของคอลัมน์และโปรไฟล์ของคอลัมน์เป็นมาตรฐานหรือมาตรฐานของโปรไฟล์แถวและคอลัมน์

การประเมินคุณภาพของโซลูชันมีสถิติพิเศษที่ช่วยประเมินคุณภาพของโซลูชันที่ได้รับ จุดทั้งหมดหรือส่วนใหญ่ต้องแสดงอย่างถูกต้อง นั่นคือ ระยะห่างระหว่างจุดทั้งสองต้องไม่บิดเบี้ยวอันเป็นผลมาจากการใช้ขั้นตอนการวิเคราะห์การติดต่อ ตารางต่อไปนี้แสดงผลการคำนวณสถิติเกี่ยวกับพิกัดแถวที่มีอยู่ โดยอิงจากโซลูชันแบบหนึ่งมิติในตัวอย่างก่อนหน้าเท่านั้น (นั่นคือ ใช้มิติเดียวเท่านั้นเพื่อสร้างโปรไฟล์แถวของเมทริกซ์ความถี่สัมพัทธ์)

พิกัดและส่วนสนับสนุนความเฉื่อยของเส้น:

สัมพันธ์กับความเฉื่อย

ความเฉื่อย meas.1

โคไซน์**2 ม.1

ผู้จัดการอาวุโส

ผู้จัดการรุ่นน้อง

เจ้าหน้าที่อาวุโส

พนักงานรุ่นน้อง

เลขานุการ

พิกัด.คอลัมน์แรกของตารางผลลัพธ์ประกอบด้วยพิกัดซึ่งการตีความตามที่ระบุไว้แล้วขึ้นอยู่กับมาตรฐาน มิติข้อมูลที่ผู้ใช้เลือกได้ (ในตัวอย่างนี้ เราเลือกพื้นที่หนึ่งมิติ) และพิกัดจะแสดงสำหรับแต่ละมิติ (นั่นคือ หนึ่งคอลัมน์ของพิกัดจะแสดงสำหรับแต่ละแกน)

น้ำหนัก.มวลประกอบด้วยผลรวมขององค์ประกอบทั้งหมดสำหรับแต่ละแถวของเมทริกซ์ความถี่สัมพัทธ์ (นั่นคือ สำหรับเมทริกซ์ที่แต่ละองค์ประกอบมีมวลที่สอดคล้องกัน ตามที่กล่าวไว้ข้างต้น)

หากเลือกตัวเลือกนี้เป็นวิธีการมาตรฐาน โปรไฟล์แถวหรือตัวเลือก โปรไฟล์แถวและคอลัมน์ซึ่งกำหนดไว้โดยค่าเริ่มต้น พิกัดของแถวจะถูกคำนวณจากเมทริกซ์ของโปรไฟล์แถว กล่าวอีกนัยหนึ่ง พิกัดคำนวณจากเมทริกซ์ของความน่าจะเป็นแบบมีเงื่อนไขที่แสดงในคอลัมน์ น้ำหนัก.

คุณภาพ.คอลัมน์ คุณภาพมีข้อมูลเกี่ยวกับคุณภาพของการแสดงจุดเส้นที่เกี่ยวข้องในระบบพิกัดที่กำหนดโดยมิติที่เลือก ในตารางที่เป็นปัญหา เลือกเพียงมิติเดียว ดังนั้นตัวเลขในคอลัมน์ คุณภาพคือคุณภาพของการแสดงผลลัพธ์ในพื้นที่มิติเดียว จะเห็นได้ว่าคุณภาพของผู้จัดการอาวุโสนั้นต่ำมาก แต่สูงสำหรับพนักงานอาวุโสและรุ่นน้องและเลขานุการ

โปรดสังเกตอีกครั้งว่า ในแง่ของการคำนวณ เป้าหมายของการวิเคราะห์การโต้ตอบคือการแสดงระยะห่างระหว่างจุดต่างๆ ในพื้นที่มิติที่ต่ำกว่า

หากใช้ขนาดสูงสุด (เท่ากับจำนวนแถวและคอลัมน์ต่ำสุดลบหนึ่ง) ระยะทางทั้งหมดสามารถทำซ้ำได้อย่างแม่นยำ

คุณภาพของจุดถูกกำหนดเป็นอัตราส่วนของกำลังสองของระยะทางจากจุดที่กำหนดไปยังจุดกำเนิด ในช่องว่างของมิติที่เลือก ต่อกำลังสองของระยะทางไปยังจุดกำเนิด ซึ่งกำหนดไว้ในช่องว่างของมิติสูงสุด (ในกรณีนี้ เมตริกไคสแควร์ถูกเลือกเป็นเมตริกตามที่กล่าวไว้ก่อนหน้านี้) ในการวิเคราะห์ปัจจัย มีแนวคิดทั่วไปที่คล้ายคลึงกัน

คุณภาพที่คำนวณโดย STATISTICA นั้นไม่ขึ้นกับวิธีการกำหนดมาตรฐานที่เลือก และใช้มาตรฐานที่เป็นค่าเริ่มต้นเสมอ (เช่น ตัววัดระยะทางคือไคสแควร์ และสามารถตีความการวัดคุณภาพเป็นสัดส่วนของไคสแควร์ที่กำหนดโดยแถวที่สอดคล้องกันใน พื้นที่ของมิติที่สอดคล้องกัน)

คุณภาพต่ำหมายความว่าจำนวนการวัดที่มีอยู่ไม่ได้แสดงถึงแถว (คอลัมน์) ที่สอดคล้องกันดีพอ

ความเฉื่อยสัมพัทธ์คุณภาพของจุด (ดูด้านบน) แสดงถึงอัตราส่วนของการมีส่วนร่วมของจุดที่กำหนดต่อความเฉื่อยรวม (Chi-square) ซึ่งอาจอธิบายมิติที่เลือกได้

คุณภาพไม่ได้ตอบคำถามว่าจุดที่สอดคล้องกันมีส่วนทำให้เกิดความเฉื่อยมากน้อยเพียงใด (ค่าไคสแควร์)

ความเฉื่อยสัมพัทธ์แสดงถึงสัดส่วนของความเฉื่อยรวมที่เป็นของจุดที่กำหนดและไม่ขึ้นกับมิติที่ผู้ใช้เลือก โปรดทราบว่าวิธีแก้ปัญหาเฉพาะสามารถแสดงจุดได้ค่อนข้างดี (คุณภาพสูง) แต่จุดเดียวกันสามารถทำให้เกิดความเฉื่อยโดยรวมเพียงเล็กน้อย (เช่น เส้นจุดที่มีองค์ประกอบเป็นความถี่สัมพัทธ์มีความคล้ายคลึงกันกับบางเส้น องค์ประกอบ ซึ่งเป็นค่าเฉลี่ยของแถวทั้งหมด)

ความเฉื่อยสัมพัทธ์สำหรับแต่ละมิติคอลัมน์นี้มีส่วนสัมพันธ์ของจุดเส้นที่สัมพันธ์กับค่าความเฉื่อยเนื่องจากมิติที่สอดคล้องกัน ในรายงาน ค่านี้จะถูกกำหนดสำหรับแต่ละจุด (แถวหรือคอลัมน์) และสำหรับแต่ละมิติ

โคไซน์**2 (คุณภาพหรือความสัมพันธ์กำลังสองกับแต่ละมิติ)คอลัมน์นี้มีคุณภาพสำหรับแต่ละจุด เนื่องจากมิติที่สอดคล้องกัน หากเรารวมองค์ประกอบของโคไซน์ทีละแถว ** 2 คอลัมน์สำหรับแต่ละมิติ ด้วยเหตุนี้ เราจึงได้คอลัมน์ของค่าคุณภาพตามที่กล่าวไว้ข้างต้นแล้ว (เนื่องจากตัวอย่างนี้เลือกมิติที่ 1 คอลัมน์โคไซน์ 2 ตรงกับคอลัมน์คุณภาพ) ค่านี้สามารถตีความได้ว่าเป็น "สหสัมพันธ์" ระหว่างจุดที่สอดคล้องกันและมิติที่สอดคล้องกัน คำว่าโคไซน์ ** 2 เกิดขึ้นเพราะค่านี้เป็นกำลังสองของโคไซน์ของมุมที่เกิดขึ้นจากจุดที่กำหนดและแกนที่สอดคล้องกัน

คะแนนเพิ่มเติม การรวมจุดแถวหรือคอลัมน์เพิ่มเติมที่ไม่ได้รวมอยู่ในการวิเคราะห์แต่แรกอาจช่วยตีความผลลัพธ์ได้ เป็นไปได้ที่จะรวมจุดแถวเพิ่มเติมและจุดคอลัมน์เพิ่มเติม คุณยังสามารถแสดงจุดเพิ่มเติมพร้อมกับจุดเดิมบนแผนภูมิเดียวกันได้ ตัวอย่างเช่น พิจารณาผลลัพธ์ต่อไปนี้:

กลุ่มพนักงาน

มิติ 1

มิติ2

ผู้จัดการอาวุโส

ผู้จัดการรุ่นน้อง

เจ้าหน้าที่อาวุโส

พนักงานรุ่นน้อง

เลขานุการ

ค่าเฉลี่ยของประเทศ

ตารางนี้แสดงพิกัด (สำหรับสองมิติ) ที่คำนวณสำหรับตารางความถี่ที่ประกอบด้วยการจำแนกระดับการเสพติดการสูบบุหรี่ในหมู่พนักงานในตำแหน่งต่างๆ

เส้น ค่าเฉลี่ยแห่งชาติ ประกอบด้วยพิกัดของจุดเพิ่มเติม ซึ่งเป็นระดับเฉลี่ย (เป็นเปอร์เซ็นต์) ที่คำนวณสำหรับเชื้อชาติต่างๆ ของผู้สูบบุหรี่ ในตัวอย่างนี้ นี่เป็นข้อมูลแบบจำลองล้วนๆ

หากคุณสร้างแผนภูมิสองมิติของกลุ่มพนักงานและค่าเฉลี่ยระดับประเทศ ให้ตรวจสอบให้แน่ใจทันทีว่าจุดเพิ่มเติมนี้และกลุ่มเลขานุการอยู่ใกล้กันมากและตั้งอยู่บนด้านเดียวกันของแกนพิกัดแนวนอนที่มีประเภทไม่ใช่ -ผู้สูบบุหรี่ (จุดคอลัมน์) กล่าวอีกนัยหนึ่ง ตัวอย่างที่นำเสนอในตารางความถี่เดิมมีผู้สูบบุหรี่มากกว่าค่าเฉลี่ยของประเทศ

แม้ว่าข้อสรุปเดียวกันนี้สามารถดึงได้จากการดูตารางไขว้เดิม แต่แน่นอนว่าในตารางขนาดใหญ่ ข้อสรุปดังกล่าวไม่ชัดเจนนัก

คุณภาพของการแสดงจุดเพิ่มเติมผลลัพธ์ที่น่าสนใจอีกประการหนึ่งเกี่ยวกับประเด็นเพิ่มเติมคือการตีความคุณภาพ การแสดงสำหรับมิติที่กำหนด

อีกครั้ง จุดประสงค์ของการวิเคราะห์จดหมายโต้ตอบคือเพื่อแสดงระยะทางระหว่างพิกัดแถวหรือคอลัมน์ในพื้นที่มิติที่ต่ำกว่า เมื่อทราบวิธีแก้ปัญหานี้ จำเป็นต้องตอบคำถามว่าเพียงพอหรือไม่ (ในแง่ของระยะทางไปยังจุดในพื้นที่เดิม) เพื่อแสดงจุดเพิ่มเติมในพื้นที่ของมิติที่เลือก ด้านล่างนี้คือสถิติสำหรับจุดดั้งเดิมและจุดเพิ่มเติม National Average ที่ใช้กับปัญหาในพื้นที่ 2D

ผู้จัดการรุ่นเยาว์0.9998100.630578

โปรดจำไว้ว่าคุณภาพของแถวจุดหรือคอลัมน์ถูกกำหนดให้เป็นอัตราส่วนของระยะทางกำลังสองจากจุดหนึ่งไปยังจุดกำเนิดในช่องว่างของมิติที่ลดลงต่อกำลังสองของระยะทางจากจุดหนึ่งไปยังจุดกำเนิดในพื้นที่เดิม (เป็น ตามที่ระบุไว้แล้ว ระยะทางไคสแควร์ถูกเลือก)

ในแง่หนึ่ง คุณภาพคือปริมาณที่อธิบายเศษเสี้ยวของกำลังสองของระยะทางไปยังจุดศูนย์ถ่วงของเมฆจุดเดิม

จุดเส้นเพิ่มเติม ค่าเฉลี่ยของประเทศมีคุณภาพ 0.76 ซึ่งหมายความว่าจุดที่กำหนดให้แสดงได้ค่อนข้างดีในพื้นที่สองมิติ สถิติโคไซน์**2 คือคุณภาพของการแสดงแถวจุดที่สอดคล้องกัน เนื่องจากการเลือกช่องว่างของมิติที่กำหนด (หากเรารวมองค์ประกอบของคอลัมน์โคไซน์ 2 สำหรับแต่ละบรรทัดของมิติข้อมูลทีละบรรทัด จะเป็นดังนี้ ผลลัพธ์เราจะมาถึงค่าคุณภาพที่ได้รับก่อนหน้านี้)

การวิเคราะห์แบบกราฟิกของผลลัพธ์นี่เป็นส่วนที่สำคัญที่สุดของการวิเคราะห์ โดยพื้นฐานแล้ว คุณสามารถลืมเกณฑ์คุณภาพที่เป็นทางการได้ แต่ควรได้รับคำแนะนำจากผู้อื่น กติกาง่ายๆเพื่อทำความเข้าใจกราฟ

ดังนั้น บนกราฟ จึงนำเสนอจุด-แถว และจุด-คอลัมน์ การนำเสนอทั้งจุดเหล่านั้นและจุดอื่นๆ ถือเป็นรูปแบบที่ดี (เพราะว่าเรากำลังวิเคราะห์ความสัมพันธ์ระหว่างแถวและคอลัมน์ของตาราง!)

โดยปกติแกนนอนจะสอดคล้องกับความเฉื่อยสูงสุด ใกล้ลูกศรจะแสดงเปอร์เซ็นต์ของความเฉื่อยทั้งหมดที่อธิบายโดยค่าลักษณะเฉพาะนี้ มักจะให้ค่าลักษณะเฉพาะที่สอดคล้องกันที่นำมาจากตารางผลลัพธ์ด้วย จุดตัดของแกนทั้งสองคือจุดศูนย์ถ่วงของจุดที่สังเกตได้ ซึ่งสอดคล้องกับโปรไฟล์เฉลี่ย หากคะแนนอยู่ในประเภทเดียวกัน กล่าวคือ เป็นแถวหรือคอลัมน์ ยิ่งระยะห่างระหว่างจุดทั้งสองน้อยเท่าไร การเชื่อมต่อก็จะยิ่งใกล้กันมากขึ้น เพื่อสร้างความสัมพันธ์ระหว่างจุดประเภทต่างๆ (ระหว่างแถวและคอลัมน์) ควรพิจารณา มุมระหว่างพวกเขากับยอดที่จุดศูนย์ถ่วง

กฎทั่วไปสำหรับการประเมินด้วยสายตาของระดับการพึ่งพาอาศัยกันมีดังนี้

  • พิจารณา 2 จุดโดยพลการของประเภทต่าง ๆ (แถวและคอลัมน์ของตาราง)
  • ลองเชื่อมต่อกับส่วนของเส้นตรงที่มีจุดศูนย์ถ่วง (ชี้ด้วยพิกัด 0,0)
  • หากมุมผลลัพธ์เป็นมุมแหลม แสดงว่าแถวและคอลัมน์มีความสัมพันธ์ทางบวก
  • หากมุมผลลัพธ์เป็นมุมป้าน ความสัมพันธ์ระหว่างตัวแปรจะเป็นค่าลบ
  • ถ้ามุมขวาไม่มีความสัมพันธ์กัน

พิจารณาการวิเคราะห์ข้อมูลเฉพาะในระบบสถิติ

ตัวอย่างที่ 1 (การวิเคราะห์ผู้สูบบุหรี่)

ขั้นตอนที่ 1. เรียกใช้โมดูล การวิเคราะห์การโต้ตอบ

มีการวิเคราะห์ 2 ประเภทในแผงเปิดตัวของโมดูล: การวิเคราะห์การติดต่อและการวิเคราะห์การติดต่อหลายตัวแปร

เลือก การวิเคราะห์การโต้ตอบการวิเคราะห์การโต้ตอบแบบหลายตัวแปรจะกล่าวถึงในตัวอย่างต่อไปนี้

ขั้นตอนที่ 2เปิดไฟล์ข้อมูล smoking.sta ในโฟลเดอร์ Examples


ไฟล์นี้เป็นตารางฉุกเฉินอยู่แล้ว ดังนั้นจึงไม่จำเป็นต้องมีแท็บ เลือกประเภทของการวิเคราะห์ - ความถี่ที่ไม่มีตัวแปรการจัดกลุ่ม

ขั้นตอนที่ 3. คลิกที่ปุ่ม ตัวแปรที่มีความถี่และเลือกตัวแปรเพื่อวิเคราะห์

สำหรับตัวอย่างนี้ เลือกตัวแปรทั้งหมด


ขั้นตอนที่ 4คลิก ตกลงและดำเนินการตามขั้นตอนการคำนวณ หน้าต่างที่มีผลลัพธ์จะปรากฏขึ้นบนหน้าจอ


ขั้นตอนที่ 5พิจารณาผลลัพธ์โดยใช้ตัวเลือกในหน้าต่างนี้

ปกติจะพิจารณากราฟก่อนซึ่งมีกลุ่มของปุ่มต่างๆ แผนภูมิพิกัด

กราฟพร้อมใช้งานสำหรับแถวและคอลัมน์ เช่นเดียวกับแถวและคอลัมน์พร้อมกัน

มิติของพื้นที่สูงสุดถูกกำหนดในตัวเลือก มิติ.

มิติข้อมูลที่น่าสนใจที่สุดคือ 2 โปรดทราบว่าในแผนภูมิโดยเฉพาะหากมีข้อมูลจำนวนมากป้ายกำกับสามารถซ้อนทับกันได้ดังนั้นตัวเลือก ย่อฉลากให้สั้นลง

กดปุ่ม 2M ปุ่มที่สามในกล่องโต้ตอบ กราฟจะปรากฏขึ้นบนหน้าจอ:


โปรดทราบว่าปัจจัยทั้งสองแสดงบนกราฟ: กลุ่มพนักงาน - แถวและความเข้มของการสูบบุหรี่ - คอลัมน์

เชื่อมต่อกับส่วนของเส้นตรงหมวดหมู่ พนักงานอาวุโส และหมวด NO ที่มีจุดศูนย์ถ่วง

มุมที่ได้จะคมชัด ซึ่งในภาษาของการวิเคราะห์จดหมายโต้ตอบพูดถึงความสัมพันธ์เชิงบวกระหว่างคุณลักษณะเหล่านี้ (ดูตารางต้นฉบับเพื่อดูสิ่งนี้)

พิกัดของแถวและคอลัมน์สามารถดูเป็นตัวเลขได้โดยใช้ปุ่ม พิกัดแถวและคอลัมน์.


การใช้ปุ่ม ค่าลักษณะเฉพาะคุณสามารถดูการสลายตัวของสถิติไคสแควร์ในแง่ของค่าลักษณะเฉพาะ

ตัวเลือก กำหนดการการวัดที่เลือกเท่านั้นทำให้คุณสามารถดูพิกัดของจุดตามแกนที่เลือกได้

กลุ่มตัวเลือก ดูตารางในส่วนด้านขวาของหน้าต่างจะให้คุณดูตารางฉุกเฉินเดิมและที่คาดไว้ ความแตกต่างระหว่างความถี่และพารามิเตอร์อื่น ๆ ที่คำนวณภายใต้สมมติฐานความเป็นอิสระของคุณลักษณะแบบตาราง (ดูบท การสร้างและการวิเคราะห์ตาราง การทดสอบไคสแควร์)

ควรมีการสำรวจตารางขนาดใหญ่ทีละส่วน โดยแนะนำตัวแปรเพิ่มเติมตามความจำเป็น ตัวเลือกต่อไปนี้มีไว้สำหรับสิ่งนี้: เพิ่มจุดแถว เพิ่มจุดคอลัมน์

ตัวอย่างที่ 2 (การวิเคราะห์การขาย)

ในบท การวิเคราะห์และสร้างตาราง จะพิจารณาตัวอย่างที่เกี่ยวข้องกับการวิเคราะห์การขาย ลองใช้การวิเคราะห์การโต้ตอบกับข้อมูล

ก่อนหน้านี้มีข้อสังเกตว่าคำถามที่ผู้ซื้อทำการซื้อโดยมีการซื้อสินค้า 3 รายการนั้นซับซ้อน

อันที่จริง เรามีผลิตภัณฑ์ทั้งหมด 21 รายการ หากต้องการดูตารางฉุกเฉินทั้งหมด คุณต้องดำเนินการ 21 × 20 × 19 = 7980 จำนวนการกระทำเพิ่มขึ้นอย่างหายนะด้วยการเพิ่มขึ้นของสินค้าและจำนวนคุณสมบัติ ลองใช้การวิเคราะห์จดหมายโต้ตอบกัน มาเปิดไฟล์ข้อมูลพร้อมตัวแปรตัวบ่งชี้ที่ทำเครื่องหมายผลิตภัณฑ์ที่ซื้อ


ในแผงเริ่มต้นของโมดูล ให้เลือก การวิเคราะห์จดหมายโต้ตอบหลายตัวแปร


ให้เรากำหนดเงื่อนไขในการเลือกข้อสังเกต


เงื่อนไขนี้ทำให้คุณสามารถเลือกผู้ซื้อที่ซื้อครบ 3 ครั้ง

เนื่องจากเรากำลังจัดการกับข้อมูลที่ไม่ได้จัดทำเป็นตาราง เราจะเลือกประเภทของการวิเคราะห์ ข้อมูลเบื้องต้น(ต้องใช้แท็บ)

เพื่อความสะดวกในการแสดงภาพกราฟิกเพิ่มเติม เราเลือกตัวแปรจำนวนเล็กน้อย นอกจากนี้เรายังเลือกตัวแปรเพิ่มเติม (ดูช่องด้านล่าง)


มาเริ่มขั้นตอนการคำนวณกัน


ในหน้าต่างที่ปรากฏขึ้น ผลการวิเคราะห์การโต้ตอบแบบหลายตัวแปรมาดูผลลัพธ์กัน

การใช้ปุ่ม 2M จะแสดงกราฟสองมิติของตัวแปร

ในกราฟนี้ ตัวแปรเพิ่มเติมจะถูกทำเครื่องหมายด้วยจุดสีแดง ซึ่งสะดวกสำหรับการวิเคราะห์ด้วยภาพ

โปรดทราบว่าตัวแปรแต่ละตัวมีแฟล็กเป็น 1 หากซื้อสินค้าและแฟล็กเป็น 0 หากไม่ได้ซื้อสินค้า

ลองดูที่แผนภูมิ ให้เราเลือกเช่น ปิดคู่คุณลักษณะ

เป็นผลให้เราได้รับสิ่งต่อไปนี้:


การศึกษาที่คล้ายคลึงกันสามารถดำเนินการกับข้อมูลอื่นๆ ได้เมื่อไม่มีสมมติฐานเบื้องต้นเกี่ยวกับการพึ่งพาอาศัยกันในข้อมูล

หนังสือเล่มนี้ซึ่งเขียนขึ้นในปี 1977 โดยนักสถิติทางคณิตศาสตร์ชาวอเมริกันที่มีชื่อเสียง ได้สรุปพื้นฐานของการวิเคราะห์ข้อมูลเชิงสำรวจ กล่าวคือ การประมวลผลเบื้องต้นของผลการสังเกตโดยวิธีที่ง่ายที่สุด - ดินสอกระดาษและกฎสไลด์ ผู้เขียนใช้ตัวอย่างมากมาย แสดงให้เห็นว่าการนำเสนอข้อสังเกตในรูปแบบภาพโดยใช้ไดอะแกรม ตาราง และกราฟช่วยอำนวยความสะดวกในการระบุรูปแบบและการเลือกวิธีการสำหรับการประมวลผลทางสถิติที่ลึกซึ้งยิ่งขึ้นได้อย่างไร การนำเสนอมาพร้อมกับแบบฝึกหัดมากมายที่เกี่ยวข้องกับเนื้อหาที่หลากหลายจากการฝึกฝน ภาษาที่สื่อความหมายและมีชีวิตชีวาช่วยให้เข้าใจเนื้อหาที่นำเสนอ

จอห์น ทูกี้. การวิเคราะห์ผลการสังเกต การวิเคราะห์เชิงสำรวจ – M.: Mir, 1981. – 696 น.

ดาวน์โหลดบทคัดย่อ ( สรุป) ในรูปแบบ หรือ ตัวอย่างในรูปแบบ

ในขณะที่ตีพิมพ์โน้ต หนังสือเล่มนี้สามารถพบได้ในร้านหนังสือมือสองเท่านั้น

ผู้เขียนแบ่งการวิเคราะห์ทางสถิติออกเป็นสองขั้นตอน: การสำรวจและการยืนยัน ขั้นตอนแรกประกอบด้วยการแปลงข้อมูลเชิงสังเกตและวิธีสร้างภาพข้อมูล ช่วยให้คุณระบุรูปแบบภายในที่ปรากฏในข้อมูลได้ ในขั้นตอนที่สอง จะใช้วิธีการทางสถิติแบบดั้งเดิมสำหรับการประมาณค่าพารามิเตอร์และการทดสอบสมมติฐาน หนังสือเล่มนี้เป็นเรื่องเกี่ยวกับการวิเคราะห์ข้อมูลเชิงสำรวจ (สำหรับการวิเคราะห์ยืนยัน ดู ) การอ่านหนังสือไม่จำเป็นต้องมีความรู้เกี่ยวกับทฤษฎีความน่าจะเป็นและสถิติทางคณิตศาสตร์มาก่อน

บันทึก. บากูซินปีที่เขียนหนังสือเล่มนี้ ผู้เขียนมุ่งเน้นไปที่การแสดงข้อมูลโดยใช้ดินสอ ไม้บรรทัด และกระดาษ (บางครั้งกระดาษมิลลิเมตร) ในความคิดของฉัน วันนี้การแสดงข้อมูลด้วยภาพเชื่อมโยงกับพีซี เลยลองมารวมกัน ความคิดเดิมผู้เขียนและการประมวลผลใน Excel ความคิดเห็นของฉันถูกเยื้อง

บทที่ 1

แผนภูมิมีค่าที่สุดเมื่อบังคับให้เราสังเกตสิ่งที่เราไม่คาดคิดว่าจะได้เห็น การแสดงตัวเลขในรูปแบบของก้านและใบช่วยให้คุณระบุรูปแบบได้ เช่น นำหลักสิบมาเป็นฐานของก้าน เลข 35 สามารถนำมาประกอบกับก้าน 3 ใบจะเท่ากับ 5 สำหรับเลข 108 ก้านเป็น 10 ใบเป็น 8

ตัวอย่างเช่น ฉันสุ่มตัวเลขสุ่ม 100 ตัวโดยแจกแจงตามกฎปกติด้วยค่าเฉลี่ย 10 และค่าเบี่ยงเบนมาตรฐานที่ 3 เพื่อให้ได้ตัวเลขดังกล่าว ฉันใช้สูตร =NORM.INV(RAND();10;3) ( มะเดื่อ 1). เปิดไฟล์ Excel ที่แนบมา เมื่อกด F9 คุณจะสร้างชุดตัวเลขสุ่มชุดใหม่

ข้าว. 1. 100 ตัวเลขสุ่ม

จะเห็นได้ว่าตัวเลขส่วนใหญ่กระจายอยู่ในช่วงตั้งแต่ 5 ถึง 16 อย่างไรก็ตาม เป็นการยากที่จะสังเกตเห็นรูปแบบที่น่าสนใจ แปลงก้านและใบ (รูปที่ 2) แสดงการกระจายแบบปกติ คู่หมายเลขใกล้เคียงถูกนำมาเป็นลำต้นเช่น 4-5 ใบไม้สะท้อนจำนวนค่าในช่วงนั้น ในตัวอย่างของเรา มี 3 ค่าดังกล่าว

ข้าว. 2. กราฟ "ลำต้นและใบ"

มีสองคุณลักษณะใน Excel ที่ช่วยให้คุณสำรวจรูปแบบความถี่ได้อย่างรวดเร็ว: ฟังก์ชัน FREQUENCY (รูปที่ 3 ดูรายละเอียดเพิ่มเติม) และตารางสาระสำคัญ (รูปที่ 4 ดูรายละเอียดเพิ่มเติมในส่วน การจัดกลุ่มช่องตัวเลข).

ข้าว. 3. การวิเคราะห์โดยใช้ฟังก์ชันอาร์เรย์ FREQUENCY

ข้าว. 4. การวิเคราะห์โดยใช้ตารางเดือย

การเป็นตัวแทนในรูปแบบของลำต้นที่มีใบ (การแสดงความถี่) ช่วยให้คุณสามารถระบุคุณลักษณะต่อไปนี้ของข้อมูล:

  • แบ่งออกเป็นกลุ่ม;
  • การล้มแบบอสมมาตรจนถึงปลาย - "หาง" หนึ่งตัวยาวกว่าอีกข้างหนึ่ง
  • ความหมาย "เป็นที่นิยม" และ "ไม่เป็นที่นิยม" โดยไม่คาดคิด
  • เกี่ยวกับคุณค่าของการสังเกต "ศูนย์กลาง";
  • การกระจายในข้อมูลมีขนาดใหญ่เพียงใด

บทที่ 2 สรุปข้อมูลอย่างง่าย - ตัวเลขและกราฟิก

การแสดงตัวเลขในรูปแบบของก้านใบช่วยให้คุณมองเห็นภาพรวมของกลุ่มตัวอย่างได้ เรากำลังเผชิญกับภารกิจการเรียนรู้วิธีแสดงออกอย่างกระชับซึ่งเกิดขึ้นบ่อยที่สุด คุณสมบัติทั่วไปตัวอย่าง สำหรับสิ่งนี้ ข้อมูลสรุปจะถูกใช้ อย่างไรก็ตาม แม้ว่าข้อมูลสรุปจะมีประโยชน์มาก แต่ก็ไม่ได้ให้รายละเอียดทั้งหมดของตัวอย่าง หากไม่มีรายละเอียดเหล่านี้มากนักจนน่าสับสน ทางที่ดีควรให้ข้อมูลทั้งหมดต่อหน้าต่อตาเรา วางไว้ในวิธีที่สะดวกอย่างชัดเจนสำหรับเรา สำหรับชุดข้อมูลขนาดใหญ่ จำเป็นต้องมีการสรุป เราไม่ถือว่าหรือคาดหวังว่าพวกเขาจะแทนที่ข้อมูลทั้งหมด แน่นอนว่าบ่อยครั้งที่การเพิ่มรายละเอียดไม่ได้ผล แต่สิ่งสำคัญคือต้องตระหนักว่าบางครั้งรายละเอียดอาจมีประโยชน์มากมาย

หากในการอธิบายลักษณะตัวอย่างโดยรวม เราจำเป็นต้องเลือกตัวเลขหลายตัวที่หาง่าย เราอาจจะต้อง:

  • ค่าสุดขีด - ใหญ่และเล็กที่สุดซึ่งเราจะทำเครื่องหมายด้วยสัญลักษณ์ "1" (ตามอันดับหรือความลึก)
  • ค่ากลางบางอย่าง

ค่ามัธยฐาน= ค่ามัธยฐาน

สำหรับชุดที่แสดงเป็นก้านที่มีใบ ค่ากลางสามารถหาได้ง่ายโดยการนับถอยหลังจากปลายด้านใดด้านหนึ่ง โดยกำหนดอันดับ "1" ให้เป็นค่าสุดขั้ว ดังนั้น แต่ละค่าในตัวอย่างจึงได้รับค่าของมันเอง อันดับ. คุณสามารถเริ่มนับจากปลายด้านใดด้านหนึ่ง ตำแหน่งที่น้อยที่สุดในสองอันดับที่ได้รับนั้นสามารถกำหนดให้มีค่าเท่ากันเราจะเรียกว่า ความลึก(รูปที่ 5). ความลึกของค่าสุดโต่งจะเป็น 1 เสมอ

ข้าว. 5. การกำหนดความลึกตามสองทิศทางการจัดอันดับ

ความลึก (หรืออันดับ) ของค่ามัธยฐาน = (1 + จำนวนค่า)/2

หากเราต้องการเพิ่มตัวเลขอีกสองตัวเพื่อสร้างสรุปตัวเลข 5 ตัว ก็เป็นเรื่องปกติที่จะกำหนดตัวเลขเหล่านี้โดยการนับระยะทางจากปลายแต่ละด้านถึงค่ามัธยฐานครึ่งหนึ่ง กระบวนการหาค่ามัธยฐานและค่าใหม่เหล่านี้ถือได้ว่าเป็นการพับกระดาษ ดังนั้นจึงเป็นเรื่องธรรมดาที่จะเรียกค่านิยมใหม่เหล่านี้ พับ(ตอนนี้คำที่ใช้บ่อยมากขึ้น ควอร์ไทล์).

เมื่อยุบชุดค่า 13 อาจมีลักษณะดังนี้:

ตัวเลขห้าตัวเพื่อกำหนดลักษณะอนุกรมในลำดับจากน้อยไปมากจะเป็น: -3.2; 0.1; 1.5; 3.0; 9.8 - หนึ่งจุดแต่ละจุดเปลี่ยนของแถว ตัวเลขห้าตัว (ส่วนสูง รอยพับ ค่ามัธยฐาน) ที่ประกอบกันเป็นตัวเลข 5 ตัว เราจะอธิบายในรูปแบบของแผนภาพง่ายๆ ต่อไปนี้

โดยทางซ้ายเราได้แสดงจำนวนตัวเลข (มีเครื่องหมาย #) ความลึกของค่ามัธยฐาน (ตัวอักษร M) ความลึกของรอยพับ (ตัวอักษร C) และความลึกของค่าสุดขีด (เสมอ 1 ไม่จำเป็นต้องทำเครื่องหมายอย่างอื่น)

ในรูป 8 แสดงวิธีการแสดงข้อมูลสรุป 5 หลักแบบกราฟิก กราฟประเภทนี้เรียกว่ากล่องมีหนวด

ข้าว. 8. แผนผังไดอะแกรมหรือกล่องหนวด

น่าเสียดายที่ Excel มักจะสร้างแผนภูมิหุ้นตามค่าสามหรือสี่ค่าเท่านั้น (รูปที่ 9 ดูวิธีหลีกเลี่ยงข้อจำกัดนี้) ในการสร้างข้อมูลสรุป 5 หลัก คุณสามารถใช้แพ็คเกจสถิติ R (รูปที่ 10; ดูความสามารถกราฟิก Basic R: แผนภาพกระจายสำหรับรายละเอียด; ถ้าคุณไม่คุ้นเคยกับ R คุณสามารถเริ่มต้นด้วย) ฟังก์ชัน boxplot() ใน R นอกเหนือจากตัวเลข 5 ตัว ยังสะท้อนถึงค่าผิดปกติ (เกี่ยวกับพวกเขาในภายหลัง)

ข้าว. 9. ประเภทของแผนภูมิหุ้นที่เป็นไปได้ใน Excel

ข้าว. 10. Boxplot ใน R; เพื่อสร้างกราฟดังกล่าว ก็เพียงพอที่จะรัน command boxplot (นับ ~ spray, data = InsectSprays) ข้อมูลที่เก็บไว้ในโปรแกรมจะถูกโหลดและกราฟที่นำเสนอจะถูกสร้างขึ้น

เมื่อสร้างไดอะแกรมกล่องและมัสสุ เราจะปฏิบัติตามโครงร่างง่ายๆ ดังต่อไปนี้:

  • "C-width" = ความแตกต่างระหว่างค่าของสองเท่า
  • "ขั้นตอน" - ค่าที่มากกว่าความกว้าง C หนึ่งเท่าครึ่ง
  • "สิ่งกีดขวางภายใน" อยู่นอกรอยพับที่ระยะหนึ่งก้าว
  • "อุปสรรคภายนอก" - จากภายนอกก้าวไกลกว่าภายในหนึ่งก้าว
  • ค่าระหว่างอุปสรรคด้านในและด้านนอกที่อยู่ติดกันจะเป็น "ภายนอก"
  • ค่าที่อยู่เบื้องหลังอุปสรรคภายนอกจะเรียกว่า "การตีกลับ" (หรือค่าผิดปกติ);
  • "range" = ความแตกต่างระหว่างค่าสุดขั้ว

ข้าว. 19. การคำนวณค่ามัธยฐานเคลื่อนที่: (ก) รายละเอียดของข้อมูลบางส่วน; (b) สำหรับตัวอย่างทั้งหมด

ข้าว. 20. เส้นโค้งเรียบ

บทที่ 10. การใช้การวิเคราะห์สองทาง

ถึงเวลาที่จะต้องพิจารณาการวิเคราะห์แบบสองทาง ทั้งเนื่องจากความสำคัญและเนื่องจากเป็นการแนะนำวิธีการวิจัยที่หลากหลาย ที่หัวใจของตารางสองปัจจัย (ตาราง "การตอบสนอง") คือ:

  • การตอบสนองประเภทหนึ่ง
  • สองปัจจัย - และแต่ละปัจจัยก็ปรากฏให้เห็นในการสังเกตแต่ละครั้ง

ตารางเศษเหลือสองปัจจัย การวิเคราะห์แถวบวกคอลัมน์ในรูป รูปที่ 21 แสดงอุณหภูมิเฉลี่ยรายเดือนสำหรับสถานที่สามแห่งในรัฐแอริโซนา

ข้าว. 21. อุณหภูมิเฉลี่ยรายเดือนในสามเมืองแอริโซนา °F

ลองหาค่ามัธยฐานสำหรับแต่ละสถานที่แล้วลบออกจากค่าแต่ละค่า (รูปที่ 22)

ข้าว. 22. ค่าประมาณ (ค่ามัธยฐาน) สำหรับแต่ละเมืองและค่าคงเหลือ

ทีนี้มาพิจารณาค่าประมาณ (ค่ามัธยฐาน) สำหรับแต่ละแถวแล้วลบออกจากค่าแถว (รูปที่ 23)

ข้าว. 23. ค่าประมาณ (ค่ามัธยฐาน) สำหรับแต่ละเดือนและค่าคงเหลือ

สำหรับรูปที่ 23 เราแนะนำแนวคิดของ "ผล" หมายเลข -24.7 คือเอฟเฟกต์คอลัมน์ และหมายเลข 19.1 คือเอฟเฟกต์แถว ผลกระทบแสดงให้เห็นว่าปัจจัยหรือชุดของปัจจัยแสดงออกอย่างไรในแต่ละค่าที่สังเกตได้ หากปัจจัยที่เกิดขึ้นใหม่มีขนาดใหญ่กว่าส่วนที่เหลือ ก็จะมองเห็นและเข้าใจสิ่งที่เกิดขึ้นกับข้อมูลได้ง่ายขึ้น ตัวเลขที่ถูกลบออกจากข้อมูลทั้งหมดโดยไม่มีข้อยกเว้น (ในที่นี้ 70.8) เรียกว่า "ผลรวม" เป็นการรวมตัวของปัจจัยทั้งหมดร่วมกับข้อมูลทั้งหมด ดังนั้น สำหรับปริมาณในรูปที่ 23 สูตรนี้ถูกต้อง:

นี่คือรูปแบบของการวิเคราะห์แถว-บวก-คอลัมน์คอนกรีต เรากลับไปที่เคล็ดลับเก่าของเราในการพยายามค้นหาคำอธิบายบางส่วนที่เรียบง่าย - คำอธิบายบางส่วนที่เข้าใจง่ายขึ้น - คำอธิบายบางส่วนที่การลบจะทำให้เรามองลึกลงไปถึงสิ่งที่ยังไม่ได้อธิบาย

เราเรียนรู้อะไรได้บ้างจากการวิเคราะห์แบบสองทางแบบเต็ม ส่วนที่เหลือที่ใหญ่ที่สุดคือ 1.9 มีขนาดเล็กเมื่อเทียบกับขนาดของการเปลี่ยนแปลงผลกระทบแบบจุดต่อจุดและแบบเดือนต่อเดือน แฟลกสตาฟนั้นเย็นกว่าฟีนิกซ์ประมาณ 25 องศาฟาเรนไฮต์ ในขณะที่ยูม่านั้นอุ่นกว่าฟีนิกซ์ประมาณ 5-6 องศาฟาเรนไฮต์ ลำดับของผลกระทบของเดือนต่างๆ จะลดลงอย่างจำเจในแต่ละเดือน อย่างช้าๆ ในตอนแรก จากนั้นอย่างรวดเร็ว จากนั้นค่อย ๆ อีกครั้ง ซึ่งคล้ายกับสมมาตรประมาณเดือนตุลาคม (ฉันสังเกตรูปแบบนี้ก่อนหน้านี้ในตัวอย่างความยาวของวัน ดู . - บันทึก. บากูซินา); เราถอดผ้าคลุมทั้งสองออก - เอฟเฟกต์ของฤดูกาลและเอฟเฟกต์ของสถานที่ หลังจากนั้นเราก็สามารถเห็นสิ่งต่าง ๆ มากมายที่ก่อนหน้านี้ไม่มีใครสังเกตเห็น

ในรูป 24 ได้รับ แผนภูมิสองปัจจัย. แม้ว่าสิ่งสำคัญในรูปนี้จะเป็นการประมาณ แต่เราไม่ควรละเลยสิ่งที่เหลืออยู่ ที่สี่จุด เราวาดเส้นแนวตั้งสั้นๆ ความยาวของเส้นประเหล่านี้เท่ากับค่าของสารตกค้างที่เกี่ยวข้องเพื่อให้พิกัดของปลายที่สองไม่ใช่ค่าประมาณ แต่

ข้อมูล = ค่าประมาณบวกส่วนที่เหลือ

ข้าว. 24. แผนภูมิสองปัจจัย

โปรดทราบว่าคุณสมบัติของแผนภูมิสองปัจจัยนี้หรืออื่นๆ คือ "มาตราส่วนในทิศทางเดียวเท่านั้น" ซึ่งกำหนดขนาดแนวตั้ง กล่าวคือ เส้นประแนวนอนที่ลากตามด้านข้างของภาพ และไม่มีขนาดใดๆ ในแนวนอน

สำหรับฟีเจอร์ของ Excel โปรดดูที่ เป็นเรื่องน่าแปลกที่สูตรบางสูตรที่ใช้ในบันทึกย่อนี้ตั้งชื่อตามทูกี

ในความคิดของฉันเกิดอะไรขึ้นต่อไปค่อนข้างซับซ้อน ...

การทำเหมืองข้อมูล Frolov Timofey BI-1102 การทำเหมืองข้อมูลเป็นกระบวนการของการสำรวจข้อมูลจำนวนมากในเชิงวิเคราะห์ (โดยปกติคือลักษณะทางเศรษฐกิจ) เพื่อระบุรูปแบบบางอย่างและความสัมพันธ์ที่เป็นระบบระหว่างตัวแปร ซึ่งสามารถนำไปใช้กับชุดข้อมูลใหม่ได้ กระบวนการนี้ประกอบด้วยสามขั้นตอนหลัก ได้แก่ การสำรวจ การสร้างแบบจำลองหรือโครงสร้าง และการทดสอบ ตามหลักการแล้ว หากมีข้อมูลเพียงพอ สามารถจัดระเบียบขั้นตอนการทำงานซ้ำเพื่อสร้างแบบจำลองที่แข็งแกร่งได้ ในขณะเดียวกัน ในสถานการณ์จริง แทบจะเป็นไปไม่ได้เลยที่จะทดสอบแบบจำลองทางเศรษฐศาสตร์ในขั้นตอนการวิเคราะห์ ดังนั้นผลลัพธ์เบื้องต้นจึงอยู่ในธรรมชาติของฮิวริสติกที่สามารถนำมาใช้ในกระบวนการตัดสินใจได้ (เช่น " ข้อมูลที่มีอยู่ระบุว่าในผู้หญิงความถี่ของการกินยานอนหลับจะเพิ่มขึ้นตามอายุที่เร็วกว่าผู้ชาย วิธีการขุดข้อมูลกำลังเป็นที่นิยมมากขึ้นในฐานะเครื่องมือในการวิเคราะห์ข้อมูลทางเศรษฐกิจ โดยเฉพาะอย่างยิ่งในกรณีที่สันนิษฐานว่าความรู้สามารถดึงมาจากข้อมูลที่มีอยู่เพื่อการตัดสินใจภายใต้ความไม่แน่นอน แม้ว่าเมื่อเร็ว ๆ นี้ความสนใจได้เพิ่มขึ้นในการพัฒนาวิธีการวิเคราะห์ข้อมูลใหม่ที่ออกแบบมาโดยเฉพาะสำหรับภาคธุรกิจ (เช่น แผนผังการจำแนกประเภท) โดยทั่วไปแล้ว ระบบ Data Mining ยังคงใช้หลักการคลาสสิกของ Exploratory Data Analysis (EDA) และการสร้างแบบจำลอง และใช้แนวทางและวิธีการเดียวกัน อย่างไรก็ตาม มีความแตกต่างที่สำคัญระหว่างขั้นตอนการทำเหมืองข้อมูลและการวิเคราะห์ข้อมูลเชิงสำรวจแบบคลาสสิก (RAD): ระบบการทำเหมืองข้อมูลจะเน้นไปที่การนำผลลัพธ์ที่ได้รับไปปฏิบัติจริงมากกว่าการอธิบายลักษณะของปรากฏการณ์ให้กระจ่าง กล่าวอีกนัยหนึ่ง การทำเหมืองข้อมูล เราไม่สนใจประเภทการพึ่งพาเฉพาะระหว่างตัวแปรงานมากนัก การอธิบายลักษณะของฟังก์ชันที่เกี่ยวข้องที่นี่หรือรูปแบบเฉพาะของการพึ่งพาหลายตัวแปรแบบโต้ตอบระหว่างตัวแปรไม่ใช่เป้าหมายหลักของขั้นตอนนี้ ความสนใจหลักคือการหาแนวทางแก้ไขบนพื้นฐานของความเป็นไปได้ที่จะสร้างการคาดการณ์ที่เชื่อถือได้ ดังนั้นในด้าน Data Mining จึงมีการนำแนวทางดังกล่าวมาใช้ในการวิเคราะห์ข้อมูลและการดึงความรู้ ซึ่งบางครั้งมีคำว่า "กล่องดำ" มีลักษณะเฉพาะ ในกรณีนี้ ไม่เพียงแต่ใช้วิธีดั้งเดิมของการวิเคราะห์ข้อมูลเชิงสำรวจเท่านั้น แต่ยังรวมถึงวิธีการต่างๆ เช่น โครงข่ายประสาทเทียม ที่ช่วยให้คุณสร้างการคาดการณ์ที่เชื่อถือได้โดยไม่ต้องระบุประเภทเฉพาะของการขึ้นต่อกันเหล่านั้นซึ่งใช้การคาดการณ์ดังกล่าว บ่อยครั้งที่ Data Mining ถูกตีความว่าเป็น "ส่วนผสมของสถิติ วิธีปัญญาประดิษฐ์ (AI) และการวิเคราะห์ฐานข้อมูล" (Pregibon, 1997, p. 8) และจนกระทั่งเมื่อไม่นานมานี้ยังไม่ได้รับการยอมรับว่าเป็นพื้นที่ที่เต็มเปี่ยมของ ​​ความสนใจสำหรับนักสถิติและบางครั้งเรียกว่า "สนามหลังบ้านของสถิติ" (Pregibon, 1997, p. 8) อย่างไรก็ตาม เนื่องจากความสำคัญในทางปฏิบัติอย่างมาก ปัญหานี้จึงกำลังได้รับการพัฒนาอย่างเข้มข้นและดึงดูดความสนใจอย่างมาก (รวมถึงในด้านสถิติด้วย) และบรรลุผลทางทฤษฎีที่สำคัญในนั้น (ดู ตัวอย่าง เอกสารการประชุมนานาชาติประจำปีเรื่อง การค้นหาความรู้และการขุดข้อมูล (การประชุมระหว่างประเทศเกี่ยวกับการค้นพบความรู้และการขุดข้อมูล) หนึ่งในผู้จัดงานซึ่งในปี 1997 เป็นสมาคมสถิติแห่งอเมริกา คลังข้อมูลเป็นสถานที่จัดเก็บชุดข้อมูลหลายมิติขนาดใหญ่ ซึ่งทำให้ง่ายต่อการดึงและใช้ข้อมูลในขั้นตอนการวิเคราะห์ สถาปัตยกรรมคลังข้อมูลที่มีประสิทธิภาพควรจัดในลักษณะที่จะเป็นส่วนสำคัญของ ระบบข้อมูล การจัดการองค์กร (หรืออย่างน้อยก็เชื่อมต่อกับข้อมูลที่มีอยู่ทั้งหมด) ในกรณีนี้ จำเป็นต้องใช้เทคโนโลยีพิเศษในการทำงานกับฐานข้อมูลขององค์กร (เช่น Oracle, Sybase, MS SQL Server) เทคโนโลยีคลังข้อมูลประสิทธิภาพสูงที่ช่วยให้ผู้ใช้สามารถจัดระเบียบและใช้ฐานข้อมูลขององค์กรที่มีความซับซ้อนเกือบไม่จำกัด ได้รับการพัฒนาโดยระบบระดับองค์กร StatSoft และเรียกว่า SENS และ SEWSS คำว่า OLAP (หรือ FASMI - การวิเคราะห์อย่างรวดเร็วของข้อมูลหลายมิติแบบกระจาย) หมายถึงเทคนิคที่ช่วยให้ผู้ใช้ฐานข้อมูลหลายมิติแบบเรียลไทม์สร้างข้อมูลสรุปเชิงพรรณนาและเปรียบเทียบ ("มุมมอง") ของข้อมูลและรับคำตอบสำหรับคำถามเชิงวิเคราะห์อื่นๆ โปรดทราบว่าแม้จะมีชื่อ วิธีการนี้ไม่เกี่ยวข้องกับการประมวลผลข้อมูลแบบโต้ตอบ (เรียลไทม์) มันหมายถึงกระบวนการของการแยกวิเคราะห์ฐานข้อมูลหลายมิติ (ซึ่งโดยเฉพาะอย่างยิ่ง อาจมีข้อมูลที่อัปเดตแบบไดนามิก) โดยการรวบรวมแบบสอบถาม "หลายมิติ" ที่มีประสิทธิภาพในข้อมูลประเภทต่างๆ เครื่องมือ OLAP สามารถฝังลงในระบบฐานข้อมูลขององค์กร (ทั่วทั้งองค์กร) และอนุญาตให้นักวิเคราะห์และผู้จัดการติดตามความคืบหน้าและประสิทธิภาพของธุรกิจหรือตลาดโดยรวม (เช่น แง่มุมต่างๆ ของกระบวนการผลิตหรือจำนวนและหมวดหมู่ของ ธุรกรรมที่เสร็จสมบูรณ์ตามภูมิภาคต่างๆ) การวิเคราะห์ที่ดำเนินการโดยวิธี OLAP สามารถมีตั้งแต่แบบธรรมดา (เช่น ตารางความถี่ สถิติเชิงพรรณนา ตารางอย่างง่าย) ไปจนถึงค่อนข้างซับซ้อน (เช่น อาจรวมถึงการปรับตามฤดูกาล การลบค่าผิดปกติ และการล้างข้อมูลอื่นๆ) แม้ว่าวิธีการ Data Mining สามารถนำไปใช้กับข้อมูลใดๆ ก็ตาม ที่ยังไม่ได้ประมวลผลก่อนหน้านี้ หรือแม้แต่ข้อมูลที่ไม่มีโครงสร้าง แต่ก็สามารถใช้เพื่อวิเคราะห์ข้อมูลและรายงานที่ได้รับจากเครื่องมือ OLAP เพื่อวัตถุประสงค์ในการวิจัยเชิงลึกมากขึ้น ซึ่งมักจะอยู่ในมิติที่สูงกว่า ในแง่นี้ วิธีการทำเหมืองข้อมูลอาจถูกมองว่าเป็นวิธีการวิเคราะห์ทางเลือก (ให้บริการเพื่อวัตถุประสงค์อื่นนอกเหนือจาก OLAP) หรือเป็นส่วนขยายเชิงวิเคราะห์ของระบบ OLAP การทดสอบ RAD และสมมติฐาน ซึ่งแตกต่างจากการทดสอบสมมติฐานแบบดั้งเดิม ซึ่งออกแบบมาเพื่อทดสอบสมมติฐานเบื้องต้นเกี่ยวกับความสัมพันธ์ระหว่างตัวแปร (เช่น "มีความสัมพันธ์เชิงบวกระหว่างอายุของบุคคลกับการหลีกเลี่ยงความเสี่ยงของเขา/เธอ") การวิเคราะห์ข้อมูลเชิงสำรวจ (EPA) คือ ใช้เพื่อค้นหาความสัมพันธ์ระหว่างตัวแปรในสถานการณ์ที่ไม่มี (หรือไม่เพียงพอ) แนวคิดเบื้องต้นเกี่ยวกับธรรมชาติของความสัมพันธ์เหล่านี้ ตามกฎแล้ว การวิเคราะห์เชิงสำรวจจะพิจารณาและเปรียบเทียบตัวแปรจำนวนมาก และใช้วิธีการที่หลากหลายเพื่อค้นหารูปแบบ วิธีคำนวณของ RAD วิธีคำนวณของการวิเคราะห์ข้อมูลเชิงสำรวจประกอบด้วยวิธีทางสถิติพื้นฐาน เช่นเดียวกับวิธีการวิเคราะห์หลายตัวแปรที่ซับซ้อนและพัฒนาขึ้นเป็นพิเศษ ซึ่งออกแบบมาเพื่อค้นหารูปแบบในข้อมูลหลายตัวแปร วิธีพื้นฐานของการวิเคราะห์เชิงสถิติเชิงสำรวจ วิธีหลักในการวิเคราะห์ทางสถิติเชิงสำรวจประกอบด้วยขั้นตอนการวิเคราะห์การแจกแจงของตัวแปร (เช่น การระบุตัวแปรที่มีการแจกแจงแบบอสมมาตรหรือไม่ใช่แบบเกาส์เซียน รวมถึงแบบไบโมดอล) การดูเมทริกซ์สหสัมพันธ์เพื่อค้นหาค่าสัมประสิทธิ์ที่เกินค่าเกณฑ์ที่กำหนด ​​(ดูตัวอย่างก่อนหน้านี้) หรือการวิเคราะห์ตารางความถี่อินพุตแบบหลายช่อง (เช่น การดูชุดค่าผสมของระดับของตัวแปรควบคุมตามลำดับ "ชั้น") วิธีการวิเคราะห์เชิงสำรวจหลายมิติ วิธีการวิเคราะห์เชิงสำรวจหลายตัวแปรได้รับการออกแบบมาโดยเฉพาะเพื่อค้นหารูปแบบในข้อมูลหลายตัวแปร (หรือลำดับของข้อมูลที่ไม่แปรผัน) ซึ่งรวมถึง: การวิเคราะห์คลัสเตอร์การวิเคราะห์ปัจจัย การวิเคราะห์ฟังก์ชันลิสครีมิแนนต์ การสเกลหลายตัวแปร การวิเคราะห์ล็อก-เชิงเส้น สหสัมพันธ์ตามบัญญัติ การถดถอยเชิงเส้นแบบเป็นขั้นตอนและไม่เชิงเส้น (เช่น ลอจิท) การวิเคราะห์การโต้ตอบ การวิเคราะห์อนุกรมเวลา โครงข่ายประสาทเทียม วิธีการวิเคราะห์ระดับนี้ขึ้นอยู่กับแนวคิดในการทำซ้ำกระบวนการเรียนรู้ของสิ่งมีชีวิตที่คิด (ตามที่ปรากฏต่อนักวิจัย) และหน้าที่ของเซลล์ประสาท โครงข่ายประสาทเทียมสามารถทำนายค่าในอนาคตของตัวแปรจากค่าที่มีอยู่แล้วของตัวแปรเดียวกันหรือตัวแปรอื่น โดยก่อนหน้านี้ได้ดำเนินการตามกระบวนการเรียนรู้ที่เรียกว่าตามข้อมูลที่มีอยู่ การตรวจสอบข้อมูลเบื้องต้นเป็นเพียงขั้นตอนแรกในกระบวนการวิเคราะห์ข้อมูลเท่านั้น และจนกว่าผลลัพธ์จะได้รับการยืนยัน (โดยวิธี cross-validation) ในส่วนย่อยอื่นของฐานข้อมูลหรือชุดข้อมูลอิสระ สามารถตรวจสอบได้ที่ ส่วนใหญ่เป็นสมมติฐาน หากผลการวิเคราะห์เชิงสำรวจสนับสนุนแบบจำลอง ก็สามารถทดสอบความถูกต้องได้โดยนำไปใช้กับข้อมูลใหม่และกำหนดระดับความสอดคล้องของแบบจำลองกับข้อมูล (การทดสอบ "การคาดเดา") หากต้องการเลือกชุดย่อยของข้อมูลอย่างรวดเร็ว (เช่น สำหรับการทำความสะอาด การตรวจสอบยืนยัน ฯลฯ) และประเมินความน่าเชื่อถือของผลลัพธ์ จะสะดวกที่จะใช้เงื่อนไขในการเลือกข้อสังเกต

แนวคิดของ "การทำเหมืองข้อมูล" ถูกกำหนดให้เป็นกระบวนการของการสำรวจเชิงวิเคราะห์ของข้อมูลจำนวนมาก (โดยปกติคือลักษณะทางเศรษฐกิจ) เพื่อระบุรูปแบบบางอย่างและความสัมพันธ์ที่เป็นระบบระหว่างตัวแปร ซึ่งสามารถนำไปใช้กับชุดข้อมูลใหม่ได้ กระบวนการนี้ประกอบด้วยสามขั้นตอนหลัก ได้แก่ การสำรวจ การสร้างแบบจำลองหรือโครงสร้าง และการทดสอบ ตามหลักการแล้ว หากมีข้อมูลเพียงพอ สามารถจัดระเบียบขั้นตอนการทำงานซ้ำเพื่อสร้างแบบจำลองที่เสถียร (แข็งแกร่ง) ได้ ในขณะเดียวกัน ในสถานการณ์จริง แทบจะเป็นไปไม่ได้เลยที่จะทดสอบแบบจำลองทางเศรษฐศาสตร์ในขั้นตอนการวิเคราะห์ ดังนั้นผลลัพธ์เบื้องต้นจึงอยู่ในธรรมชาติของฮิวริสติกที่สามารถนำมาใช้ในกระบวนการตัดสินใจได้ (เช่น หลักฐานที่มีอยู่แสดงให้เห็นว่าในผู้หญิง ความถี่ของการกินยานอนหลับจะเพิ่มขึ้นตามอายุที่เร็วกว่าผู้ชาย

เทคนิคการทำเหมืองข้อมูลกำลังเป็นที่นิยมมากขึ้นในฐานะเครื่องมือในการวิเคราะห์ข้อมูลทางเศรษฐกิจ โดยเฉพาะอย่างยิ่งเมื่อคาดว่าความรู้จะสามารถดึงออกมาจากข้อมูลที่มีอยู่เพื่อการตัดสินใจภายใต้ความไม่แน่นอน แม้ว่าจะมีการเพิ่มความสนใจในการพัฒนาวิธีการวิเคราะห์ข้อมูลใหม่ๆ โดยเฉพาะสำหรับธุรกิจโดยเฉพาะ (เช่น ต้นไม้จำแนก) โดยทั่วไปแล้ว ระบบการทำเหมืองข้อมูลยังคงใช้หลักการดั้งเดิม การวิเคราะห์ข้อมูลเชิงสำรวจ(RAD) และการสร้างแบบจำลองและใช้แนวทางและวิธีการเดียวกัน

อย่างไรก็ตาม มีความแตกต่างที่สำคัญระหว่างขั้นตอนการทำเหมืองข้อมูลและการวิเคราะห์ข้อมูลเชิงสำรวจแบบคลาสสิก (EDA): ระบบการทำเหมืองข้อมูลจะเน้นไปที่การนำผลลัพธ์ที่ได้รับไปปฏิบัติจริงมากกว่าการชี้แจงลักษณะของปรากฏการณ์ กล่าวอีกนัยหนึ่ง เมื่อทำการขุดข้อมูล เราไม่สนใจประเภทการพึ่งพาเฉพาะระหว่างตัวแปรงานมากนัก การอธิบายลักษณะของฟังก์ชันที่เกี่ยวข้องที่นี่หรือรูปแบบเฉพาะของการพึ่งพาหลายตัวแปรแบบโต้ตอบระหว่างตัวแปรไม่ใช่เป้าหมายหลักของขั้นตอนนี้ ความสนใจหลักคือการหาแนวทางแก้ไขบนพื้นฐานของความเป็นไปได้ที่จะสร้างการคาดการณ์ที่เชื่อถือได้ ดังนั้น ในด้านการทำเหมืองข้อมูล จึงมีการนำวิธีการวิเคราะห์ข้อมูลและการดึงความรู้มาใช้ ซึ่งบางครั้งมีคำว่า "กล่องดำ" มีลักษณะเฉพาะ ในกรณีนี้ ไม่เพียงแต่ใช้วิธีดั้งเดิมของการวิเคราะห์ข้อมูลเชิงสำรวจเท่านั้น แต่ยังรวมถึงวิธีการต่างๆ เช่น โครงข่ายประสาทเทียม ที่ช่วยให้คุณสร้างการคาดการณ์ที่เชื่อถือได้โดยไม่ต้องระบุประเภทเฉพาะของการขึ้นต่อกันเหล่านั้นซึ่งใช้การคาดการณ์ดังกล่าว

บ่อยครั้งที่การทำเหมืองข้อมูลถูกตีความว่าเป็น "ส่วนผสมของสถิติวิธีการปัญญาประดิษฐ์ (AI) และการวิเคราะห์ฐานข้อมูล" (Pregibon, 1997, p. 8) และจนกระทั่งเมื่อไม่นานมานี้ไม่ได้รับการยอมรับว่าเป็นพื้นที่ที่น่าสนใจ สำหรับนักสถิติและบางครั้งเรียกว่า "สนามหลังบ้านของสถิติ" (Pregibon, 1997, p. 8) อย่างไรก็ตาม เนื่องจากความสำคัญในทางปฏิบัติอย่างมาก ปัญหานี้จึงกำลังได้รับการพัฒนาอย่างเข้มข้นและดึงดูดความสนใจอย่างมาก (รวมถึงในด้านสถิติด้วย) และได้บรรลุผลทางทฤษฎีที่สำคัญในประเด็นนี้

การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA)

ต่างจากการทดสอบสมมติฐานแบบดั้งเดิม ซึ่งออกแบบมาเพื่อทดสอบสมมติฐานก่อนหน้าเกี่ยวกับความสัมพันธ์ระหว่างตัวแปร (เช่น "มีความสัมพันธ์เชิงบวกระหว่างอายุของแต่ละบุคคลกับการหลีกเลี่ยงความเสี่ยงของเขา/เธอ") การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) ถูกใช้เพื่อค้นหาความสัมพันธ์ระหว่าง ตัวแปรในสถานการณ์ที่ไม่มี (หรือไม่เพียงพอ) แนวคิดเบื้องต้นเกี่ยวกับธรรมชาติของการเชื่อมต่อเหล่านี้ ตามกฎแล้ว การวิเคราะห์เชิงสำรวจจะพิจารณาและเปรียบเทียบตัวแปรจำนวนมาก และใช้วิธีการที่หลากหลายเพื่อค้นหารูปแบบ

วิธีการวิเคราะห์เชิงสำรวจหลายตัวแปรได้รับการออกแบบมาโดยเฉพาะเพื่อค้นหารูปแบบในข้อมูลหลายตัวแปร (หรือลำดับของข้อมูลที่ไม่แปรผัน) เหล่านี้รวมถึง: การวิเคราะห์คลัสเตอร์ การวิเคราะห์ปัจจัย การวิเคราะห์ฟังก์ชันจำแนก สเกลพหุตัวแปร การวิเคราะห์ล็อกเชิงเส้น สหสัมพันธ์ตามบัญญัติ การถดถอยเชิงเส้นและไม่เชิงเส้น (เช่น ลอจิท) การวิเคราะห์การโต้ตอบ การวิเคราะห์อนุกรมเวลา และแผนผังการจำแนกประเภท

การวิเคราะห์คลัสเตอร์

คำว่าคลัสเตอร์วิเคราะห์ (เปิดตัวครั้งแรกโดย Tryon, 1939) จริงๆ แล้วมีชุดของอัลกอริธึมการจำแนกประเภทที่แตกต่างกัน คำถามทั่วไปที่ถูกถามโดยนักวิจัยในหลายสาขาว่า จะจัดระเบียบข้อมูลที่สังเกตได้เป็นโครงสร้างภาพอย่างไร เช่น ขยายอนุกรมวิธาน ตัวอย่างเช่น นักชีววิทยาตั้งเป้าที่จะแบ่งสัตว์ออกเป็นสายพันธุ์ต่างๆ เพื่ออธิบายความแตกต่างระหว่างสัตว์ทั้งสองอย่างมีความหมาย ตามระบบสมัยใหม่ที่ยอมรับในชีววิทยา มนุษย์เป็นของไพรเมต สัตว์เลี้ยงลูกด้วยนม สัตว์น้ำคร่ำ สัตว์มีกระดูกสันหลัง และสัตว์ต่างๆ โปรดทราบว่าในการจัดหมวดหมู่นี้ ยิ่งระดับการรวมสูงเท่าใด ความคล้ายคลึงกันระหว่างสมาชิกในชั้นเรียนที่เกี่ยวข้องก็จะยิ่งน้อยลง มนุษย์มีความคล้ายคลึงกันกับไพรเมตอื่นๆ (เช่น ลิง) มากกว่าสัตว์เลี้ยงลูกด้วยนมที่ "อยู่ห่างไกล" (เช่น สุนัข) และอื่นๆ

เทคนิคการจัดกลุ่มใช้ในหลากหลายสาขา Hartigan (1975) ได้ให้ภาพรวมที่ดีเยี่ยมของการศึกษาที่ตีพิมพ์จำนวนมากซึ่งมีผลลัพธ์ที่ได้จากวิธีการวิเคราะห์แบบคลัสเตอร์ ตัวอย่างเช่น ในสาขาการแพทย์ การรวมกลุ่มของโรค การรักษาโรค หรืออาการของโรคนำไปสู่อนุกรมวิธานที่ใช้กันอย่างแพร่หลาย ในสาขาจิตเวช การวินิจฉัยกลุ่มอาการที่ถูกต้อง เช่น ความหวาดระแวง โรคจิตเภท ฯลฯ มีความสำคัญอย่างยิ่งต่อการรักษาที่ประสบความสำเร็จ ในโบราณคดีโดยใช้การวิเคราะห์แบบกลุ่ม นักวิจัยพยายามสร้างอนุกรมวิธานของเครื่องมือหิน วัตถุงานศพ ฯลฯ มีการใช้การวิเคราะห์คลัสเตอร์ในการวิจัยการตลาดอย่างกว้างขวาง โดยทั่วไป เมื่อใดก็ตามที่จำเป็นต้องจำแนก "ภูเขา" ของข้อมูลออกเป็นกลุ่มที่เหมาะสมสำหรับการประมวลผลต่อไป การวิเคราะห์คลัสเตอร์จะมีประโยชน์และมีประสิทธิภาพมาก

วิธีทั่วไปของการวิเคราะห์คลัสเตอร์:

    ยูเนี่ยน (การจัดกลุ่มต้นไม้),

    สหภาพสองทาง

    K หมายถึงวิธีการ

ส่วนประกอบหลักและการวิเคราะห์ปัจจัย

เป้าหมายหลักของการวิเคราะห์ปัจจัยคือ:

    การลดจำนวนตัวแปร (การลดข้อมูล)

    การกำหนดโครงสร้างความสัมพันธ์ระหว่างตัวแปรเช่น การจำแนกประเภทของตัวแปร

ดังนั้น การวิเคราะห์ปัจจัยจึงถูกใช้เป็นวิธีการลดข้อมูลหรือวิธีการจำแนกประเภท

การวิเคราะห์ปัจจัยเป็นวิธีการลดข้อมูล

สมมติว่าคุณกำลังศึกษา (ค่อนข้าง "งี่เง่า") ซึ่งคุณวัดส่วนสูงของคนร้อยคนเป็นนิ้วและเซนติเมตร ดังนั้น คุณมีตัวแปรสองตัว หากคุณต้องการตรวจสอบเพิ่มเติม เช่น ผลของอาหารเสริมต่างๆ ที่มีต่อความสูง คุณจะยังคงใช้ตัวแปรทั้งสองต่อไปหรือไม่ คงไม่ใช่เพราะ ความสูงเป็นคุณลักษณะหนึ่งของบุคคลโดยไม่คำนึงถึงหน่วยที่วัด

สมมติว่าคุณต้องการวัดความพึงพอใจในชีวิตของผู้คน ซึ่งคุณรวบรวมแบบสอบถามที่มีรายการต่างๆ ท่ามกลางคำถามอื่นๆ คุณถามคำถามต่อไปนี้: ผู้คนพอใจกับงานอดิเรกของตนหรือไม่ (จุดที่ 1) และพวกเขามีส่วนร่วมกับงานอดิเรกนั้นมากเพียงใด (จุดที่ 2) ผลลัพธ์จะถูกแปลงเพื่อให้คำตอบโดยเฉลี่ย (เช่น สำหรับความพึงพอใจ) มีค่าเท่ากับ 100 ในขณะที่คำตอบที่ต่ำกว่าและสูงกว่าค่าเฉลี่ยจะมีขนาดเล็กลงและ คุณค่าที่ยิ่งใหญ่ตามลำดับ ตัวแปร 2 ตัว (การตอบสนองต่อสองรายการที่แตกต่างกัน) มีความสัมพันธ์ซึ่งกันและกัน จากความสัมพันธ์ในระดับสูงของตัวแปรทั้งสองนี้ เราสามารถสรุปได้ว่าสองรายการของแบบสอบถามมีความซ้ำซ้อน

การวิเคราะห์อนุกรมเวลา

ให้ก่อนเลย รีวิวสั้นๆวิธีการวิเคราะห์ข้อมูลที่นำเสนอในรูปแบบของอนุกรมเวลาเช่น ในรูปแบบของลำดับของการวัดที่สั่ง ณ จุดเวลาที่ไม่สุ่ม แตกต่างจากการวิเคราะห์ตัวอย่างแบบสุ่ม การวิเคราะห์อนุกรมเวลาขึ้นอยู่กับสมมติฐานที่ว่าค่าที่ต่อเนื่องกันในไฟล์ข้อมูลจะถูกสังเกตเป็นระยะอย่างสม่ำเสมอ (ในขณะที่วิธีอื่นๆ เราไม่สนใจและมักจะไม่สนใจเกี่ยวกับระยะเวลาของการสังเกต)

มีสองเป้าหมายหลักของการวิเคราะห์อนุกรมเวลา:

    การกำหนดลักษณะของซีรีส์

    การพยากรณ์ (การทำนายค่าในอนาคตของอนุกรมเวลาตามค่าปัจจุบันและในอดีต)

เป้าหมายทั้งสองนี้ต้องการให้ระบุแบบจำลองอนุกรมและอธิบายอย่างเป็นทางการไม่มากก็น้อย เมื่อกำหนดรูปแบบแล้ว คุณสามารถใช้แบบจำลองดังกล่าวเพื่อตีความข้อมูลที่เป็นปัญหาได้ (เช่น ใช้ในทฤษฎีของคุณเพื่อทำความเข้าใจการเปลี่ยนแปลงตามฤดูกาลของราคาสินค้าโภคภัณฑ์ หากคุณเป็นนักศึกษาเศรษฐศาสตร์) ละเว้นความลึกของความเข้าใจและความถูกต้องของทฤษฎี จากนั้นคุณสามารถอนุมานชุดข้อมูลตามแบบจำลองที่พบ กล่าวคือ ทำนายค่าในอนาคตของมัน

เช่นเดียวกับการวิเคราะห์ประเภทอื่นๆ ส่วนใหญ่ การวิเคราะห์อนุกรมเวลาถือว่าข้อมูลประกอบด้วยองค์ประกอบที่เป็นระบบ (มักจะรวมถึงส่วนประกอบหลายอย่าง) และสัญญาณรบกวนแบบสุ่ม (ข้อผิดพลาด) ซึ่งทำให้ยากต่อการตรวจจับส่วนประกอบปกติ วิธีการวิจัยอนุกรมเวลาส่วนใหญ่ประกอบด้วยวิธีการกรองสัญญาณรบกวนแบบต่างๆ ที่ช่วยให้คุณมองเห็นส่วนประกอบปกติได้ชัดเจนยิ่งขึ้น

องค์ประกอบปกติของอนุกรมเวลาส่วนใหญ่อยู่ในสองประเภท: เป็นองค์ประกอบแนวโน้มหรือองค์ประกอบตามฤดูกาล เทรนด์คือองค์ประกอบเชิงเส้นตรงหรือไม่เป็นเชิงเส้นที่เป็นระบบโดยรวม ซึ่งสามารถเปลี่ยนแปลงได้เมื่อเวลาผ่านไป องค์ประกอบตามฤดูกาลเป็นองค์ประกอบที่เกิดซ้ำเป็นระยะ ส่วนประกอบปกติทั้งสองประเภทนี้มักมีอยู่ในชุดข้อมูลพร้อมกัน ตัวอย่างเช่น ยอดขายของบริษัทอาจเพิ่มขึ้นทุกปี แต่ก็มีองค์ประกอบตามฤดูกาลด้วย (โดยทั่วไป 25% ของยอดขายประจำปีเกิดขึ้นในเดือนธันวาคมและมีเพียง 4% ในเดือนสิงหาคม)

บรรยาย 8ระบบความรู้ ระบบผู้เชี่ยวชาญ

การแต่งตั้งระบบผู้เชี่ยวชาญ

ในช่วงต้นทศวรรษ 1980 มีการสร้างทิศทางอิสระในการวิจัยปัญญาประดิษฐ์ที่เรียกว่า "ระบบผู้เชี่ยวชาญ" (ES) เป้าหมายของการวิจัยเกี่ยวกับ ES คือการพัฒนาโปรแกรมที่เมื่อแก้ปัญหาที่ยากสำหรับผู้เชี่ยวชาญที่เป็นมนุษย์ ได้ผลลัพธ์ที่ไม่ด้อยกว่าในด้านคุณภาพและประสิทธิภาพต่อการแก้ปัญหาที่ได้รับจากผู้เชี่ยวชาญ นักวิจัยในสาขา ES สำหรับชื่อสาขาวิชาของตนมักใช้คำว่า "วิศวกรรมความรู้" ซึ่งแนะนำโดย E. Feigenbaum ว่าเป็น "การนำหลักการและเครื่องมือในการวิจัยจากสาขาปัญญาประดิษฐ์มาแก้ปัญหาที่ยากซึ่งต้องใช้ผู้เชี่ยวชาญ ความรู้."

เครื่องมือซอฟต์แวร์ (PS) ที่ใช้เทคโนโลยีของระบบผู้เชี่ยวชาญหรือวิศวกรรมความรู้ (เราจะใช้เป็นคำพ้องความหมายในอนาคต) ได้แพร่หลายไปทั่วโลก ความสำคัญของระบบผู้เชี่ยวชาญมีดังนี้:

เทคโนโลยีระบบผู้เชี่ยวชาญช่วยขยายขอบเขตของงานที่สำคัญในทางปฏิบัติที่แก้ไขบนคอมพิวเตอร์ได้อย่างมาก ซึ่งโซลูชันดังกล่าวจะนำมาซึ่งผลกระทบทางเศรษฐกิจที่สำคัญ

เทคโนโลยี ES เป็นเครื่องมือที่สำคัญที่สุดในการแก้ปัญหาทั่วโลกของการเขียนโปรแกรมแบบดั้งเดิม: ระยะเวลาและด้วยเหตุนี้ ค่าใช้จ่ายสูงในการพัฒนาแอปพลิเคชันที่ซับซ้อน

ค่าใช้จ่ายในการบำรุงรักษาระบบที่ซับซ้อนซึ่งมักจะเกินต้นทุนในการพัฒนาหลายครั้ง ความสามารถในการใช้ซ้ำของโปรแกรมในระดับต่ำ ฯลฯ

การรวมเทคโนโลยี ES เข้ากับเทคโนโลยีการเขียนโปรแกรมแบบดั้งเดิมช่วยเพิ่มคุณสมบัติใหม่ให้กับผลิตภัณฑ์ซอฟต์แวร์เนื่องจาก: การปรับเปลี่ยนแอปพลิเคชันแบบไดนามิกโดยผู้ใช้ ไม่ใช่โดยโปรแกรมเมอร์ "ความโปร่งใส" ของแอปพลิเคชันมากขึ้น (เช่น ความรู้ถูกเก็บไว้ใน NL ที่จำกัด ซึ่งไม่ต้องการความคิดเห็นเกี่ยวกับความรู้ ทำให้การฝึกอบรมและการบำรุงรักษาง่ายขึ้น) กราฟิกที่ดีขึ้น; อินเทอร์เฟซและปฏิสัมพันธ์

ตามที่ผู้เชี่ยวชาญชั้นนำกล่าว ในอนาคตอันใกล้ ES จะพบแอปพลิเคชันต่อไปนี้:

EC จะมีบทบาทสำคัญในทุกขั้นตอนของการออกแบบ การพัฒนา การผลิต การจัดจำหน่าย การขาย การสนับสนุน และการให้บริการ

เทคโนโลยี ES ซึ่งได้รับการจำหน่ายในเชิงพาณิชย์แล้ว จะทำให้เกิดการปฏิวัติครั้งสำคัญในการรวมแอปพลิเคชันจากโมดูลโต้ตอบอัจฉริยะสำเร็จรูป

ES ได้รับการออกแบบมาสำหรับงานที่เรียกว่าไม่เป็นทางการ เช่น ECs ไม่ปฏิเสธหรือแทนที่แนวทางดั้งเดิมในการพัฒนาโปรแกรมที่เน้นการแก้ปัญหาที่เป็นทางการ

งานที่ไม่เป็นทางการมักมีคุณสมบัติดังต่อไปนี้:

ความเข้าใจผิด ความคลุมเครือ ความไม่สมบูรณ์ และความไม่สอดคล้องกันของข้อมูลต้นทาง

ความเข้าใจผิด ความคลุมเครือ ความไม่สมบูรณ์ และความไม่สอดคล้องกันของความรู้เกี่ยวกับประเด็นปัญหาและปัญหาที่กำลังแก้ไข

พื้นที่โซลูชันขนาดใหญ่เช่น การค้นหาวิธีแก้ปัญหานั้นใหญ่มาก

ข้อมูลและความรู้ที่เปลี่ยนแปลงแบบไดนามิก

ควรเน้นว่าปัญหาที่ไม่ได้จัดรูปแบบเป็นปัญหาที่ใหญ่และสำคัญมาก ผู้เชี่ยวชาญหลายคนเชื่อว่าปัญหาเหล่านี้เป็นปัญหาที่แพร่หลายที่สุดที่คอมพิวเตอร์แก้ไขได้

ระบบผู้เชี่ยวชาญและระบบปัญญาประดิษฐ์ต่างจากระบบประมวลผลข้อมูลตรงที่ส่วนใหญ่ใช้การแสดงสัญลักษณ์ (แทนที่จะเป็นตัวเลข) การอนุมานเชิงสัญลักษณ์ และการค้นหาวิธีแก้ปัญหาแบบฮิวริสติก (แทนที่จะใช้อัลกอริธึมที่รู้จัก)

ระบบผู้เชี่ยวชาญใช้เพื่อแก้ปัญหาเชิงปฏิบัติที่ยากเท่านั้น (ไม่ใช่ของเล่น) ในแง่ของคุณภาพและประสิทธิภาพของโซลูชัน ระบบผู้เชี่ยวชาญไม่ได้ด้อยกว่าโซลูชันของผู้เชี่ยวชาญที่เป็นมนุษย์ โซลูชันระบบผู้เชี่ยวชาญมี "ความโปร่งใส" กล่าวคือ สามารถอธิบายให้ผู้ใช้ทราบได้ในระดับคุณภาพ คุณภาพของระบบผู้เชี่ยวชาญนี้มั่นใจได้ด้วยความสามารถในการให้เหตุผลเกี่ยวกับความรู้และข้อสรุป ระบบผู้เชี่ยวชาญสามารถเติมเต็มความรู้ของพวกเขาในระหว่างการโต้ตอบกับผู้เชี่ยวชาญ ควรสังเกตว่าในปัจจุบันเทคโนโลยีของระบบผู้เชี่ยวชาญถูกนำมาใช้ในการแก้ปัญหาประเภทต่างๆ (การตีความ การทำนาย การวินิจฉัย การวางแผน การออกแบบ การควบคุม การแก้จุดบกพร่อง การสอน การจัดการ) ในด้านปัญหาที่หลากหลาย เช่น การเงิน , อุตสาหกรรมน้ำมันและก๊าซ , พลังงาน, การขนส่ง, การผลิตยา, อวกาศ, โลหะ, เหมืองแร่, เคมี, การศึกษา, อุตสาหกรรมเยื่อกระดาษและกระดาษ, โทรคมนาคมและการสื่อสาร ฯลฯ

ความสำเร็จเชิงพาณิชย์ของบริษัทต่างๆ ที่พัฒนาระบบปัญญาประดิษฐ์ (AI) ไม่ได้มาในทันที ระหว่างปี พ.ศ. 2503 - 2528 ความก้าวหน้าของ AI ส่วนใหญ่มาจากการพัฒนางานวิจัยที่แสดงให้เห็นถึงความเหมาะสมของ AGI สำหรับการใช้งานจริง เริ่มประมาณปี 1985 (ในระดับมวลชนระหว่างปี 1988 - 1990) อย่างแรกเลยคือ ES และในช่วงไม่กี่ปีที่ผ่านมา ระบบที่รับรู้ภาษาธรรมชาติ (ระบบ NL) และโครงข่ายประสาทเทียม (NNs) เริ่มมีการใช้งานเชิงพาณิชย์อย่างแข็งขัน .

ควรสังเกตว่าผู้เชี่ยวชาญบางคน (ตามกฎแล้ว ผู้เชี่ยวชาญในการเขียนโปรแกรมและไม่ใช่ใน AI) ยังคงโต้แย้งว่า ES และ AIS ไม่เป็นไปตามความคาดหวังและเสียชีวิต สาเหตุของความเข้าใจผิดดังกล่าวคือผู้เขียนเหล่านี้ถือว่า ES เป็นทางเลือกแทนการเขียนโปรแกรมแบบเดิม กล่าวคือ พวกเขาดำเนินการจากข้อเท็จจริงที่ว่า ES เพียงอย่างเดียว (แยกจากเครื่องมือซอฟต์แวร์อื่น ๆ ) แก้ปัญหางานที่ลูกค้าเผชิญอยู่ได้อย่างสมบูรณ์ ควรสังเกตว่าในช่วงรุ่งอรุณของการเกิดขึ้นของ ES ลักษณะเฉพาะของภาษาที่ใช้ในพวกเขา เทคโนโลยีสำหรับการพัฒนาแอพพลิเคชั่นและอุปกรณ์ที่ใช้ (เช่น Lisp-machines) ให้เหตุผลที่สันนิษฐานว่าการรวม ES ที่มีระบบซอฟต์แวร์แบบดั้งเดิมเป็นงานที่ซับซ้อนและเป็นไปไม่ได้ภายใต้ข้อจำกัดที่กำหนดโดยแอปพลิเคชันจริง อย่างไรก็ตาม ในปัจจุบัน เครื่องมือทางการค้า (IS) สำหรับการสร้าง ES กำลังได้รับการพัฒนาให้สอดคล้องกับแนวโน้มทางเทคโนโลยีสมัยใหม่ของการเขียนโปรแกรมแบบดั้งเดิม ซึ่งช่วยขจัดปัญหาที่เกิดขึ้นเมื่อสร้างแอปพลิเคชันแบบบูรณาการ

สาเหตุที่ทำให้ AIS ประสบความสำเร็จในเชิงพาณิชย์มีดังนี้

การบูรณาการ เครื่องมือปัญญาประดิษฐ์ (AI IS) ได้รับการพัฒนาที่รวมเข้ากับเทคโนโลยีและเครื่องมือสารสนเทศอื่น ๆ ได้อย่างง่ายดาย (ด้วย CASE, DBMS, ตัวควบคุม, หัวข้อมูล ฯลฯ)

การเปิดกว้างและการพกพา AI ICs ได้รับการออกแบบตามมาตรฐานที่รับรองการเปิดกว้างและการพกพา

การใช้ภาษาโปรแกรมและเวิร์กสเตชันแบบดั้งเดิม การเปลี่ยนจาก AI IS ที่ใช้ในภาษา AI (Lisp, Prolog ฯลฯ ) เป็น AI IS ที่นำมาใช้ในภาษาการเขียนโปรแกรมแบบดั้งเดิม (C, C ++ เป็นต้น) ได้ ลดความซับซ้อนของการรวมข้อกำหนด ลดความต้องการของแอปพลิเคชัน AI เป็นความเร็วของคอมพิวเตอร์และปริมาณ RAM การใช้เวิร์กสเตชัน (แทนพีซี) ได้เพิ่มช่วงของแอปพลิเคชันที่สามารถทำได้บนคอมพิวเตอร์ที่ใช้ AI IC อย่างมาก

สถาปัตยกรรมไคลเอนต์ - เซิร์ฟเวอร์ AI IS ได้รับการพัฒนาเพื่อรองรับการคำนวณแบบกระจายบนสถาปัตยกรรมไคลเอนต์-เซิร์ฟเวอร์ ซึ่งทำให้สามารถ: ลดต้นทุนของอุปกรณ์ที่ใช้ในแอปพลิเคชัน กระจายแอปพลิเคชัน เพิ่มความน่าเชื่อถือและประสิทธิภาพโดยรวม (เนื่องจากปริมาณข้อมูลที่ส่งระหว่างคอมพิวเตอร์ลดลง และโมดูลแอปพลิเคชันแต่ละโมดูลทำงานด้วยอุปกรณ์ที่เพียงพอ)

AI IS เชิงปัญหา/โดเมน การเปลี่ยนจากการพัฒนา AI IS วัตถุประสงค์ทั่วไป (แม้ว่าจะไม่ได้สูญเสียความสำคัญไปในฐานะวิธีการสร้าง IS ที่มุ่งเน้น) ไปเป็น AI IS ที่เน้นปัญหา/โดเมน: ลดเวลาในการพัฒนาแอปพลิเคชัน ; เพิ่มประสิทธิภาพการใช้ IP การทำให้เข้าใจง่ายและการเร่งความเร็วของงานของผู้เชี่ยวชาญ การนำข้อมูลและซอฟต์แวร์กลับมาใช้ใหม่ได้ (วัตถุ คลาส กฎ ขั้นตอน)

โครงสร้างระบบผู้เชี่ยวชาญ

ES แบบคงที่ทั่วไปประกอบด้วยองค์ประกอบหลักดังต่อไปนี้:

ตัวแก้ (ล่าม);

หน่วยความจำทำงาน (RP) หรือที่เรียกว่าฐานข้อมูล (DB);

ฐานความรู้ (KB);

องค์ประกอบของการได้มาซึ่งความรู้

องค์ประกอบอธิบาย

องค์ประกอบโต้ตอบ

ฐานข้อมูล (หน่วยความจำในการทำงาน) ได้รับการออกแบบมาเพื่อจัดเก็บข้อมูลเริ่มต้นและขั้นกลางของปัญหาที่กำลังแก้ไขอยู่ในขณะนี้ คำนี้ตรงกันในชื่อ แต่ไม่ใช่ในความหมายกับคำที่ใช้ในระบบดึงข้อมูล (IPS) และระบบจัดการฐานข้อมูล (DBMS) เพื่ออ้างถึงข้อมูลทั้งหมด (ส่วนใหญ่ในระยะยาว) ที่จัดเก็บไว้ในระบบ

ฐานความรู้ (KB) ใน ES ได้รับการออกแบบมาเพื่อจัดเก็บข้อมูลระยะยาวที่อธิบายพื้นที่ที่อยู่ระหว่างการพิจารณา (แทนที่จะเป็นข้อมูลปัจจุบัน) และกฎที่อธิบายการเปลี่ยนแปลงที่เหมาะสมของข้อมูลในพื้นที่นี้

นักแก้ปัญหาโดยใช้ข้อมูลเริ่มต้นจากหน่วยความจำในการทำงานและความรู้จากฐานความรู้ จะสร้างลำดับของกฎดังกล่าว ซึ่งเมื่อนำไปใช้กับข้อมูลเริ่มต้น จะนำไปสู่การแก้ปัญหา

องค์ประกอบการได้มาซึ่งความรู้จะทำให้กระบวนการเติมความรู้ ES เป็นไปโดยอัตโนมัติ ซึ่งดำเนินการโดยผู้ใช้ที่เชี่ยวชาญ

องค์ประกอบอธิบายอธิบายว่าระบบมีวิธีแก้ปัญหาอย่างไร (หรือเหตุใดจึงไม่ได้รับวิธีแก้ไข) และความรู้ใดบ้างที่ใช้ในการทำเช่นนั้น ซึ่งทำให้ผู้เชี่ยวชาญทดสอบระบบได้ง่ายขึ้นและเพิ่มความมั่นใจให้กับผู้ใช้ใน ผลลัพธ์.

ส่วนประกอบไดอะล็อกมุ่งเน้นไปที่การจัดการสื่อสารที่เป็นมิตรกับผู้ใช้ทั้งในการแก้ปัญหาและในกระบวนการรับความรู้และอธิบายผลงาน

ตัวแทนของความเชี่ยวชาญพิเศษต่อไปนี้มีส่วนร่วมในการพัฒนา ES:

ผู้เชี่ยวชาญในพื้นที่ปัญหาซึ่งงานจะได้รับการแก้ไขโดย ES

วิศวกรความรู้ - ผู้เชี่ยวชาญในการพัฒนา ES (เทคโนโลยีที่เขาใช้วิธีการนี้เรียกว่าเทคโนโลยี (วิธีการ) ของวิศวกรรมความรู้)

โปรแกรมเมอร์สำหรับการพัฒนาเครื่องมือ (IS) ออกแบบมาเพื่อเร่งการพัฒนา ES

ควรสังเกตว่าการขาดวิศวกรความรู้ในหมู่ผู้เข้าร่วมในการพัฒนา (เช่น การแทนที่โดยโปรแกรมเมอร์) อาจนำไปสู่ความล้มเหลวในกระบวนการสร้าง ES หรือทำให้ ES ยาวนานขึ้นอย่างมีนัยสำคัญ

ผู้เชี่ยวชาญเป็นผู้กำหนดความรู้ (ข้อมูลและกฎเกณฑ์) ที่กำหนดลักษณะของปัญหา รับรองความสมบูรณ์และความถูกต้องของความรู้ที่ป้อนลงใน ES

วิศวกรความรู้ช่วยผู้เชี่ยวชาญในการระบุและจัดโครงสร้างความรู้ที่จำเป็นสำหรับการดำเนินงานของ ES เลือก IS ที่เหมาะสมที่สุดสำหรับพื้นที่ปัญหาที่กำหนด และกำหนดวิธีการแสดงความรู้ใน IS นี้ เลือกและโปรแกรม (โดยวิธีการดั้งเดิม) ฟังก์ชั่นมาตรฐาน (โดยทั่วไปสำหรับพื้นที่ปัญหาที่กำหนด) ที่จะใช้ในกฎที่ผู้เชี่ยวชาญแนะนำ

โปรแกรมเมอร์พัฒนา IS (หากมีการพัฒนา IS ใหม่) ซึ่งมีส่วนประกอบหลักทั้งหมดของ ES อยู่ในขีดจำกัด และเชื่อมต่อกับสภาพแวดล้อมที่จะใช้

ระบบผู้เชี่ยวชาญทำงานในสองโหมด: โหมดการได้มาซึ่งความรู้และโหมดการแก้ปัญหา (เรียกอีกอย่างว่าโหมดการปรึกษาหารือหรือโหมดการใช้งาน ES)

ในโหมดการได้มาซึ่งความรู้ การสื่อสารกับ ES จะดำเนินการ (ผ่านการไกล่เกลี่ยของวิศวกรความรู้) โดยผู้เชี่ยวชาญ ในโหมดนี้ ผู้เชี่ยวชาญโดยใช้องค์ประกอบการได้มาซึ่งความรู้จะเติมความรู้ในระบบที่ช่วยให้ ES ในโหมดการแก้ปัญหาได้อย่างอิสระ (โดยไม่มีผู้เชี่ยวชาญ) แก้ปัญหาจากพื้นที่ปัญหา ผู้เชี่ยวชาญอธิบายพื้นที่ปัญหาเป็นชุดข้อมูลและกฎเกณฑ์ ข้อมูลกำหนดวัตถุ ลักษณะ และความหมายที่มีอยู่ในสาขาความเชี่ยวชาญ กฎกำหนดวิธีการจัดการข้อมูลที่เฉพาะเจาะจงสำหรับโดเมนที่เป็นปัญหา

โปรดทราบว่าโหมดของการรับความรู้ใน วิธีการแบบดั้งเดิมการพัฒนาโปรแกรมสอดคล้องกับขั้นตอนของอัลกอริธึม การเขียนโปรแกรมและการดีบักที่ดำเนินการโดยโปรแกรมเมอร์ ดังนั้น ตรงกันข้ามกับแนวทางดั้งเดิม ในกรณีของ ES การพัฒนาโปรแกรมไม่ได้ดำเนินการโดยโปรแกรมเมอร์ แต่โดยผู้เชี่ยวชาญ (ด้วยความช่วยเหลือของ ES) ซึ่งไม่ทราบการเขียนโปรแกรม

ในโหมดการปรึกษาหารือ การสื่อสารกับ ES ดำเนินการโดยผู้ใช้ปลายทางซึ่งมีความสนใจในผลลัพธ์และ (หรือ) วิธีการได้รับ ควรสังเกตว่าขึ้นอยู่กับวัตถุประสงค์ของ ES ผู้ใช้อาจไม่ใช่ผู้เชี่ยวชาญในพื้นที่ปัญหานี้ (ในกรณีนี้เขาหันไปหา ES เพื่อผลลัพธ์ไม่สามารถรับได้เอง) หรือเป็น ผู้เชี่ยวชาญ (ในกรณีนี้ผู้ใช้สามารถรับผลลัพธ์ได้เอง แต่เขาหันไปหา ES โดยมีเป้าหมายที่จะเร่งกระบวนการเพื่อให้ได้ผลลัพธ์หรือมอบหมายให้ ES ทำงานประจำ) ในโหมดการปรึกษาหารือ ข้อมูลเกี่ยวกับงานของผู้ใช้ หลังจากได้รับการประมวลผลโดยองค์ประกอบการโต้ตอบ เข้าสู่หน่วยความจำในการทำงาน ตัวแก้ไขโดยยึดตามข้อมูลที่ป้อนเข้าจากหน่วยความจำในการทำงาน ข้อมูลทั่วไปเกี่ยวกับพื้นที่ปัญหาและกฎเกณฑ์จากฐานความรู้ จะสร้างแนวทางแก้ไขปัญหา เมื่อแก้ไขปัญหา ES ไม่เพียง แต่ดำเนินการตามลำดับของการดำเนินการที่กำหนด แต่ยังสร้างรูปแบบเบื้องต้นด้วย หากปฏิกิริยาของระบบไม่ชัดเจนสำหรับผู้ใช้ เขาอาจต้องการคำอธิบาย:

"ทำไมระบบถึงถามคำถามนี้หรือคำถามนั้น", "ระบบได้รับคำตอบที่รวบรวมมาอย่างไร"

โครงสร้างของ ES.ES แบบคงที่ประเภทนี้ถูกใช้ในแอปพลิเคชันเหล่านั้น ซึ่งเป็นไปได้ที่จะเพิกเฉยต่อการเปลี่ยนแปลงในโลกรอบข้างที่เกิดขึ้นระหว่างการแก้ปัญหา ES ตัวแรกที่ได้รับการใช้งานจริงเป็นแบบคงที่

สององค์ประกอบถูกนำมาใช้ในสถาปัตยกรรมของ ES แบบไดนามิกเมื่อเปรียบเทียบกับ ES แบบคงที่: ระบบย่อยสำหรับการสร้างแบบจำลองโลกภายนอก และระบบย่อยสำหรับการสื่อสารกับสภาพแวดล้อมภายนอก หลังสื่อสารกับโลกภายนอกผ่านระบบเซ็นเซอร์และตัวควบคุม นอกจากนี้ ส่วนประกอบดั้งเดิมของ ES แบบคงที่ (ฐานความรู้และเอ็นจิ้นการอนุมาน) กำลังอยู่ระหว่างการเปลี่ยนแปลงที่สำคัญเพื่อสะท้อนถึงตรรกะชั่วขณะของเหตุการณ์ที่เกิดขึ้นในโลกแห่งความเป็นจริง

เราเน้นว่าโครงสร้างของ ES สะท้อนเฉพาะส่วนประกอบ (ฟังก์ชัน) และส่วนใหญ่ยังคงอยู่ "เบื้องหลัง" ในรูป 1.3 แสดงโครงสร้างทั่วไปของ IS สมัยใหม่สำหรับการสร้าง ES แบบไดนามิก ซึ่งประกอบด้วยคุณลักษณะเหล่านี้ที่นอกเหนือจากองค์ประกอบหลักซึ่งช่วยให้คุณสร้างแอปพลิเคชันที่ผสานรวมตามเทคโนโลยีการเขียนโปรแกรมสมัยใหม่ได้

ขั้นตอนการพัฒนาระบบผู้เชี่ยวชาญ

การพัฒนา ES มีความแตกต่างอย่างมากจากการพัฒนาผลิตภัณฑ์ซอฟต์แวร์ทั่วไป ประสบการณ์ในการสร้าง ES แสดงให้เห็นว่าการใช้วิธีการที่นำมาใช้ในการเขียนโปรแกรมแบบดั้งเดิมในระหว่างการพัฒนา อาจทำให้กระบวนการสร้าง ES ล่าช้าเกินไป หรือโดยทั่วไปจะนำไปสู่ผลลัพธ์เชิงลบ

ควรใช้ ES เฉพาะเมื่อการพัฒนา ES เป็นไปได้ วิธีการทางวิศวกรรมที่มีเหตุผลและความรู้สอดคล้องกับปัญหาที่กำลังแก้ไข เพื่อให้การพัฒนา ES เป็นไปได้สำหรับแอปพลิเคชันที่กำหนด อย่างน้อยต้องเป็นไปตามข้อกำหนดต่อไปนี้พร้อมกัน:

1) มีผู้เชี่ยวชาญในสาขาที่แก้ปัญหาได้ดีกว่าผู้เริ่มต้นมาก

2) ผู้เชี่ยวชาญเห็นด้วยกับการประเมินโซลูชันที่เสนอ มิฉะนั้น จะไม่สามารถประเมินคุณภาพของ ES ที่พัฒนาแล้วได้

3) ผู้เชี่ยวชาญสามารถพูดได้ (แสดงเป็นภาษาธรรมชาติ) และอธิบายวิธีการที่พวกเขาใช้ มิฉะนั้น เป็นเรื่องยากที่จะคาดหวังว่าความรู้ของผู้เชี่ยวชาญจะถูก "ดึงออก" และลงทุนใน ES

4) การแก้ปัญหาต้องใช้เหตุผลเท่านั้น ไม่ใช่การกระทำ

5) งานไม่ควรยากเกินไป (เช่น การแก้ปัญหาควรใช้เวลาหลายชั่วโมงหรือหลายวันกับผู้เชี่ยวชาญ ไม่ใช่สัปดาห์)

6) แม้ว่างานไม่ควรแสดงในรูปแบบที่เป็นทางการ แต่ก็ควรอยู่ในพื้นที่ที่มีโครงสร้างและ "เข้าใจได้" พอสมควร กล่าวคือ ควรเน้นแนวความคิดหลัก ความสัมพันธ์ และวิธีที่เป็นที่รู้จัก (อย่างน้อยสำหรับผู้เชี่ยวชาญ) ในการได้รับแนวทางแก้ไขปัญหา

7) การแก้ปัญหาไม่ควรอาศัย "สามัญสำนึก" มากนัก (เช่น . ที่หลากหลาย ข้อมูลทั่วไปเกี่ยวกับโลกและลักษณะการทำงานซึ่งบุคคลทั่วไปรู้จักและใช้ได้) เนื่องจากความรู้ดังกล่าวยังไม่ได้ (เพียงพอ) ลงทุนในระบบปัญญาประดิษฐ์

การใช้ ES ในแอปพลิเคชันนี้อาจเป็นไปได้ แต่ไม่สมเหตุสมผล การใช้ ES สามารถพิสูจน์ได้จากปัจจัยใดปัจจัยหนึ่งต่อไปนี้:

การแก้ปัญหาจะนำมาซึ่งผลกระทบที่สำคัญ เช่น ด้านเศรษฐกิจ

ไม่สามารถใช้ผู้เชี่ยวชาญที่เป็นมนุษย์ได้ เนื่องจากจำนวนผู้เชี่ยวชาญไม่เพียงพอ หรือเพราะจำเป็นต้องทำการตรวจสอบพร้อมกันในที่ต่างๆ

แนะนำให้ใช้ ES ในกรณีที่การส่งข้อมูลไปยังผู้เชี่ยวชาญทำให้เกิดการสูญเสียเวลาหรือข้อมูลที่ไม่สามารถยอมรับได้

การใช้ ES เป็นสิ่งที่สมควรหากจำเป็นในการแก้ปัญหาในสภาพแวดล้อมที่เป็นปฏิปักษ์ต่อมนุษย์

แอปพลิเคชันสอดคล้องกับวิธี ES หากปัญหาที่ต้องแก้ไขมีลักษณะดังต่อไปนี้ร่วมกัน:

1) ปัญหาสามารถแก้ไขได้อย่างเป็นธรรมชาติผ่านการจัดการสัญลักษณ์ (เช่น การใช้เหตุผลเชิงสัญลักษณ์) และไม่ผ่านการจัดการตัวเลข ตามธรรมเนียมในวิธีการทางคณิตศาสตร์และในการเขียนโปรแกรมแบบดั้งเดิม

2) งานควรมีฮิวริสติก ไม่ใช่ธรรมชาติของอัลกอริทึม กล่าวคือ การแก้ปัญหาควรต้องใช้กฎฮิวริสติก ปัญหาที่สามารถรับประกันว่าจะแก้ไขได้ (ขึ้นอยู่กับข้อจำกัดที่กำหนด) โดยใช้ขั้นตอนที่เป็นทางการบางอย่างไม่เหมาะสำหรับการใช้ ES

3) งานต้องซับซ้อนพอที่จะพิสูจน์ต้นทุนในการพัฒนา ES อย่างไรก็ตาม ไม่ควรซับซ้อนเกินไป (ต้องใช้เวลาเป็นชั่วโมงของผู้เชี่ยวชาญในการแก้ปัญหา ไม่ใช่สัปดาห์) เพื่อให้ ES สามารถแก้ปัญหาได้

4) งานควรแคบพอที่จะแก้ไขโดยวิธี ES และมีความสำคัญในทางปฏิบัติ

เมื่อพัฒนา ES ตามกฎแล้วจะใช้แนวคิดของ "ต้นแบบอย่างรวดเร็ว" สาระสำคัญของแนวคิดนี้คือนักพัฒนาไม่พยายามสร้างผลิตภัณฑ์ขั้นสุดท้ายในทันที ในระยะเริ่มต้น พวกเขาสร้างต้นแบบ (ต้นแบบ) ของ ES ต้นแบบต้องเป็นไปตามข้อกำหนดที่ขัดแย้งกันสองประการ: ด้านหนึ่งต้องแก้ปัญหาทั่วไปของแอปพลิเคชันเฉพาะและในทางกลับกันเวลาและความลำบากในการพัฒนาต้องมีขนาดเล็กมากเพื่อให้กระบวนการสะสมและแก้จุดบกพร่องความรู้ (ดำเนินการ) โดยผู้เชี่ยวชาญ) สามารถควบคู่ไปกับกระบวนการคัดเลือกได้มากที่สุด (การพัฒนา) ซอฟต์แวร์ (ดำเนินการโดยวิศวกรความรู้และโปรแกรมเมอร์) เพื่อให้เป็นไปตามข้อกำหนดเหล่านี้ ตามกฎแล้ว เมื่อสร้างต้นแบบ จะใช้เครื่องมือต่างๆ เพื่อเร่งกระบวนการออกแบบ

ต้นแบบต้องแสดงให้เห็นถึงความเหมาะสมของเทคนิคทางวิศวกรรมความรู้เพื่อประยุกต์ใช้ หากประสบความสำเร็จ ผู้เชี่ยวชาญ ด้วยความช่วยเหลือของวิศวกรความรู้ ขยายความรู้ของต้นแบบเกี่ยวกับพื้นที่ปัญหา ความล้มเหลวอาจต้องมีการพัฒนาต้นแบบใหม่ หรือนักพัฒนาอาจสรุปว่าวิธี ES ไม่เหมาะสมกับแอปพลิเคชันที่กำหนด เมื่อความรู้เพิ่มขึ้น ต้นแบบสามารถไปถึงจุดที่แก้ปัญหาทั้งหมดของแอปพลิเคชันที่กำหนดได้สำเร็จ การแปลงต้นแบบ ES ไปเป็นผลิตภัณฑ์ขั้นสุดท้ายมักจะนำไปสู่การตั้งโปรแกรม ES ใหม่ในภาษาระดับต่ำ โดยให้ทั้งความเร็วของ ES ที่เพิ่มขึ้นและหน่วยความจำที่ต้องการลดลง ความซับซ้อนและเวลาในการสร้าง ES นั้นขึ้นอยู่กับประเภทของเครื่องมือที่ใช้เป็นส่วนใหญ่

ในระหว่างการทำงานเพื่อสร้าง ES ได้มีการพัฒนาเทคโนโลยีบางอย่างสำหรับการพัฒนารวมถึงหกขั้นตอนต่อไปนี้:

การระบุ, แนวความคิด, การทำให้เป็นทางการ, การดำเนินการ, การทดสอบ, การดำเนินการทดลอง ในขั้นตอนการระบุตัวตน จะกำหนดภารกิจที่ต้องแก้ไข กำหนดเป้าหมายการพัฒนา ผู้เชี่ยวชาญและประเภทของผู้ใช้จะถูกกำหนด

ในขั้นตอนการสร้างแนวความคิด การวิเคราะห์ที่มีความหมายของพื้นที่ปัญหาจะดำเนินการ แนวคิดที่ใช้และความสัมพันธ์จะถูกระบุ และกำหนดวิธีการในการแก้ปัญหา

ในขั้นตอนของการทำให้เป็นทางการนั้น ISs จะถูกเลือกและกำหนดวิธีการแสดงความรู้ทุกประเภท แนวคิดพื้นฐานถูกกำหนดให้เป็นแบบแผน วิธีการตีความความรู้ถูกกำหนด แบบจำลองการทำงานของระบบ ความเพียงพอของเป้าหมายของระบบคงที่ มีการประเมินแนวคิด วิธีการตัดสินใจ วิธีการแสดงและจัดการความรู้

ในขั้นตอนการดำเนินการ ผู้เชี่ยวชาญจะเติมฐานความรู้ เนื่องจากพื้นฐานของ ES คือความรู้ เวทีนี้เป็นขั้นตอนที่สำคัญและใช้เวลานานที่สุดในการพัฒนา ES กระบวนการได้มาซึ่งความรู้แบ่งเป็นการดึงความรู้จากผู้เชี่ยวชาญ การจัดความรู้เพื่อให้การทำงานของระบบเป็นไปอย่างมีประสิทธิภาพ และการนำเสนอความรู้ในรูปแบบที่ ES เข้าใจได้ กระบวนการในการได้มาซึ่งความรู้นั้นดำเนินการโดยวิศวกรความรู้โดยอาศัยการวิเคราะห์กิจกรรมของผู้เชี่ยวชาญในการแก้ปัญหาจริง

ส่วนต่อประสานผู้ใช้ปลายทาง

ระบบ G2 ให้โอกาสแก่นักพัฒนาในการสร้างส่วนติดต่อผู้ใช้แบบกราฟิกที่เรียบง่าย ชัดเจน และแสดงออกด้วยองค์ประกอบแอนิเมชั่น ชุดเครื่องมือที่นำเสนอนี้ช่วยให้คุณสามารถแสดงกระบวนการทางเทคโนโลยีที่มีความซับซ้อนเกือบไม่จำกัดที่ระดับนามธรรมและรายละเอียดต่างๆ นอกจากนี้ การแสดงกราฟิกของความสัมพันธ์ระหว่างออบเจกต์ของแอปพลิเคชันสามารถใช้โดยตรงในการสร้างการประกาศของภาษาคำอธิบายความรู้

RTworks ไม่มีวิธีดั้งเดิมในการแสดงสถานะปัจจุบันของกระบวนการที่มีการจัดการ ผู้พัฒนาแอปพลิเคชันถูกบังคับให้ใช้ระบบ Dataview จาก VI Corporation ซึ่งจำกัดความสามารถอย่างมาก

อินเทอร์เฟซผู้ใช้ของ TDC Expert ถูกจำกัดด้วยความสามารถของระบบ TDC 3000 เช่น การโต้ตอบกับผู้ใช้ปลายทาง

จำกัดเฉพาะโหมดข้อความ

การแสดงความรู้ในระบบผู้เชี่ยวชาญ

ประเด็นแรกและประเด็นหลักที่ต้องแก้ไขเมื่อนำเสนอความรู้คือประเด็นการกำหนดองค์ประกอบของความรู้ กล่าวคือ กำหนด "สิ่งที่จะเป็นตัวแทน" ในระบบผู้เชี่ยวชาญ คำถามที่สองเกี่ยวข้องกับความรู้ "วิธีการเป็นตัวแทน" ควรสังเกตว่าสองประเด็นนี้ไม่เป็นอิสระ อันที่จริง วิธีการนำเสนอที่เลือกอาจไม่เหมาะสมในหลักการหรือไม่มีประสิทธิภาพในการแสดงความรู้บางอย่าง

ในความเห็นของเรา คำถาม "วิธีการเป็นตัวแทน" สามารถแบ่งออกเป็นสองงานอิสระส่วนใหญ่: วิธีการจัดระเบียบ (โครงสร้าง) ความรู้และวิธีแสดงความรู้ในรูปแบบที่เลือก

ความปรารถนาที่จะแยกองค์กรของความรู้ออกเป็นงานอิสระนั้นเกิดจากความจริงที่ว่างานนี้เกิดขึ้นสำหรับภาษาที่แสดงแทนและวิธีการในการแก้ปัญหานี้เหมือนกัน (หรือคล้ายกัน) โดยไม่คำนึงถึงรูปแบบที่ใช้

ดังนั้น ในช่วงของปัญหาที่ต้องแก้ไขเมื่อนำเสนอความรู้ เราจะรวมสิ่งต่อไปนี้:

การกำหนดองค์ประกอบของความรู้ที่แสดง

การจัดองค์ความรู้

การเป็นตัวแทนของความรู้เช่น ดูคำจำกัดความของโมเดล องค์ประกอบของความรู้ ES ถูกกำหนดโดยปัจจัยต่อไปนี้:

สภาพแวดล้อมที่เป็นปัญหา

สถาปัตยกรรมระบบผู้เชี่ยวชาญ

ความต้องการและเป้าหมายของผู้ใช้

ภาษาของการสื่อสาร

ตามรูปแบบทั่วไปของระบบผู้เชี่ยวชาญแบบคงที่ ความรู้ต่อไปนี้เป็นสิ่งจำเป็นสำหรับการทำงาน:

ความรู้เกี่ยวกับกระบวนการแก้ปัญหา (เช่น การควบคุมความรู้) ที่ใช้โดยล่าม (ผู้แก้)

ความรู้เกี่ยวกับภาษาของการสื่อสารและวิธีการจัดระเบียบบทสนทนาที่ใช้โดยตัวประมวลผลทางภาษา (องค์ประกอบบทสนทนา)

ความรู้เกี่ยวกับวิธีการแสดงและปรับเปลี่ยนความรู้ที่ใช้โดยองค์ประกอบการได้มาซึ่งความรู้

สนับสนุนความรู้ด้านโครงสร้างและการควบคุมที่ใช้โดยองค์ประกอบอธิบาย

สำหรับ ES แบบไดนามิก จำเป็นต้องมีความรู้ต่อไปนี้:

1) ความรู้เกี่ยวกับวิธีการปฏิสัมพันธ์กับสิ่งแวดล้อมภายนอก

2) ความรู้เกี่ยวกับแบบจำลองของโลกภายนอก

การพึ่งพาองค์ประกอบของความรู้ตามความต้องการของผู้ใช้มีดังต่อไปนี้:

งานอะไร (จากชุดงานทั่วไป) และข้อมูลที่ผู้ใช้ต้องการแก้ไข

วิธีและวิธีการแก้ปัญหาที่ต้องการคืออะไร

ภายใต้ข้อ จำกัด เกี่ยวกับจำนวนผลลัพธ์และวิธีการได้มาซึ่งปัญหาจะต้องได้รับการแก้ไข

ข้อกำหนดสำหรับภาษาของการสื่อสารและการจัดระเบียบของบทสนทนาคืออะไร

ระดับของความรู้ทั่วไป (ความจำเพาะ) ของความรู้เกี่ยวกับพื้นที่ปัญหาที่มีให้สำหรับผู้ใช้คืออะไร

เป้าหมายของผู้ใช้คืออะไร

องค์ประกอบของความรู้เกี่ยวกับภาษาของการสื่อสารขึ้นอยู่กับทั้งภาษาของการสื่อสารและระดับความเข้าใจที่ต้องการ

โดยคำนึงถึงสถาปัตยกรรมของระบบผู้เชี่ยวชาญ ความรู้ควรแบ่งออกเป็นการตีความและตีความได้ ประเภทแรกประกอบด้วยความรู้ที่นักแก้ (ล่าม) สามารถตีความได้ ความรู้อื่น ๆ ทั้งหมดอยู่ในประเภทที่สอง ตัวแก้ไขไม่ทราบโครงสร้างและเนื้อหา หากความรู้นี้ถูกใช้โดยองค์ประกอบใด ๆ ของระบบ ความรู้นี้จะไม่ "รับรู้" ของความรู้นี้ ความรู้ที่ไม่ได้ตีความแบ่งออกเป็นความรู้เสริมที่เก็บข้อมูลเกี่ยวกับคำศัพท์และไวยากรณ์ของภาษาในการสื่อสาร ข้อมูลเกี่ยวกับโครงสร้างของบทสนทนาและความรู้ที่สนับสนุน ความรู้เสริมจะถูกประมวลผลโดยองค์ประกอบภาษาธรรมชาติ แต่โปรแกรมแก้ไขไม่ได้ตระหนักถึงขั้นตอนของการประมวลผลนี้ เนื่องจากขั้นตอนของการประมวลผลข้อความป้อนเข้าเป็นส่วนเสริมสำหรับการตรวจสอบ ความรู้สนับสนุนใช้ในการสร้างระบบและในการดำเนินการตามคำอธิบาย การสนับสนุนความรู้มีบทบาทในการอธิบาย (เหตุผล) ของทั้งความรู้ที่ตีความและการกระทำของระบบ การสนับสนุนความรู้แบ่งออกเป็นเทคโนโลยีและความหมาย ความรู้ที่สนับสนุนเทคโนโลยีประกอบด้วยข้อมูลเกี่ยวกับเวลาที่สร้างความรู้ที่พวกเขาอธิบาย เกี่ยวกับผู้เขียนความรู้ ฯลฯ ความรู้สนับสนุนเชิงความหมายประกอบด้วยคำอธิบายเชิงความหมายของความรู้นี้ ประกอบด้วยข้อมูลเกี่ยวกับเหตุผลในการแนะนำความรู้ วัตถุประสงค์ของความรู้ อธิบายวิธีการใช้ความรู้และผลที่ได้รับ การสนับสนุนความรู้เป็นคำอธิบาย

ความรู้ที่ตีความสามารถแบ่งออกเป็นความรู้ที่ควบคุมความรู้เกี่ยวกับการเป็นตัวแทน ความรู้เกี่ยวกับการเป็นตัวแทนประกอบด้วยข้อมูลเกี่ยวกับวิธีการนำเสนอความรู้ที่ตีความในระบบ (ในโครงสร้างใด)

ความรู้เรื่องมีข้อมูลเกี่ยวกับสาขาวิชาและวิธีการแปลงข้อมูลนี้ในการแก้ไขงาน ความรู้เกี่ยวกับการเป็นตัวแทนและความรู้เกี่ยวกับการควบคุมเป็นความรู้เมตาในความสัมพันธ์กับความรู้เรื่องนั้นๆ คำอธิบายประกอบด้วยข้อมูลเฉพาะเกี่ยวกับความรู้เรื่อง เช่น ปัจจัยความแน่นอนของกฎและข้อมูล การวัดความสำคัญและความซับซ้อน อันที่จริงความรู้เรื่องนั้นแบ่งออกเป็นข้อเท็จจริงและข้อความสั่งการได้ ข้อเท็จจริงกำหนดค่าที่เป็นไปได้ของเอนทิตีและลักษณะของสาขาวิชา คำสั่งปฏิบัติการประกอบด้วยข้อมูลเกี่ยวกับวิธีที่คุณสามารถเปลี่ยนคำอธิบายของหัวข้อในการแก้ปัญหา กล่าวอีกนัยหนึ่งคำสั่งปฏิบัติการคือความรู้ที่กำหนดขั้นตอนการประมวลผล อย่างไรก็ตาม เราหลีกเลี่ยงการใช้คำว่า "ความรู้ขั้นตอน" เพราะเราต้องการเน้นว่าความรู้นี้สามารถระบุได้ไม่เฉพาะในรูปแบบที่เปิดเผยเท่านั้น แต่ยังอยู่ในรูปแบบการประกาศด้วย

ความรู้การควบคุมสามารถแบ่งออกเป็นการมุ่งเน้นและเด็ดขาด การมุ่งเน้นความรู้จะอธิบายว่าความรู้ใดควรใช้ในสถานการณ์ที่กำหนด โดยปกติ การเน้นความรู้ประกอบด้วยข้อมูลเกี่ยวกับวัตถุหรือกฎที่มีแนวโน้มมากที่สุดซึ่งควรใช้เมื่อทดสอบสมมติฐานที่เกี่ยวข้อง ในกรณีแรก ความสนใจจะเน้นที่องค์ประกอบของหน่วยความจำในการทำงาน ในกรณีที่สอง - เกี่ยวกับกฎของฐานความรู้ ความรู้ชี้ขาดประกอบด้วยข้อมูลที่ใช้ในการเลือกวิธีตีความความรู้ที่เหมาะสมกับสถานการณ์ปัจจุบัน ความรู้นี้ใช้เพื่อเลือกกลยุทธ์หรือการวิเคราะห์พฤติกรรมที่มีประสิทธิภาพสูงสุดสำหรับการแก้ปัญหาที่กำหนด

ตัวชี้วัดเชิงคุณภาพและเชิงปริมาณของระบบผู้เชี่ยวชาญสามารถปรับปรุงได้อย่างมีนัยสำคัญผ่านการใช้ความรู้เมตาเช่น ความรู้เกี่ยวกับความรู้ Metaknowledge ไม่ได้เป็นตัวแทนของเอนทิตีเดียว แต่สามารถใช้เพื่อให้บรรลุเป้าหมายต่างๆ เราแสดงรายการวัตถุประสงค์ที่เป็นไปได้ของความรู้เมตา:

1) meta-knowledge ในรูปแบบของ meta-rule เชิงกลยุทธ์ ใช้เพื่อเลือกกฎที่เกี่ยวข้อง

2) meta-knowledge ใช้เพื่อพิสูจน์ความเหมาะสมของการใช้กฎจากสาขาที่เชี่ยวชาญ

3) metarules ใช้เพื่อตรวจจับข้อผิดพลาดทางวากยสัมพันธ์และความหมายในกฎหัวเรื่อง

4) กฎเมตาช่วยให้ระบบสามารถปรับให้เข้ากับสภาพแวดล้อมโดยการปรับโครงสร้างกฎและหน้าที่ของหัวเรื่อง

5) metarules อนุญาตให้คุณระบุความสามารถและข้อจำกัดของระบบอย่างชัดเจน เช่น กำหนดสิ่งที่ระบบรู้และสิ่งที่ไม่รู้

ประเด็นของการจัดระเบียบองค์ความรู้ต้องได้รับการพิจารณาในการเป็นตัวแทนใด ๆ และการแก้ปัญหาส่วนใหญ่ไม่ได้ขึ้นอยู่กับวิธีการเป็นตัวแทน (แบบจำลอง) ที่เลือกไว้ เราแยกแยะประเด็นต่อไปนี้ของปัญหาองค์กรความรู้:

การจัดองค์ความรู้ตามระดับการนำเสนอและระดับรายละเอียด

การจัดองค์ความรู้ด้านความจำในการทำงาน

การจัดองค์ความรู้ในฐานความรู้

สมการการเป็นตัวแทนและระดับของรายละเอียด

เพื่อให้ระบบผู้เชี่ยวชาญสามารถจัดการกระบวนการหาแนวทางแก้ไข ให้ได้มาซึ่งความรู้ใหม่และอธิบายการกระทำนั้น จะต้องไม่เพียงแต่ใช้ความรู้เท่านั้น แต่ยังต้องมีความสามารถในการเข้าใจและ สำรวจพวกเขา กล่าวคือ ระบบผู้เชี่ยวชาญต้องมีความรู้เกี่ยวกับวิธีการแสดงความรู้เกี่ยวกับสภาพแวดล้อมของปัญหา หากความรู้เกี่ยวกับสภาพแวดล้อมที่เป็นปัญหาเรียกว่าความรู้เกี่ยวกับระดับการเป็นตัวแทนศูนย์ แสดงว่าระดับแรกของการเป็นตัวแทนจะประกอบด้วยความรู้เมตา เช่น ความรู้เกี่ยวกับวิธีการแสดงระบบความรู้ระดับศูนย์ในโลกภายใน ระดับแรกประกอบด้วยความรู้เกี่ยวกับเครื่องมือที่ใช้แทนความรู้ระดับศูนย์ ความรู้ระดับแรกมีบทบาทสำคัญในการจัดการกระบวนการตัดสินใจ ในการได้มาและอธิบายการทำงานของระบบ เนื่องจากความรู้ระดับแรกไม่มีการเชื่อมโยงไปยังความรู้ระดับศูนย์ ความรู้ระดับแรกจึงไม่ขึ้นอยู่กับสภาพแวดล้อมของปัญหา

จำนวนระดับการนำเสนอสามารถมีได้มากกว่าสองระดับ การแสดงระดับที่สองประกอบด้วยข้อมูลเกี่ยวกับความรู้ในระดับที่หนึ่งเช่น ความรู้เกี่ยวกับการเป็นตัวแทนของแนวคิดพื้นฐานของระดับแรก การแบ่งระดับความรู้ออกเป็นระดับการนำเสนอเป็นการขยายขอบเขตของระบบ

การเน้นระดับรายละเอียดช่วยให้คุณพิจารณาความรู้ที่มีระดับรายละเอียดที่แตกต่างกัน จำนวนระดับของรายละเอียดส่วนใหญ่จะถูกกำหนดโดยลักษณะเฉพาะของงานที่กำลังแก้ไข ปริมาณความรู้ และวิธีการนำเสนอ ตามกฎแล้วจะมีรายละเอียดอย่างน้อยสามระดับซึ่งสะท้อนถึงการจัดระเบียบความรู้ทั่วไปตรรกะและทางกายภาพตามลำดับ การแนะนำรายละเอียดหลายระดับช่วยเพิ่มระดับความยืดหยุ่นของระบบ เนื่องจากช่วยให้สามารถทำการเปลี่ยนแปลงได้ในระดับหนึ่งโดยไม่กระทบต่อผู้อื่น การเปลี่ยนแปลงที่รายละเอียดระดับหนึ่งอาจส่งผลให้เกิดการเปลี่ยนแปลงเพิ่มเติมในระดับนั้น ซึ่งจำเป็นเพื่อให้แน่ใจว่าโครงสร้างข้อมูลและโปรแกรมมีความสอดคล้องกัน อย่างไรก็ตาม การมีอยู่ของระดับต่างๆ จะช่วยป้องกันการแพร่กระจายของการเปลี่ยนแปลงจากระดับหนึ่งไปสู่ระดับอื่นๆ

การจัดองค์ความรู้ในระบบการทำงาน

หน่วยความจำในการทำงาน (WP) ของระบบผู้เชี่ยวชาญออกแบบมาเพื่อจัดเก็บข้อมูล ข้อมูลในหน่วยความจำในการทำงานสามารถเป็นแบบเดียวกันหรือแบ่งชั้นตามชนิดข้อมูลได้ ในกรณีหลัง หน่วยความจำทำงานแต่ละระดับจะเก็บข้อมูลประเภทที่เกี่ยวข้อง การเลือกระดับทำให้โครงสร้างของระบบผู้เชี่ยวชาญซับซ้อน แต่ทำให้ระบบมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น คุณสามารถแยกความแตกต่างระหว่างระดับแผน ระดับเอเจนต์ (รายการกฎที่เรียงลำดับที่พร้อมดำเนินการ) และระดับข้อมูลโดเมน (ระดับการตัดสินใจ)

ในระบบผู้เชี่ยวชาญสมัยใหม่ ข้อมูลในหน่วยความจำที่ใช้งานได้จะถูกมองว่าเป็นแบบแยกส่วนหรือเกี่ยวข้องกัน ในกรณีแรก หน่วยความจำในการทำงานประกอบด้วยองค์ประกอบที่เรียบง่ายจำนวนมาก และในกรณีที่สอง ประกอบด้วยองค์ประกอบที่ซับซ้อนอย่างน้อยหนึ่งองค์ประกอบ (ที่มีหลายระดับใน RP) (เช่น วัตถุ) ในกรณีนี้ องค์ประกอบที่ซับซ้อนจะสอดคล้องกับชุดขององค์ประกอบง่ายๆ ที่รวมกันเป็นเอนทิตีเดียว ในทางทฤษฎี ทั้งสองวิธีให้ความสมบูรณ์ แต่การใช้องค์ประกอบที่แยกออกมาในหัวข้อที่ซับซ้อนจะทำให้สูญเสียประสิทธิภาพ

ข้อมูลใน RP ในกรณีที่ง่ายที่สุดคือค่าคงที่และ (หรือ) ตัวแปร ในกรณีนี้ ตัวแปรสามารถตีความว่าเป็นลักษณะของวัตถุบางอย่างและค่าคงที่ - เป็นค่าของลักษณะที่เกี่ยวข้อง หากใน RP จำเป็นต้องวิเคราะห์หลายอ็อบเจ็กต์พร้อมๆ กันที่อธิบายสถานการณ์ปัญหาในปัจจุบัน จำเป็นต้องระบุว่าคุณสมบัติใดที่พิจารณาอยู่ในนั้น วิธีหนึ่งในการแก้ปัญหานี้คือการระบุให้ชัดเจนว่าคุณลักษณะนั้นเป็นของวัตถุใด

หาก RP ประกอบด้วยองค์ประกอบที่ซับซ้อน ความสัมพันธ์ระหว่างวัตถุแต่ละรายการจะถูกระบุอย่างชัดเจน ตัวอย่างเช่น โดยการตั้งค่าความสัมพันธ์เชิงความหมาย นอกจากนี้ แต่ละอ็อบเจ็กต์สามารถมีโครงสร้างภายในของตัวเองได้ ควรสังเกตว่าเพื่อเพิ่มความเร็วในการค้นหาและเปรียบเทียบ ข้อมูลใน RP สามารถเชื่อมโยงได้ไม่เฉพาะในเชิงตรรกะเท่านั้น แต่ยังเชื่อมโยงกันได้

การจัดองค์ความรู้ในฐานข้อมูล

ตัวบ่งชี้ความฉลาดของระบบในแง่ของการแสดงความรู้คือความสามารถของระบบในการใช้ความรู้ที่จำเป็น (ที่เกี่ยวข้อง) ในเวลาที่เหมาะสม ระบบที่ไม่มีวิธีการกำหนดความรู้ที่เกี่ยวข้องย่อมต้องเผชิญกับปัญหา "การระเบิดแบบผสมผสาน" อย่างหลีกเลี่ยงไม่ได้ เป็นที่ถกเถียงกันอยู่ว่าปัญหานี้เป็นหนึ่งในสาเหตุหลักที่จำกัดขอบเขตของระบบผู้เชี่ยวชาญ ในปัญหาการเข้าถึงความรู้ สามารถจำแนกได้ 3 ด้าน คือ ความเชื่อมโยงของความรู้และข้อมูล กลไกการเข้าถึงความรู้ วิธีการเปรียบเทียบ

การเชื่อมต่อ (การรวมตัว) ของความรู้เป็นวิธีหลักในการเร่งการค้นหาความรู้ที่เกี่ยวข้อง ผู้เชี่ยวชาญส่วนใหญ่สรุปว่าควรจัดระเบียบความรู้รอบวัตถุที่สำคัญที่สุด (หน่วยงาน) ของสาขาวิชา ความรู้ทั้งหมดที่อธิบายลักษณะเฉพาะบางอย่างมีความเกี่ยวข้องและแสดงเป็นวัตถุที่แยกจากกัน ด้วยองค์กรแห่งความรู้ดังกล่าว หากระบบต้องการข้อมูลเกี่ยวกับเอนทิตีบางอย่าง ระบบจะค้นหาออบเจ็กต์ที่อธิบายเอนทิตีนี้ จากนั้นระบบจะค้นหาข้อมูลเกี่ยวกับเอนทิตีนี้ภายในออบเจ็กต์ ในออบเจกต์ ขอแนะนำให้แยกความแตกต่างระหว่างองค์ประกอบสองประเภท: ภายนอกและภายใน ลิงก์ภายในจะรวมองค์ประกอบเป็นวัตถุเดียวและมีจุดมุ่งหมายเพื่อแสดงโครงสร้างของวัตถุ ลิงก์ภายนอกสะท้อนถึงการพึ่งพาซึ่งกันและกันระหว่างวัตถุในด้านความเชี่ยวชาญ นักวิจัยหลายคนจัดประเภทการเชื่อมโยงภายนอกเป็นภาษีและการเชื่อมโยง การเชื่อมโยงเชิงตรรกะแสดงความสัมพันธ์ทางความหมายระหว่างองค์ประกอบความรู้ ลิงค์เชื่อมโยงได้รับการออกแบบมาเพื่อให้ความสัมพันธ์ที่ช่วยเพิ่มความเร็วในการค้นหาความรู้ที่เกี่ยวข้อง

ปัญหาหลักเมื่อทำงานกับฐานความรู้ขนาดใหญ่คือปัญหาในการค้นหาความรู้ที่เกี่ยวข้องกับปัญหาที่กำลังแก้ไข เนื่องจากข้อมูลที่ประมวลผลอาจไม่มีตัวบ่งชี้ที่ชัดเจนของค่าที่จำเป็นสำหรับการประมวลผล จึงจำเป็นต้องมีกลไกการเข้าถึงทั่วไปมากกว่าวิธีการเข้าถึงโดยตรง (วิธีอ้างอิงอย่างชัดแจ้ง) งานของกลไกนี้คือการค้นหาในฐานความรู้ วัตถุที่ตรงตามคำอธิบายนี้ ตามคำอธิบายบางอย่างของเอนทิตีที่มีอยู่ในหน่วยความจำในการทำงาน เห็นได้ชัดว่าการจัดลำดับและการจัดโครงสร้างความรู้สามารถเร่งกระบวนการค้นหาได้อย่างมาก

การค้นหาวัตถุที่ต้องการในกรณีทั่วไปนั้นเหมาะสมที่จะพิจารณาเป็นกระบวนการสองขั้นตอน ในขั้นตอนแรก ซึ่งสอดคล้องกับกระบวนการคัดเลือกโดยการเชื่อมโยงแบบเชื่อมโยง การคัดเลือกเบื้องต้นจะทำในฐานความรู้ของผู้มีโอกาสเป็นผู้สมัครสำหรับบทบาทของวัตถุที่ต้องการ ในขั้นตอนที่สอง โดยการดำเนินการเปรียบเทียบผู้สมัครที่มีศักยภาพกับรายละเอียดของผู้สมัคร การเลือกขั้นสุดท้ายของวัตถุที่ต้องการจะดำเนินการ เมื่อจัดระเบียบกลไกการเข้าถึงดังกล่าว ปัญหาบางอย่างจะเกิดขึ้น: จะเลือกเกณฑ์ความเหมาะสมของผู้สมัครได้อย่างไร จะจัดระเบียบงานในสถานการณ์ขัดแย้งได้อย่างไร? เป็นต้น

การดำเนินการจับคู่สามารถใช้ไม่เพียงแต่เป็นวิธีการเลือกวัตถุที่ต้องการจากชุดของผู้สมัครเท่านั้น สามารถใช้สำหรับการจำแนกประเภท การตรวจสอบ การสลายตัว และการแก้ไข เพื่อระบุวัตถุที่ไม่รู้จัก สามารถเปรียบเทียบกับตัวอย่างที่รู้จักบางตัวได้ สิ่งนี้จะจำแนกวัตถุที่ไม่รู้จักเป็นตัวอย่างที่รู้จักเมื่อเปรียบเทียบกับผลลัพธ์ที่ดีที่สุด ในการค้นหา การจับคู่จะใช้เพื่อยืนยันตัวเลือกที่เป็นไปได้บางส่วน หากคุณเปรียบเทียบวัตถุที่รู้จักบางรายการกับคำอธิบายที่ไม่รู้จัก ในกรณีที่จับคู่สำเร็จ จะมีการสลายตัวของคำอธิบายบางส่วน

การดำเนินการจับคู่มีความหลากหลายมาก โดยปกติ รูปแบบต่อไปนี้จะแตกต่าง: การจับคู่วากยสัมพันธ์ พาราเมตริก ความหมาย และการจับคู่แบบบังคับ ในกรณีของการจับคู่วากยสัมพันธ์ แบบฟอร์ม (ตัวอย่าง) มีความสัมพันธ์กัน ไม่ใช่เนื้อหาของออบเจกต์ การจับคู่ที่ประสบความสำเร็จคือการจับคู่ที่ให้ผลลัพธ์ในตัวอย่างที่เหมือนกัน โดยทั่วไปถือว่าตัวแปรของรูปแบบหนึ่งสามารถเหมือนกับค่าคงที่ (หรือนิพจน์) ของรูปแบบอื่นได้ ตัวแปรที่รวมอยู่ในรูปแบบบางครั้งขึ้นอยู่กับข้อกำหนดที่กำหนดประเภทของค่าคงที่ที่สามารถจับคู่ได้ ผลลัพธ์ของการจับคู่วากยสัมพันธ์คือไบนารี: รูปแบบถูกจับคู่หรือไม่ตรงกัน ในการจับคู่พารามิเตอร์ คุณป้อนพารามิเตอร์ที่กำหนดระดับของการจับคู่ ในกรณีของการเปรียบเทียบเชิงความหมาย ไม่ใช่ตัวอย่างวัตถุที่มีความสัมพันธ์กัน แต่เป็นหน้าที่ของพวกมัน ในกรณีของการจับคู่แบบบังคับ รูปแบบการจับคู่หนึ่งจะพิจารณาจากมุมมองของอีกรูปแบบหนึ่ง แตกต่างจากการจับคู่ประเภทอื่น ๆ สามารถรับผลลัพธ์ที่เป็นบวกได้ที่นี่เสมอ ประเด็นคืออำนาจบังคับ การบีบบังคับสามารถดำเนินการขั้นตอนพิเศษที่เกี่ยวข้องกับวัตถุ หากขั้นตอนเหล่านี้ไม่ตรงกัน ระบบจะรายงานว่าสามารถบรรลุความสำเร็จได้ก็ต่อเมื่อบางส่วนของเอนทิตีที่เป็นปัญหาสามารถพิจารณาให้ตรงกันได้

วิธีค้นหาโซลูชันในระบบผู้เชี่ยวชาญ

วิธีการแก้ปัญหาตามการลดปัญหาการค้นหาขึ้นอยู่กับ

psychodiagnostics ใน psychosomatics เช่นเดียวกับระบบอื่น ๆ คุณสมบัติของหัวข้อที่กำลังแก้ไขปัญหาและข้อกำหนดที่กำหนดโดยผู้ใช้ในการแก้ปัญหา คุณสมบัติของหัวเรื่องในแง่ของวิธีการแก้ปัญหาสามารถระบุได้ด้วยพารามิเตอร์ต่อไปนี้:

ขนาดซึ่งกำหนดจำนวนพื้นที่ในการค้นหาวิธีแก้ปัญหา

ความแปรปรวนของพื้นที่ กำหนดระดับความแปรปรวนของพื้นที่ในเวลาและพื้นที่ (ที่นี่เราจะแยกความแตกต่างระหว่างพื้นที่คงที่และไดนามิก);

ความสมบูรณ์ของแบบจำลองที่อธิบายพื้นที่นั้นแสดงถึงความเพียงพอของแบบจำลองที่ใช้อธิบายพื้นที่ที่กำหนด โดยปกติ หากแบบจำลองไม่สมบูรณ์ จะมีการใช้แบบจำลองหลายแบบเพื่ออธิบายพื้นที่ เสริมซึ่งกันและกันโดยสะท้อนคุณสมบัติต่างๆ ของหัวข้อ

ความแน่นอนของข้อมูลเกี่ยวกับปัญหาที่กำลังแก้ไข กำหนดลักษณะระดับความถูกต้อง (ข้อผิดพลาด) และความสมบูรณ์ (ความไม่สมบูรณ์) ของข้อมูล ความแม่นยำ (ข้อผิดพลาด) เป็นตัวบ่งชี้ว่าหัวข้อในแง่ของงานที่กำลังแก้ไขนั้นอธิบายโดยข้อมูลที่ถูกต้องหรือไม่ถูกต้อง ความสมบูรณ์ (ความไม่สมบูรณ์) ของข้อมูลถูกเข้าใจว่าเป็นข้อมูลที่ป้อนเข้าเพียงพอ (ไม่เพียงพอ) สำหรับวิธีแก้ปัญหาเฉพาะตัวของปัญหา

ความต้องการของผู้ใช้สำหรับผลลัพธ์ของปัญหาที่แก้ไขโดยใช้การค้นหานั้นสามารถระบุได้ด้วยจำนวนของวิธีแก้ปัญหาและคุณสมบัติของผลลัพธ์และ (หรือ) วิธีการรับ พารามิเตอร์ "จำนวนการตัดสินใจ" สามารถใช้ค่าพื้นฐานต่อไปนี้: การตัดสินใจหนึ่งครั้ง การตัดสินใจหลายครั้ง การตัดสินใจทั้งหมด พารามิเตอร์ "คุณสมบัติ" กำหนดข้อจำกัดที่ผลลัพธ์หรือวิธีการได้มาซึ่งต้องเป็นไปตามข้อกำหนด ตัวอย่างเช่น สำหรับระบบที่ออกคำแนะนำสำหรับการรักษาผู้ป่วย ผู้ใช้สามารถระบุข้อกำหนดที่จะไม่ใช้ยาบางชนิด (เนื่องจากขาดยาหรือเนื่องจากเป็นข้อห้ามสำหรับผู้ป่วยรายนี้) พารามิเตอร์ "คุณสมบัติ" ยังสามารถกำหนดคุณสมบัติเช่นเวลาการแก้ปัญหา ("ไม่เกิน", "ช่วงเวลา" ฯลฯ ) จำนวนหน่วยความจำที่ใช้เพื่อให้ได้ผลลัพธ์ ข้อบ่งชี้ของการใช้บังคับ (เป็นไปไม่ได้) ความรู้ใด ๆ (ข้อมูล) ฯลฯ

ดังนั้น ความซับซ้อนของปัญหาซึ่งกำหนดโดยชุดพารามิเตอร์ข้างต้นจึงแตกต่างกันไปตั้งแต่ปัญหาง่าย ๆ ของมิติขนาดเล็กที่ไม่มีการเปลี่ยนแปลงข้อมูลบางอย่างและไม่มีข้อจำกัดเกี่ยวกับผลลัพธ์และวิธีการได้มา ไปจนถึงปัญหาที่ซับซ้อนของมิติขนาดใหญ่ที่มีตัวแปรผิดพลาด และข้อมูลไม่ครบถ้วนและข้อจำกัดตามอำเภอใจเกี่ยวกับผลลัพธ์และวิธีการได้มา . เป็นที่ชัดเจนจากการพิจารณาทั่วไปว่าเป็นไปไม่ได้ที่จะแก้ปัญหาทั้งหมดด้วยวิธีใดวิธีหนึ่ง โดยปกติ วิธีการบางอย่างจะเหนือกว่าวิธีอื่นๆ เฉพาะในพารามิเตอร์บางรายการเท่านั้น

วิธีการที่กล่าวถึงด้านล่างสามารถทำงานในสภาพแวดล้อมที่มีปัญหาแบบคงที่และแบบไดนามิก เพื่อให้ทำงานในสภาวะไดนามิก จำเป็นต้องคำนึงถึงอายุการใช้งานของค่าตัวแปร แหล่งที่มาของข้อมูลสำหรับตัวแปร และยังจัดให้มีความสามารถในการจัดเก็บประวัติของค่าตัวแปร จำลองสภาพแวดล้อมภายนอก และดำเนินการ ด้วยหมวดหมู่ชั่วคราวในกฎ

วิธีการแก้ปัญหาที่มีอยู่ในระบบผู้เชี่ยวชาญสามารถจำแนกได้ดังนี้

วิธีค้นหาในพื้นที่เดียว - วิธีการที่มีไว้สำหรับใช้ในเงื่อนไขต่อไปนี้: พื้นที่ขนาดเล็ก ความสมบูรณ์ของแบบจำลอง ข้อมูลที่ถูกต้องและครบถ้วน

วิธีค้นหาในช่องว่างแบบลำดับชั้น - วิธีการที่ออกแบบมาเพื่อทำงานในพื้นที่ที่มีมิติสูง

วิธีค้นหาข้อมูลที่ไม่ถูกต้องและไม่สมบูรณ์

วิธีค้นหาที่ใช้หลายรุ่น ออกแบบมาเพื่อทำงานกับพื้นที่ที่แบบจำลองหนึ่งไม่เพียงพอจะอธิบายได้เพียงพอ

สันนิษฐานว่าควรรวมวิธีการที่ระบุไว้หากจำเป็นเพื่อให้สามารถแก้ปัญหาที่ความซับซ้อนเพิ่มขึ้นพร้อมกันในหลายพารามิเตอร์

Tool Complex สำหรับการสร้าง Static Expert Systems (ในตัวอย่าง Eco Integrated Complex)

ให้เราพิจารณาคุณสมบัติของเครื่องมือในการสร้าง ES แบบคงที่โดยใช้ตัวอย่างของ ECO complex ที่พัฒนาขึ้นที่ Russian Research Institute of IT และ AP คอมเพล็กซ์นี้ใช้อย่างประสบความสำเร็จมากที่สุดในการสร้าง ES ที่แก้ปัญหาการวินิจฉัย (ทางเทคนิคและการแพทย์) การประเมินฮิวริสติก (ความเสี่ยง ความน่าเชื่อถือ ฯลฯ) การพยากรณ์คุณภาพสูง และการฝึกอบรม

มีการใช้คอมเพล็กซ์ ECO: เพื่อสร้างระบบผู้เชี่ยวชาญเชิงพาณิชย์และอุตสาหกรรมบนคอมพิวเตอร์ส่วนบุคคล ตลอดจนสร้างต้นแบบของระบบผู้เชี่ยวชาญอย่างรวดเร็วเพื่อกำหนดความเหมาะสมของวิธีการทางวิศวกรรมความรู้ในพื้นที่ปัญหาเฉพาะ

ระบบผู้เชี่ยวชาญที่นำไปใช้มากกว่า 100 ระบบได้รับการพัฒนาบนพื้นฐานของคอมเพล็กซ์ ECO ในหมู่พวกเขาเราทราบสิ่งต่อไปนี้:

ค้นหาข้อผิดพลาดเดียวในคอมพิวเตอร์ส่วนบุคคล

การประเมินสถานะของโครงสร้างไฮดรอลิก (Charvak HPP);

การตระเตรียม จดหมายธุรกิจเมื่อดำเนินการติดต่อกับคู่ค้าต่างประเทศ

ดำเนินการประเมินการตรวจคัดกรองสถานะภูมิคุ้มกัน

การประเมินข้อบ่งชี้ของการตรวจทางจุลชีววิทยาของผู้ป่วยที่เป็นโรคปอดเรื้อรังที่ไม่เฉพาะเจาะจง

วิธีการเป็นตัวแทนความรู้และกลยุทธ์การจัดการ

คอมเพล็กซ์ IVF ประกอบด้วยสามองค์ประกอบ

แกนหลักของความซับซ้อนคือเปลือกรวมของระบบผู้เชี่ยวชาญ ECO ซึ่งช่วยให้มั่นใจถึงการสร้างแอปพลิเคชันที่มีประสิทธิภาพอย่างรวดเร็วสำหรับการแก้ปัญหาการวิเคราะห์ในสภาพแวดล้อมที่มีปัญหาคงที่ประเภท 1 และ 2

ในการพัฒนาเครื่องมือแทนความรู้ของเชลล์ มีเป้าหมายหลักสองประการคือ การแก้ปัญหาที่มีประสิทธิภาพของงานในระดับที่ค่อนข้างกว้างและมีความสำคัญในทางปฏิบัติโดยใช้คอมพิวเตอร์ส่วนบุคคล ตัวเลือกที่ยืดหยุ่นสำหรับการอธิบายส่วนต่อประสานผู้ใช้และการให้คำปรึกษาในแอปพลิเคชันเฉพาะ เมื่อมีการแสดงความรู้ในเชลล์ จะมีการใช้การยืนยันเฉพาะ (ส่วนตัว) ของประเภท "ค่าแอตทริบิวต์" และกฎส่วนตัว ซึ่งทำให้สามารถขจัดการดำเนินการที่ใช้ทรัพยากรมากของการจับคู่รูปแบบและบรรลุประสิทธิภาพของแอปพลิเคชันที่พัฒนาแล้ว ความสามารถในการแสดงออกของเชลล์ได้รับการขยายอย่างมากเนื่องจากการผสานรวมที่จัดเตรียมไว้โดยการเรียกโปรแกรมภายนอกผ่านสคริปต์การให้คำปรึกษาและการเชื่อมต่อกับฐานข้อมูล (PIRS และ dBase IV) และโปรแกรมภายนอก ในเชลล์ ECO มีการจัดโครงสร้างที่อ่อนแอของฐานความรู้เนื่องจากการแบ่งออกเป็นองค์ประกอบที่แยกจากกัน - เพื่อแก้ไขงานย่อยแต่ละงานในสภาพแวดล้อมที่มีปัญหา - แบบจำลอง (แนวคิดของ "แบบจำลอง" ของ ECO สอดคล้องกับแนวคิดของ "โมดูล" ของฐานความรู้ของระบบ G2)

จากมุมมองของเทคโนโลยีการพัฒนา ES เชลล์สนับสนุนแนวทางตามความรู้ผิวเผินและโครงสร้างของกระบวนการแก้ปัญหา

เชลล์ทำงานในสองโหมด: ในโหมดของการได้มาซึ่งความรู้และในโหมดของการปรึกษาหารือ (การแก้ปัญหา) ในโหมดแรก ผู้พัฒนา ES จะป้อนคำอธิบายของแอปพลิเคชันเฉพาะลงในฐานความรู้โดยใช้ตัวแก้ไขไดอะล็อกในแง่ของภาษาแทนความรู้ของเชลล์ คำอธิบายนี้รวบรวมไว้ในเครือข่ายการอนุมานพร้อมลิงก์ที่อยู่ตรงไปยังคำสั่งและกฎเฉพาะ ในโหมดที่สอง เชลล์จะแก้ไขงานของผู้ใช้เฉพาะในโหมดไดอะล็อกหรือแบตช์ ในกรณีนี้ โซลูชันจะได้มาจากเป้าหมายสู่ข้อมูล (การให้เหตุผลแบบย้อนกลับ)

เพื่อเพิ่มขีดความสามารถของเชลล์สำหรับการทำงานด้วยความรู้เชิงลึก คอมเพล็กซ์ ECO สามารถเสริมด้วยส่วนประกอบ K-ECO (ตัวสร้างความรู้) ซึ่งช่วยให้คุณอธิบายรูปแบบในสภาพแวดล้อมที่มีปัญหาในแง่ของวัตถุทั่วไป (นามธรรม) และ กฎ. C-ECO ถูกใช้ในขั้นตอนการเรียนรู้แทนตัวแก้ไขไดอะล็อกเชลล์เพื่อแปลงคำอธิบายทั่วไปเป็นเครือข่ายการอนุมานเฉพาะที่ช่วยให้สามารถอนุมานโซลูชันได้อย่างมีประสิทธิภาพโดย ECO เชลล์ ดังนั้น การใช้เครื่องคอนกรีตทำให้สามารถทำงานกับสภาพแวดล้อมที่มีปัญหาประเภทที่ 2 ได้ (ดูบทที่ 3)

องค์ประกอบที่สามของความซับซ้อนคือระบบ ILIS ซึ่งอนุญาตให้สร้าง ES ในสภาพแวดล้อมที่มีปัญหาคงที่เนื่องจากการอุปนัยทั่วไปของข้อมูล (ตัวอย่าง) และมีไว้สำหรับใช้ในแอปพลิเคชันเหล่านั้นซึ่งการชดเชยการขาดกฎที่สะท้อนรูปแบบในสภาพแวดล้อมที่มีปัญหาได้รับการชดเชยโดย วัสดุทดลองที่กว้างขวาง ระบบ ILIS ให้การสร้างกฎเฉพาะที่ง่ายที่สุดโดยอัตโนมัติและแก้ปัญหาอัตโนมัติโดยอิงจากกฎเหล่านั้น ในกรณีนี้จะใช้รูปแบบการสนทนาที่เข้มงวดกับผู้ใช้ เนื่องจากเมื่อสร้างแอปพลิเคชันจริง ผู้เชี่ยวชาญมักจะนำเสนอทั้งความรู้เกี่ยวกับรูปแบบในสภาพแวดล้อมของปัญหาและสื่อการทดลอง (สำหรับการแก้ไขงานย่อยโดยเฉพาะ) จึงจำเป็นต้องใช้กฎที่สร้างโดยระบบ ILIS ภายในเครื่องมือแทนความรู้ที่ซับซ้อนมากขึ้น . คอมเพล็กซ์ ECO ให้การแปลกฎดังกล่าวโดยอัตโนมัติในรูปแบบเชลล์ ECO ด้วยเหตุนี้ จึงเป็นไปได้ที่จะได้รับการแสดงที่สมบูรณ์ (เพียงพอ) ของสภาพแวดล้อมที่มีปัญหาจริง นอกจากนี้ เพื่อกำหนดคำอธิบายที่ยืดหยุ่นขององค์กรของการโต้ตอบระหว่าง ES และผู้ใช้ปลายทาง

เครื่องมือที่ซับซ้อนสำหรับการสร้างระบบผู้เชี่ยวชาญแบบเรียลไทม์ (ในตัวอย่างของสภาพแวดล้อมแบบบูรณาการ g2-gensym corp., USA)

ประวัติความเป็นมาของการพัฒนาไอซีสำหรับการสร้าง ES แบบเรียลไทม์เริ่มขึ้นในปี 2528 เมื่อ Lisp Machine Inc. เปิดตัวระบบ Picon สำหรับคอมพิวเตอร์สัญลักษณ์ Symbolics ความสำเร็จของ IC นี้นำกลุ่มนักพัฒนาชั้นนำของ Picon ในปี 1986 ให้ก่อตั้งบริษัทเอกชนชื่อ Gensym ซึ่งพัฒนาแนวคิดอย่างมีนัยสำคัญใน Picon เข้าสู่ตลาดในปี 1988 ด้วย IC ชื่อ G2 เวอร์ชัน 1.0 เวอร์ชัน 4.2 กำลังดำเนินการอยู่ และเวอร์ชัน 5.0 กำลังถูกจัดเตรียมสำหรับการเปิดตัว

วัตถุประสงค์หลักของผลิตภัณฑ์ซอฟต์แวร์ Gensym (สหรัฐอเมริกา) คือการช่วยให้องค์กรรักษาและใช้ความรู้และประสบการณ์ของพนักงานที่มีความสามารถและมีคุณสมบัติเหมาะสมที่สุดในระบบอัจฉริยะแบบเรียลไทม์ที่ปรับปรุงคุณภาพผลิตภัณฑ์ ความน่าเชื่อถือและความปลอดภัยในการผลิต และลดต้นทุนการผลิต วิธีที่ Gensym จัดการเพื่อรับมือกับงานนี้อย่างน้อยก็แสดงให้เห็นโดยข้อเท็จจริงที่ว่าวันนี้บริษัทเป็นเจ้าของ 50% ของตลาดโลกสำหรับระบบผู้เชี่ยวชาญที่ใช้ในระบบควบคุม

ด้วยความล่าช้าจาก Gensym เป็นเวลา 2 - 3 ปี บริษัทอื่นๆ เริ่มสร้าง IC ของตนเองสำหรับ ES RT จากมุมมองของผู้เชี่ยวชาญอิสระของ NASA ซึ่งทำการศึกษาอย่างครอบคลุมเกี่ยวกับคุณลักษณะและความสามารถของบางระบบที่อยู่ในรายการ ในปัจจุบัน G2 (Gensym, USA) ยังคงเป็น IS ที่ล้ำหน้าที่สุดอย่างแน่นอน สถานที่ต่อไปนี้ที่มีความล่าช้าอย่างมีนัยสำคัญ (ใช้งานน้อยกว่า 50% ของความสามารถ G2) ถูกครอบครองโดย RTWorks - Talarian (USA), COMDALE / C (Comdale Techn. - แคนาดา), COGSYS (SC - USA), กฎ ILOG ( ILOG - ฝรั่งเศส)

คลาสงานที่ G2 และระบบที่คล้ายกันได้รับการออกแบบ:

การตรวจสอบแบบเรียลไทม์

ระบบควบคุมระดับบนสุด

ระบบตรวจจับความผิดพลาด

การวินิจฉัย;

กำหนดการ;

การวางแผน;

การเพิ่มประสิทธิภาพ;

ระบบ - ที่ปรึกษาของผู้ปฏิบัติงาน

ระบบการออกแบบ

เครื่องมือ Gensym เป็นขั้นตอนวิวัฒนาการในการพัฒนาระบบผู้เชี่ยวชาญแบบดั้งเดิมจากโดเมนสแตติกไปจนถึงไดนามิก ส่วนแบ่งที่สำคัญของความสำเร็จของ Gensym นั้นมาจากหลักการพื้นฐานที่ยึดถือในการพัฒนาใหม่:

ปัญหา / การวางแนวเรื่อง;

การปฏิบัติตามมาตรฐาน

ความเป็นอิสระจากแพลตฟอร์มการคำนวณ

ความเข้ากันได้จากล่างขึ้นบนกับเวอร์ชันก่อนหน้า

ความสามารถที่เป็นสากลโดยไม่ขึ้นกับงานที่กำลังแก้ไข

จัดหาพื้นฐานทางเทคโนโลยีสำหรับระบบประยุกต์

สภาพแวดล้อมการพัฒนาที่สะดวกสบาย

แสวงหาแนวทางใหม่ในการพัฒนาเทคโนโลยี

สถาปัตยกรรมไคลเอนต์ - เซิร์ฟเวอร์แบบกระจาย

ประสิทธิภาพสูง.

ข้อได้เปรียบหลักของเชลล์ระบบผู้เชี่ยวชาญ G2 สำหรับผู้ใช้ชาวรัสเซียคือความสามารถในการใช้เป็นองค์ประกอบการผสานรวม ซึ่งช่วยให้สามารถรวมเครื่องมืออัตโนมัติที่มีอยู่และแตกต่างกันได้อย่างง่ายดายเนื่องจากการเปิดกว้างของอินเทอร์เฟซและการสนับสนุนแพลตฟอร์มการคำนวณที่หลากหลาย เป็นหนึ่งเดียว ระบบบูรณาการการจัดการครอบคลุมทุกด้านของกิจกรรมการผลิต - ตั้งแต่การสร้างพอร์ตโฟลิโอของคำสั่งซื้อไปจนถึงการจัดการกระบวนการทางเทคโนโลยีและการขนส่งผลิตภัณฑ์สำเร็จรูป นี่เป็นสิ่งสำคัญอย่างยิ่งสำหรับองค์กรในประเทศซึ่งกลุ่มฮาร์ดแวร์และซอฟต์แวร์ส่วนใหญ่ก่อตัวขึ้นอย่างไม่ตั้งใจภายใต้อิทธิพลของความผันผวนอย่างรวดเร็วในเศรษฐกิจ

นอกจากระบบ G2 ที่เป็นเครื่องมือในการพัฒนาพื้นฐานแล้ว Gensym ยังเสนอชุดส่วนขยายโดเมน/โดเมนสำหรับการนำระบบไดนามิกที่ซับซ้อนไปใช้อย่างรวดเร็วโดยอิงจากภาษากราฟิกเฉพาะทาง รวมถึงบล็อกตัวดำเนินการที่กำหนดพารามิเตอร์ได้สำหรับการแสดงองค์ประกอบกระบวนการและงานการประมวลผลข้อมูลทั่วไป . ชุดเครื่องมือของ Gensym ซึ่งจัดกลุ่มตามการวางแนวปัญหา ครอบคลุมทุกขั้นตอนของกระบวนการผลิตและมีลักษณะดังนี้:

การควบคุมการผลิตอัจฉริยะ - G2, G2 Diagnostic Assistant (GDA), NeurOn-Line (NOL), การควบคุมกระบวนการทางสถิติ (SPC), BatchDesign_Kit;

การวางแผนการปฏิบัติงาน - G2, G2 Scheduling Toolkit (GST), Dynamic Scheduling Packadge (DSP);

การพัฒนาและสร้างแบบจำลองของกระบวนการผลิต - G2, ReThink, BatchDesign_Kit;

การดำเนินงานและการจัดการเครือข่ายองค์กร - G2, Fault Expert

แม้จะมีความจริงที่ว่าระบบ G2 รุ่นแรกปรากฏขึ้นเมื่อไม่นานมานี้ - ในปี 1988 จะไม่มีใครเรียกมันว่าราคาถูกแม้ในอเมริกาที่ร่ำรวย G2 สามารถเรียกได้ว่าเป็นสินค้าขายดีในตลาดซอฟต์แวร์ - เมื่อต้นปี 2539 มีการติดตั้งมากกว่า 5,000 ชุดในโลก Gensym ให้บริการมากกว่า 30 อุตสาหกรรม ตั้งแต่การวิจัยด้านอวกาศไปจนถึงการผลิตอาหาร รายชื่อผู้ใช้ G2 ดูเหมือนคู่มือ Who-Is-Who สำหรับอุตสาหกรรมระดับโลก บริษัทอุตสาหกรรมที่ใหญ่ที่สุด 25 แห่งทั่วโลกใช้ G2 มีการเขียนแอปพลิเคชันที่ใช้งานอยู่มากกว่า 500 รายการบนพื้นฐานของ G2

อะไรอธิบายความสำเร็จของคอมเพล็กซ์เครื่องมือ G2 ประการแรก G2 เป็นระบบไดนามิกในความหมายที่สมบูรณ์ของคำ G2 เป็นเฟรมเวิร์กเชิงวัตถุสำหรับการพัฒนาและบำรุงรักษาแอปพลิเคชันแบบเรียลไทม์ที่ใช้ฐานความรู้ G2 ทำงานบนแพลตฟอร์มที่มีอยู่ส่วนใหญ่ (ตารางที่ 9.1) ฐานความรู้ G2 ถูกบันทึกไว้ในปกติ

ตารางที่ 9.1 แพลตฟอร์มที่ G2 ทำงาน

บริษัทผู้ผลิต

ระบบคอมพิวเตอร์

สภาพแวดล้อมในการทำงาน

VAX Zxxx,4xxx,bxxx,

7xxx, 8xxx, 9xxx

DECstation Zxxx, bxxx

เปิด VMS, OSF/1,

สปาร์ค 1,2, 10, แอลเอ็กซ์,

SunOS/Solaris 1, Solaris

Hewlett Packard

HP9000/4xx, 7xx, 8xx

กราฟิกซิลิคอน

Intel 486/Pentium

Windows NT, Windows 95

บทเรียนที่ 9 การสร้างเว็บPIUM CHART หน้า

วิธีที่ง่ายที่สุดในการใช้คอมโพเนนต์รายการ PivotTable คือการบันทึก PivotTable Microsoft Excelเหมือนหน้าเว็บ ในการดำเนินการนี้ ให้เลือกรายการเมนู ไฟล์ | บันทึกเป็นหน้าเว็บ ในกล่องโต้ตอบที่ปรากฏขึ้น ให้กดปุ่ม เผยแพร่ ในกล่องโต้ตอบ ให้เลือกตัวเลือก รายการในชีต1 จากรายการดรอปดาวน์ เลือก จากนั้น PivotTable ให้ทำเครื่องหมายที่ตัวเลือก เพิ่มการโต้ตอบด้วย และเลือกฟังก์ชัน PivotTable จาก รายการ.

ถัดไป หากจำเป็น ให้เปลี่ยนชื่อที่จะปรากฏบนหน้าเว็บในอนาคตและบันทึก หากเราเปิดหน้านี้ใน Microsoft Internet Explorer เราจะพบว่ามีรายการ PivotTable ตัวควบคุม ActiveX สำหรับการดูข้อมูล OLAP และ PivotTable ในหน้าเว็บหรือแอปพลิเคชัน Windows (รูปที่ 2)

เราทราบทันทีว่าการควบคุมนี้สามารถใช้ได้เฉพาะบนเครือข่ายท้องถิ่นบนคอมพิวเตอร์ที่ซื้อสิทธิ์การใช้งานสำหรับ Microsoft Office เท่านั้น การใช้งานอื่นๆ เช่น บนเว็บเพจที่มีอยู่บนอินเทอร์เน็ต เป็นสิ่งต้องห้ามตามข้อตกลงสิทธิ์การใช้งาน

คุณสมบัติของคอมโพเนนต์รายการ PivotTable

ในการบรรยาย เราจะดูคุณสมบัติโดยย่อขององค์ประกอบรายการ PivotTable

ผู้ใช้ที่จัดการส่วนประกอบนี้ในเบราว์เซอร์หรือแอปพลิเคชัน Windows สามารถย้ายข้อมูลไปยังพื้นที่แถว พื้นที่คอลัมน์ และพื้นที่หน้าได้เช่นเดียวกับใน Excel PivotTable (Microsoft Office Web Components ใช้เงื่อนไข Row Area, Column Area และ Filter Area) ด้วยกล่องโต้ตอบ แผงที่คล้ายกับแผงรายการเขตข้อมูล PivotTable จาก Excel 2013 แผงกล่องโต้ตอบที่มีรายการขนาดและการวัดจะแสดงขึ้นโดยคลิกปุ่มรายการเขตข้อมูลบนแถบเครื่องมือของส่วนประกอบรายการ PivotTable

ผู้ใช้ยังสามารถดำเนินการเจาะลึกโดยคลิกที่ไอคอน "+" (รูปที่ 4)

คอมโพเนนต์รายการ PivotTable ช่วยให้คุณสามารถเรียงลำดับและกรองข้อมูลได้ ขั้นแรก การกรองข้อมูลสามารถทำได้โดยแสดงเฉพาะสมาชิกมิติที่เลือก ซึ่งสามารถตรวจสอบได้ในรายการดรอปดาวน์ที่คล้ายกับรายการ Excel ที่เกี่ยวข้อง

ประการที่สอง การใช้แผงโต้ตอบคำสั่งและตัวเลือก (สามารถแสดงได้โดยใช้ปุ่มที่เกี่ยวข้องบนแถบเครื่องมือขององค์ประกอบรายการ PivotTable) คุณสามารถเลือกวิธีการกรองและจัดกลุ่มข้อมูลได้ (เช่น แสดงค่าสูงสุดหรือต่ำสุดจำนวนหนึ่ง ​​- 5 อันดับแรก 10 อันดับแรก 25 ต่ำสุด ฯลฯ

นอกจากนี้ ผู้ใช้สามารถเปลี่ยนคุณสมบัติการแสดงข้อมูลได้ เช่น สีข้อความและแบบอักษร สีพื้นหลัง การจัดแนวข้อความ การแสดงผล ฯลฯ ในการดำเนินการนี้ เพียงวางเคอร์เซอร์บนองค์ประกอบข้อมูลตัวใดตัวหนึ่งที่จำเป็นต้องเปลี่ยนแอตทริบิวต์ (เช่น ที่ชื่อสมาชิกมิติ บนเซลล์ที่มีข้อมูลสรุปหรือค่ารวม) และเลือกแอตทริบิวต์ใหม่เพื่อแสดง ข้อมูลประเภทนี้ในกล่องโต้ตอบ Commands and Options เดียวกัน .

นอกจากนี้ ส่วนประกอบรายการ PivotTable ยังช่วยให้สามารถคำนวณเศษส่วนหรือเปอร์เซ็นต์ของยอดรวมหรือจำนวนเงินที่สอดคล้องกับสมาชิกหลักของมิติ (เช่น เปอร์เซ็นต์ของกำไรประจำปีที่ได้รับในไตรมาสที่กำหนด) - ตัวเลือกที่เกี่ยวข้องสามารถพบได้ในเมนูบริบทขององค์ประกอบข้อมูล

ผู้ใช้ยังสามารถเข้าถึงไฟล์ช่วยเหลือที่ออกแบบมาเป็นพิเศษสำหรับเขา (ในภาษารัสเซีย หากใช้ส่วนประกอบเว็บจากแพ็คเกจภาษารัสเซีย) เวอร์ชั่นของไมโครซอฟต์ออฟฟิศ XP) อย่างไรก็ตาม ผู้ใช้ไม่สามารถเปลี่ยนแหล่งข้อมูลและแสดงคิวบ์ OLAP อื่นบนหน้าเว็บได้ เนื่องจากมีเพียงผู้พัฒนาเว็บเพจเท่านั้นที่มีสิทธิ์ทำเช่นนี้ (และมีไฟล์ช่วยเหลือแยกต่างหากสำหรับเขา ซึ่งแตกต่างอย่างมากจากสิ่งที่เป็น มีไว้สำหรับผู้ใช้ - เขามีข้อมูลเกี่ยวกับโมเดลวัตถุของส่วนประกอบนี้โดยเฉพาะ)

โปรดทราบว่าสามารถสร้างเว็บเพจที่คล้ายกันได้โดยใช้ Microsoft FrontPage ในการแทรกรายการ PivotTable ลงในเว็บเพจที่สร้างใน FrontPage ให้เลือกรายการเมนู แทรก | เว็บคอมโพเนนต์และในกล่องโต้ตอบที่ปรากฏขึ้น ให้เลือก Office PivotTable จากส่วนสเปรดชีตและแผนภูมิ

หลังจากที่ส่วนประกอบรายการ PivotTable ปรากฏขึ้นบนเว็บเพจ ให้คลิกที่ลิงก์ไฮเปอร์เท็กซ์ที่พร้อมท์ให้คุณกำหนดแหล่งข้อมูล จากนั้นเลือกแหล่ง ODBC จากรายการที่เสนอ (หรืออธิบายหากยังไม่มีอยู่ในรายการ วิธี สิ่งนี้อธิบายไว้ในบทความก่อนหน้าในชุดนี้) ในฐานะแหล่งข้อมูล คุณสามารถใช้คิวบ์ OLAP ฝั่งเซิร์ฟเวอร์หรือคิวบ์ในเครื่องที่สร้างโดยใช้ Excel (รวมถึงผลลัพธ์ของคิวรีไปยังแหล่งข้อมูล ODBC ใดๆ ที่ส่งคืนชุดข้อมูล "แฟลต" ปกติ) สุดท้าย ถ้าจำเป็น คุณสามารถแสดงกล่องโต้ตอบ รายการเขตข้อมูล PivotTable และย้ายชื่อของมิติและหน่วยวัดไปยังพื้นที่ที่เหมาะสมของส่วนประกอบนี้

โปรดทราบว่าหน้าแหล่งข้อมูลของกล่องโต้ตอบคำสั่งและตัวเลือกจะพร้อมใช้งานในเวลาออกแบบเท่านั้น (นั่นคือใน FrontPage หรือถ้าส่วนประกอบ PivotTable List ไม่ได้ใช้ในเว็บเพจ แต่ในแอปพลิเคชัน Windows ในการพัฒนา เครื่องมือที่สร้างขึ้น ภาคผนวก) กล่าวอีกนัยหนึ่ง ผู้ใช้ปลายทางไม่มีความสามารถในการเปลี่ยนแหล่งข้อมูล เฉพาะนักพัฒนาเท่านั้นที่สามารถทำได้

การสร้างเว็บเพจด้วย PivotChart

Microsoft Office Web Components ยังอนุญาตให้คุณสร้างแผนภูมิสาระสำคัญโดยยึดตามข้อมูลที่แสดงในส่วนประกอบรายการ PivotTable เพื่อจุดประสงค์นี้ ให้ใช้ตัวควบคุม ChartSpace ซึ่งรวมอยู่ใน Microsoft Office Web Components ด้วย เมื่อต้องการวางไว้บนเว็บเพจ ให้เลือกรายการเมนู แทรก | จากเมนู FrontPage คอมโพเนนต์ของเว็บและในกล่องโต้ตอบที่ปรากฏขึ้น ให้เลือก Office Chart จากส่วนสเปรดชีตและแผนภูมิ

ขั้นตอนต่อไปในการสร้างแผนภูมิคือการเลือกแหล่งข้อมูลสำหรับการลงจุด ในกรณีของเรา นี่จะเป็นองค์ประกอบรายการ PivotTable ที่มีอยู่

ควรสังเกตว่า Pivot Chart ที่เป็นผลลัพธ์มีฟังก์ชันโดยประมาณเหมือนกับ Pivot Chart ของ Excel ที่กล่าวถึงในบทความก่อนหน้าของชุดนี้ (เช่น ส่วนประกอบนี้ยังช่วยให้คุณสามารถลากชื่อของมิติและหน่วยวัดด้วยเมาส์ไปยังพื้นที่ต่างๆ ได้ ของแผนภูมิและเลือกสมาชิกที่แสดงของมิติ) และการเปลี่ยนแปลงในแผนภูมิและ PivotTable จะซิงโครนัส เช่นเดียวกับเมื่อแสดงข้อมูลคิวบ์ OLAP ใน Excel

แผนภูมิ Pivot ที่ยึดตามคิวบ์ OLAP สามารถสร้างได้โดยตรงโดยใช้คอมโพเนนต์ ChartSpace เมื่อต้องการทำเช่นนี้ เมื่อสร้างเว็บเพจ คุณต้องอธิบายแหล่งข้อมูลบนหน้ารายละเอียดข้อมูลในกล่องโต้ตอบคำสั่งและตัวเลือก

และสุดท้าย อีกวิธีหนึ่งในการสร้างเว็บเพจด้วย pivot chart ประกอบด้วยการบันทึก Excel PivotChart เป็นเว็บเพจ อย่างไรก็ตาม ในกรณีนี้ ส่วนประกอบรายการ PivotTable ที่เชื่อมโยงกับแผนภูมิที่กำลังสร้างจะถูกเพิ่มลงในหน้าเดียวกันโดยอัตโนมัติ

ดังที่กล่าวไว้ข้างต้น ส่วนประกอบ PivotTable List และ ChartSpace ยังสามารถใช้ในแอปพลิเคชันได้อีกด้วย สิ่งนี้ต้องการเครื่องมือการพัฒนาที่สนับสนุนการใช้ตัวควบคุม ActiveX บนฟอร์ม (เช่น Microsoft Visual Basic, Microsoft Visual C++, Borland Delphi, Borland C++Builder) นักพัฒนาที่สนใจในการสร้างแอปพลิเคชันดังกล่าวสามารถอ้างถึงบทความที่เผยแพร่ก่อนหน้านี้ในหัวข้อนี้ (เช่น การใช้ส่วนประกอบ Microsoft Office ในแอปพลิเคชัน

ผลลัพธ์

ตาราง 8.3a. สถิติการถดถอย
สถิติการถดถอย
หลาย R 0,998364
R-สี่เหลี่ยม 0,99673
R-square ปกติ 0,996321
มาตรฐานบกพร่อง 0,42405
ข้อสังเกต 10

ขั้นแรกให้ดูที่ส่วนบนของการคำนวณที่แสดงในตารางที่ 8.3a ซึ่งเป็นสถิติการถดถอย

ค่า R-square หรือที่เรียกว่าการวัดความแน่นอน เป็นตัวกำหนดคุณภาพของเส้นการถดถอยที่เกิดขึ้น คุณภาพนี้แสดงโดยระดับความสอดคล้องระหว่างข้อมูลดั้งเดิมกับแบบจำลองการถดถอย (ข้อมูลที่คำนวณ) การวัดความแน่นอนอยู่ภายในช่วงเวลาเสมอ

ในกรณีส่วนใหญ่ ค่า R-squared จะอยู่ระหว่างค่าเหล่านี้ เรียกว่า Extremes กล่าวคือ ระหว่างศูนย์และหนึ่ง

หากค่าของ R-square ใกล้เคียงกัน แสดงว่าแบบจำลองที่สร้างขึ้นนั้นอธิบายความแปรปรวนเกือบทั้งหมดของตัวแปรที่เกี่ยวข้องกัน ในทางกลับกัน ค่า R-squared ที่ใกล้ศูนย์หมายถึงคุณภาพของแบบจำลองที่สร้างขึ้นไม่ดี

ในตัวอย่างของเรา การวัดความแน่นอนคือ 0.99673 ซึ่งบ่งชี้ว่าเส้นการถดถอยมีความเหมาะสมมากกับข้อมูลเดิม

หลาย R- สัมประสิทธิ์สหสัมพันธ์พหุคูณ R - แสดงระดับการพึ่งพาตัวแปรอิสระ (X) และตัวแปรตาม (Y)

หลาย R เท่ากับรากที่สองของสัมประสิทธิ์การกำหนด ค่านี้ใช้ค่าในช่วงจากศูนย์ถึงหนึ่ง

ในการวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย หลาย R เท่ากับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน อันที่จริง ตัวคูณ R ในกรณีของเราเท่ากับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันจากตัวอย่างก่อนหน้า (0.998364)

ตารางที่ 8.3b. สัมประสิทธิ์การถดถอย
อัตราต่อรอง มาตรฐานบกพร่อง t-สถิติ
สี่แยก Y 2,694545455 0,33176878 8,121757129
ตัวแปร X 1 2,305454545 0,04668634 49,38177965
* มีการคำนวณเวอร์ชันที่ถูกตัดทอนให้

ตอนนี้ให้พิจารณาส่วนตรงกลางของการคำนวณที่แสดงในตารางที่ 8.3b ในที่นี้ ค่าสัมประสิทธิ์การถดถอย b (2.305454545) และออฟเซ็ตตามแกน y จะได้รับ นั่นคือ ค่าคงที่ a (2.694545455)

จากการคำนวณเราสามารถเขียนสมการถดถอยได้ดังนี้:

Y= x*2.305454545+2.694545455

ทิศทางของความสัมพันธ์ระหว่างตัวแปรถูกกำหนดตามสัญญาณ (ลบหรือบวก) สัมประสิทธิ์การถดถอย(ค่าสัมประสิทธิ์ข).

ถ้าป้ายที่ สัมประสิทธิ์การถดถอย- บวก ความสัมพันธ์ของตัวแปรตามกับตัวแปรอิสระจะเป็นบวก ในกรณีของเรา เครื่องหมายของสัมประสิทธิ์การถดถอยเป็นบวก ดังนั้น ความสัมพันธ์จึงเป็นบวกด้วย

ถ้าป้ายที่ สัมประสิทธิ์การถดถอย- เชิงลบ ความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระเป็นค่าลบ (ผกผัน)

ในตาราง 8.3c ผลลัพธ์ของการส่งออกของส่วนที่เหลือจะถูกนำเสนอ เพื่อให้ผลลัพธ์เหล่านี้ปรากฏในรายงาน จำเป็นต้องเปิดใช้งานช่องทำเครื่องหมาย "ส่วนที่เหลือ" เมื่อเปิดเครื่องมือ "การถดถอย"

การถอนเงินที่เหลืออยู่

ตารางที่ 8.3c เศษซาก
การสังเกต คาดการณ์ Y เศษซาก เครื่องชั่งมาตรฐาน
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

การใช้ส่วนนี้ของรายงาน เราสามารถเห็นความเบี่ยงเบนของแต่ละจุดจากเส้นถดถอยที่สร้างขึ้น ค่าสัมบูรณ์ที่ยิ่งใหญ่ที่สุด

บทความที่เกี่ยวข้องยอดนิยม