Example Application of a Simple Linear Regression and Correlation in the Transportation Studies

Подобни документи
СТОПАНСКА АКАДЕМИЯ „Д

_5. ???????????? ?3????????? ?? ????????????? ?? ?????????? ?? 2005 ?.

I

Изследване на устойчивостта на равновесното състояние на системи с краен брой степени на свобода Следващият пример илюстрира основните разсъждения при

Методично ръководство Съдържание Мита Георгиева по Статистика с приложение Магдалена Каменарова на SPSS 1. Статистиката като наука 1.1. Обща характери

INTERNATIONAL SCIENTIFIC JOURNAL "MECHANIZATION IN AGRICULTURE" WEB ISSN ; PRINT ISSN ИЗСЛЕДВАНЕ И ОПТИМИЗИРАНЕ ПЕРИОДИЧНОСТТА НА Д

Microsoft Word - stokdovo saprotivlenie.doc

Лекция Приложение на линейната многопроменлива регресия за изчисляване на топлини на образуване на алкани Дефиниция на топлина на образуване Топлина н

Приложение на методите на Рунге Кута за решаване на уравненията за отравяне на ядрения реактор 1. Въведение В доклада са направени поредица от изчисле

Лекция Класификация с линейна обучаваща машина Обучаващата машина може да бъде дефинирана като устройство, чиито действия са повлияни от миналия опит

Microsoft Word - KZ_TSG.doc

ПЛОВДИВСКИ УНИВЕРСИТЕТ

НАЦИОНАЛНА СПОРТНА АКАДЕМИЯ ВАСИЛ ЛЕВСКИ КАТЕДРА ТЕОРИЯ НА СПОРТА СЕКТОР СТАТИСТИЧЕСКИ МЕТОДИ В СПОРТА У Ч Е Б Н И ЗАПИСКИ Име...Фамилия... Факултет..

Microsoft Word - Lecture 14-Laplace Transform-N.doc

Microsoft Word - Sem02_KH_VM2-19.doc

Microsoft Word - VypBIOL-01-kinematika.doc

Microsoft PowerPoint - DBoyadzhieva

4 Aπριλίου 2003

2. Изследване на операциите и моделиране. Моделиране на обществените процеси. Същност на моделирането. Структура на процеса на моделиране

годишно разпределение по математика за 8. клас 36 учебни седмици по 3 учебни часа = 108 учебни часа I срок 18 учебни седмици = 54 учебни часа II срок

BULGARIAN PARTICIPATION IN THE SPS AND PS EXPERIMENTS

Microsoft Word - VypBIOL-02-Kin-Okryznost.doc

Microsoft Word - seminar12.docx

Microsoft Word - UIP_mat_7klas_

vibr_of_triat_mol_alpha

Линейна алгебра 7. Умножение на матрици. Обратими матрици. Матрични уравнения специалности: Математика, Бизнес математика, Приложна математика, I курс

Демографски процеси в област Бургас през 2017 година

Microsoft Word - Document5

16. Основни методи за интегриране. Интегриране на някои класове функции Интегриране по части. Теорема 1 (Формула за интегриране по части). Ако

Microsoft Word - VypBIOL-06-rabota.doc

4 Aπριλίου 2003

Машинно обучение - въведение

Microsoft Word - PRMAT sec99.doc

Microsoft Word - VM-LECTURE06.doc

СТАНОВИЩЕ

Microsoft Word - VM22 SEC55.doc

Препис:

Механика ISSN 3-383 Транспорт брой, 00 г Комуникации статия 0478 Научно списание ПРИМЕРНО ПРИЛОЖЕНИЕ НА ЕДИНИЧНА ЛИНЕЙНА РЕГРЕСИЯ И КОРЕЛАЦИЯ В ТРАНСПОРТНИТЕ ИЗСЛЕДВАНИЯ Ставри Димитров stavr_dmtrov@hotmalcom http://wwwmtc-ajcom Висше транспортно училище Тодор Каблешков, катедра Технология, организация и управление на транспорта, ул Гео Милев 58, София 574, БЪЛГАРИЯ Ключови думи: научни изследвания, статистически методи, корелационен анализ, регресионен анализ, единична (проста) линейна регресия, метод на най-малките квадрати, регресионно уравнение, транспорт Резюме: Настоящата публикация представя пример за приложението на статистическите методи корелационен и регресионен анализ в транспортните изследвания Посредством използване на примерни статистически данни и чрез прилагане на метода на най-малките квадрати са получени регресионните коефициенти на уравнение на регресия, описващо връзката между средното време за пътуване от местопребиваване до месторабота с лични леки автомобили по време на час пик и общият брой регистрирани автомобили Увод За описание на съществуващи връзки между явления и процеси учени и изследователи използват основно два вида зависимости: функционални и стохастически При извежданите функционални зависимости, валидни предимно в точните науки, стойностите на зависимата (резултативната) променлива величина еднозначно се определят от стойностите на независимата (факторната) променлива величина Специфично за стохастическите зависимости е, че при зададена стойност на Х са възможни различни значения на, тъй като зависи, както от Х, така и от други неконтролируеми или неотчетени фактори Същността на транспортните процеси е такава, че голяма част от тях носят стохастически (вероятностен) характер [] Затова при създаване на транспортни модели някои от тези процеси могат да се разглеждат като стохастически При изследване на стохастическите процеси могат да се решат две основни задачи []: Изследване за наличието на взаимозависимост между явленията и свързаните с тях величини, чрез извършване на корелационен анализ; Моделиране на разкритите връзки с установени уравнения на регресия Предпоставки и начини за разрешаване на проблема За решаване на гореописаните задачи по изследване на връзки и установяване на зависимости, описващи тези връзки се прилагат статистически методи [4] С помощта на статистическите методи могат да се формулират заключения за характера и силата на изследваните връзки при определени условия [3] Често използвани в транспортните изследвания за получаване на аналитични зависимости, описващи връзките между протичащите транспортни процеси са регресионния и корелационния анализ Те BG-3

представляват методи за анализ на статистически връзки и зависимости [3] Обикновено тези два статистически метода корелационен и регресионен анализ се използват заедно, но могат да се прилагат и по отделно, независимо един от друг С корелационния анализ се измерва силата (теснотата) на изследваната връзка между една зависима променлива и една или повече независими променливи Целта на регресионния анализ се състои в определяне на вида на функцията, указваща зависимостта на признака (случайната променлива) от независимата променлива [4] Резултатът от неговото приложение е регресионно уравнение от предварително избрания за целите на апроксимацията вид, което най-добре описва връзката на зависимата променлива от независимата В случаите, когато се изследват връзките между две явления се прилагат методите на единична (проста) регресия и корелация [,,3,4] При изследване на връзките между три и повече явления се прилагат методите на множествена (сложна) регресия и корелация В зависимост от характера на изследваните връзки се използват методите на линейна или нелинейна регресия и корелация В областта на транспорта има много примери за връзки, за които с прилагане на гореизброените методи биха могли да се намерят регресионни зависимости, описващи тези връзки: превозно разстояние в зависимост от площ на града, време за пътуване с даден вид транспорт във функция от превозно разстояние, скорост на движение на превозните средства на градския обществен транспорт, зависеща от разстоянието между спирките по маршрута [4] и др Типичен пример може да е наличие на връзка между средното време за пътуване с индивидуален транспорт от местоживеене до месторабота при извършване на трудови пътувания от населението в пиковите часове на деня и общият брой лични леки автомобили За представяне на практическото приложение на статистическите методи корелационен и регресионен анализ в транспорта, в настоящия доклад е разгледан следния пример: Да се изследва дали има връзка между средното време за пътуване от вкъщи до работа с индивидуален транспорт в час пик и броят на регистрираните лични леки автомобили в града Ако се установи, че такава връзка съществува, да се намери аналитична зависимост, описваща тази връзка Фактът, че в разглеждания пример променливите средно време за пътуване и брой лични леки автомобили са количествено измерими позволява за установяване наличието на зависимост между тях да се използва регресионния анализ В представения пример средното време за пътуване с индивидуален транспорт, формиращо се от сумата на времето за пешеходен подход от местодомуване до автомобилен паркинг, времето за движение в автомобила, времето за търсене на свободно паркомясто и паркиране, както и времето за подход от паркинг до месторабота, е зависимата (резултативната) променлива, а броят на личните автомобили - независимата (факторната) променлива За постигане на поставената цел се решават две основни задачи: Извършване на корелационен анализ за установяване съществуването и силата на връзката между двете променливи и ; Извършване на регресионен анализ за установяване на вида на регресионната зависимост, която адекватно описва връзката между и Х 3 Решение на проучения проблем Нека са дадени примерни статистически данни за средното време за пътуване от вкъщи до работа с лични леки автомобили и броят на регистрираните леки автомобили в даден град за период от 0 години (табл) BG-3

Таблица Година Средно време за пътуване до работа Лични леки по ред с индивидуален транспорт автомобили, минути, хил бр 3,0 6,5 3,3 73,0 3 6,5 86,0 4 7,4 30,5 5 7,9 39,0 6,4 337,0 7, 356,0 8 4,0 377,0 9 7,3 400,0 0 3,6 47,5 3 Корелационен анализ Представа за наличието на корелация между средното време за пътуване до работа с личен автомобил и броят на регистрираните лични леки автомобили може да се добие от построената двумерна точкова диаграма (фиг), срещана още като корелограма [3] Съвкупността от всички точки в диаграмата формира тнар корелационно поле [3] Всяка от точките има координати и (,,, където 0), чиито стойности са взети от примерната извадка (табл ) 33 3 3 30 9 8 7 6 5 4 3 0 9 8 7 6 5 3,0 3,3 4 3 6,5 7,4 Корелационно поле,,4 7,9 4,0 7,3 3,6 60 70 80 90 300 Средно време за пътуване с индивидуален транспорт, мин 30 30 330 340 350 360 370 380 390 400 40 40 430 Фиг Корелограма Лични автомобили, хил бр От формата на полученото корелационно поле могат да се направят предположения за характера на изследваната връзка нелинейна или линейна, както е в описания в доклада пример За количествено определяне на силата на изследваната връзка се използва коефициента на линейна корелация r, измерващ теснотата на връзката между зависимата променлива и независимата, без да се отчита влиянието на други променливи Коефициентът на линейна корелация r заема стойности в интервала между - и, те: - r Колкото r е поблизо по абсолютна стойност до, толкова по-силно изразена е линейната връзка между и Когато връзката между променливите и е позитивна, те нарастването на води до нарастване на, r има положителна стойност, а когато връзката е негативна, те нарастването на води до намаляване на, r е с отрицателна стойност При негрупирани опитни данни, както е в случая, след изчисляване на средните стойности на и : () 05,5 и () 3339,5 0,55 333,95 0 0 за стойността на коефициента на линейна корелация, познат в статистическата литература като коефициент на корелация на Пирсън [3] се получава: BG-33

(3) r _ _ 3075,775 7858,75348,705 0,987 Близката до стойност на r сочи за наличие на силно позитивна корелация между средното време за пътуване с лични автомобили и техният брой, те увеличаването на броя автомобили, явяващо се основна причина за повишаване размера на пътния трафик, ще доведе до нарастване на средното времепътуване Коефициентът на линейна корелация може да се пресметне и по дадената в [3] формула: (4) (5) (6) (7) r SS SS SS SS SS След заместване за r получаваме: SS r 0,987 SS SS, където: SS коефициент на ковариации, равен на: 7858,75 3075,775 Наличието на силно позитивна корелационна връзка между изследваните променливи и дава възможност да се премине към решаване на втората задача от анализа на примерните опитни данни намиране на подходящ вид регресионно уравнение и изчисляване на регресионните му коефициенти 3 Регресионен анализ Както беше отбелязано в точка, чрез регресионния анализ се определя вида на функцията f(), описваща връзката между променливите и Следователно в задачата се търси такова регресионно уравнение, което най-добре описва връзката на зависимата променлива от фактора Х Тъй като основно в разглеждания пример е допускането, че връзката между средното време за пътуване и броят на личните леки автомобили е линейна, то неизвестният регресионен модел в генералната съвкупност ще бъде линеен: (8) β + β + ε, където: β 0 и β регресионни параметри 0 Като се има в предвид, че в примера не се работи с данни от генерална съвкупност, а се използват примерни данни от извадка, то линейният регресионен модел може да се опише с уравнението: (9) + + e, 0 където: 0 и регресионни коефициенти, е остатъци Тогава теоретичната права отразяваща връзката между и има вида: (0) 0 + Стойностите на регресионните коефициенти могат да се изчислят по тнар метод на най-малките квадрати (МНМК), при който се минимизират отклоненията на емпиричните BG-34

точки от теоретичната права, те минимизиране на сумата от квадратите на остатъците SSE (остатъчна девиация): 0 0 > + e () ( ) ( ) m SSE Съгласно МНМК регресионната права трябва да се прокара така, че да минава възможно най-близо до всички точки Разположението и наклонът й в координатната система се определят от регресионните коефициенти 0 и От диференцирането на SSE по 0 и се получава: () SSE ( 0 ) ( ) 0 (3) SSE ( 0 ) ( ) След приравняване на 0 на частните производни и разписване на сумите се получава система от две уравнения с две неизвестни, решение на която са стойностите на 0 и : (4) 0 0 ( ) 0 0 Стойностите на и (табл ) и изчислените чрез тях средни стойности се използват за попълване на табл и последващо изчисляване на сумите, участващи в системата от уравнения Таблица Изчислителна таблица 6,5 3,0-7,5-7,6 539,4 505,03 57,003 343 68906,66 6,9 0,5 73,0 3,3-6,0-7,3 44,9 374,903 5,563 363 7459 3,8 45,83 0,7 3 86,0 6,5-48,0-4, 94, 99,03 6,403 479 8796 5,56 8,06,547 4 30,5 7,4-3,5-3, 0, 053,003 9,93 546 9090 6,967,836 0,87 5 39,0 7,9-5,0 -,7 39,6 3,503 7,03 570 076 8,899,74 0,999 6 337,0,4 3, 0,8,6 9,303 0,7 7 3569 0,887 0,3 0,63 7 356,0,,,6 34, 486,03,403 7868 6736,984 5,97 0,78 8 377,0 4,0 43, 3,5 48,5 853,303,903 9048 49 5,303,59,698 9 400,0 7,3 66, 6,8 445,8 436,603 45,563 090 60000 7,84 53,78 0,94 0 47,5 3,6 93,6, 7,3 875,603 45,03 3937 8756 30,878 06,678,964 Сума: 3339,5 05,5 3075,775 7858,75 348,705 7703 43085 05,500 339,585 9,0 Замествайки в уравненията от системата с вече изчислените суми (табл ) получаваме: (5) 05,5 0 0 3339,5 0 7703 3339,5 0 43085 0 Получените след решаване на системата уравнения стойности на регресионните коефициенти са съответно 0-6,3 и 0, Стойността на може да се изчисли още и по формулата [,4]: (6) ( ) 07703 3339,505,5 043085 560 Коефициентът 0 може да се изчисли и по друг начин [3]: BG-35 Чрез заместване на изчислената стойност на в изведената след разделяне на на първото уравнение от системата зависимост, за 0 получаваме: (7) 0,55 0,333,95 6, 3 0 0,

(8) SS 3075,775 0, SS 7858,75 Замествайки стойностите на изчислените регресионни коефициенти 0 и уравнението на регресия получаваме: (9) 6,3 + 0, Стойността на изчисления регресионен коефициент 0, има следната познавателна интерпретация: Увеличаването на броя на личните леки автомобили с ще доведе до нарастване на времето за пътуване с индивидуален транспорт от вкъщи до работа средно с 0, минути Посредством заместване на стойностите са изчислени теоретичните (предвидените) стойности, които лежат на построена регресионната права(фиг ), описваща се от полученото регресионно уравнение Средно време за пътуване с индивидуален транспорт, мин Фиг Регресионна права На фиг 3 са показани и изчислените по формулата e e 33 3 3 30 9 8 7 6 5 4 3 0 9 8 7 6 5 3,0 3,3 4 3 60,8,6,4,,0 0,8 0,6 0,339 0,4 0, 0,0-0, -0,5-0,4-0,6-0,8 -,0 -, -,4 -,6 -,8 60 70 70 80 80 6,5 90,44 90 7,4 300 0,433 300 30 30 7,9 30 Диаграма на остатъците 30-0,999 Регресионна права 330 330,4 340 0,53 340 350 350, -0,884 остатъци: Фиг 3 Остатъци Въпреки, че за целите на примера e апробиран линеен модел, за описание на физическата същност на процеса същият не е много подходящ поради наличието на свободен член 0 в регресионното уравнение Хипотетично при брой на автомобилите 0 излиза, че средното времепътуване няма да е 0, а ще има отрицателна стойност, равна на -6,3 мин В действителност, както в другите области, така и в транспорта, в повечето случаи BG-36 360 360 370 370 4,0 380 380 -,303 390 7,3 6,3 + 0, R 0,974 390 400 400-0,54 40 40 40 40 3,6 Лични автомобили, хил бр 430,7 430 в

съществуващите връзки са нелинейни и за тяхното описание се ползват нелинейни регресионни модели Общата девиация SS се разлага на обяснена SSR и остатъчна SSE [3]: (0) _ SSR 339,585 () SSE 9, () _ SS + 339,585 + 9, SSR SSE 348,705 Определените стойности на обяснената девиация SSR и общата SS могат да послужат за изчисляване на коефициента на корелация R, използващ се за измерване на силата на връзката между променливите и Коефициентът R може да заема стойности в интервала от 0 до, те: 0 R Когато връзката между и е силна R има стойности близки до, а при слаба близки до 0 Горното твърдение е в сила само, когато изследваната връзка е с линеен характер Корелационният коефициент R се изчислява като корен квадратен от относителния дял на обяснената девиация SSR от общата девиация SS [3]: (3) SSR R SS 339,585 348,705 0,987 Когато връзката между и е силно нелинейна, по-добра практическа интерпретация може да даде коефициентът на детерминация R, показващ доколко изменението на се обяснява с влиянието на фактора Х В случая R има стойност: (4) 339,585 SSR R 0,974 SS 348,705 За проверка на хипотези относно адекватността на полученото регресионно уравнение може да се използва F теста [3] За целта се издига нулева хипотеза H 0, съгласно която между случайните величини и не съществува статистически значима връзка или ако такава съществува, то апробирания линеен модел не я отразява адекватно, те връзката е нелинейна Алтернативната хипотеза H гласи, че между и има статистически значима връзка и линейният модел я описва адекватно При брой на регресионните коефициенти B и брой наблюдения 0, за степените на свобода ν и w получаваме: νb и w B0 8 Емпиричната характеристика F ем за проверка на хипотези в [3] се изчислява по формулата: 339,585 SSR (5) ν F ем 97,87 9, SSE w 8 Теоретичната характеристика F (β,ν,w) за критичните точки на разпределението на Фишер [,3], взета от таблица за избраната доверителна вероятност β 0,95 и съответстващите й степени на свобода ν и w 8 има стойност: (6) F Т F (β, ν, w) F (0,95;; 8) 5,3 Издигнатата нулева хипотеза се отхвърля ако е изпълнено условието: (7) F ем > F T Фактът, че емпиричната характеристика F ем 97,87 > 5,3 F Т дава основание да се отхвърли нулевата хипотеза H o и да се приеме алтернативната BG-37

4 Резултати и дискусия Получените вследствие на извършените корелационен и регресионен анализ резултати показват, че: Между случайните величини и съществува силна позитивна връзка Доказателство за това е близката до стойност на коефициента на линейна корелация r 0,989, който при единична линейна регресия е равен по стойност на коефициента на корелация R Стойността на коефициента на детерминация R 0,974 показва, че 97,4% от изменението на зависимата променлива величина се дължи на влиянието на независимата факторна променлива величина, а останалите,6 % до 00 % се дължат на влиянието на случайни фактори, които модела не отчита 3 От изпълнение на условието F ем 97,87 > 5,3 F Т следва, че между случайните величини и съществува статистически значима връзка и полученото регресионно уравнение адекватно описва тази връзка Някои автори [,,3,4] са отделили значително място за подробно описание на теорията и математическия апарат на регресионния и корелационния анализ Настоящият доклад набляга не толкова на теоретичните основи на регресионния и корелационния анализ, колкото на практическото приложение на тези статистически методи за решаване конкретна задача На практика, при ползване на реални данни, може да се извърши и по-задълбочен анализ, като се обърне внимание на въпроси, необсъдени в представения доклад 5 Заключение В обобщение, могат да се направят следните по-важни изводи: Съществуващите статистически методи са мощен инструментариум за обработка и анализ на статистически данни в научните изследвания Съвместното приложение на статистическите методи корелационен и регресионен анализ позволява да се разкриват, както връзки между случайните величини, така и да се установяват аналитични зависимости за тяхното описание 3 Установяваните от регресионния анализ регресионни уравнения могат да послужат за изчисляване на прогнозни стойности на резултативната променлива при зададени стойности на факторната променлива 4 Фактът, че приложението на статистическите методи в научните изследвания е съпътствано от събиране и последваща обработката на статистически данни, дава основание реализацията на статистическите методи да се извършва с използване на софтуерни приложения или специализирани статистически софтуерни пакети, което ще доведе до значително ускоряване на изчислителните процедури и повишаване на точността на крайните резултати ЛИТЕРАТУРА [] Бююль, А, SPSS: искусство обработки информации, анализ статистических данных и восстановление скрытых закономерностей, DaSoft, Москва, 00 г [] Качаунов, Т Т, Моделиране и оптимизация на транспортните процеси, второ преработено издание, Печатница при ВТУ Тодор Каблешков, София, 005 г [3] Манов, А, Статистика със SPSS, второ издание, Издателство Тракия М, София, 00 г [4] Рихтер, К Ю, Фишер, П, Шнейдер, Г, Статистические методы в транспортных исследованиях,превод от немски, Транспорт, 98 г BG-38