Bölüm 19 Granüler Büyük Ölçekli Eylem Verileri Kullanarak Öğrenci Davranışının Kestirimci Modellemesi

Steven Tang, Joshua C. Peterson ve Zachary A. Pardos

Eğitim Bilimleri Enstitüsü, UC Berkeley, ABD

DOI: 10.18608/hla17.019

ÖZ

Kitlesel açık çevrimiçi dersler (KAÇD), öğrenenlerin öğrenme materyalleriyle etkileşime girerken ve kavrama etkinliklerini tamamlarken gösterdikleri eylemlerin kapsamlı bir kaydını oluşturur. Bu yüksek hacimli sıralı veri ve seçim ile öğrenci davranışını modelleme potansiyeli gelmektedir. Öğrenme ortamlarından kaydedilenler gibi uzun vadeli, sıralı verilere bakmak için çeşitli yöntemler vardır. Dil modellemesi alanında, geleneksel n-gram teknikleri ve modern tekrarlayan sinir ağları (TSA) yaklaşımları, dilde yapıyı algoritmik olarak bulmak ve önceki kelimeleri girdi olarak verilen cümle veya paragrafta bir sonraki sözcüğü tahmin etmek için uygulanmaktadır. Bu bölümde biz bu çalışmaya, bir KAÇD’deki kaynak görünümleri ve etkileşimlerinin öğrenci dizilimlerini girdiler olarak ele alarak ve öğrencilerin bir sonraki etkileşimini çıktılar olarak tahmin ederek bir benzetim yapıyoruz.

Bizim yaklaşımımız, KAÇD’de kaynakların temsilini belirgin bir özellik mühendisliği1 gerektirmeden öğrenir. Bu model potansiyel olarak, bir öğrencinin başarı elde etmek için bir sonraki adımda yapması gereken eylemlere dair öneriler üretmek için kullanılabilir. Ek olarak, böyle bir model otomatik olarak performans ve duyuş hakkında çıkarım sağlayan bir öğrenci davranışsal durumu oluşturur. Çalışmamızda kullanılan KAÇD’nin 3.500’den fazla eşsiz kaynağı olduğu göz önüne alındığında, bir öğrencinin etkileşime gireceği bir sonraki kesin kaynağı tahmin etmek zor bir sınıflandırma problemi gibi görünebilir. Ders programının (dersin yapısının) bu öngörüyü yapmada ortalama %23 doğruluk sağladığını, ardından %70.4 ile n-gram yöntemini ve %72.2 ile TSA bazlı yöntemleri takip ettiğini keşfettik. Bu araştırma, özellik mühendisliği gerektirmeyen teknikler kullanarak ince taneli zaman serisi öğrenci verilerinin davranış modellemesi için zemin hazırlamaktadır.

Anahtar Kelimeler: Davranış modellemesi, dizilim tahmini, KAÇD’ler, TSA’lar

Günümüzün dijital dünyası, büyük kullanıcı eylemlerinin günlük kayıtlarına dayanan kişiselleştirme ile işaretlenmiştir. Eğitim alanında, kullanıcının (genellikle gizli) özelliklerine göre öğrenme önerilerini ve sonuçlarını bireysel kullanıcılara uyarlayabilen kişiselleştirilmiş ve otomatik öğreticilere yönelik araştırmalar devam etmektedir. Son yıllarda, kitlesel açık çevrimiçi dersler (KAÇD’ler) gibi yükseköğrenim çevrimiçi öğrenme ortamları öğrenci tarafından oluşturulan yüksek miktarda öğrenme eylemlerini bir araya getirmiştir. Bu bölümde, öğrenmeyi istendiği kadar erişilebilir, sağlam ve verimli kılmak için öğrenme yollarını kişiselleştirme becerisine yönelik, öğrenci tarafından oluşturulan büyük veri kaynaklarını kullanmayı amaçlayan ve giderek büyüyen araştırma alanına katkıda bulunmaya çalışıyoruz. Bunu yapmak için, öncelikle performans değerlendirme ve tahmin ile ilgili araştırma hedeflerinden farklı olarak, öğrencinin davranışsal durumunun modellenmesine odaklanan bir araştırma dizisi gösteriyoruz. Bir KAÇD’deki öğrencilerin ders videolarını izlemek ya da forum yazılarına cevap vermek ve bir sonraki eylemlerini tahmin etmek gibi tüm eylemlerini göz önünde bulundurmak istiyoruz. Böyle bir yaklaşım, KAÇD’larda toplanan ayrıntılı, değerlendirme dışı verileri kullanır ve seyir rehberliği arayan öğrenciler için bir tavsiye kaynağı olarak hizmet etme potansiyeline sahiptir.

KAÇD’lere katılan on binlerce öğrencinin tıklama akış verilerini kullanarak, dersin sonunda başarılı olanların davranışlarını modelleyerek, KAÇD’ler arasında gezinen öğrenciler arasında genelleştirilebilir eylem örüntülerinin, ortaya çıkıp çıkamayacağını soruyoruz. Başarılı öğrencilerin KAÇD’ler üzerindeki trendlerini yakalamak, otomatik öneri sistemlerinin geliştirilmesini sağlayabilir, böylece zorlanan öğrencilere başarılı olmak için harcadıkları zamanı optimize etmek için anlamlı ve etkili öneriler verilebilir. Bu görev için üretici sıralı modellerden yararlanırız. Üretici dizilimli modeller girdi olarak bir olaylar diziliminde yer alabilir ve daha sonra gerçekleşecek olay üzerinde olasılık dağılımı oluşturabilir. Bu çalışmada diğer üretici ve sıralı görevlere uygulandığında geleneksel olarak başarılı olan özellikle n-gram ve tekrarlayan sinir ağı (TSA) modelleri olmak üzere üretici sıralı modellerden iki tür kullanılmıştır.

Bu bölüm özellikle, öğrencinin bir KAÇD’de gerçekleştirdiği önceki eylemler bağlamında verilen bir sonraki eylemi ne kadar iyi tahmin edebileceğini analiz eder. Bu tür bir analizin amacı nihayetinde, otomatik bir danışmanın, öğrenciyi sonradan hangi eylemde bulunabileceği konusunda anlamlı bir rehberlik sağlamak için modeli sorgulayabileceği bir sistem oluşturmak olacaktır. Bir çok durumda bir sonraki eylem,ders tarafından öngörülen bir sonraki kaynak olabilir ancak diğer durumlarda, öğrencinin bilmediği bir ders kitabının bir köşesinde gömülü olan bir önceki dersten veya zenginleştirme materyalinden bir kaynağa başvurmak bir tavsiye olabilir. Eğittiğimiz bu bu modeller, üretici2 olarak bilinirler, çünkü öğrencinin daha önce hangi eylemleri gerçekleştirdiğine ilişkin önceki bir bağlam dikkate alındığında hangi eylemin gelebileceğini oluşturmak için kullanılabilirler. Eylemler, ders videosu açma, sınav sorusu cevaplama ya da bir forum gönderisinde gezinme ve cevaplama gibi şeyleri içerebilir. Bu araştırma, KAÇD’lerde potansiyel uygulamalarla kişiselleştirilmiş danışmanlar oluşturmaya yönelik sıralı, üretici modellerin birbirini takip eden verilerle diğer eğitim bağlamlarına uygulanması için bir temel olarak hizmet vermektedir.

İLGİLİ ÇALIŞMALAR

İngilizce dili söz konusu olduğunda, üretici modeller örnek metinler oluşturmak ve bu dilin nasıl yapılandırıldığına dair örnek metnin akla yatkınlığını değerlendirmek için kullanılır. Doğal dil işlemede kullanılan basit fakat güçlü bir model (DDİ), olasılık dağılımının eğitim kümesinde her olası n terim diziliminin üzerine öğrenildiği bir n-gram modeldir (Brown, Desouza, Mercer, Pietra ve Lai, 1992). Son zamanlarda, tekrarlayan sinir ağları (TSA’lar), daha önce görülen kelimelerin yüksek boyutlu sürekli gizil bir duruma getirildiği bir sonraki kelime tahminini (Mikolov, Karafiat, Burget, Cernocky ve Khudanpur, 2010) gerçekleştirmek için kullanılmıştır. Bu gizli durum, daha önce bağlamda görülen kelimelerin hepsinin özlü bir sayısal temsilidir. Model daha sonra hangi kelimelerin geleceklerini tahmin etmek için bu gösterimi kullanabilir. Bu üretici modellerin her ikisi de cümleleri tamamlamak amacıyla aday cümleler ve kelimeler üretmek için kullanılabilir. Bu çalışmada, kelime ve cümle dizilimlerinin akla yakınlık durumunu öğrenmek yerine, üretici modeller KAÇD bağlamlarında öğrencilerin üstlendikleri eylem dizilimlerinin uygunluğunu öğreneceklerdir. Daha sonra, bu tür üretici modeller, öğrencinin daha sonra yapması gerekenler için tavsiyeler üretmek için kullanılabilir.

Öğrenme analitiği topluluğunda, çoğu zaman KAÇD bağlamlarında, öğrenciler tarafından üretilen verilerin analiz edildiği ilgili bir çalışma vardır. Analitikler birçok farklı öğrenci tarafından oluşturulan veri türüyle gerçekleştirilir ve pek çok farklı türde tahmin görevi vardır. Crossley, Paquette, Dascalu, McNamara ve Baker (2016), bu durum için KAÇD’den alınan ham günlük kayıtlarının manuel özellik mühendisliği süreci ile özetlendiği bir paradigma örneği sunmaktadır. Bizim yaklaşımımızda, özellik gösterimleri doğrudan ham zaman serisi verilerinden öğrenilir. Bu yaklaşım, özelliklerin geliştirilmesi için konu uzmanlığı gerektirmez ve KAÇD tıklama akışındaki ham bilgileri kullanmak için potansiyel olarak daha az kaybı olan bir yaklaşımdır. Pardos ve Xu (2016), önceki bilgilerin, KAÇD kaynak kullanımı ile bilgi edinimi arasındaki ilişkinin geliştirilmesine yardımcı olmakta zorlandığını belirledi. Bu çalışmada, öğrencinin kendi kendini seçme durumu bir parazit ses ve akıl karıştırıcılık kaynağıdır. Buna karşılık, öğrenen seçimi davranışsal modellemede bir işaret haline gelir. Reddy, Labutov ve Joachims (2016) ‘da, çevrimiçi bir ders sistemindeki öğrenci öğrenmesinin birçok yönü, gömme3 yoluyla birlikte özetlenmiştir. Bu gömme işlemi ödevleri, öğrenci becerisini ve ders etkinliğini düşük boyutlu bir uzaya eşler. Böyle bir süreç, modelin mevcut öğrenci yeteneği tahminine dayanarak ders verme ve ödev verme yollarının önerilmesini sağlar. Bu bölümdeki çalışma aynı zamanda öğrenciler için öğrenme yolları önermeyi amaçlamaktadır ancak forum sonrası erişimler ve ders video görüntülemeleri gibi ek öğrenci davranışlarının da modele dâhil edilmesi ile farklılaşırlar. Ek olarak, farklı üretici modeller kullanılır.

Bu bölümde, yalnızca KAÇD’lerden gelen kayıt günlüğü verileriyle çalışıyoruz. Bu kullanıcı tıklama akışı birçok etkileşim alanının üstünden geçerken, davranış araştırması örnekleri bu etkileşim dizilimlerine katılan kaynakların içeriğini analiz etmiştir. Bu örnekler, videonun etkileşim düzeyini (Sharma, Biswas, Gandhi, Patil ve Deshmukh, 2016) karakterize etmek için KAÇD video karelerinin analiz edilmesini, forum yazılarının içeriğini (Wen, Yang ve Rose, 2014; Reich, Stewart, Mavon ve Tingley, 2016) ve forumlardaki etkileşimlerden kaynaklanan ve buna mahsus sosyal ağların analizini içerir (Oleksandra ve Shane, 2016). Tüm olası öğrenci etkinlikleri kategorilerine bu içerik odaklı yaklaşımlara kıyasla daha soyut bir düzeyde bakıyoruz.

Öğrenme analitiği ve EVM’deki biliş açısından, Bayesci bilgi takibi (BBT; Corbett ve Anderson, 1994) yüzeysel ders yapısını bir bilgi bileşenleri kaynağı olarak kullanarak modelin bir KAÇD’ye iyileştirilerek uyarlanması(Pardos, Bergner, Seaton ve Pritchard, 2013) gibi modeller aracılığıyla öğrencilerin mahrem bilgilerinin değerlendirilmesi için birçok çalışma yapılmıştır. Bu modelleme türü, öğrencilerin davranışlarını öğrencilerin gizli bilgisini modellemek için öğrenme fırsatları olarak görür. Çalışma ile ilgili olmasına rağmen, öğrenci bilgisi bu bölümde açıkça modellenmemiştir. Bunun yerine, modellerimiz, öğrencinin davranış verileri olan bu performans verilerinin tamamlayıcısını tahmin etmeye odaklanır.

Derin bilgi takibi (DBT; Piech vd., 2015), tekrarlayan sinir ağlarının, öğrencilerin çevrimiçi öğrenme ortamlarında gezinirken daha önce görülen değerlendirme sonuçlarına dayanarak sürekli gizli bir temsilini oluşturmak için kullanır. Bu çalışmada, tekrarlayan sinir ağları karmaşık bir gizli durumu izleyerek bir öğrencinin önceki değerlendirme sonuçlarını özetlemektedir. Bu çalışma, yüzeysel BBT yaklaşımına kıyasla öğrenci bilgilerini temsil etmek için derinlemesine bir öğrenme yaklaşımının kullanılabileceğini göstermektedir. Bununla birlikte, bu sonuçların hâlihazırda BBT’nin mevcut uzantılarıyla açıklanacağı varsayılmaktadır (Khajah, Lindsey ve Mozer, 2016). Bilgiyi izlemeye yaklaşmada derin öğrenmenin kullanımı verilerde otomatik olarak hala yararlı ilişkiler bulmaktadır ancak potansiyel olarak BBT için önceden önerilen uzantılara ilişkin ek gösterimler bulamamıştır. Bu bölümdeki çalışma, öğrencileri temsil etmek için derin ağların kullanılmasıyla ilgilidir ancak yalnızca değerlendirme eylemlerinin kullanılması yerine, her türlü öğrenci eyleminin dikkate alınması bakımından farklılık gösterir.

Özellikle, bu bölümde, n-gram yaklaşımını ve uzun kısa vadeli hafıza (UKVH) mimarisi olarak bilinen TSA varyantını kullanmayı düşünmekteyiz (Hochreiter ve Schmidhuber, 1997). Bu iki model hem veri dizilimini modeller ve hem de sonrasında hangi işaretin gelmesi gerektiğine dair bir olasılık dağılımını sağlar. UKVH mimarilerinin ve benzer varyantların kullanımı kısmen dizilimlerde uzun -ve kısa- aralıklardaki bağımlılıkların yakalanmasına izin veren değiştirilebilir hafızası sayesinde yakın zamanda, konuşma, görüntü ve metin analizi de dâhil olmak üzere sıralı verileri içeren çeşitli alanlarda etkileyici sonuçlar elde etmiştir (Graves, Mohamed ve Hinton, 2013; Vinyals, Kaiser vd., 2015; Vinyals, Toshev, Bengio ve Erhan, 2015). Öğrenci öğrenme davranışı, sabit bir eylem durum alanındaki bir dizi eylem olarak temsil edilebildiğinden, başarılı öğrenmeyi karakterize eden karmaşık örüntüleri yakalamak için UKVH’ler potansiyel olarak kullanılabilir. Önceki çalışmalarda, öğrenci tıklama verilerinin modellenmesi n-gram modelleri gibi yöntemlerle ümit verici olmuştur(Wen ve Rose, 2014).

VERİ KÜMESİ

Bu bölümde kullanılan veri kümesi, 2013 Bahar dönemi İstatistik BerkeleyX KAÇD’den geldi. KAÇD beş hafta boyunca video konferansları, ev ödevleri, tartışma forumları ve iki sınavla devam etti. Orijinal veri kümesi, her öğrencinin bir şekilde KAÇD ile etkileşime giren bir kullanıcı kaydı olduğu, 31.000 öğrenciden gelen 17 milyon olayı içermektedir. Bu etkileşimler, derste belirli bir URL’ye gitme, bir forum mesajlarında oylamaya katılma, bir sınav sorusunu cevaplama ve bir konferans videosu oynatma gibi olayları içerir. Veriler, her bir kullanıcının tüm olaylarının sıralamalı olarak toplanabilmiş olması için işlenir: 3687 olay türü mümkündür. Veri kümesindeki her satır, gerçekleştirilen eylemi veya öğrenci tarafından erişilen URL’yi temsil eden belirli bir dizine dönüştürülür.

Bu nedenle, her bir kullanıcının işlem grubu, 3687 özgün tür olan bir dizilim indisle temsil edilir. Kayıtlı etkinlik geçmişimiz, forumun başlıkları, sınavlar, video sayfaları ve wiki sayfaları gibi dersin farklı sayfalarına giden öğrencileri içeriyordu. Bu sayfalarda, video oynatmak ve duraklatmak ya da bir sorunu kontrol etmek gibi sayfa içinde yapılan eylemleri de kaydettik. Ayrıca sıralı olaylar adı verilen JavaScript gezinmelerini de kaydederiz. Ön işleme sürecimizin bu açıklamasında, bu olay dizilimlerini, art arda gelen olay tarafından yönlendirilen URL ile açıkça ilişkilendirilmeden, kendi başlarına kaydederiz. Tablo 19.1, veri kümesinde mevcut olan farklı olay türlerini ve olaya bağlı belirli bir URL’yi ilişkilendirmeyi seçip seçmediğimizi listelemektedir. Ön işlemimizde, bu olayların bazıları URL’ye özgü olarak kaydedilir, bu modelin öğrencinin bu olaylar için eriştiği tam URL’ye maruz kalacağı anlamına gelir. Bazı olaylar URL’ye özgü olmayan olarak kaydedilir; bu, modelin yalnızca eylemin gerçekleştiğini bildiği ancak o eylemin derste hangi URL’ye bağlı olduğunu bilmediği anlamına gelir. Orijinal veri kümesinde 40 kattan daha az gerçekleşen olayların ayrı tutulduğunu da dikkate alınız. Bu nedenle, forum etkinliklerinin birçoğu URL’ye özgü oldukları ancak çok sık gerçekleşmedikleri için ayrı tutulmuşlardır. Git dizilimi, sonraki dizilimi ve önceki dizilimi, öğrenciler tarayıcı sayfasında görünen gezinme düğmelerini seçtiklerinde tetiklenen olaylara atıfta bulunur. Sonraki dizilimi ve önceki dizilimi, sırasıyla dersteki önceki veya sonraki içerik sayfasına gider. Git dizilimi, bir bölüm içinde bir alt bölüm içinden başka bir alt bölüme atlamayı temsil eder.

Tablo 19.1. Günlüğe Kaydedilen Olay Tipleri ve Özellikleri

Ders Sayfası Olayları
Sayfa Görünümü (URL’ye özgü)
Git dizilimi (URL’ye özgü değil)
Sonraki dizilimi (URL ye özgü değil)
Dizilim Önceki (URL’ ye özgü değil)
Wiki Olayları
Sayfa Görünümü (URL’ye özgü)
Video Olayları
Video Duraklat (URL’ye özgü değil)
Video Oynatımı (URL’ye özgü değil)
Problem Olayları
Sayfa Görünümü (URL’ye özgü değil)
Sorun Kontrolu (URL’ye özgü değil)
Problem Cevap Göster(URL’ye özgü değil)
Forum Olayları
Forum Görünümü (URL’ye Özgü)
Forum Kapat (filtrelenerek ayırıldı)
Forum Oluştur (filtrelenerek ayrıldı )
Forum Silme (filtrelenerek ayrıldı
Forum Teyit (filtrelenerek ayrıldı)
Forum İzlemesi (URL’ye Özgü)
Forum Yanıtı (URL’ye Özgü)
Forum Araması (URL’ye özgü olmayan)
Forum Takip Etme (filtrelenerek ayrıldı)
Forum Oy Kullanmama (filtrelenerek ayrıldı)
Forum Güncellemesi (filtrelenerek ayrıldı)
Forum Beğeni (URL’ye Özgü)
Forum İzlenen Konuları Görüntüle (URL’ye Özel)
Forum Satır İçi Görüntüle (URL’ye Özel)
Forum Kullanıcı Profili Görüntüle (URL’ye Özel)

Örneğin, bir öğrenci 2. bölüm 1. alt bölüm URL’sine erişirse, bir ders videosu oynatırsa, bir sonraki ok düğmesine (bir sonraki alt bölüme erişmek için bir JavaScript gezinmesi gerçekleştirir) tıklar, bir sınav sorusunu cevaplar ve ardından gezinti çubuğunda (başka bir JavaScript gezintisi gerçekleştiren) 5. alt bölüme tıklar, bu öğrencinin dizilimi beş farklı indisle temsil edilir. Birincisi bölüm 2 alt bölüm 1’in URL’sine, ikincisi bir oynatma videosu belirtecine, üçüncüsü bir sonraki gezinti olayına, dördüncüsü öğrencinin kursa dâhil olduğu belirli probleme gitme olayı beşincisi gezinti olayı gite tekabül eder. Modele sırayla bu beş indisin bir listesi verilecek ve sonra neyin gelmesi gerektiğini tahmin etmek için eğitilecektir. Bu nedenle indisler, öğrencinin gerçekleştirdiği eylem dizilimini temsil eder. Uzunluk için beş gerekli değildir; üretici modellere isteğe bağlı uzunluktaki dizilimler verilebilir.

31.000 öğrenciden, 8094’ü dersin öğretenleri tarafından “onaylı” kabul edilebilecek miktarda ödevi tamamladı ve sınavlarda yeterince yüksek puan aldılar. Diğer KAÇD bağlamlarında, sertifikanın bazen öğrencinin özel bir sertifika için para ödemesi anlamına geldiğini ancak bu KAÇD için geçerli olmadığını unutmayınız. Sertifikalı öğrenciler, orijinal 17 milyon etkinliğin 11.2 milyonunu oluştururken, sertifikalı öğrenci başına ortalama 1390 etkinlik gerçekleşti. Sertifikalı ve sertifikalı olmayanlar arasındaki ayrım, bu model için önemlidir, çünkü sertifikalı olarak kabul edilen öğrencilerin eylemlerinin bu KAÇD için makul bir şekilde başarılı bir navigasyon bilgisi örüntüsü olabileceği hipotezine göre üretici modelleri yalnızca “sertifikalı” kabul edilen öğrencilerin gerçekleştirdiği eylem dizilimleri üzerine eğitmeyi seçtik.

Veri kümesindeki her satır, kullanıcının erişiminin tam URL’si, kullanıcı için benzersiz bir tanımlayıcı, işlemin tam olarak gerçekleştiği zaman ve daha fazlası gibi işlemle ilgili bilgileri içerir. Bu bölüm için, zaman veya muhtemel diğer bağlamsal bilgileri dikkate almayız, bunun yerine sadece öğrencinin eriştiği kaynağa veya öğrencinin yaptığı eyleme odaklanırız. Veri kümesinin tamamında 40 kattan daha az gerçekleşen olaylar, nadiren erişilen tartışma gönderileri veya kullanıcı profili ziyaretleri olduklarından ve KAÇD’de gezinen diğer öğrencilere uygulanmaları muhtemel olmadığından kaldırıldı.

YÖNTEM

Bu çalışmada, iki üretici modelin, tekrarlayan sinir ağı mimarisi ve n-gram kullanımını araştırdık. Bu bölümde, tekrarlayan sinir ağının mimarisini ve UKVH uzantısını ayrıntılarıyla açıklıyoruz, hipotez olarak sunduğumuz model bir sonraki eylem tahmininde en iyi performansı gösterecektir. N-gram gibi diğer “yüzeysel” modeller daha sonra açıklanmaktadır.

Tekrarlayan Sinir Ağları

Tekrarlayan sinir ağları (TSA’lar), keyfi uzunluktaki sıralı verileri işlemek için tasarlanmış bir sinir ağı modelleri ailesidir. Tekrarlayan sinir ağları, belirli bir diziliminin işlenmesi süresince devam eden sürekli ve gizli bir durumu etrafında tutarak çalışır. Bu gizli durum, şimdiye kadarki dizilim ile ilgili bilgileri yakalar, böylece dizimin sonraki bölümlerindeki öngörü, bu sürekli gizli durumdan etkilenebilir. Adından da anlaşılacağı gibi, TSA’lar ileri beslemeli sinir ağları tarafından kullanılan hesaplama yaklaşımını kullanır ve aynı zamanda zaman adımları arasında devam eden sürekli bir gizli durumu da dayatır. Gizli durumu bir giriş dizilimindeki elemanlar arasında tutmak, tekrarlayan sinir ağlarına sıralı modelleme gücü veren şeydir. Bu çalışmada, TSA’ya her girdi KAÇD veri kümesinden gelen granül bir öğrenci olayı olacaktır. TSA, şimdiye kadar görülen olaylara dayanarak öğrencilerin bir sonraki olayını tahmin etmek için eğitilmiştir. Şekil 19.1, girdilerin öğrencilerin eylemleri olacağı ve çıktıların dizilim içinden bir sonraki öğrenci hareketi olacağı basit bir TSA diyagramını gösterir. Aşağıdaki denklemler, TSA modelinin parametrelerinin her birinde kullanılan matematiksel işlemleri gösterir: ht, sürekli gizli durumu temsil eder. Bu gizli durum, xt + 1’deki tahminin gizli durum ht’den etkileneceği şeklinde bulundurulur. TSA modeli, bir giriş ağırlığı matrisi Wx, tekrarlayan ağırlık matrisi Wh, başlangıç durumu h0 ve çıkış matrisi Wy ile parametrelendirilir: bh ile by sırasıyla gizli ve çıkış birimleri için sapmalardır.

ht = tanh(W xxt + W hht−1 + bh) (1)

yt =σ(W yht +by) (2)

Şekil 19.1. Basit tekrarlayan sinir ağı

UKVH Modelleri

TSA’nın popüler bir çeşidi, gizli durumda ne zaman anlamlı bilgiler tutacağını ve gizli durumu ne zaman temizleyeceği veya ne zaman “unutacağını” öğrenen “kapılar” ekleyerek TSA’ların uzun dönem bağımlılıkları öğrenmelerine yardımcı olduğu düşünülen, anlamlı uzun vadeli etkileşimlerin sürekliliğine izin veren uzun kısa süreli bellek (UKVH; Hochreiter ve Schmidhuber, 1997) mimarisidir. UKVH’ler, gizli durumun ne zaman temizleneceğini ve ne zaman yararlı bilgilerle güçleneceğini belirlemek için açıkça öğrenilen ek geçit parametreleri ekler. Bunun yerine, her gizli durum, h1 ek geçit parametreleri içeren bir UKVH hücre birimi ile değiştirilir. Bu kapılar nedeniyle, UKVH’lerin basit TSA’lardan daha etkili bir şekilde eğitildiği bulunmuştur (Bengio, Simard ve Frasconi, 1994; Gers, Schmidhuber ve Cummins, 2000). Bir UKVH için güncelleme denklemleri aşağıdaki gibidir:

ft = σ(W fxxt + W fhht − 1 + bf) (3)

it = σ(Wixxt + Wihht−1 + bi) (4)

C~t = tanh(WCxxt + W Chht−1 +bC) (5)

Ct = ft × Ct−1 + it × t (6)

ot = σ (W oxxt + W ohht−1 + bo) (7)

ht = ot × tanh(Ct) (8)

Şekil 19.2. UKVH için güncelleme denklemlerine karşılık gelen sayılarla bir hücrenin anatomisi.

Şekil 19.2, şekildeki sayıların UKVH: ft, it ve ot için, daha önce bahsedilen güncelleme denklemlerine karşılık geldiği bir hücrenin anatomisini gösterir; bu, UKVH tarafından önceki hücreden “unutma” verilerini ve yeni hücre durumuna neyin “girileceğini” ve hücre durumundan neyin “çıkacağını” belirlemek için kullanılan geçit mekanizmalarını temsil eder. Ct, bilgilerin UKVH’yi beslemesi sırasında bilgilerin çıkarıldığı ve eklendiği gizli hücre durumunu temsil eder. C˜t, bir sonraki hücre durumunu güncellemek için geçitli hale getirilmiş olan yeni aday hücre durumunu temsil eder.

UKVH Uygulaması

Bu bölümde kullanılan üretici UKVH modelleri, Theano’nun üzerine inşa edilmiş bir Python kütüphanesi olan Keras (Chollet, 2015) kullanılarak gerçekleştirilmiştir (Bergstra vd., 2010; Bastien vd., 2012). Model, bir indeks numarası ile temsil edilen her öğrenci eylemini gerçekleştirir. Bu indisler, yapay değişkenlik olarak da bilinen 1-sıcak vektör kodlamasındaki indekse karşılık gelir. Model her dizini bir gömme vektörüne dönüştürür ve sonra gömülü vektörü birer birer tüketir. Gömme katmanının kullanımı sözcükleri çok boyutlu semantik bir uzaya eşlemenin bir yolu olarak doğal dil işleme süreçlerinde ve dil modellemede yaygındır (Goldberg ve Levy, 2014). Burada bir gömme katmanı, KAÇD eylem alanındaki eylemler için benzer bir eşlemenin olabileceği hipotezi ile birlikte kullanılmaktadır. Model, daha önce öğrenci tarafından gerçekleştirilen eylemler göz önüne alındığında, bir sonraki öğrenci eylemini tahmin etmek için eğitilmiştir. Zaman içinde geri yayılım (Werbos, 1988), UKVH parametrelerini eğitmek için kullanılır, bir sonraki eylemin indeksi olan bir gerçek referans değer olarak softmax katmanı kullanılır. Kayıp hesaplanırken kategorik çapraz entropi, RMSprop ise en iyileştirici olarak kullanılır. UKVH katmanları arasına aşırı uyumu engelleme yöntemi olarak bırakma katmanları eklenmiştir (Pham, Bluche, Kermorvant ve Louradour, 2014). Her bir eğitim verisi grubu için rastgele sıfırlama yüzdesi ağ kenarı ağırlıklarının belirli bir yüzdelik grubu sıfırlar. Gelecekteki çalışmalarda, özellikle UKVH’ler ve TSA’lar için hazırlanmış diğer düzenlileştirme tekniklerini değerlendirmek faydalı olabilir (Zaremba, Sutskever ve Vinyals, 2014). Yalnızca veri dizisindeki gezinme eylemlerini çıkarmakla başlayan ön işleme ve UKVH model kodumuzun bir versiyonunu kamuya açık hale getirdik4.

UKVH Hiperparametre Araması

İlk araştırmamızın bir parçası olarak 24 UKVH modelinin her birini farklı hiperparametre kümeleri ile 10 evrede5 eğittik. Bir evre, veriler arasında tam bir geçiş yapan parametre yerleştirme algoritmasıdır. UKVH modellerimiz için aranan hiperparametre alanı Tablo 19.2’de gösterilmektedir. Bu hiperparametreler, etki büyüklüğüne göre farklı hiperparametrelere öncelik veren önceki çalışmalara dayanarak şebeke aramaları için seçilmiştir (Greff, Srivastava, Koutnik, Steunebrink ve Schmidhuber, 2015). Zamanlama adına, 3 katlı UKVH modellerini.0001 öğrenme oranları ile eğitmemeyi tercih ettik. Ayrıca, ek hiperparametreyi ve eğitim yöntemlerini araştırmak için başlangıç noktası olarak hizmet etmek üzere ilk incelemenin sonuçlarını kullandığımız genişletilmiş bir araştırma yaptık.

Eğitim TSA’ları nispeten zaman alıcı olduğundan, genişletilmiş araştırma, ümit vaat eden hiperparametre kombinasyonlarının bir alt kümesinden oluşuyordu (Sonuçlar bölümüne bakın).

        1. Tablo 19.2. UKVH Hiperparametre Gözeneği

Gizli Katmanlar

1

2

3

Gizli Katmandaki Düğümler

64

128

256

Öğrenme oranı (_)

.001

.0001

.0001*

Çapraz Doğrulama

Her modelin yordayıcı gücünü değerlendirmek için 5 katlı çapraz doğrulama kullanılmıştır. Her model verinin %80’i için eğitildi ve sonra kalan %20’si üzerinde doğrulandı; Bu beş kez yapıldı, böylece her öğrenci eylemi bir kez bir doğrulama setine girdi. UKVH’ler için, model eğitim sürecinde doğrulama kesinliği hakkında bilgi sağlamak amacıyla tırmanma seti olarak hizmet vermek için hazırlık verilerinin %10’unu gerçekleştirdi. Düzenlenen setteki her satır bir öğrencinin aldığı tüm eylem dizilimlerinden oluşur. Model tarafından üretilen sonraki doğru eylem tahminlerinin oranı, her öğrenci eylem dizilimi için hesaplanır. Söz konusu kıvrıma6 yönelik modelin performansını üretmek için bütün bir kıvrımın oranlarının ortalaması alınır ve daha sonra belirli bir UKVH model hiperparametre seti için ÇD doğruluğunu üretmek üzere beş kıvrımın tamamındaki performansın ortalaması alınır.

Yüzeysel Modeller

N-gram modeller, basit ama güçlü olasılıklı modellerdir ve dizilimlerin yapısını gram olarak adlandırılan n-boyutlu alt dizilerin istatistikleri yoluyla yakalamayı hedefler ve n-sıralı Markov zincirlerine eşdeğerdir. Spesifik olarak, model, xi’nin eğitim setinde önceki n-1 durumlarını takip etme olasılığı olan tahmini koşullu olasılık P(xi|ixi_(n_1), xi–1), kullanarak her bir dizi durumunu tahmin eder. N-gram modeller hem hızlı ve basit hesaplanır ve doğrudan yorumlara sahiptir. Eylem alanındaki olası her eylem için bir parametre atayan nispeten yüksek parametre modelleri olduklarından, n gamların oldukça rekabetçi bir standart olmasını bekliyoruz.

N-gram modellerinde, n’nin 2 ila 10 arasında değiştiğini değerlendirdik; bunların en büyüğü, eğitim sırasında UKVH bağlam penceresinin boyutuna karşılık gelmektedir. Eğitim setinin hiçbir gözlem içermeyen tahminlerini ele almak için, en az bir gözlem içeren en büyük n-gramın tahminine tekrar tekrar dönmeye dayanan bir yöntem olan gerilemeyi7 kullandık. Doğrulama stratejimiz, UKVH modelleriyle aynıydı, burada aynı beş katın ortalama çapraz doğrulama puanı her model için hesaplandı.

Ders Yapısı Modelleri

Dizlim verilerinin varsayımsal yapısal özelliklerinden yararlanmaya yönelik çeşitli alternatif modelleri de dâhil ettik. Dizilimleri incelerken fark ettiğimiz ilk şey, belirli eylemlerin arka arkaya birkaç kez tekrarlanmasıydı. Bu nedenle, bu varsayımın tek başına veri kümesindeki bir sonraki eylemi ne kadar iyi tahmin edebileceğini bilmek önemlidir. Daha sonra, ders içeriği en sık sabit bir dizilimde düzenlendiğinden, ders izlencesinin bir sonraki sayfayı veya eylemi tahmin etme yeteneğini değerlendirdik. Bunu ders içeriğindeki sayfaları, eylem setimizdeki öğrenci sayfa geçişleri ile eşleştirerek, ders izlencesindeki toplam 300 maddeden 174’ünün eşleşmesi ile sonuçlandırarak başardık. Eylem alanımızda her zaman bulunmayan içerik kimliği dizgilerini eşleştirmeye güvendiğimizden, küçük bir üst üste binen eylemler alt kümesi eşleştirilmedi. Son olarak, mevcut durumun ders programı içinde olmaması durumunda, mevcut durumun bir sonraki durum olarak öngörülmesi yönünden her iki modeli de birleştirdik.

SONUÇLAR

Bu bölümde, farklı öğrenme oranları, katman başına gizli düğüm sayısı ve UKVH katman sayısı ile eğitilmiş, daha önce bahsedilen UKVH modellerinin sonuçlarını tartışıyoruz. Model başarısı, 5 kat çapraz doğrulama ile belirlenir ve modelin bir sonraki eylemi ne kadar iyi tahmin ettiği ile ilintilidir. N-gram modelleri ve diğer rota yapısı modelleri, 5 kat çapraz doğrulama ile doğrulanır.

UKVH Modelleri

Tablo 19.3, 10 yetiştirme süresinden sonra hesaplanan tüm 24 UKVH modelinin ÇD doğruluğunu göstermektedir. .01 öğrenme hızına sahip modeller için, tepe tırmanma setlerinde doğruluk genellikle yineleme 10’da zirveye ulaştı. Düşük öğrenme oranlarına sahip modeller için, en yüksek ÇD doğruluklarının daha fazla eğitimle gelişmesini beklemek makul olacaktır. Bu modellerin eğitim sürecinde ne kadar iyi performans gösterdiğine dair bir anlık görüntü sağlamak yerine 10 tekrardan sonra sonuçları basitçe rapor etmeyi seçtik. Ayrıca, uzun vadede model performansının.01 öğrenme oranı model performansları üzerinde ciddi oranda bir gelişme gösterme ihtimalinin olmadığını ve sınırlı GPU hesaplama kaynaklarında çalışacak en umut verici keşifleri en üst düzeye çıkarmamız gerektiğini varsayıyoruz. Her öğrenme oranı için en iyi ÇD doğruluğu vurgulamak için koyu renkli yapılmıştır.

UKVH’leri kullanmanın bir dezavantajı, bir GPU’ya ihtiyaç duymaları ve eğitilmelerinin nispeten yavaş olmasıdır. Bu nedenle, kullanılacak en iyi hiperparametreleri araştırırken, yalnızca ilk keşiflerin bir alt kümesini temel alan ek modeller eğitmeyi seçtik. Ayrıca, geçmiş bağlamı 10 ögeden 100 ögeye genişleterek modele maruz kalan bağlamı arttırdık. Tablo 4, bu genişletilmiş sonuçları göstermektedir. Her UKVH katmanı 256 düğüme sahiptir ve önceki hiperparametre arama sonuçlarındaki 10 evre yerine, 20 veya 60 evre için eğitilmiştir. Genişletilmiş sonuçlar, önceki sonuçlara göre büyük bir iyileşme göstermekte olup, yeni doğruluk, .7093’e kıyasla .7223’te zirveye ulaşmıştır.

Şekil 19.3, ilk keşiften itibaren 1 ve 2 katmanlı modeller için evreli eğitim sırasındaki %10 tepe tırmanma hold out kümesinin doğrulama kesinliğini göstermektedir. Her veri noktası, belirli bir katman ve düğüm sayısı kombinasyonu için her üç öğrenme hızındaki ortalama tırmanma doğruluğunu temsil eder. Ampirik olarak, daha fazla sayıda düğüme sahip olmak, ilk 10 evrede daha yüksek bir doğrulukla ilişkilendirilirken, 2 katmanlı modeller, karşılık gelen 1 katmanlı modele yaklaşmadan veya ondan önce, birkaç evre için düşük doğrulama kesinlikleriyle başlar. Bu rakam ilk 10 evre için bir anlık görüntü sağlar; açıkçası bazı parametre kombinasyonları için, daha fazla evre, ek genişletilmiş UKVH aramasıyla gösterildiği gibi daha yüksek bir tepe tırmanma doğruluğuna neden olacaktır. Tahmini olarak, 3 katmanlı modeller de 2 katmanlı modellerin sergilediği, doğrulukların daha alt katman emsallerine kıyasla başlangıçta daha düşük başlayabildiği bir eğilimi izleyebilir.

Tablo 19.3. UKVH Performansı (10 Evre)

Öğrenme Oranı

Düğümler

Katmanlar

Doğruluk

0.01 64 1 0.7014
0.01 64 2 0.7009
0.01 64 3 0.6997
0.01 128 1 0.7046
0.01 128 2 0.7064
0.01 128 3 0.7056
0.01 256 1 0.7073
0.01 256 2 0.7093
0.01 256 3 0.7092
0.001 64 1 0.6941
0.001 64 2 0.6968
0.001 64 3 0.6971
0.001 128 1 0.6994
0.001 128 2 0.7022
0.001 128 3 0.7026
0.001 256 1 0.7004
0.001 256 2 0.7050
0.001 256 3 0.7050
0.0001 64 1 0.6401
0.0001 64 2 0.4719
0.0001 128 1 0.6539
0.0001 128 2 0.6648
0.0001 256 1 0.6677
0.0001 256 2 0.6894

 

Tablo 19.4. Genişletilmiş UKVH Performansı (256 Düğüm, 100 Pencere Boyutu)

Öğrenme Oranı

Evre

Katmanlar

Doğruluk

0.01 20 2 0.7190
0.01 60 2 0.7220
0.01 20 3 0.7174
0.01 60 3 0.7223
0.001 20 2 0.7044
0.001 60 2 0.7145
0.001 20 3 0.7039
0.001 60 3 0.7147

Ders Yapısı Modelleri

Farklı ders yapı modelleri için model performansı Tablo 19.5’te gösterilmiştir. Sonuçlar, UKVH veya n-gram sonuçları aralığında durağanlık (sonuncusuyla aynı) veya ders içeriği yapısı gibi basit sezgisel taramalardan ya da her iki buluşsal yöntemi de içeren (“ders programı + tekrar”) birçok eylemin tahmin edilebileceğini düşündürmektedir.

Şekil 19.3. Her bir eğitim kümesinin %10’unu oluşturan tepe tırmanma verilerinde evreye göre ortalama doğruluk.

Tablo 19.5. Yapısal modeller

Yapısal model

Doğruluk

tekrarlama 0.2908
öğretim izlencesi 0.2339
öğretim izlencesi + tekrar 0.4533
        1. N-gram Modelleri

Model performansı Tablo 19.6’da gösterilmiştir. En iyi performans gösteren modeller, önceki 7 veya 8 eylemi kullanarak (sırasıyla 8 ve 9 gram) tahminlerde bulundu. Performansı artırmayan daha geniş kayıtlar n aralığımızın yeterince büyük olduğunu göstermiştir. Genel olarak performans, en iyi n-gram modelin en iyi UKVH modellerinden daha kötü çalışmasına rağmen n-gram modellerinin UKVH modelleriyle rekabet ettiğini göstermektedir. Tablo 19.7, en karmaşık model (10 gram) için kullanılan n-gram modellerin oranını göstermektedir. Tahminlerin %62’sinden fazlası, 10 gramlık gözlemler kullanılarak yapılmıştır. Ayrıca, vakaların %1’inden azı tahminleri yapmak için unigramlara veya bigramlara geri döndü ve bu da daha büyük gram örüntüleri için önemli bir gözlem eksikliği olmadığını öne sürdü.

Tablo 19.6. N-gram Performans

N-gram

Doğruluk

2-gram 0.6304
3 gram 0.6658
4 gram 0.6893
5 gram 0.6969
6 gram 0.7012
7 gram 0.7030
8 gram 0.7035
9 gram 0.7035
10 gram 0.7033

 

Tablo 19.7. N cinsinden 10 gramlık öngörünün oranı

n

Öngörülen %

1 0.0003
2 0.0084
3 0.0210
4 0.0423
5 0.0524
6 0.0605
7 0.0624
8 0.0615
9 0.0594
10 0.6229

Yine de yaklaşık %6 daha az veri noktası art arda gelen daha büyük n-gramlar tarafından tahmin ediliyor gibi görünmektedir.

        1. Sertifikasız Öğrencilerin Doğrulanması

Sonunda sertifika almayan öğrencilerden gelen veri akışları üzerindeki eylemleri tahmin etmek için 10 evreli eğitimden sonra (.01 öğrenme hızı, 256 düğüm, iki katman) en iyi performans gösteren “orijinal” UKVH modelini kullandık. Sertifikasız öğrencilerin çoğu yalnızca birkaç oturum açma eylemi gerçekleştirdi, bu nedenle analizi en az 30 oturum açma eylemi olan öğrencilerle sınırladık. Bu kriterleri karşılayan 10.761 öğrenci ve toplam 2.151.666 eylem vardı. UKVH modeli, sertifikalı öğrenciler için .7093 çapraz doğrulanmış doğrulukla karşılaştırıldığında, doğrulanmamış öğrenci alanından gelen eylemleri .6709 doğrulukla tam bir şekilde tahmin edebildi. Bu fark, sertifikalı öğrencilerden gelen eylemlerin, belgelendirilmemiş öğrencilerden gelen eylemlerden farklı olma eğiliminde olduğunu gösterir, belki de öğrencilere rehberlik etmek için otomatik bir öneri çerçevesi sağlamada potansiyel bir uygulama göstermektedir.

Tablo 19.8. Çapraz Doğrulanmış Modellerin Karşılaştırılması

N-gram

Doğru

N-gram Yanlış

UKVH Doğru 7.565.862 577.683
UKVH Yanlış 367.960 2.735.702

KATKILAR

Bu çalışmada, granüler öğrenci eylem verilerinin modellenmesi sorununa bir KAÇD içindeki her tür etkileşimi modelleyerek yaklaştık. Bu öncelikli olarak değerlendirme sonuçlarını kullanarak gizli öğrenci bilgisini modellemeye odaklanan önceki çalışmalardan farklıdır. Bir öğrencinin bir sonraki eylemini tahmin ederken, en iyi performans gösteren UKVH modeli .7223 çapraz doğrulama kesinliği üretti ki bu da en iyi n-gram model doğruluğu olan .7035’in üzerinde bir gelişme olarak toplam 11 milyon olası tahminden 210.000 daha doğru tahmindir. Tablo 19.8, iki modelin çapraz onaylama sırasında doğru veya yanlış bir öngörüde mutabık kaldığı veya kalmadığı sayıyı göstermektedir. Hem UKVH hem de n-gram modelleri, bir sonraki eylemin öğretim programı izlencesi yapısı ve tekrarlar aracılığıyla öngörülmesi yapısal modeli üzerinde önemli bir gelişme sağlar; bu, öğrenci katılım örüntülerinin ders materyali içerisinde tamamen doğrusal bir gezinmeden açıkça saptığını gösterir.

Bildiğimiz kadarıyla, bu bölüm bir KAÇD’de davranışsal verinin bu ayrıntı düzeyinde tahmin edildiğini ilk kez göstermektedir. Ayrıca, KAÇD verilerine ilk defa tekrarlayan sinir ağlarının uygulandığını gösterir. Bu tekniğin öğrenci davranışsal durumlarını ham zaman serisi verileri ile temsil etmek için, özellik mühendisliği olmadan, yüksek hacimli zaman serisi verileri ile herhangi bir öğrenme analitiği bağlamında geniş bir uygulanabilirliğe sahip olduğuna inanıyoruz. Çerçevelememiz, davranışsal veri modellerinin öğrenci için gelecekteki davranışları önermek için nasıl kullanılabileceğini ortaya koyarken, davranışsal durumlarının temsili, performanstan duyuşsal duruma kadar çeşitli yapılarda çeşitli çıkarımlar yapmak için değerli olabilir.

GELECEKTE YAPILACAKLAR

Hem UKVH hem de n-gram modelleri de geliştirilebilir. Özellikle, n-gram modellerimiz görünmeyen gramların daha iyi kullanılmasına izin veren geri tepme ve pürüzsüzleştirme tekniklerinin bir kombinasyonundan faydalanabilir. UKVH, daha geniş bir hiperparametre gözeneği arama, daha fazla yetiştirme süresi, daha uzun yetiştirme bağlamı pencereleri ve daha yüksek boyutlu eylem yerleştirmelerinden faydalanabilir. Ek olarak, veri kümemizdeki sinyal-gürültü oranı, daha az bilgilendirici veya gereksiz öğrenci eylemleri kaldırılarak veya eylemler arasındaki süreyi temsil etmek için ek belirteçler eklenerek arttırılabilir.

Derin öğrenme modellerini büyük öğrenci eylemi veri kümelerine uygulamanın birincil nedeni, KAÇD ortamlarındaki öğrenci davranışını modellemektir. Bu örüntüler, otomatikleştirilmiş öneri sistemlerinin oluşturulmasına yardımcı olmak için kullanılabilir; burada, zorlu bir öğrenciye, geçmiş davranışlarına ve performanslarına göre içeriği görüntülemek için geçiş önerileri sağlanabilir. Böyle bir uygulamanın olasılığını değerlendirmek için, ağımızdan türetilmiş bir öneri sistemini, yönlendirilmemiş bir kontrol grubuna karşı deneysel olarak test etmeyi planlıyoruz. Ek olarak, gelecekteki çalışmalar, çeşitli dersler için benzer modellerin performansını değerlendirmeli ve tek bir model kullanarak genel ders örüntülerinin ne ölçüde öğrenilebileceğini incelemelidir. Bu bölümde önerilen modeller, bilgi işlemsel bir davranış modelini sürdürmektedir. KAÇD’lerdeki öğrenci davranış dizilimlerinde düzenliliklerin var olduğu bu modeller aracılığıyla gösterilmiştir. Bilgi işlemsel bir modelin bu kalıpları saptayabildiği göz önüne alındığında, model bize öğrenci davranışları hakkında daha geniş kapsamlı ne söyleyebilir ve bu bulgular mevcut davranış teorileriyle nasıl bağlantı kurabilir ve bunları nasıl kurabilir? Her zaman diliminde model öğrenci için gizli bir davranış durumunu takip ettiğinden, bu durum o anda mevcut olduğu bilinen öğrencilerin diğer özellikleri ile görselleştirilebilir ve ilişkilendirilebilir. Gelecekteki çalışmalar, öğrencinin durumu hakkındaki kendi anlayışımızı bilgilendirmeye yardımcı olabilmesi için bu bilgi işlemsel davranış modelini geliştirmeye çalışacaktır.

TEŞEKKÜR BÖLÜMÜ

Bu çalışma, Ulusal Bilim Vakfı’ndan bir hibe ile desteklenmiştir (IIS: BIGDATA 1547055).

KAYNAKÇA

Bastien, F., Lamblin, P., Pascanu, R., Bergstra, J., Goodfellow, I. J., Bergeron, A., . . . Bengio, Y. (2012). Theano: New features and speed improvements. Deep Learning and Unsupervised Feature Learning NIPS 2012 Workshop. Advances in Neural Information Processing Systems 25 (NIPS 2012), 3–8 December 2012, Lake Tahoe, NV, USA. http://www.iro.umontreal.ca/~lisa/pointeurs/nips2012_deep_workshop_theano_final.pdf

Bengio, Y., Simard, P., & Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 5(2), 157–166.

Bergstra, J., Breuleux, O., Bastien, F., Lamblin, P., Pascanu, R., Desjardins, G., . . . Bengio, Y. (2010, June). Theano: A CPU and GPU math expression compiler. Proceedings of the Python for Scientific Computing Conference (SciPy 2010), 28 June–3 July 2010, Austin, TX, USA (pp. 3–10).

Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra, V. J. D., & Lai, J. C. (1992). Class-based n-gram models of natural language. Computational Linguistics, 18(4), 467–479.

Chollet, F. (2015). Keras. GitHub. https://github.com/fchollet/keras

Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User Modeling and User-Adapted Interaction, 4(4), 253–278.

Crossley, S., Paquette, L., Dascalu, M., McNamara, D. S., & Baker, R. S. (2016). Combining click-stream data with NLP tools to better understand MOOC completion. Proceedings of the 6th International Conference on Learning Analytics and Knowledge (LAK’16), 25–29 April 2016, Edinburgh, UK (pp. 6–14). New York: ACM.

Gers, F. A., Schmidhuber, J., & Cummins, F. (2000). Learning to forget: Continual prediction with LSTM. Neural Computation, 12(10), 2451–2471.

Goldberg, Y., & Levy, O. (2014). Word2vec explained: Deriving Mikolov et al.’s negative-sampling word-embedding method. CoRR. arxiv.org/abs/1402.3722

Graves, A., Mohamed, A.-r., & Hinton, G. (2013). Speech recognition with deep recurrent neural networks. Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2013), 26–31 May, Vancouver, BC, Canada (pp. 6645–6649). Institute of Electrical and Electronics Engineers.

Greff, K., Srivastava, R. K., Koutník, J., Steunebrink, B. R., & Schmidhuber, J. (2015). LSTM: A search space odyssey. arXiv preprint arXiv:1503.04069.

Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735–1780.

Khajah, M., Lindsey, R. V., & Mozer, M. C. (2016). How deep is knowledge tracing? arXiv preprint arXiv:1604.02416.

Mikolov, T., Karafiát, M., Burget, L., Cernocky, J., & Khudanpur, S. (2010). Recurrent neural network based language model. Proceedings of the 11th Annual Conference of the International Speech Communication Association (INTERSPEECH 2010), 26–30 September 2010, Makuhari, Chiba, Japan (pp. 1045–1048). http://www.fit.vutbr.cz/research/groups/speech/publi/2010/mikolov_interspeech2010_IS100722.pdf

Oleksandra, P., & Shane, D. (2016). Untangling MOOC learner networks. Proceedings of the 6th International Conference on Learning Analytics and Knowledge (LAK’16), 25–29 April 2016, Edinburgh, UK (pp. 208–212). New York: ACM.

Pardos, Z. A., Bergner, Y., Seaton, D. T., & Pritchard, D. E. (2013). Adapting Bayesian knowledge tracing to a massive open online course in EDX. In S. K. D’Mello et al. (Eds.), Proceedings of the 6th International Conference on Educational Data Mining (EDM2013), 6–9 July 2013, Memphis, TN, USA (pp. 137–144). International Educational Data Mining Society/Springer.

Pardos, Z. A., & Xu, Y. (2016). Improving efficacy attribution in a self-directed learning environment using prior knowledge individualization. Proceedings of the 6th International Conference on Learning Analytics and Knowledge (LAK’16), 25–29 April 2016, Edinburgh, UK (pp. 435–439). New York: ACM.

Pham, V., Bluche, T., Kermorvant, C., & Louradour, J. (2014). Dropout improves recurrent neural networks for handwriting recognition. Proceedings of the 14th International Conference on Frontiers in Handwriting Recognition (ICFHR 2014) 1–4 September 2014, Crete, Greece (pp. 285–290).

Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. In C. Cortes et al. (Eds.), Advances in Neural Information Processing Systems 28 (NIPS 2015), 7–12 December 2015, Montreal, QC, Canada (pp. 505–513).

Reddy, S., Labutov, I., & Joachims, T. (2016). Latent skill embedding for personalized lesson sequence recommendation. CoRR. arxiv.org/abs/1602.07029

Reich, J., Stewart, B., Mavon, K., & Tingley, D. (2016). The civic mission of MOOCs: Measuring engagement across political differences in forums. Proceedings of the 3rd ACM Conference on Learning @ Scale (L@S 2016), 25–28 April 2016, Edinburgh, Scotland (pp. 1–10). New York: ACM.

Sharma, A., Biswas, A., Gandhi, A., Patil, S., & Deshmukh, O. (2016). Livelinet: A multimodal deep recurrent neural network to predict liveliness in educational videos. In T. Barnes et al. (Eds.), Proceedings of the 9th International Conference on Educational Data Mining (EDM2016), 29 June–2 July 2016, Raleigh, NC, USA. International Educational Data Mining Society. http://www.educationaldatamining.org/EDM2016/proceedings/paper_64.pdf

Vinyals, O., Kaiser, L. Koo, T., Petrov, S., Sutskever, I., & Hinton, G. (2015). Grammar as a foreign language. In C. Cortes et al. (Eds.), Advances in Neural Information Processing Systems 28 (NIPS 2015), 7–12 December 2015, Montreal, QC, Canada (pp. 2755–2763). http://papers.nips.cc/paper/5635-grammar-as-a-foreign-language.pdf

Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and tell: A neural image caption generator. Proceedings of the 2015 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2015), 8–10 June 2015, Boston, MA, USA. IEEE Computer Society. arXiv:1411.4555

Wen, M., & Rosé, C. P. (2014). Identifying latent study habits by mining learner behavior patterns in massive open online courses. Proceedings of the 23rd ACM International Conference on Information and Knowledge Management (CIKM’14), 3–7 November 2014, Shanghai, China (pp. 1983–1986). New York: ACM.

Wen, M., Yang, D., & Rosé, C. P. (2014). Sentiment analysis in MOOC discussion forums: What does it tell us? In J. Stamper et al. (Eds.), Proceedings of the 7th International Conference on Educational Data Mining (EDM2014), 4–7 July 2014, London, UK. International Educational Data Mining Society. http://www.cs.cmu.edu/~mwen/papers/edm2014-camera-ready.pdf

Werbos, P. J. (1988). Generalization of backpropagation with application to a recurrent gas market model. Neural Networks, 1(4), 339–356.

Zaremba, W., Sutskever, I., & Vinyals, O. (2014). Recurrent neural network regularization. arXiv:1409.2329.


1 orj. feature engineering

2orj. generative

3orj. embedding

4 https://github.com/CAHLR/mooc-behaviorcase-study

5 orj. epoch

6 orj. fold

7 orj.backoff

License

Share This Book