Bölüm 9 Doğal Dil İşleme ve Öğrenme Analitiği

Carolyn Penstein Rose

Dil Teknolojileri Enstitüsü ve İnsan-Bilgisayar Etkileşimi Enstitüsü, Carnegie Mellon Üniversitesi, ABD

DOI: 10.18608/hla17.009

ÖZ

Bu bölüm söylem analitiklerini (SA) tanıtmaktadır. Söylem analitikleri, araştırmayı destekleyecek analitik mercekler sunmak, biçimlendirici ve değer biçmeye yönelik değerlendirmeleri işler kılmak, öğrenme etkinliklerinin etkililiğini arttırmak amacıyla yapılan müdahaleleri dinamik ve bağlama duyarlı bir şekilde harekete geçirmek ve öğrenme etkinliklerinden sonraki raporlar ve geri bildirimler gibi yansıtma araçlarının hem öğrenmeyi hem de öğretimi destekleyecek şekilde temin edilmesi gibi birçok alana etki etmektedir. Bu bölümün amacı, bu alanda ne yapılabileceğine dair belirli bir miktar ümidi ve kuşkuculuğu yüreklendirmek aynı zamanda okuyucuya anlamlı bir iş yapabilmek için ihtiyaç duyulan derinlikte uzmanlığı sunmaktır. Amacı gerekli uzmanlığı vermek değildir. Aksine, burada amaç okuyucunun yeterli derinliği sağlayacak bir ekip oluşturmak için ne tür işbirlikli çalışma ortakları arayacağını kavramada kendi yerini belirlemesidir. Alanın bir tanımlamasıyla başlayıp hem teorik hem de metodolojik olarak geniş bir alanı kuşatıp hem temsil hem algoritmik boyutlarını araştıracak ve daha derinlere dalmaya niyetli okuyuculara sonraki adım önerileriyle bitireceğiz.

Anahtar kelimeler: Söylem analizi, işbirlikli öğrenme, makine öğrenmesi, analiz araçları

Söylem analitiği (SA) öğrenme analitikleri içinde bir alandır (ÖA; Buckingham Shum, 2013; Buckingham Shum, de Laat, de Liddo, Ferguson ve Whitelock, 2014). Eğitsel ortamlar içindeki açık uçlu soruların işlenmesini kapsar ve alandaki araştırmalar büyük oranda yazı çalışmalarının değerlendirilmesi konusuna odaklanmıştır ancak bundan daha fazlasını; tartışma forumlarında, sohbet odalarında, mikro bloglarda, bloglarda ve hatta wikilerde yapılan tartışmaları da kapsar. ÖA’yı genel olarak, öğrenenlerin öğrenmelerini dinleme yoluyla öğrenmeyi öğrenme olarak ele alır, dinleyişimiz ise çoğunlukla veri madenciliği ve makine öğrenmesi teknolojileri ile desteklenir ancak alanda yayınlanmış çalışmalar öncü olsa da tüm durumlar bir otomasyon söz konusu değildir (Knight ve Littleton, 2015; Milligan, 2015). Ayrıca, biz bu alanı farklı kılan şeyin, verinin üretildiği tüm akışlarında, dinlemeye ait olan doğal dil verisine odaklanılması olduğunu düşünmekteyiz.

Bu bölüm ÖA sahası içinde konumlanmış olan bu alana çok temel bir başlangıç niteliğindedir. SA değişimli olarak iki tehlikeli kavram yanılgısından muzdariptir. Birincisi aslında birçok kişi için, kullanıma hazır olan ve analiz işini bir düğmeye basarak onlar adına yapacak bir çözüme sahip olma arzusuyla körüklenen aşırı ve uç bir beklentidir. Bu kavram yanılgısının tutsağı olanlar hayal kırıklığına uğramaya mahkûmdur. En basit veya en güçlü modelleme teknolojilerinin etkili kullanımı çokça hazırlık, emek ve uzmanlık gerektirmektedir. İkinci kavram yanılgısı ise bazen birinci kavram yanılgısından doğan hayal kırıklıklarını veya söylemin karmaşıklıklarını son derece derinlikli bir şekilde bilmekten kaynaklanan, hiçbir bilgisayarın var olan ince ayrıntıları tamamen yakalayamayacağı fikrini yok saymanın zorluğu sonucu olarak ortaya çıkmış olan aşırı bir kuşkuculuktur. Söylem inanılmaz bir şekilde karmaşık olsa da teknoloji harikası modelleme yaklaşımlarının tanımlayabildiği anlamlı örüntüler olduğu da bir gerçektir. Bu bölüm boyunca teknolojinin bugünkü durumunu açıklayan Öğrenme Analitiği, Bilgi ve diğer bağlantılı konferanslardan alınan birçok yayımlanmış çalışmaya atıfta bulunulmuştur. Bilgi işlemsel sosyo dilbilime dair yapılan yakın zamanlı bir araştırma, hikâyeyi dil teknolojileri dalının perspektifinden anlatmaktadır (Nguyen, Dogruöz, Rosé ve de Jong, basım aşamasında) ve konuya özel ilgi duyan okuyucuların ilgisini çekecektir.

Bu bölüm, biraz daha derine dalmayı isteyen okuyuculara faydalı ipuçları sunmayı umut etmektedir. SA konusu ile ilgili geçmiş iki atölye çalışması ÖA topluluğu içindeki temel çalışmaları araştırmıştır (Buckingham Shum, 2013; Buckingham Shum vd., 2014). Daha daraltılmış kapsamda Bilgisayar destekli işbirlikli öğrenme ile ilgili konu ve yöntemleri içeren kapsamlı bir genel değerlendirme daha önce hakemli dergilerde basılmış üç makalede bulunabilir (Rosé vd., 2008; Mu, Stegman, Mayfield, Rosé ve Fischer, 2012; Gweon, Jain, McDonough, Raj ve Rosé, 2013). Alana dair kısa bir ders ise, edX platformunda verilen 2014 Veri Analitiği ve KAÇD’yi Öğrenme1 deki metin madenciliği bölümünde bulunabilir. Diğer kaynaklar bölümün sonunda sunulacaktır.

Bu bölümde; öğrenme olayları sırasında ifade edilen doğal dille ilgileniyoruz. Kuramsal ve metodolojik olarak kapsayıcı olmak istiyoruz. Teorik ve metodolojik olarak kapsayıcı olmayı arzu ediyoruz. Söylem analitikleri ile ilgili yapılmış hâlihazırdaki çalışmaların çoğu, öğrenmeyi ve onun dil ile bağlantısını bilişsel bir mercekten görmektedir, başka bir deyişle, söylem içerisinde var olan dil davranışı kategorileri arayışı; ortak söylem süreçleri ve öğrenme ile ilişkili olan bilişsel süreçler arasındaki bağlantıdan dolayı öğrenme kazanımları ile ilgili bazı öngörülerde bulunmaktadır. Bu bölümde öğrenme ve onun dille olan bağlantısını, öğrenmede rolü olan bilişsel ve sosyal faktörler arasındaki önemli etkileşimi güçlendirmek adına sosyal bir mercek aracılığı ile görmeyi amaçlıyoruz. (Hmelo-Silver, Chinn, Chan ve O’Donnell, 2013; O’Donnell ve King, 1999). Örneğin, öğrenme etkileşimlerinde önemli bir destekleyici rol oynayan temel eğilimler, tutumlar ve ilişkileri ortaya çıkaracak söylem süreçlerini belirlemeyi amaçlıyoruz. Hangi durumda ifade edilmiş olursa olsun doğal dil son derece kişisel ve kültüreldir. İçerisine kişisel deneyimlerimizin ve bizden önceki kuşakların yapıtları yerleşmiş durumdadır. Dil seçimlerimizdeki detaylar bilinçli olarak yansıttığımız, aynı zamanda bilinçli olarak sakladığımız ve hatta farkında bile olmadığımız kimliklerimiz hakkında ipuçları verir. Hedef kitlemize dair ve onlara yönelik tutumumuz ve hedef kitlemize göre kendimizi konumlandırışımız hakkındaki varsayımlarımızı veya bazen sadece hedef kitlemizin bizim yaptığımızı düşünmelerini istediğimiz varsayımları yansıtırlar. Biz bu seçimleri ilişkiler ekonomisi içerisinde, benimsediğimiz hedeflere ulaşmak için bir para birimi gibi kullanırız (Ribeiro, 2006).

Bu anlayışla hesaplamayı, öğrenenleri dinlemeyi desteklemek için bir mercek olarak kullanırken, bizimle öğrenme süreçleri arasında duran teknolojilere her daim; bir tür dijital biçime kayıt yapılırken neyin kaybolduğu ve neyin dönüştüğü, hatta analitik teknolojinin uygulanması sırasında gerçekleşen sonraki indirgeme ve dönüşüm de dâhil olmak üzere yorumlama konusundaki sorumluluğumuzun bir kısmını; bırakıyor olduğumuzu kabul etmemiz gerekir (Morrow ve Brown, 1994). Bu şerhi de düşerek, bu bölümde yoğun bir şekilde model yorumlama ve geçerlik değerlendirmesine dair sorulara odaklanacağız.

BU BÖLÜMÜN KAPSAMI VE ODAĞI

Herhangi bir kişi analitikleri düşündüğünde, zihninde aniden algoritmalar belirir (Witten, Frank ve Hall, 2011). Ancak uygulamalı istatistikten ders çıkarmak ve onun yerine önce gösterimler hakkında düşünmek önem arz eder. SA çalışmasının kalbinde verinin gösterimine odaklanmak yatar. Makine öğrenmesi modelleri doğrudan metinlere uygulanamaz. Daha ziyade, metinden kestirim özellikleri elde edilmelidir. Bu öngörücü özellikler, sorular olarak algılanabilir: “Metinde_var mı?” veya “Metinde_kaç kez bulunuyor?” Her bir özellik bu sorulardan biriyse, her durumda, özellik değeri, sorunun cevabıdır. İlgilenen okuyucular; kamuya açık LightSIDE aracı2 (Mayfield ve Rosé, 2013; Gianfortoni, Adamson ve Rosé, 2011), gibi geniş bir kullanıcı kılavuzu, örnek veri kümeleri, süreçle ilgili yönergeler ve yardım etmeye hazır araştırmacıların iletişim bilgilerini içeren; ücretsiz olarak erişilebilen, kullanıma hazır bir tezgâh (workbench) ile deneyler yaparak metinden elde edilebilecek basit özelliklerin derinliğine ve sınıflama modellerinin yordama kesinliği üzerinde nasıl bir etkisi olduğuna dair iyi bir fikir edinebilirler.

Metne uygulanan modelleme tekniklerinde başarının anahtarı anlamlı ipuçları üretecek doğru soruları sormaktır. Bu soruya ilişkin düşünme dilin nasıl yapılandırıldığını dikkate almakla başlar. Yüzeysel olarak çıplak göze dil yekpare, yapılandırılmamış bir bütün olarak görünse de aslında çoklu katmanlardan oluşan, her biri dilbilimin ayrı bir alanının içinde tanımlanan bir yapıdan oluşur. Bir dilbilim ders kitabının (O’Grady, Archibald, Aronoff, & Rees – Miller, 2009) giriş niteliğindeki bir incelemesi, bu ÖA alanına girmek isteyen araştırmacılar için değerli bir kaynak olacaktır. En küçük parçacığı ses yapısı düzeyindedir, fonoloji (ses bilim) olarak bilinmektedir. Burada dilin temel ses bölümleri ve bunların dilin hece yapısına nasıl uyum sağladığı tanımlanmaktadır. Seslerin temel bir alfabesi bir dizi ses birimlerini oluşturur fakat lehçeler içinde bunlar belirli şekillerde telaffuz edilebilirler ve bu etnisite, sosyoekonomik düzey ve bölge gibi sosyal anlamlılıkla ilgili olan değişkenler kümesi ile olan bağlantısından dolayı sosyal anlamda bir önem taşımaktadır. Bu düzeyin hem en üstünde, morfoloji (biçim bilim) olarak bilinen kelimelerin daha iç yapısının tanımlandığı bir katman vardır. Burası dil bilgisi derslerinde öğrendiğimiz ve bu arada fillerin zamanlarını veya isimlerin sayılarını değiştiren takıların ortaya çıktığı yerdir. Yukarıda, tüm cümlelerin gramer yapısının tanımlandığı sözdizimi düzeyidir. Aynı zamanda cümle düzeyinde anlamın değişmez ifadeler yoluyla, kurallar tarafından ve söz dizim kuralları tarafından yönlendirilen daha küçük bölümler düzenlenerek oluşturulduğu anlam bilim alanı vardır ve sözcüksel anlam bilim düzeyinde alt düzey anlam bilim bölümleriyle ilişkilidir. Cümle seviyesinin üstünde, yapının diğer yönleri arasında retorik stratejileri bulduğumuz söylem düzeyidir. Bu teknik terimler birçok okuyucuya yabancı gelebilir ancak daha ileri okumalar için uygun kaynakları bulmak isteyen okuyuculara yararlı arama terimleri sunacaklardır.

Doğal dil verisinin otomatikleştirilmiş analizin hedefi olduğu birçok alanın tarihini izlersek, geçerli modelleme için kilit unsurun anlamlı gösterimler tasarlamak olarak adlandırıldığı, aynı nakaratı duyarız. Bu örneği bu bölüme koymakta, okuyucuların aynı dersi zorlu bir şekilde öğrenmekten korunmaları ümidi yatmaktadır. SA ilgili olan bu dersin iyi öğrenildiği en eski durumlardan biri otomatikleştirilmiş kompozisyon yazısı puanlama ile ilgiliydi (Page, 1966; Shermis ve Hammer, 2012). En eski yaklaşımlar regresyon gibi basit modelleri ve ortalama cümle uzunluğu, uzun kelime sayısını ve kompozisyonun uzunluğunu sayma gibi basit özellikleri kullandılar. Bu yaklaşımlar, sayısal puanların atanmasının güvenilirliği açısından oldukça başarılı olmuştur (Shermis ve Burstein, 2013); Ancak değerlendirme için kanıt kullanımında geçerliliği olmadığı için eleştirildiler. Sonraki çalışmalarda, odak noktası daha çok öğretenlerin yazmayı puanladıkları kendi rübriklerine (dereceli puanlama anahtarı) neleri dâhil ettikleri gibi özelliklerin belirlenmesine kaydı. Bu inceleme genellikle metni harf harf bölen (unigram) dil gösterimlerini temel aldıkları için unigram özelliklerle ilgili problemlerin kurbanı olsalar da yine de içerik tabanlı değerlendirmeleri desteklemek amacıyla faktör analizine benzeyen örtük semantik analiz (latent semantic analysis) (ÖSA: Foltz, 1996) veya gizli Drichlet tahsisi (latent Drichlet allocation) (GDT; Blei, Ng ve Jordan, 2003; Griffiths ve Steyvers, 2004) gibi teknikleri de kapsayarak içerik odaklı özelliklerin dâhil edilmesine neden oldu. CohMeTrix (McNamara ve Graesser, 2012) gibi diğer faktör analitik dil analizi yaklaşımları, bilişsel güçlük gibi faktörler dâhil çeşitli boyutların yanında, öğrencilerin yazılarının değerlendirilmesinde kullanılmıştır. Belli bir düzeyde söz dizimsel yapısal analizleri kullanan son derece gündelik çalışma alanlarında CohMetrix yararlar sağlamıştır(Rosé ve VanLehn, 2005). Fen eğitiminde açık uçlu soruların değerlendirilmesinde LightSIDE ile başarı elde edilmiştir (Nehm, Ha ve Mayfield, 2012; Mayfield ve Rosé, 2013).

Bu noktada SA’ya dair aşırı ve düşük beklentiler arasındaki gerilime geri dönmek faydalı olacaktır. Uygun ve anlamlı özelliklerin belirlenmesindeki zorlukları düşündüğümüzde modelleme araçları aracılığı ile oluşturduğumuz merceklerin sınırlılıkları ile uzlaşmamız gereklidir. SA araştırmacılar veya uygulayıcıların ellerinde, kendileri ile dış dünyada gerçekleşen öğrenme parçaları arasında duran bir mercek olarak hizmet verir ya da öğrenen ve öğretenler, öğrenenler, ya da öğrenen ile öğrenme teknolojileri arasında bir filtre olabilirler. Mercekler kendileri aracılığı ile görülen dünyanın bütün ayrıntılarını basitçe aktarmadıkları için kesinlikle faydalıdırlar. Aksine görüntülerin onlar olmadan etkili bir şekilde görülemeyecek özelliklerini vurgularlar. Bu da onların yapmasına ihtiyaç duyduğumuz şeydir. Bunları yapmak için ihtiyacımız olan şey budur. Aynı zamanda, tasarım tarafından daha az ilginç olarak kabul edilen özellikleri ise karartırlar. Mercekler her zaman eğip bükerler. Fakat onları geçerli bir şekilde kullanmak için, uygun bir mercek seçebilmek adına her birinin neyi vurguladığını ya da neyi kararttığını ve gördüğümüz şeyi geçerli bir şekilde yorumlayabilmemiz için resmin onsuz veya başka bir mercekle nasıl olabileceğini her zaman sorgulayarak anlamamız şarttır. Bu yüzden biz, en başından itibaren bu alandaki araştırmayı kullananlar, bu mercekleri geliştirenler veya onları etkin olarak araştırmada veya uygulamada kullananları uygulama sırasında neyin kaçınılmaz olarak kaybolduğu ya da dönüştüğü konusunda kontrollü olmaları konusunda uyarıyoruz. Bu bölüm dikkatini SA’nın kapsamında olan özel alanlara yöneltecektir.

METİN GÖSTERİMİ

Verinin analitik mercekler aracılığı ile nasıl görüneceğini fazlasıyla etkileyecek önemli kararlar temsil aşamasında alınır. Bu aşamada, metin yekpare görünen bir bütünden onun içinden çıkarılabilecek bir dizi belirleyici niteliğe dönüştürülür. Her özellik çıkarıcı, metne bir soru ve metnin verdiği cevap ise gösterimde ona tekabül eden niteliğin değeridir. Bir insan hakkında tek bildiğiniz şeyin yirmi soruluk bir oyunda sorulan sorulara verilen bir dizi cevap olduğunu hayal edin ve şimdi göreviniz bu insanı bir takım sosyal görüş kategorileri içinde sınıflandırmak olsun. Eğer sorular dikkatlice yapılandırılmışsa, hatasız bir kestirimde bulunabilirsiniz ama yine de bu kişiye ait birçok bilgi ve öngörünün süreç içerisinde kaybolacağını da kabul etmeniz gerekir. Bu önemli aşamada bilgi bir kez kaybolduğunda hikâye, dil teknolojileri alanının bakış açısıyla ne kadar ileri düzey olursa olsun bir algoritmanın uygulanması ile yeniden elde edilemez. Bu nedenle, bu bölüm boyunca temsil ve gösterimlerle ilgili kararların dikkatlice alınmasının, yorum üzerinde dikkatlice ve etraflıca düşünmenin ve yaptığımız çıkarımların geçerliliğini dikkatlice sorgulamanın önemini vurguluyoruz. Bu alanda yeni olan okuyucular bu ikazları hayali bulabilirlerse de deneyimle bu daha netleşeceklerdir.

Genel Bakış

Metni harf harf bölme (unigram) özellikleri metin madenciliği problemlerinde kullanılan en tipik özellik çıkarıcılarıdır. Bir unigram özellik aralığında eğitim verilerindeki bir dizi metnin içinde görülen her kelime için bu kelimenin metnin içindeki varlığını soracak uygun bir özellik olacaktır. Unigram özellik aralıkları genellikle makul bir şekilde yüksek performans elde ederken, modeller eğitim verilerininkine çok benzer koşullar altında toplanan verilerin ötesine genelleme yapmakta başarısızdırlar. Genellemedeki yetersizliğin nedeni bu unigram modellerinin temel olarak her sınıf değer etiketini yüzeysel bir şekilde ezberlemesidir. Bu modeller insanların belirli bir dizi durumda nelerden bahsettiklerini eğitim verilerinde bulunan bu etiketle ilişkilendirirler. Eğer bunda bir tutarlılık varsa, bu o zaman modeller tarafından öğrenilebilir ancak bu tutarlılık nadiren daha öteye geçip genelleşir. Özellikler ortaya çıkarıldığında oluşan genelleme, amaca uygun bir yapı katmanından gelir.

Metnin özellik tabanlı gösteriminin amacı, mümkün olan en yüksek doğrulukla kestirimci modellemeyi gerçekleştirmek hedefiyle, sıklıkla sınıflandırma veya sayısal değerlendirme amacıyla kestirimci modellemeyi etkinleştirmektir (Rosé vd., 2008; Mc-Laren vd., 2007; Allen, Snow, McNamera, 2015). Bu bölümün odağı ise uyumlandırma süreci olacaktır. Ancak SA’nın geniş alanı içinde bulunan bazı çalışmalarda, temsil ve gösterimler odak noktasıdır, anlam belirlenen öngörüsel özellikten çıkarılır ve kestirimsel/ öngörüsel modellemenin, eğer varsa, belirlenen özelliklerin bir doğrulaması olarak hizmet ettiğinin dikkate alınması önemlidir (Simsek, Sandor ve Buckingham Shum, 2015; Dascalu, Dessus, McNamera, 2015; Snow, Allen, Jacovina, Perret, McNamera, 2015).

Sınıflandırma için yapılan bir kestirimci modellemede, bu vektör tabanlı kıyaslama, seçilen özelliklerin farklı kategorilerin vektör uzayı içinde birbirlerine uzak göründüğü aynı kategoriye ait olanların ise birbirine yakın göründüğü durumları yaratmalıdır. Bu ilke bir metin temsilini düzeltmek için de kullanılabilir. Aynı şekilde sınıflandırılması gereken durumları farklı görünmesini sağlayan ya da farklı şekilde sınıflandırılması gereken örneklerin benzer görünmesini sağlayan özellikler bu özellikleri içeren temsiller kullanılarak eğitilen modeller tarafında yapılan sınıflandırmalarda kuvvetle muhtemel bir kafa karışıklığına neden olacaktır. Problem çoğunlukla ya muğlak özellikler (ör. Farklı bağlamlarda farklı anlamlara gelebilen fakat gösterimin bu bağlamı muğlaklığı giderebilmek adına baskılamasına imkân vermeyen özellikler) ya da parçalanmadır (ör. aynı soyut özellik birçok belirli özellik tarafından da temsil ediliyor, bazıları kayıp veya verinizde çok seyrek bulunuyorsa). Ayrıca, en anlamlı özellikler özellik alanından ve öğretim verisi olarak kullanılabilecek belirgin veriler içindeki anlamlı verilerle ilişkili olan diğer verilerden eksik olabilir ve bu da model anlamlı özellikler ile daha az anlamlı özellikler arasındaki sahte korelasyonların bulunmayabileceği veya farklı olabileceği yeni verilere uygulandığında üretici karşıtı olmakla sonuçlanabilecek şekilde genelde “dikkati üzerinden çekecektir”

Vaka Analizi

SA için metin temsili/gösterimine giren düşünüş biçimini örneklerle açıklamak için metinde tutum analizi3 olarak bilinen, diğer bir şekilde de duygu analizi4 olarak da bilinen yaygın bir örnekle başlayacağız (Pang veLee, 2008). Metin madenciliğinin en yoğun bir şekilde pazarlanan uygulamalarından biridir ve araştırmacıların veriyi analiz etme durumunda metin verisine sıklıkla ilk uygulamayı düşündükleri şeydir. Metin analitikleriyle ilgili bazı hususları tanıtarak başlayacağız ve zorlanan ve sonunda atılma durumuna gelen öğrenciler tarafından makul olarak daha çok olumsuz tutum ifadelerini görmeyi bekleyeceğiniz KAÇD’lerdeki yıpranma5 örüntülerini açıklamak konusunda bu analitiklerin ne sunduğu veya sunamadığına dair bir inceleme ile bitireceğiz. Resim bundan çok daha karmaşık olduğunu göreceğiz (Wen, Yang ve Rosé, 2014a). Okuyucuya bu vaka incelemesinde yol gösterirken kişinin fazlaca basitleştirilmiş önyargılardan başlayıp, tekrarlamalar sayesinde daha fazla bilgilenmiş olarak veri analizi döngüleri boyunca nasıl ilerlenebileceğini anlayabilmesini umut ediyoruz. SA alanındaki en ilginç çalışma veya analitiklerin zengin ve görece olarak yapılandırılmış veriye uygulandığı herhangi bir alanı, benzer bir hikâye kurgusunu takip edecektir.

Duyguya dair basitleştirilmiş işlemler metinleri ya olumlu ya da olumsuz duygu sergileme şeklinde tanımlamakta ve kelimeler ile bu duyuşsal yargılar arasındaki bağa güvenmektedirler. Dolaysıyla işin çoğu kelimelerin olumluluk ya da olumsuzluk puanlarıyla ilişkilendirildiği duygu sözlükleri oluşturmaya varmaktadır. Duygu analizi alanı iyi geliştirilmiş bir alandır, sektörde önemli ölçüde temsiliyet kazanmakta ve pazarlama konularıyla ilişkili iş kollarına hizmet vermektedir. Yine de teknolojinin sınırlılıkları açıktır. Ayrıca dil bilimsel alan yazınından öğrenilen tutumlarla ilgili pek çok şeyin belirli olumlu veya olumsuz sözcüklerle ifade edilmediği yönündedir (Martin ve White, 2005). Bu hava durumuna dair verilen şu örnekle açıklanabilir. “Bugün hava çok güzel” ifadesi istenen olumlu sözcüğü içerir; ancak “ güneş parıldıyor” sadece tipik güneşli günlerin yağmurlu günlere tercih edildiği biliniyorsa açıkça olumludur. “ Kapalı mekânlarda kalmak için harika bir gün” havanın, olumlu bir sözcüğün varlığına rağmen pekiyi olmadığını göstermektedir. “ Yağmur botlarım unutulmuş hissediyor” olumsuz bir sözcüğün varlığına rağmen hava ile ilgili olumlu bir yorum olarak alınabilir.

Artık eve daha yakın olan ve yetersiz kalan durumları araştıracağız. Duygu analizi metne ilgi duyan farklı alanlardan araştırmacılar ve uygulayıcılar tarafından en çok bilinen ve geniş ölçüde kullanılan dil teknolojilerinden biri olduğundan, KAÇD’lerden gelen forum verisinin analizinin bu teknolojinin uygulamalarını bulduğumuz alanlardan biri olması sürpriz değildir ve bu sebeple bu çalışma uygun bir vaka çalışmasıdır. Uygulamanın gerekçesi tartışma forumu verilerinin öğrencilerin KAÇD’leri nasıl neden ve ne zaman terk ettiklerini, dersten tatmin olmadıkları için ayrıldıkları ve bu tatminsizliğin duygu analizini mercek olarak kullanarak görünür hale getirilebileceği fikrine dayanarak daha iyi anlamak için faydalı olacağıydı. Ancak önceden yapılan böyle bir araştırmada Ramesh, Goldwasser, Huang, Daumé ve Getoor (2013) genel olarak öğrenciler tarafından ifade edilen duygu (tamamen otomatik yöntemlerle değerlendirilen) ile ona ilişkin dersi bitirme olasılıkları arasında hiçbir ilişki bulamamışlardır. Adamopoulos (2013) ders tartışma forumlarında öğrencilerin tutumlarına dair neyi ifade ettiklerini anlamak için farklı derslerin olanaklarına ilişkin duygunun ölçülmesine yönelik duyguya dayalı bir değerlendirme metodu geliştirdi. Tutumlarla bağlantılı olan ders boyutlarındaki temaları belirlemek amacıyla, otomatik bir şekilde tanımlanan duygu ifadelerinin temellendirilmiş kuram yaklaşımı ile eşleştirildiği bir birleşim kullandılar. Bu daha ayrıntılı bakışla, genel tutumun değil dersin öğretmenine, ödevler ve diğer materyallere karşı tutumun dersin bırakılmasıyla en güçlü ilişkiye sahip olduğunu belirleyebildiler. Daha yakın zamanlı bir çalışmada (Wen vd., 2014a), otomatik analizi, duygu ölçümünde kesinliği arttırarak ve bir öğrenci tarafından ifade edilen bir duygu ile maruz kaldıkları duyguyu ve aynı zamanda öğrenci düzeyinde duygu ile ders düzeyinde duyguyu karşılaştırarak, bir adım öteye taşıdık. Bu çalışmada, duyguya ilişkin değişkenler ve dersi bırakma arasındaki gerçek bağlantı dersin doğasına göre değişmiştir.

Daha fazla soru sorulması ile gönderilerdeki tutumu sınıflandırmak için çok daha incelikli yollara ihtiyacımız olduğu belirginleşmiştir. Örneğin, tamamen sosyal olan değiş tokuşlarda, olumsuz tutum ifadeleri pekişmiş duygusal bağlantıya yol açan bir ifşa etme durumu olabilir. Problem çözme dersinde problem konuşması tam da materyalle bağlantıya geçmiş olmanın belirtisi olabilir. Olumsuz tutum sözcükleri, ifadeleri ve görüntüleri talihsiz veya stresli olayların tartışıldığı bir edebiyat dersinde ortaya çıkabilir ve yine bu, ifade edilen duygunun öğrencinin bu materyali okuma deneyimi ve hatta tartışma deneyimine dair duygusu ile hiç de ilişkili olamayabilir. Duygu analizinin olumlu ya da olumsuz sözcükleri saymak kadar basit olmadığı sonucuna vardık. Bireysel sözcükler tutum ve bağlama ilişkin için yeterli bir kanıt oluşturmamaktadırlar. Bazı retorik stratejiler olumlu ve olumsuz yorumları aynı değerlendirme içinde birleştirebilir ve bazen duygu dolaylı olarak ifade edilebilir. Verinizin gösteriminde gözlem yoluyla yapılan nitel analizle bu şekilde ince ayrıntılar mutlaka dikkate alınmalıdır.

DENETİMSİZ YÖNTEMLER

Faktör analizine ait çok çeşitli (Garson, 2013; Loehlin, 2004) ve örtük değişken analizi teknikleri (Skrondal ve Rabe-Hesketh, 2004; Collins ve Lanza, 2010) bu alanda oldukça popülerdir. Bunlar denetimsiz (önceden atanmış etiketler gerektirmeyen vb.), denetlenen (önceden atanmış etiketleri olan örnekleri gerektiren vb.), ya da az denetlenmiş (öğrenme algoritması için biraz dış rehberliğe ihtiyaç duyulan fakat her örnek için önceden atanmış etiketler gerektirmeyen) olabilirler. Bu bölümde denetimsiz yöntemlere odaklanacağız. Eğitsel alandaki bu tekniklerin en popüler olanlarından örtük semantik analiz (ÖSA: Foltz, 1996) veya gizli Drichlet ayrımı veya GDT (Blei vd., 2003) gibi örtük değişken faktör analitiği yaklaşımları yukarıda kısaca açıklanmıştı. Dolayısıyla burada biraz daha ayrıntıya girecek ve güçlü yanlar ile sınırlılıklara değineceğiz. ÖA’ya ilişkin yakın tarihli bir çalışmada keşfedici veri analizi için denetimsiz yöntemler (Joksimović vd., 2015; Sekiya, Marsuda ve Yamaguchi, 2015; Chen, Chen ve Xing, 2015), bazen görselleştirme teknikleri ile eşlenerek (Hsiao ve Awasthi, 2015) veya el analizine dayandırılarak veya onunla değişmeli olarak (Molenaar ve Chiu, 2015; Ezen-Can, Boyer, Kellog ve Booth, 2015) kullanılmıştır. Bu modelleme teknolojileri araştırmacılar onları metinsel anlam analizine çok yakın buldukları için yaygın olarak kullanılmıştır. Geçek şudur ki onlar bunu gerçekleştirmek konusunda yaygın kanıya kıyasla çok daha az uygundurlar. Bu araçlar gerçekten SA araçlarının cephaneliğinde yer alırlar. Ancak bu bölüm yukarıda da belirtildiği gibi okuyucuda uygun bir şüpheciliği teşvik etmek için biraz daha derinlere dalma merakını uyandırmayı amaçlamaktadır.

Etiketlenmemiş verinin çok çeşitli birçok özelliğini modellemede konu modelleme yaklaşımları çok popülerdir. Belge toplamanın tematik yapısını ortaya çıkarmada etkili olan üretici bir model olarak; iyi bilinen ve yaygın olarak kullanılan yaklaşımlardan birisi GDT’dır (Blei vd., 2003). Saklı Markov modelleme (SMM) ve diğer dizilim modelleme yaklaşımları öğrenen deneyimlerindeki ilerlemeleri yakalamada popüler hale gelmeye başlamıştır (Molenaar ve Chiu, 2015). Bazen bu yaklaşımlar zamana göre dil ifadelerinin yordanabilir yollarla ve tematik içerik gösterimleri cinsinden nasıl değiştiğinin belirlemek için birleştirilmektedir(Jo ve Rosé, 2015). Bunlar gibi istatistiksel yaklaşımların düzenlilikleri ortaya koyması istenir. Metodolojilerde en çok, veri azaltma ve basitleştirmeye değer katan araçlar olarak değerlidirler. Veri içindeki alışılmadık oluşumları önemsiz gördükleri için varsayımları zorlayan sıradışı olayları arayan metodolojilerde daha az değerlidirler. Kişi varsayımları ihlal eden durumları belirlemek için, böyle örnekleri belirlemenin bir yolu olarak bir anomali bulma yaklaşımını seçse bile, uygulamada bulunan örneklerin, teorik olarak önemli olan varsayımları zorlaması bakış açısına göre tam da ilginç olmama ve sıra dışı olmama ihtimali vardır.

GDT kelimeleri aynı belge içerisinde sıklıkla birlikte bulunan örtük bir kelime sınıfı içinde birlikte eşleme biçiminde çalışmaktadır. Öğrenilen yaklaşım örtük yapıdaki her bir veri nokta bütününün (bu bir belgedir), tek bir örtük sınıfa olasılığa dayalı olarak atandığı (Collins ve Lanza, 2010), geleneksel örtük sınıf modellerinden daha karmaşıktır. GDT modeline, veri noktalarının örtük sınıfların bir bileşimi olarak görülerek belgelerin içindeki sözcüklerin farazî olarak örtük sınıflara atandığı ek bir yapı katmanı daha konmuştur. Bu konu analizi için önemli bir yapıdır. Belge temsillerinin örtük sözcük sınıflarının herhangi bir bileşimi olmasına izin vererek temaların bireysel belgelerin içinde harmanlanması esnekliğinin de korunmasıyla örtük sınıfların sayısının yönetilebilir bir boyutta kalması mümkün kılınabilir. Her bir örtük sözcük sınıfı sözcüklerin bir dağılımıyla temsil edilir. Dağılımda en yüksek sayıda yer alan sözcükler, ilişkili örtük sınıf veya konunun en ayırt edici özelliği olarak ele alınırlar.

GDT’nin denetimsiz dil işleme tekniklerinden bir olmasından dolayı belirlenen temaların konu temalarının düzenlemesine dair insan önsezisiyle tam olarak eşleşeceğini beklemek çok da mantıklı olmayacaktır ancak sözcüklerin birlikte bulunma ilişkilerinin modellendiği bir teknik olarak ilişkilendirilebileceği düşünülen bazı şeylerin belirlenmesini beklemek mümkündür. GDT özünde bir veri azaltma tekniğidir. Güçlü olduğu yönler derlemde çok yaygın olan, sıklıkla ortak temalara karşılık gelen sözcük ilişkilendirmelerinin belirlemesinden kaynaklanmaktadır. Ancak ortak/yaygın temaların ilgilenilen temalarla bire bir uyum olması gerekmez. Ne yazık ki, bu sonuçta ortaya çıkan gösterimde ilgilenilen temaların ortak/yaygın olmayanları için farklı bir gösterim oluşturulmayacaktır. Benzer olarak, yaygın kullanılan fikirlerin alışılmadık ifadeleri genel olarak GDT sahası içinde bir sezgisel gösterimle eşleşmeyi başaramayacaktır. Metin verisinin gösterimi ayrı bir öneme sahiptir. Sıklıkla, GDT modelleri bireysel sözcük niteliklerinden oluşturulan nitelik alanları üzerinden hesaplanır. Böylelikle, bireysel sözcüklerle yakalanmayan hiçbir şey model tarafından erişilebilir olmayacaktır.

DENETİMLİ YÖNTEMLER

Spektrumun diğer ucunda ise denetimli yöntemler bulunmaktadır. Biraz fazlaca basitleştirilmiş bir bakış açısıyla ele alınırsa, denetimli makine öğrenimi yöntemleri, genellikle sınıf değeri olarak adlandırılan bir sonuç özelliği ile nitelik olarak adlandırılan tahmin unsurlarından oluşan bir koleksiyonu ilişkilendirecek vektör kümeleri üzerinde çalışan algoritmalardır. Son zamanlarda, denetimli makine öğrenmesinin öğrenme süreçlerinin değerlendirilmesi problemine uygulanması tartışma konudur. Bu problem otomatik- işbirlikli öğrenme süreç analizi olarak adlandırılmaktadır. İşbirlikli süreçlerin otomatik analizi, işbirlikli öğrenme sırasında gerçek zamanlı değerlendirme, işbirlikli-öğrenme oturumlarının ortasında destekleyici müdahaleleri dinamik olarak tetikleme ve işbirlikli-öğrenme süreçlerinin etkili bir şekilde analiz edilmesini kolaylaştırmak için değere sahiptir. Bu dinamik yaklaşımın diğer eşdeğer statik destek yaklaşımından daha etkili olduğu gösterilmiştir Kumar, Rosé, Wang, Joshi ve Robinson, 2007). Otomatikleştirilmiş işbirlikli öğrenme süreç analizindeki erken dönem yapılmış çalışmalar metin temelli etkileşimleri ve tıklama dizisi verisine odaklanmaktaydı (Soller ve Lesgold, 2007; Erkens ve Janssen, 2008; Rosé vd., 2008; McLaren vd., 2007; Mu vd., 2012). İşbirlikli süreçlerin konuşmayla analizine yönelik eski çalışmalar da ortaya çıkmaktadır (Gweon vd., 2013; Gweon, Agarwal, Udani, Raj ve Rosé, 2011). Dilbilim ve psikolojideki teorik çerçevelerden hareketle oluşturulmuş gösterimlerin umut vadetmesi ise tutarlı bir bulgudur (Rosé ve Tovares, basım aşamasında; Wen, Yang ve Rosé, 2014b; Gweon vd., 2013; Rosé ve VanLehn, 2005). Alanda deneyim edinmek için LightSIDE araç tezgahının iyi bir başlangıç noktası olduğundan daha önce de bahsetmiştik.

BİR ADIM ÖTEYE GEÇERKEN

SA alanı ile ilgili daha fazla bilgi edinmeye istekli okuyucular ilk olarak, temel alan yazına biraz dalmakla fayda sağlayacaklardır. Bu dilbilim alanı, (Levinson, 1983; O’Grady vd., 2009), söylem analizi (Martin ve Rose, 2003; Martin ve White, 2005; Biber ve Conrad, 2011) ve dil teknolojileri (Manning ve Schuetze, 1999; Jurafsky ve Martin, 2009; Jackson ve Moulinier, 2007) alanlarına dayandırılmıştır.

KAYNAKÇA

Adamopoulos, P. (2013). What makes a great MOOC? An interdisciplinary analysis of student retention in online courses. Proceedings of the 34th International Conference on Information Systems: Reshaping Society through Information Systems Design (ICIS 2013), 15–18 December 2013, Milan, Italy. http://aisel.aisnet.org/ icis2013/proceedings/BreakthroughIdeas/13/

Allen, L., Snow, E., & McNamera, D. (2015). Are you reading my mind? Modeling students’ reading comprehension skills with natural language processing techniques. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 246–254). New York: ACM.

Biber, D., & Conrad, S. (2011). Register, Genre, and Style. Cambridge, UK: Cambridge University Press.

Blei, D., Ng, A., & Jordan, M. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3, 993–1022.

Buckingham Shum, S. (2013). Proceedings of the 1st International Workshop on Discourse-Centric Learning Analytics (DCLA13), 8 April 2013, Leuven, Belgium.

Buckingham Shum, S., de Laat, M., de Liddo, A., Ferguson, R., & Whitelock, D. (2014). Proceedings of the 2nd International Workshop on Discourse-Centric Learning Analytics (DCLA14), 24 March 2014, Indianapolis, IN, USA.

Chen, B., Chen, X., & Xing, W. (2015). “Twitter archaeology” of Learning Analytics and Knowledge conferences. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 340–349). New York: ACM.

Collins, L., & Lanza, S. T. (2010). Latent class and latent transition analysis with applications in the social, behavioral, and health sciences. Wiley.

Dascalu, M., Dessus, P., & McNamera, D. (2015). Discourse cohesion: A signature of collaboration. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 350–354). New York: ACM.

Erkens, G., & Janssen, J. (2008). Automatic coding of dialogue acts in collaboration protocols. International Journal of Computer-Supported Collaborative Learning, 3, 447–470.

Ezen-Can, A., Boyer, K., Kellog, S., & Booth, S. (2015). Unsupervised modeling for understanding MOOC discussion forums: A learning analytics approach. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 146–150). New York: ACM.

Foltz, P. (1996). Latent semantic analysis for text-based research. Behavior Research Methods, Instruments, & Computers, 28(2), 197–202.

Garson, G.D. (2013). Factor Analysis. Asheboro, NC: Statistical Associates Publishing. http://www.statisticalassociates.com/factoranalysis.htm

Gianfortoni, P., Adamson, D., & Rosé, C. P. (2011). Modeling stylistic variation in social media with stretchy patterns. Proceedings of the 1st Workshop on Algorithms and Resources for Modeling of Dialects and Language Varieties (DIALECTS’11), 31 July 2011, Edinburgh, Scotland (pp. 49–59). Association for Computational Linguistics.

Griffiths, T. L., & Steyvers, M. (2004). Finding scientific topics. Proceedings of the National Academy of Sciences, 101, 5228–5235.

Gweon, G., Jain, M., McDonough, J., Raj, B., & Rosé, C. P. (2013). Measuring prevalence of other-oriented transactive contributions using an automated measure of speech style accommodation. International Journal of Computer Supported Collaborative Learning, 8(2), 245–265.

Gweon, G., Agarwal, P., Udani, M., Raj, B., & Rosé, C. P. (2011). The automatic assessment of knowledge integration processes in project teams. Proceedings of the 9th International Conference on Computer-Supported Collaborative Learning, Volume 1: Long Papers (CSCL 2011), 4–8 July 2011, Hong Kong, China (pp. 462–469). International Society of the Learning Sciences.

Hmelo-Silver, C., Chinn, C., Chan, C., & O’Donnell, A. (2013). The International Handbook of Collaborative Learning. Routledge.

Hsiao, I., & Awasthi, P. (2015). Topic facet modeling: Semantic and visual analytics for online discussion forums. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 231–235). New York: ACM.

Jackson, P., & Moulinier, I. (2007). Natural language processing for online applications: Text retrieval, extraction, and categorization. Amsterdam: John Benjamins Publishing Company.

Jo, Y., Loghmanpour, N., & Rosé, C. P. (2015). Time series analysis of nursing notes for mortality prediction via state transition topic models. Proceedings of the 24th ACM International Conference on Information and Knowledge Management (CIKM’15), 19–23 October 2015, Melbourne, VIC, Australia (pp. 1171–1180). New York: ACM.

Joksimović, S., Kovanović, V., Jovanović, J., Zouaq, A., Gašević, D., & Hatala, M. (2015). What do cMOOC participants talk about in social media? A topic analysis of discourse in a cMOOC. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 156–165). New York: ACM.

Jurafsky, D., & Martin, J. (2009). Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Pearson.

Knight, S., & Littleton, K. (2015). Developing a multiple-document-processing performance assessment for epistemic literacy. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 241–245). New York: ACM.

Kumar, R., Rosé, C. P., Wang, Y. C., Joshi, M., & Robinson, A. (2007). Tutorial dialogue as adaptive collaborative learning support. Proceedings of the 13th International Conference on Artificial Intelligence in Education: Building Technology Rich Learning Contexts that Work (AIED 2007), 9–13 July 2007, Los Angeles, CA, USA (pp. 383–390). IOS Press.

Levinson, S. (1983). Conversational structure. Pragmatics (pp. 284–286). Cambridge, UK: Cambridge University Press.

Loehlin, J.C. (2004). Latent variable models: An introduction to factor, path, and structural equation analysis. Routledge.

Manning, C., & Schuetze, H. (1999). Foundations of statistical natural language processing. MIT Press.

Martin, J., & Rose, D. (2003). Working with discourse: Meaning beyond the clause. Continuum.

Martin, J., & White, P. (2005). The language of evaluation: Appraisal in English. Palgrave.

Mayfield, E., & Rosé, C. P. (2013). LightSIDE: Open source machine learning for text accessible to non-experts. In M. D. Shermis & J. Burstein (Eds.), Handbook of Automated Essay Grading: Current Applications and New Directions (pp. 124–135). Routledge.

McLaren, B., Scheuer, O., De Laat, M., Hever, R., de Groot, R., & Rosé, C. P. (2007). Using machine learning techniques to analyze and support mediation of student E-discussions. Proceedings of the 13th International Conference on Artificial Intelligence in Education: Building Technology Rich Learning Contexts That Work (AIED 2007), 9–13 July 2007, Los Angeles, CA, USA (pp. 331–338). IOS Press.

McNamara, D. S., & Graesser, A. C. (2012). Coh-Metrix: An automated tool for theoretical and applied natural language processing. In P. M. McCarthy & C. Boonthum (Eds.), Applied Natural Language Processing: Identification, Investigation, and Resolution (pp. 188–205). Hershey, PA: IGI Global.

Milligan, S. (2015). Crowd-sourced learning in MOOCs: Learning analytics meets measurement theory. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 151–155). New York: ACM.

Molenaar, I., & Chiu, M. (2015). Effects of sequences of socially regulated learning on group performance. Proceedings of the 5th Internation Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 236–240). New York: ACM.

Morrow, R. A., & Brown, D. D. (1994). Deconstructing the conventional discourse of methodology: Quantitative versus qualitative methods. In R. A. Morrow & D. D. Brown (Eds.), Critical theory and methodology: Contemporary social theory, Vol. 3 (pp. 199–225). Thousand Oaks, CA: Sage.

Mu, J., Stegmann, K., Mayfield, E., Rosé, C. P., & Fischer, F. (2012). The ACODEA framework: Developing segmentation and classification schemes for fully automatic analysis of online discussions. International Journal of Computer-Supported Collaborative Learning, 138, 285–305.

Nehm, R., Ha, M., & Mayfeld, E. (2012). Transforming biology assessment with machine learning: Automated scoring of written evolutionary explanations. Journal of Science Education and Technology, 21, 183–196.

Nguyen, D., Dogruöz, A. S., Rosé, C. P., & de Jong, F. (in press). Computational sociolinguistics: A survey. Computational Linguistics.

O’Donnell, A., & King, A. (1999). Cognitive perspectives on peer learning. Routledge.

O’Grady, W., Archibald, J., Aronoff, M., & Rees-Miller, J. (2009). Contemporary linguistics: An introduction. Boston / New York: Bedford / St. Martin.

Page, E. B. (1966). The imminence of grading essays by computer. Phi Delta Kappan, 48, 238–243.

Pang, B., & Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, 2(1–2), 1–135.

Ramesh, A., Goldwasser, D., Huang, B., Daumé III, H., & Getoor, L. (2013). Modeling learner engagement in MOOCs using probabilistic soft logic. NIPS Workshop on Data Driven Education: Advances in Neural Information Processing Systems (NIPS-DDE 2013), 9 December 2013, Lake Tahoe, NV, USA. https: //www.umiacs. umd.edu/~hal/docs/daume13engagementmooc.pdf

Ribeiro, B.T. (2006). Footing, positioning, voice: Are we talking about the same things? In A. De Fina, D. Schiffrin, & M. Bamberg (Eds.), Discourse and identity (pp. 48–82). New York: Cambridge University Press.

Rosé, C. P., & Tovares, A. (2015). What sociolinguistics and machine learning have to say to one another about interaction analysis. In L. Resnick, C. Asterhan, & S. Clarke (Eds.), Socializing intelligence through academic talk and dialogue. Washington, DC: American Educational Research Association.

Rosé, C. P., & VanLehn, K. (2005). An evaluation of a hybrid language understanding approach for robust selection of tutoring goals. International Journal of Artificial Intelligence in Education, 15, 325–355.

Rosé, C. P., Wang, Y. C., Cui, Y., Arguello, J., Stegmann, K., Weinberger, A., & Fischer, F., (2008). Analyzing collaborative learning processes automatically: Exploiting the advances of computational linguistics in computer-supported collaborative learning. International Journal of Computer Supported Collaborative Learning, 3(3), 237–271.

Sekiya, T., Marsuda, Y., & Yamaguchi, K. (2015). Curriculum analysis of CS departments based on CS2013 by simplified, supervised LDA. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 330–339). New York: ACM.

Shermis, M. D., & Burstein, J. (2013). Handbook of Automated Essay Evaluation: Current Applications and New Directions. New York: Routledge.

Shermis, M., & Hammer, B. (2012). Contrasting state-of-the-art automated scoring of essays: Analysis. Annual National Council on Measurement in Education Meeting, 14–16.

Simsek, D., Sandor, A., & Buckingham Shum, S. (2015). Correlations between automated rhetorical analysis and tutor’s grades on student essays. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 355–359). New York: ACM.

Skrondal, A., & Rabe-Hesketh, S. (2004). Generalized latent variable modeling: Multi-level, longitudinal, and structural equation models. Chapman & Hall/CRC.

Snow, E., Allen, L., Jacovina, M., Perret, C., & McNamera, D. (2015). You’ve got style: Writing flexibility across time. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 194–202). New York: ACM.

Soller, A., & Lesgold, A. (2007). Modeling the process of collaborative learning. In H. U. Hoppe, H. Ogata, & A. Soller (Eds.), The role of technology in CSCL: Studies in technology enhanced collaborative learning (pp 63–86). Springer. doi:10.1007/978-0-387-71136-2_5

Wen, M., Yang, D., & Rosé, C. P. (2014a). Sentiment analysis in MOOC discussion forums: What does it tell us? In J. Stamper, Z. Pardos, M. Mavrikis, & B. M. McLaren (Eds.), Proceedings of the 7th International Conference on Educational Data Mining (EDM2014), 4–7 July, London, UK. International Educational Data Mining Society. https://www.researchgate.net/publication/264080975_Sentiment_analysis_in_MOOC_discussion_forums_What_does_it_tell_us

Wen, M., Yang, D., & Rosé, C. P. (2014b). Linguistic reflections of student engagement in massive open online courses. Proceedings of the 8th International AAAI Conference on Weblogs and Social Media (ICWSM’14), 1–4 June 2014, Ann Arbor, Michigan, USA. Palo Alto, CA: AAAI Press. http://www.cs.cmu.edu/~mwen/papers/ icwsm2014-camera-ready.pdf

Witten, I. H., Frank, E., & Hall, M. (2011). Data mining: Practical machine learning tools and techniques, 3rd ed. San Francisco, CA: Elsevier.


1 https://www.edx.org/course/data–analytics–learning–utarlingtonx–link5–10x

2 http://lightsidelabs.com/research/

3 orj. affect analysis

4 orj. sentiment analysis

5 orj. attrition

License

Share This Book