Takase, A. (2007). Japanese high school students’ motivation for extensive L2 reading. Reading in a Foreign Language, 19(1), 1-18.
多読は近年注目されていて、教育現場でも用いられるようになった。多読は各学習者のペースで読むことになっており、よって、読む量などに個人差が生じるのが問題点といえよう。よって、どのような要因が学習者の読解動機付けに関係するのかを知るのは重要なことである。
教育心理の分野ではGuthrieなどがL1リーディング・モーチベーションの研究を主にexpectancy-value theoryに基づき行っていて、内発的動機付けを含むself-efficacyが高い学習者はより読むとの結果を発表している。
Takaseの研究結果ではL1とL2リーディング・モーチベーションには相関関係がほぼないことがわかっている。よって、2つは異なる概念であると捉えることができる。
Day & Bamford(1998)はL2リーディング・モーチベーションのモデルを作成し、Mori(2001)では実際にそのモデルが検証された。Mori(1999)ではどの変数が読む量を予測するかを検証するため重回帰分析を行った。目的志向が高い、読書好きな学習者が多く読むという結果となった。
研究目的は以下の3点である。
1.日本人高校生のL2リーディング・モーチベーションの構成要素は?
2.どの構成要素が最も高校生の読書量を予測するか?
3.学習者のリーディング・モーチベーションと日本語と英語のパフォーマンスの相関性は?
研究対象者は219名の高校2年生日本人英語学習者である。データは3年間をかけ収集した。対象者の英語能力はSLEPのテストでは初心者から中上級者との結果がでた。TOEFLでいうと300-400点の範囲である。多読は授業全体の成績10%にあたり、レポートを提出した。多読のほかに授業内では教科書を用いて速読や読解質問の解答などを行った。
モーチベーション質問紙は5件法で2セクションからなる、セクション1はL2リーディングのモーチベーションと態度を測定すると思われる27項目で、セクション2はL1リーディングにおけるモーチベーション、態度、親家族の影響を測定していると思われる18項目である。信頼性アルファ係数はそれぞれ.781と.876となった。
英語読書字数、英語読書本数、日本語読書本数、SLEPプレ、SLEPポスト、セクション2、セクション1の相関係数を算出した結果、英語読書字数と英語読書本数は.618の相関があった。SLEPプレとポストの相関は.419であった。
主成分分析を行った結果、6因子が抽出され、total varianceは51.38%となった。因子1はintrinsic motivation for L1 reading、因子はintrinsic motivation for L2 reading、因子3はparents’ involvement in and family attitudes toward reading、因子4はentrance exam-related extrinsic motivation、因子5はfondness for written materials、因子6はinternet-related instrumental motivationと命名された。セクションごとの信頼性係数は.85, .77, .82, .77, .77, .77 (.45)となった。
重回帰分析では、英語読書字数を従属変数とし、あとの因子得点を独立変数とした。結果、最も英語読書字数を予測したのはintrinsic motivation for L2 readingとintrinsic motivation for L2 readingであった。
考察では、Mori(2002)の研究結果と比較している。本研究でのintrinsic motivation for L1 reading, intrinsic motivation for L2 readingはMori(2002)でのintrinsic value of readingにあたり、parents’ involvement in and family attitudes toward readingとentrance exam-related extrinsic motivationはMori(2002)でいうextrinsic utility valueに相当するのではといっている。
本研究結果とMori(2002)の結果は似ているといえるが、2点異なる点がある。ひとつは本研究では高校生を対象にしているので、よりentrance exam-related extrinsic motivationが高い、と自由に多読用の本を選べる点ある。あと、Mori(2002)ではpositive intrinsic valueは読む量を予測しないとの結果であったが、本研究では逆の結果となった。
L1とL2 reading motivationの相関関係から2つの変数は関係ないとの結果となった。
最後に多読の有用性について示唆している。
2007年12月21日金曜日
2007年12月19日水曜日
L2 learners' strategic mental processes during a listening test
Taguchi, N. (2001). L2 learners' strategic mental processes during a listening test. JALT Journal, 23(2), 176-201.
リスニング時におけるストラテジー使用についてはこの分野では研究されており、学習者の英語能力はストラテジー使用に非常に影響されているといわれている。既存研究ではストラテジーは主に3つに分かれる:cognitive, metacognitice, and affective. そして、クラス内でのリサーチコンテキストで、学習者のストラテジー使用について研究が行われ、能力が高い学習者ほどトップ・ダウン・スキルなどを含むmetacognitiveストラテジーを使うとの結果がでている。しかし、リスニングのコンテキストがどのようにストラテジー使用に影響するかはいまだ未知である。
よって、以下の研究目的を検証する
1.repairストラテジー使用は能力によって差異はあるか
2.affectiveストラテジー使用は能力によって差異はあるか
3.トップ・ダウン・ストラテジー使用は能力によって差異はあるか
4.ボトム・アップ・ストラテジー使用は能力によって差異はあるか
5.学習者が懐くリスニングの難易度は能力によって差異はあるか
研究対象者は54名のEFL日本人英語学習者である。
質問紙の改良のため試行研究が行われた。質問紙は30項目からなり。以下の5セクションからなっている:repair (k=6), affective (k=3), compensatory T-D strategies (k=5), compensatory B-U strategies (k=5), listening difficulty (k=11). そして、信頼性アルファ係数は全体で.73で、それぞれ.51, .33, .79, .68, .88となった。
改良版質問紙を実施したところ信頼性係数は全体で.80で、それぞれ.73, .73, .83, .70, .86となった。信頼性は高いとのことがわかった。4項目オープンエンドの質問もした。
Focal skills listening test(FSLS)とは60項目からなり、多様な場面の内容をききyes/noで答える2択のテストである。多岐選択項目に用いる信頼性係数であるKR21は.75であった。
FSLSの平均点以上か以下かで上位、下位グループを作った。そして、independent t-testsを行った。2グループ間に差があったストラテジーはT-Dストラテジーで、最高点35点で2グループの平均値差は3.32であった。listening difficultyにも統計的有意さがあり、下位クループはより、リスニングを難しいと感じているという結果となった。
研究結果から、能力が高い学習者のほうがよりT-Dストラテジーを用いることがわかった。
リスニング時におけるストラテジー使用についてはこの分野では研究されており、学習者の英語能力はストラテジー使用に非常に影響されているといわれている。既存研究ではストラテジーは主に3つに分かれる:cognitive, metacognitice, and affective. そして、クラス内でのリサーチコンテキストで、学習者のストラテジー使用について研究が行われ、能力が高い学習者ほどトップ・ダウン・スキルなどを含むmetacognitiveストラテジーを使うとの結果がでている。しかし、リスニングのコンテキストがどのようにストラテジー使用に影響するかはいまだ未知である。
よって、以下の研究目的を検証する
1.repairストラテジー使用は能力によって差異はあるか
2.affectiveストラテジー使用は能力によって差異はあるか
3.トップ・ダウン・ストラテジー使用は能力によって差異はあるか
4.ボトム・アップ・ストラテジー使用は能力によって差異はあるか
5.学習者が懐くリスニングの難易度は能力によって差異はあるか
研究対象者は54名のEFL日本人英語学習者である。
質問紙の改良のため試行研究が行われた。質問紙は30項目からなり。以下の5セクションからなっている:repair (k=6), affective (k=3), compensatory T-D strategies (k=5), compensatory B-U strategies (k=5), listening difficulty (k=11). そして、信頼性アルファ係数は全体で.73で、それぞれ.51, .33, .79, .68, .88となった。
改良版質問紙を実施したところ信頼性係数は全体で.80で、それぞれ.73, .73, .83, .70, .86となった。信頼性は高いとのことがわかった。4項目オープンエンドの質問もした。
Focal skills listening test(FSLS)とは60項目からなり、多様な場面の内容をききyes/noで答える2択のテストである。多岐選択項目に用いる信頼性係数であるKR21は.75であった。
FSLSの平均点以上か以下かで上位、下位グループを作った。そして、independent t-testsを行った。2グループ間に差があったストラテジーはT-Dストラテジーで、最高点35点で2グループの平均値差は3.32であった。listening difficultyにも統計的有意さがあり、下位クループはより、リスニングを難しいと感じているという結果となった。
研究結果から、能力が高い学習者のほうがよりT-Dストラテジーを用いることがわかった。
2007年12月6日木曜日
Aptitude, awareness, and the fundamental similarity of implicit and explicit second language learning
Robinson, P. (1995). Aptitude, awareness, and the fundamental similarity of implicit and explicit second language learning. In R. Schmidt (Ed.), Atention and awareness in foreign language learning, pp. 303-357. Honolulu, Hawaii: University of Hawaii.
意識の度合がどのように第二言語発達に影響するかはSLAでは主流な研究トピックである。まず、著者はdual-system explanations of human learningのメカニズムについてといくつかの用語について説明した。declarative knowledgeとは知識の背後にあるルールを説明できる知識である。procedural knowledgeとは必ずしもルールは説明できないが、その知識を遂行できるものを指す。次にimplicit learningとexplicit learningとは前者は無意識の努力で複雑な知識を得る学習で、後者はある知識に対して意識してルールを探し出し応用する学習をいう。つまり、前者は暗記学習で、後者はルールを探し出す、または学習したルールを応用することをいう。
この研究はKrashen(1982)が学習と習得を区別したが発端である。彼の理論では学習は意識して行うものであり、習得は意識しないでも頭に入るものであるとしている。著名な言語学者であるChomskyが仮説したUniversal Grammarでも、無意識のうちにLADまたはUGというものが頭脳に組み込まれるといっている。また、Krashenがいうには、学習から得た知識は習得に移行(transfer)しないといっており、さらに学習は言語発達につながらず簡単な知識のみ有効で、習得が主に言語発達につながると主張している。個人差についてもKrashenは極端な立場をとっており、言語適正(language aptitude)は学習のみ影響するとしている。Krashenの仮説はGreggなどから批判を受けているが、いまだ有力なものである。
Schmidt(1990;1993)は気づき(noticing)のレベルで文法事項を意識することは言語発達に必要であると主張しているが、Krashenは意識は関係ないとしている。この論争についての研究はまだ決着がついておらず、研究もあまり行われていない。また意識と記憶の関係についても研究があまりされていない。
5つの研究目的があげられた。
1.簡単なルールと難しいルールを学習する際に、学習コンディションによって意識の度合には違いはあるのか。 Krashenによるとやさしいルールは学習した知識でも回答できるが、難しいルールは習得した知識を使ってのみ回答できるとしている。
2.学習は言語適正に影響があるのか。 Krashenは言語適正テスト(MLAT)は学習知識のみを測定しているとしている。
3.implicit, incidental, rule-search, instructed conditionsはルールに対する意識の度合を生じさせるのか。 Krashenは知識習得者のみむずかしい文法的正確判断テスト(gramaticality judgement tests)の問題を正解することができ、その文法ルールは気づきやルールを探さないで偶発的に知識を習得しているとしている。
4.トレーニングによって意識のレベルは全コンディションに均等に学習の度合に影響するのか。
Schmidtによると意識して気づきを行った場合言語発達につながると仮説したので、ルールに気づいた学習は気づかなかった学習者よりよい得点をえるはずである。
5.全コンディションのトレーニングで養った意識のレベルは言語適正に正の関係があるか。 全コンディションで意識のレベルが高い学習者は言語適正テストでもよい結果をえるはずである。
この研究では4つの要因がある
1.学習コンディション: implicit condition, incidental condition, explicit rule-search condition, and explicit instructed condition.
2. やさしいルールとむずかしいルール
3.2つの尺度からなるMLAT: memory, inductive learning
4. 意識のレベル: noticing rules, looking for rules, and verbalizing rules.
研究対象者は104名のESL英語学習者である。まず、プレテストを行い研究で用いられるルールをしっていないかを調査して、知らない学習者のみを選んだ。
25の文法構造を含んだGrammaticality judgment test(GJT)が実施され、8つの文法構造が選ばれ、そのルールの教え方が考案された。そして、そのルールの教え方は15人のESLの先生に渡され、複雑さ(complexity)の度合を7件法で回答してもらった。一週間後同じ先生に同じものをQ-sortを用いて複雑さの度合を判断してもらった。結果2つのルールがまったく複雑さが異なるものだと判断された。
Implicit conditionでは対象者に記憶テストを行うといい、2つの単語は隣り合わせだったかを判断してもらう練習をした。
Incidental conditionでは対象者に理解度テストを行うといい、内容に即しているかをはい・いいえで答えてもらった。
Rule-search conditionでは対象者はルールを探す練習をすると伝えた。そして、ルールを探す練習をしてもらい、「みつけられましたか」と質問した。
Instructed conditionでは対象者にやさしいルールとむずかしいルールについての説明をみてもらい、そのルールを次の文に応用しすることをしてもらった。そして、文法構造がどうなっていたかを質問した。
トレーニング後、対象者は20問のやさしいルールと20問のむずかしいルールについての文法的正確判断テストを受験した。またMLATから2セクションのみ受験した。セクション1は45項目からなる4択問題で文法知識をものである。セクション2は3分間24個もの対になっている単語をみたあと、正しいペアを選ぶというものである。4コンディションに属す対象者にANOVAを行った結果、MLATの結果に平均値の違いはみられなかった。また、MLATとMEPTの相関を検証したところ、係数は低く、2つの変数は別の構想概念を測定しているものとみなした。また、2つのMLATのセクション得点に相関はなかった。同様に、MLATの得点とかんたんなルールと難しいルールのパフォーマンスには相関がなかった。
意識の度合を調査するため3項目からなる尺度を用いた。項目1はルールに気づいたか、項目2はルールを探すことをしたか、項目3はルールを表すことができるかで、はい・いいえで回答するものである。
RQ1~5を検証するため、それぞれ統計を用いた。
RQ1: 簡単なルールと難しいルールの学習度合を測定したGJTのプレ・ポスト得点の上昇を検証するためrepeated measure of ANOVAを行った。
RQ2: 簡単なルールと難しいルールの得点、言語適正テストのセクション1、セクション2、セクション1とセクション2の合計点の相関を求めた。
RQ3: それぞれのコンディションでの意識度合質問紙の回答を2X2カイの二乗を行った。
RQ4: それぞれのコンディションで、ルールを気づいた・気づいていない、ルールを探した・探していない、ルールをいえる・いえないでグループを作り、簡単なルールと難しいルールの学習度テスト得点上昇を検証するためrepeated measure of ANOVAを行った。
RQ5: RQ4同様にルールに気づいたか、ルールを探したか、ルールをいえるかでグループをつくり、言語適正テストの得点上昇を検証するためrepeated measure of ANOVAを用いた。
まず、RQ1の結果だが、どのコンディションでもやはり簡単なルールのほうが難しいルールの平均値が高くなっている。難しいルールテストの平均値が最も低かったコンディションはrule-search conditionで、最も高いのがinstructed conditionとなった。簡単なルールテストではimplicit conditionの平均が低く、instructed condictionが高くなっている。よって、instructed conditionのほうがどのコンディションよりも有効に学習が行われたことを示す。
RQ2を検証するため、相関を用いたところ、implicit condictionとGST得点、rule-search condictionの易しいGJT得点とGST得点、instructed conditionのGJT得点とGST得点、rule-search conditionの難しいGJT得点と記憶テスト得点、instructed conditionのGJT得点と記憶テスト得点、implicit conditionのGJT得点と言語適応テスト得点、rule-search conditionのGJT得点と言語適応テスト得点、instructed condictionのGJT得点と言語適応テスト得点に有意な相関があった。
RQ3を検証するため、two-way chi-squareを行った結果、instructed conditionの学習者が最も文法ルールを探したとの結果となった。
RQ4を検証するため、repeated ANOVAsを行ったところ、易しいGJT得点にcondition間に有意があり、GJT得点上昇がグループ間によって違ったことを示す。
RQ5を検証するため、独立変数にはトレーニンググループを、従属変数にはGSTとMemory subtestsとし、repeated ANOVAsを行った。
意識の度合がどのように第二言語発達に影響するかはSLAでは主流な研究トピックである。まず、著者はdual-system explanations of human learningのメカニズムについてといくつかの用語について説明した。declarative knowledgeとは知識の背後にあるルールを説明できる知識である。procedural knowledgeとは必ずしもルールは説明できないが、その知識を遂行できるものを指す。次にimplicit learningとexplicit learningとは前者は無意識の努力で複雑な知識を得る学習で、後者はある知識に対して意識してルールを探し出し応用する学習をいう。つまり、前者は暗記学習で、後者はルールを探し出す、または学習したルールを応用することをいう。
この研究はKrashen(1982)が学習と習得を区別したが発端である。彼の理論では学習は意識して行うものであり、習得は意識しないでも頭に入るものであるとしている。著名な言語学者であるChomskyが仮説したUniversal Grammarでも、無意識のうちにLADまたはUGというものが頭脳に組み込まれるといっている。また、Krashenがいうには、学習から得た知識は習得に移行(transfer)しないといっており、さらに学習は言語発達につながらず簡単な知識のみ有効で、習得が主に言語発達につながると主張している。個人差についてもKrashenは極端な立場をとっており、言語適正(language aptitude)は学習のみ影響するとしている。Krashenの仮説はGreggなどから批判を受けているが、いまだ有力なものである。
Schmidt(1990;1993)は気づき(noticing)のレベルで文法事項を意識することは言語発達に必要であると主張しているが、Krashenは意識は関係ないとしている。この論争についての研究はまだ決着がついておらず、研究もあまり行われていない。また意識と記憶の関係についても研究があまりされていない。
5つの研究目的があげられた。
1.簡単なルールと難しいルールを学習する際に、学習コンディションによって意識の度合には違いはあるのか。 Krashenによるとやさしいルールは学習した知識でも回答できるが、難しいルールは習得した知識を使ってのみ回答できるとしている。
2.学習は言語適正に影響があるのか。 Krashenは言語適正テスト(MLAT)は学習知識のみを測定しているとしている。
3.implicit, incidental, rule-search, instructed conditionsはルールに対する意識の度合を生じさせるのか。 Krashenは知識習得者のみむずかしい文法的正確判断テスト(gramaticality judgement tests)の問題を正解することができ、その文法ルールは気づきやルールを探さないで偶発的に知識を習得しているとしている。
4.トレーニングによって意識のレベルは全コンディションに均等に学習の度合に影響するのか。
Schmidtによると意識して気づきを行った場合言語発達につながると仮説したので、ルールに気づいた学習は気づかなかった学習者よりよい得点をえるはずである。
5.全コンディションのトレーニングで養った意識のレベルは言語適正に正の関係があるか。 全コンディションで意識のレベルが高い学習者は言語適正テストでもよい結果をえるはずである。
この研究では4つの要因がある
1.学習コンディション: implicit condition, incidental condition, explicit rule-search condition, and explicit instructed condition.
2. やさしいルールとむずかしいルール
3.2つの尺度からなるMLAT: memory, inductive learning
4. 意識のレベル: noticing rules, looking for rules, and verbalizing rules.
研究対象者は104名のESL英語学習者である。まず、プレテストを行い研究で用いられるルールをしっていないかを調査して、知らない学習者のみを選んだ。
25の文法構造を含んだGrammaticality judgment test(GJT)が実施され、8つの文法構造が選ばれ、そのルールの教え方が考案された。そして、そのルールの教え方は15人のESLの先生に渡され、複雑さ(complexity)の度合を7件法で回答してもらった。一週間後同じ先生に同じものをQ-sortを用いて複雑さの度合を判断してもらった。結果2つのルールがまったく複雑さが異なるものだと判断された。
Implicit conditionでは対象者に記憶テストを行うといい、2つの単語は隣り合わせだったかを判断してもらう練習をした。
Incidental conditionでは対象者に理解度テストを行うといい、内容に即しているかをはい・いいえで答えてもらった。
Rule-search conditionでは対象者はルールを探す練習をすると伝えた。そして、ルールを探す練習をしてもらい、「みつけられましたか」と質問した。
Instructed conditionでは対象者にやさしいルールとむずかしいルールについての説明をみてもらい、そのルールを次の文に応用しすることをしてもらった。そして、文法構造がどうなっていたかを質問した。
トレーニング後、対象者は20問のやさしいルールと20問のむずかしいルールについての文法的正確判断テストを受験した。またMLATから2セクションのみ受験した。セクション1は45項目からなる4択問題で文法知識をものである。セクション2は3分間24個もの対になっている単語をみたあと、正しいペアを選ぶというものである。4コンディションに属す対象者にANOVAを行った結果、MLATの結果に平均値の違いはみられなかった。また、MLATとMEPTの相関を検証したところ、係数は低く、2つの変数は別の構想概念を測定しているものとみなした。また、2つのMLATのセクション得点に相関はなかった。同様に、MLATの得点とかんたんなルールと難しいルールのパフォーマンスには相関がなかった。
意識の度合を調査するため3項目からなる尺度を用いた。項目1はルールに気づいたか、項目2はルールを探すことをしたか、項目3はルールを表すことができるかで、はい・いいえで回答するものである。
RQ1~5を検証するため、それぞれ統計を用いた。
RQ1: 簡単なルールと難しいルールの学習度合を測定したGJTのプレ・ポスト得点の上昇を検証するためrepeated measure of ANOVAを行った。
RQ2: 簡単なルールと難しいルールの得点、言語適正テストのセクション1、セクション2、セクション1とセクション2の合計点の相関を求めた。
RQ3: それぞれのコンディションでの意識度合質問紙の回答を2X2カイの二乗を行った。
RQ4: それぞれのコンディションで、ルールを気づいた・気づいていない、ルールを探した・探していない、ルールをいえる・いえないでグループを作り、簡単なルールと難しいルールの学習度テスト得点上昇を検証するためrepeated measure of ANOVAを行った。
RQ5: RQ4同様にルールに気づいたか、ルールを探したか、ルールをいえるかでグループをつくり、言語適正テストの得点上昇を検証するためrepeated measure of ANOVAを用いた。
まず、RQ1の結果だが、どのコンディションでもやはり簡単なルールのほうが難しいルールの平均値が高くなっている。難しいルールテストの平均値が最も低かったコンディションはrule-search conditionで、最も高いのがinstructed conditionとなった。簡単なルールテストではimplicit conditionの平均が低く、instructed condictionが高くなっている。よって、instructed conditionのほうがどのコンディションよりも有効に学習が行われたことを示す。
RQ2を検証するため、相関を用いたところ、implicit condictionとGST得点、rule-search condictionの易しいGJT得点とGST得点、instructed conditionのGJT得点とGST得点、rule-search conditionの難しいGJT得点と記憶テスト得点、instructed conditionのGJT得点と記憶テスト得点、implicit conditionのGJT得点と言語適応テスト得点、rule-search conditionのGJT得点と言語適応テスト得点、instructed condictionのGJT得点と言語適応テスト得点に有意な相関があった。
RQ3を検証するため、two-way chi-squareを行った結果、instructed conditionの学習者が最も文法ルールを探したとの結果となった。
RQ4を検証するため、repeated ANOVAsを行ったところ、易しいGJT得点にcondition間に有意があり、GJT得点上昇がグループ間によって違ったことを示す。
RQ5を検証するため、独立変数にはトレーニンググループを、従属変数にはGSTとMemory subtestsとし、repeated ANOVAsを行った。
2007年11月27日火曜日
Redefining motivation to read in a foreign language
Mori, S. (2002). Redifing motivation to read in a foreign language. Reading in a Foreign Language, 14(2), 91-110.
動機付けの研究はGardnerをはじめカナダのESLコンテクストで盛んにおこなわれてきた。そして、Gardnerは動機づけのモデルを開発し、その核となる概念はintegrative motivationであるとした。しかし、GardnerモデルはESLコンテキストでは妥当かもしれないが、EFLコンテクストではどうなのかという批判があった。よって、EFLコンテキストにあったモデルの開発がおこなわれた。
リーディングの分野ではKrashenなどによる多読と習熟度別の関係は研究がおこなわれてきた。また、動機づけのモデルは進化した。しかし、リーディングに対する動機付けはまったく行われてきていない。唯一あるreading motivationのモデルはDay & Bamford (1998)によって理論化されたが、未だ実証研究は行われていない。
L1の分野ではWigfield and Guthrie (1995)がリーディングに特有な動機付けを理論化した。この理論はExpectancy-value theoryに基づいており、expectancy for success(e.g., task difficulty, and task-specific self-concept)とvalue(e.g., attainment value, intrinsic value, extrinsic untility value, and cost)がachievementにつながると仮説している。また、他の動機づけの理論もL1 reading motivationに取り入れた結果、大まかに3つのカテゴリーに構成要素を分けた: (a) competence and reading efficacy, (b) achievement values and goals, and (c) social aspects of reading. Wigfield and Guthrie(1995)はこの理論をもとに質問紙を開発したが、妥当性に関しては思わしくない結果であった。
研究目的は日本のEFL コンテキストでのreading motivationの構成要素を明らかにすることである。よって、質問紙の妥当性の問題について調査する。
30項目からなる質問紙は447名の日本人学習者に実施授業初回に1度実施された。信頼性アルファ係数は.93であった。質問紙にある項目はほとんどがWigfield and Guthrie(1995)が開発したものを使っている。また、Gardnerが開発した動機づけの質問しであるAMTBからintegrative orientationに関する項目を採用した。
主成分分析を行い、バリマックス回転で結果を解釈することにし、また因子負荷が低い項目は分析から外し、結果を解釈した。4因子で26項目の解釈を行った結果、total varianceは56.50%で、信頼性アルファ値は.93であった。因子1はintrinsic value of reading, 因子2はextrinsic utility value of reading, 因子3はimportance of reading, 因子4はreading efficacyと命名した。
Wigfield and Guthrie(1995)はL1 reading motivationには11もの構成要素があると仮定したが、どうやらそうではないみたいである。Expectancy-value theoryのほうがよりこの研究結果を説明できる理論だと述べている。また、Gardnerがいうintegrative orientationらEFLコンテキストには適合しないのかもしれない。
動機付けの研究はGardnerをはじめカナダのESLコンテクストで盛んにおこなわれてきた。そして、Gardnerは動機づけのモデルを開発し、その核となる概念はintegrative motivationであるとした。しかし、GardnerモデルはESLコンテキストでは妥当かもしれないが、EFLコンテクストではどうなのかという批判があった。よって、EFLコンテキストにあったモデルの開発がおこなわれた。
リーディングの分野ではKrashenなどによる多読と習熟度別の関係は研究がおこなわれてきた。また、動機づけのモデルは進化した。しかし、リーディングに対する動機付けはまったく行われてきていない。唯一あるreading motivationのモデルはDay & Bamford (1998)によって理論化されたが、未だ実証研究は行われていない。
L1の分野ではWigfield and Guthrie (1995)がリーディングに特有な動機付けを理論化した。この理論はExpectancy-value theoryに基づいており、expectancy for success(e.g., task difficulty, and task-specific self-concept)とvalue(e.g., attainment value, intrinsic value, extrinsic untility value, and cost)がachievementにつながると仮説している。また、他の動機づけの理論もL1 reading motivationに取り入れた結果、大まかに3つのカテゴリーに構成要素を分けた: (a) competence and reading efficacy, (b) achievement values and goals, and (c) social aspects of reading. Wigfield and Guthrie(1995)はこの理論をもとに質問紙を開発したが、妥当性に関しては思わしくない結果であった。
研究目的は日本のEFL コンテキストでのreading motivationの構成要素を明らかにすることである。よって、質問紙の妥当性の問題について調査する。
30項目からなる質問紙は447名の日本人学習者に実施授業初回に1度実施された。信頼性アルファ係数は.93であった。質問紙にある項目はほとんどがWigfield and Guthrie(1995)が開発したものを使っている。また、Gardnerが開発した動機づけの質問しであるAMTBからintegrative orientationに関する項目を採用した。
主成分分析を行い、バリマックス回転で結果を解釈することにし、また因子負荷が低い項目は分析から外し、結果を解釈した。4因子で26項目の解釈を行った結果、total varianceは56.50%で、信頼性アルファ値は.93であった。因子1はintrinsic value of reading, 因子2はextrinsic utility value of reading, 因子3はimportance of reading, 因子4はreading efficacyと命名した。
Wigfield and Guthrie(1995)はL1 reading motivationには11もの構成要素があると仮定したが、どうやらそうではないみたいである。Expectancy-value theoryのほうがよりこの研究結果を説明できる理論だと述べている。また、Gardnerがいうintegrative orientationらEFLコンテキストには適合しないのかもしれない。
2007年11月13日火曜日
An analysis of peer assessment in EFL college oral presentation classrooms
Otoshi, J. & Heffernan, N. (2007). An analysis of peer assessment in EFL college oral presentation classrooms. The Language Teacher, 31(11), 3-8.
プレゼンテーションスキルを教え、その習熟度を評価している授業も増えている。しかし、プレゼンテーションについての研究やその評価に関しての研究は少ない。また、採点基準についての研究も少ない。採点基準に基づき、発表者のプレゼンテーションを評価するということは信頼性の問題につながる。
近年、プレゼンテーションの評価に相互評価を取り入れることについての研究はいくつかある。相互評価を取り入れることにより、より学習者が発表を注意深くきき、より学習の意識が高まり、動機づけとなるといっている。
既存研究では相互評価から得た得点は最終成績に入れるべきではないといっている。やはり、これは学習者では発表の質を評価できないとの理由からである。しかし、L1の研究では相互評価と先生評価の相関が高く、採点者としての訓練を行えば、信頼性をもって評価できるとしている。L2の研究でも学習者は、信頼性をもって評価できるという結果をえている。最新の研究では学習者は評価基準をよく理解できなかったため、信頼性をもって相互評価することはできなかったという結果をえている。
上述の研究では学習者のレベル違いがどのように相互評価に影響するかは調査していない。
よって、研究目的は以下の2点である。
1.学習者間の評価にはどの程度信頼性があるのか
2.英語能力によって学生間の評価の信頼性は変わるのか。
研究対象者は、上位クラス36名と下位クラス31名の67名の大学生である。2クラスの教員は異なる。5分間の個人発表を相互評価した。発表の題はビジネスまはた経済関係のものであればなんでもよいとした。評価基準はアイコンタクト、声、英語、明確さ、オリジナリティー、パワポの6観点で、5件法を用いている。分析方法としては、それぞれのクラスの評価の信頼性を検証するため、学習者相互評価の得点平均と教員評価の相関を求めた。内部一貫性信頼性係数クロンバックはそれぞれ.82, .79であった。
上位クラスと下位クラスの平均を比較したところ、相互評価では平均の違いは6項目ともあまりなかったが、下位グループの明確さの項目平均(M=4.03)が上位クループ(M=3.77)より高くなっている。先生評価も明確さの項目に関しては下位クラスのほうが平均値が高くなっている。相互評価と先生評価の項目平均の差異があるかを検証するためt-testsを行っている。アイコンタクトのみ平均値の有意差がなく、平均値の違いがない。あとの項目は平均値の差があり、相互評価と先生評価では得点の違いがあることがわかる。次に、クラスごとに全6項目、先生評価と相互評価の相関を算出している。係数は.171~.818となり、下位クラスのオリジナリティーの項目以外はまあ相関があり、採点者間の信頼性はやや高いとの結果となった。よって、下位クラスにこの採点基準を用いる場合オリジナリティーの項目を削除したほうがよいと述べている。しかし、結論として、オリジナリティーの項目はより細分化したほうがよいと主張している。
採点基準を理解していない学習者もいるので、学習者が評価基準を先生と一緒に開発するとよいといっている。
プレゼンテーションスキルを教え、その習熟度を評価している授業も増えている。しかし、プレゼンテーションについての研究やその評価に関しての研究は少ない。また、採点基準についての研究も少ない。採点基準に基づき、発表者のプレゼンテーションを評価するということは信頼性の問題につながる。
近年、プレゼンテーションの評価に相互評価を取り入れることについての研究はいくつかある。相互評価を取り入れることにより、より学習者が発表を注意深くきき、より学習の意識が高まり、動機づけとなるといっている。
既存研究では相互評価から得た得点は最終成績に入れるべきではないといっている。やはり、これは学習者では発表の質を評価できないとの理由からである。しかし、L1の研究では相互評価と先生評価の相関が高く、採点者としての訓練を行えば、信頼性をもって評価できるとしている。L2の研究でも学習者は、信頼性をもって評価できるという結果をえている。最新の研究では学習者は評価基準をよく理解できなかったため、信頼性をもって相互評価することはできなかったという結果をえている。
上述の研究では学習者のレベル違いがどのように相互評価に影響するかは調査していない。
よって、研究目的は以下の2点である。
1.学習者間の評価にはどの程度信頼性があるのか
2.英語能力によって学生間の評価の信頼性は変わるのか。
研究対象者は、上位クラス36名と下位クラス31名の67名の大学生である。2クラスの教員は異なる。5分間の個人発表を相互評価した。発表の題はビジネスまはた経済関係のものであればなんでもよいとした。評価基準はアイコンタクト、声、英語、明確さ、オリジナリティー、パワポの6観点で、5件法を用いている。分析方法としては、それぞれのクラスの評価の信頼性を検証するため、学習者相互評価の得点平均と教員評価の相関を求めた。内部一貫性信頼性係数クロンバックはそれぞれ.82, .79であった。
上位クラスと下位クラスの平均を比較したところ、相互評価では平均の違いは6項目ともあまりなかったが、下位グループの明確さの項目平均(M=4.03)が上位クループ(M=3.77)より高くなっている。先生評価も明確さの項目に関しては下位クラスのほうが平均値が高くなっている。相互評価と先生評価の項目平均の差異があるかを検証するためt-testsを行っている。アイコンタクトのみ平均値の有意差がなく、平均値の違いがない。あとの項目は平均値の差があり、相互評価と先生評価では得点の違いがあることがわかる。次に、クラスごとに全6項目、先生評価と相互評価の相関を算出している。係数は.171~.818となり、下位クラスのオリジナリティーの項目以外はまあ相関があり、採点者間の信頼性はやや高いとの結果となった。よって、下位クラスにこの採点基準を用いる場合オリジナリティーの項目を削除したほうがよいと述べている。しかし、結論として、オリジナリティーの項目はより細分化したほうがよいと主張している。
採点基準を理解していない学習者もいるので、学習者が評価基準を先生と一緒に開発するとよいといっている。
2007年11月6日火曜日
Study-abroad, language proficiency, and learner beliefs about language learning
Tanaka, K. & Ellis, R. (2003). Study-abraod, language proficiency, and learner beliefs about language learning. JALT Journal, 25(1), 63-85.
学習個人差の要因として主にmotivation, attitude, aptitude, anxiety, self-confidenceなどがあげられるが、学習信条(learner beliefs)もよく研究されている。しかし、Horwitz(1985)とWenden(1986)のパイオニア研究以降、研究が進んだにもかかわらず学習信条のモデルはいまだに確立されていない。Tanaka(1999)では、学習信条を主に2つの構成要素に分けられるとした。1つはself-efficacy, confidence, aptitude, motivationを含むbeliefs about self as a language learnerで、もうひとつはbeliefs about approaches to language learningである。そして、後者は2つに分けられ、一つはbeliefs about analytic learningで、もうひとつはbeliefs about experiential learningである。既存研究では、学習信条とはsituation-specificで、年齢、文化背景、学習環境、学習到達度、学習言語などによって異なるとの結果が得られている(e.g., Sakui & Gaies, 1999; Horwitz, 1999)。また。、学習信条と学習到達度と学習到達度の関係についての研究もある(Park, 1995)。Kern (1995)では、Horwitzが開発した学習信条を測定していると思われる尺度であるBALLIを実施し、学習信条の変化を調査した。日本の大学では近年海外へ学生を留学させるカリキュラムがあり、その経験から得たことを調査する研究もある(Freed, 1993, 1995, 1998; Coleman, 1997)。やはり、fluencyと語彙に主に影響するようである。既存研究の結果から以下の項目を研究目的とした。
1. TEOFLの得点変化
2.学習信条の変化
3.学習信条と学習到達度の関連
4.学習信条の変化と学習到達度の変化の相関
研究対象者は15週間留学プログラムに参加した166名の日本人大学生である。BALLIやTanaka(1999)の研究結果をもとに作成された27項目からなるアンケートを実施した。分析方法は探索的因子分析でTanaka(1999)のモデルでは、学習信条は3つの構成要素からなるととしたので、因子を3つと限定して因子分析の結果を解釈することにした。また、アンケートのほかにTOEFLも留学前と留学後2回実施した。アンケートの信頼性を検証するためCronbach alphaを用いた。そして、TOEFL特定の平均に上昇があったかを検証するためindependent t-testを行った。同様に、3つの構成要素と27項目の平均値に変動があったかを検証するためindependent t-testを行った。そして、一回目のTOEFL得点と1回目の相関、二回目のTOEFLと2回目の相関、2回目から1回目の平均を引いたアンケートの平均値と2回目のTOEFLの相関をみた。
因子分析の結果、一回目と二回目のtotal varianceはそれぞれ22.39%と30.02%と3因子では情報量が少ないとの結果となった。3セクションの信頼性も.5~.8でよいほうである。一回目と二回目のTOEFL得点の平均を比較したところ統計的に有意であった。3つのセクションの平均値の差異も統計的に有意であった。全27項目の平均値の変動は、最も「先生はL1で授業を行うべきである」の平均値の差があり、.67減少した。TOEFLとアンケートの相関をみたところ、リスニングとanalytic learning、リーディングとanalytic learningの相関に有意差があった。
考察として、Tanaka(1999)のモデルをもとに作成したアンケートは信頼性が高く、妥当性も実証されたと主張した。しかし、学習信条はあまり変化しなかったが、self-efficacyとconfidenceの学習信条に変動があった。また、analytic learningとTOEFL得点との相関は負の関係にあったので、TOEFLを学習する際はanalytic learningの方法は避けたほうがよい。
学習個人差の要因として主にmotivation, attitude, aptitude, anxiety, self-confidenceなどがあげられるが、学習信条(learner beliefs)もよく研究されている。しかし、Horwitz(1985)とWenden(1986)のパイオニア研究以降、研究が進んだにもかかわらず学習信条のモデルはいまだに確立されていない。Tanaka(1999)では、学習信条を主に2つの構成要素に分けられるとした。1つはself-efficacy, confidence, aptitude, motivationを含むbeliefs about self as a language learnerで、もうひとつはbeliefs about approaches to language learningである。そして、後者は2つに分けられ、一つはbeliefs about analytic learningで、もうひとつはbeliefs about experiential learningである。既存研究では、学習信条とはsituation-specificで、年齢、文化背景、学習環境、学習到達度、学習言語などによって異なるとの結果が得られている(e.g., Sakui & Gaies, 1999; Horwitz, 1999)。また。、学習信条と学習到達度と学習到達度の関係についての研究もある(Park, 1995)。Kern (1995)では、Horwitzが開発した学習信条を測定していると思われる尺度であるBALLIを実施し、学習信条の変化を調査した。日本の大学では近年海外へ学生を留学させるカリキュラムがあり、その経験から得たことを調査する研究もある(Freed, 1993, 1995, 1998; Coleman, 1997)。やはり、fluencyと語彙に主に影響するようである。既存研究の結果から以下の項目を研究目的とした。
1. TEOFLの得点変化
2.学習信条の変化
3.学習信条と学習到達度の関連
4.学習信条の変化と学習到達度の変化の相関
研究対象者は15週間留学プログラムに参加した166名の日本人大学生である。BALLIやTanaka(1999)の研究結果をもとに作成された27項目からなるアンケートを実施した。分析方法は探索的因子分析でTanaka(1999)のモデルでは、学習信条は3つの構成要素からなるととしたので、因子を3つと限定して因子分析の結果を解釈することにした。また、アンケートのほかにTOEFLも留学前と留学後2回実施した。アンケートの信頼性を検証するためCronbach alphaを用いた。そして、TOEFL特定の平均に上昇があったかを検証するためindependent t-testを行った。同様に、3つの構成要素と27項目の平均値に変動があったかを検証するためindependent t-testを行った。そして、一回目のTOEFL得点と1回目の相関、二回目のTOEFLと2回目の相関、2回目から1回目の平均を引いたアンケートの平均値と2回目のTOEFLの相関をみた。
因子分析の結果、一回目と二回目のtotal varianceはそれぞれ22.39%と30.02%と3因子では情報量が少ないとの結果となった。3セクションの信頼性も.5~.8でよいほうである。一回目と二回目のTOEFL得点の平均を比較したところ統計的に有意であった。3つのセクションの平均値の差異も統計的に有意であった。全27項目の平均値の変動は、最も「先生はL1で授業を行うべきである」の平均値の差があり、.67減少した。TOEFLとアンケートの相関をみたところ、リスニングとanalytic learning、リーディングとanalytic learningの相関に有意差があった。
考察として、Tanaka(1999)のモデルをもとに作成したアンケートは信頼性が高く、妥当性も実証されたと主張した。しかし、学習信条はあまり変化しなかったが、self-efficacyとconfidenceの学習信条に変動があった。また、analytic learningとTOEFL得点との相関は負の関係にあったので、TOEFLを学習する際はanalytic learningの方法は避けたほうがよい。
2007年11月2日金曜日
The subtle effects of language anxiety on cognitive processing in the second language
MacIntyre, P. & Gardner, R. C., (1994). The subtle effects of language anxiety on cognitive processing in the second language. Language Learning, 44(2), 283-305.
過去のforeign language anxiety研究ではFLCASという尺度を用い学習者の大まかなAnxietyレベルを測定し、大まかな学習到達度の指数である授業の成績など相関関係を検証するのが一般的であった。しかし、MacIntyreとGardnerは大まかなAnxietyレベルを測定するのではなく、より微細なAnxietyが習得に与える影響を検証する必要があると主張した。そして、TobiasのCognitive processing modelにふれ、Cognitive processingはinput, processing, outputと3つのステージに区別することができ、それぞれのステージは従属関係であり、inputがうまくできることによって、次のprocessingにつながると説明した。よって、研究目的は3つのステージのAnxietyレベルを測定し、9つのタスクとの相関関係を検証することである。
研究対象者は97名のフランス語学習者である。実施した尺度は以下の通りである。
1. Input anxiety(k=6; alpha=.78)
2. Processing anxeity(k=6; alpha=.72)
3. Output anxiety(k=6; alpha=.78)
1~3の尺度の妥当性を検証するため以下の尺度も実施された
4. French class anxiety(k=8; alpha=.91)
5.French use anxiety(k=8; alpha=.90)
6. FLCAS(k=8; alpha=.90)
1~6の相関関係をみたところ、係数は高くAnxietyを全体的に測定していると思われる。
学習到達度を測定するため以下の指数を使った
7. course grade
Inputステージのパフォーマンスを測定するため以下のテストを用いた
8. Word span(スクリーン上に出てくる名詞を発音する)
9. Digit span(単語の連なりがテープからながれ、テープ終了後、順番通りに書く)
10.T-scope(英語がフランス語の単語かを判断する)
Processingステージのパフォーマンスを測定するため以下のテストを用いた
11. French achievement(おもに文法を測定(k=100))
12.Paragraph translation(15行の文を訳す)
13.Paired associates learning(16の単語を英語とフランス語で覚え、英語訳が提示されたらそのフランス語をいう)
Outputステージのパフォーマンスを測定するため以下のテストを用いた
14.Thing category(ある名詞に連結する形容詞を思いつく限り書く)
15.Cloze test(空欄箇所を埋める)
16.Self-description(英語とフランス語で自己紹介を行う。採点基準はfluency, sentence complexity, depth, accentである)
結果、最もAnxietyと相関があったのは成績であった。この結果は過去の研究結果と同様である。
3つのステージに特有な尺度を作成したが、全テストとの相関の違いはあまりみられなかった。よって、この3つの尺度は認知ステージをよく分別できなかったことになる。Anxietyが高い学生は
1.short-term memoryに単語を蓄積するのが困難
2.short-term memoryに蓄積した単語がprocessingステージにあまるい移行しない
3.単語を認知するのが遅く、より時間がかかる
4.訳の完成度が低く、間違えを避ける
5.より努力をし、よい結果をもたらす
6.努力をすることによって、Anxietyは減少する
この結果からどうやらAnxietyは3ステージに影響しているといえ、また各ステージに蓄積されパフォーマンスに影響する。
過去のforeign language anxiety研究ではFLCASという尺度を用い学習者の大まかなAnxietyレベルを測定し、大まかな学習到達度の指数である授業の成績など相関関係を検証するのが一般的であった。しかし、MacIntyreとGardnerは大まかなAnxietyレベルを測定するのではなく、より微細なAnxietyが習得に与える影響を検証する必要があると主張した。そして、TobiasのCognitive processing modelにふれ、Cognitive processingはinput, processing, outputと3つのステージに区別することができ、それぞれのステージは従属関係であり、inputがうまくできることによって、次のprocessingにつながると説明した。よって、研究目的は3つのステージのAnxietyレベルを測定し、9つのタスクとの相関関係を検証することである。
研究対象者は97名のフランス語学習者である。実施した尺度は以下の通りである。
1. Input anxiety(k=6; alpha=.78)
2. Processing anxeity(k=6; alpha=.72)
3. Output anxiety(k=6; alpha=.78)
1~3の尺度の妥当性を検証するため以下の尺度も実施された
4. French class anxiety(k=8; alpha=.91)
5.French use anxiety(k=8; alpha=.90)
6. FLCAS(k=8; alpha=.90)
1~6の相関関係をみたところ、係数は高くAnxietyを全体的に測定していると思われる。
学習到達度を測定するため以下の指数を使った
7. course grade
Inputステージのパフォーマンスを測定するため以下のテストを用いた
8. Word span(スクリーン上に出てくる名詞を発音する)
9. Digit span(単語の連なりがテープからながれ、テープ終了後、順番通りに書く)
10.T-scope(英語がフランス語の単語かを判断する)
Processingステージのパフォーマンスを測定するため以下のテストを用いた
11. French achievement(おもに文法を測定(k=100))
12.Paragraph translation(15行の文を訳す)
13.Paired associates learning(16の単語を英語とフランス語で覚え、英語訳が提示されたらそのフランス語をいう)
Outputステージのパフォーマンスを測定するため以下のテストを用いた
14.Thing category(ある名詞に連結する形容詞を思いつく限り書く)
15.Cloze test(空欄箇所を埋める)
16.Self-description(英語とフランス語で自己紹介を行う。採点基準はfluency, sentence complexity, depth, accentである)
結果、最もAnxietyと相関があったのは成績であった。この結果は過去の研究結果と同様である。
3つのステージに特有な尺度を作成したが、全テストとの相関の違いはあまりみられなかった。よって、この3つの尺度は認知ステージをよく分別できなかったことになる。Anxietyが高い学生は
1.short-term memoryに単語を蓄積するのが困難
2.short-term memoryに蓄積した単語がprocessingステージにあまるい移行しない
3.単語を認知するのが遅く、より時間がかかる
4.訳の完成度が低く、間違えを避ける
5.より努力をし、よい結果をもたらす
6.努力をすることによって、Anxietyは減少する
この結果からどうやらAnxietyは3ステージに影響しているといえ、また各ステージに蓄積されパフォーマンスに影響する。
2007年10月18日木曜日
Examination of Horwitz, Horwitz, and Copes's construct of foreign language anxiety: The case of students of Japanese
Aida, Y. (1994). Examination of Horwitz, Horwitz, and Copes's construct of foreign language anxiety: The case of students of Japanese. The Modern Language Journal, 78(2), 155-168.
AidaはまずForeign Language Anxiety(FLA)の概念を説明し、次にFLAを測定する目的で開発されたFLCASを用いた研究結果について述べた。Anxietyはパフォーマンスを向上させるFacilitatingと低下させるDebilitatingがある。FLCASはCommunication apprehension, test anxiety, fear of negative evaluationの3つの構成要素からなる。Horwitzの研究結果によるとFLCASはコミュニケーションの分野で開発されたPersonal Report of Communication Apprehension(r=.53)、Test Anxiety Scale(r=.36)、fear of negative evaluation(r=.36)に相関があった。また、FLCASとフランス語の成績(r=-.49)と相関があった。よって、FLCASは既存研究によるとまあ信頼性があり、妥当性があるものだといえる。
Aidaの研究目的は日本語学習者にFLCASを改良したものは妥当性があるかである。
研究対象は96人の日本語学習者である。改良されたFLCASは5件法で33項目から構成されている。
FLCASの信頼性係数は.96で非常に高い数値となり、開発者であるHorwitzの結果と同様となった。t検定を行った結果、男(M=97.4)女(M=95.6)にFLAの差異はなかった。42人にFLCASを2度実施しTest-retest reliabilityを調査したところ、.80であった。よって、FLAはどちらかというとStateではなくTraitのようである。Principal components analysisでVarimax rotationを行ってみた結果、4因子でTotal varianceは54.5%であった。因子1は18項目、因子2は4項目、因子3は3項目、因子4は2項目が負荷した。因子1はSpeach Anxiety and Fear of Negative evaluation、因子2はFear of failing the class、因子3はComfortableness in Speaking with Japanese People、因子4はNegative attitudes toward the Japanese classと命名した。この結果はHorwitzの研究結果とは異なり、FLCASを日本人学習者へ実施した場合、妥当性に欠けると述べた。
2x2ANOVAを行った結果、FLAが高いグループはクラスの成績が低くなり、また女生徒のほうがよい成績を修めた。ANOVAを行った結果、必修として日本語を履修している学生はFLAが高くなった。ANOVAを行った結果、日本へ行った学習者のほうがFLAが低い結果となった。ANOVAの結果、成績に満足している学生のほうがFLAが低くなった。
今後より多くのFLA関係の研究がおこなわれる必要がある。
AidaはまずForeign Language Anxiety(FLA)の概念を説明し、次にFLAを測定する目的で開発されたFLCASを用いた研究結果について述べた。Anxietyはパフォーマンスを向上させるFacilitatingと低下させるDebilitatingがある。FLCASはCommunication apprehension, test anxiety, fear of negative evaluationの3つの構成要素からなる。Horwitzの研究結果によるとFLCASはコミュニケーションの分野で開発されたPersonal Report of Communication Apprehension(r=.53)、Test Anxiety Scale(r=.36)、fear of negative evaluation(r=.36)に相関があった。また、FLCASとフランス語の成績(r=-.49)と相関があった。よって、FLCASは既存研究によるとまあ信頼性があり、妥当性があるものだといえる。
Aidaの研究目的は日本語学習者にFLCASを改良したものは妥当性があるかである。
研究対象は96人の日本語学習者である。改良されたFLCASは5件法で33項目から構成されている。
FLCASの信頼性係数は.96で非常に高い数値となり、開発者であるHorwitzの結果と同様となった。t検定を行った結果、男(M=97.4)女(M=95.6)にFLAの差異はなかった。42人にFLCASを2度実施しTest-retest reliabilityを調査したところ、.80であった。よって、FLAはどちらかというとStateではなくTraitのようである。Principal components analysisでVarimax rotationを行ってみた結果、4因子でTotal varianceは54.5%であった。因子1は18項目、因子2は4項目、因子3は3項目、因子4は2項目が負荷した。因子1はSpeach Anxiety and Fear of Negative evaluation、因子2はFear of failing the class、因子3はComfortableness in Speaking with Japanese People、因子4はNegative attitudes toward the Japanese classと命名した。この結果はHorwitzの研究結果とは異なり、FLCASを日本人学習者へ実施した場合、妥当性に欠けると述べた。
2x2ANOVAを行った結果、FLAが高いグループはクラスの成績が低くなり、また女生徒のほうがよい成績を修めた。ANOVAを行った結果、必修として日本語を履修している学生はFLAが高くなった。ANOVAを行った結果、日本へ行った学習者のほうがFLAが低い結果となった。ANOVAの結果、成績に満足している学生のほうがFLAが低くなった。
今後より多くのFLA関係の研究がおこなわれる必要がある。
2007年10月10日水曜日
Japanese high school students' L2 reading motivation
Nishino(2005)は文献研究でWigfiled and Guthrie(1995)が提唱するexpectancy-value theoryについてふれ、また第二言語習得理論の分野で論じられているReading motivationモデル(Day & Bamford, 1998)と比較した。Mori(2002)の研究を詳細に述べ、結果を論じた。Mori(2002)では大学生にReading motivationの質問紙を実施したが、Nishino(2005)は高校生に同様の質問紙を実施した。よって、研究目的は1点で、Mori(2002)が改良したReading motivationの質問紙を高校生に実施した場合の妥当性の検証である。
研究対象者は一貫校の高校生262名である。Reading motivationの質問紙は6件法の30項目から成っている。
クロンバックアルファ信頼性係数は.67であった。この研究のすぐれた点は因子分析を行うための前提(assumptions)をすべて確認して、データスクリーニングを行ったことである。因子分析の一種であるPrincipal component analysisを使い、直行回転であるvarimaxを用いた。結果Mori(2002)では4因子抽出されたが、Nishino(2005)では6因子抽出された。Mori(2002)ではIntrinsic motivationに属する項目はすべて1因子に負荷したが、Nishino(2005)では2因子に分かれてしまった。また、1項目からなる因子であるCommunicative orientationが抽出された。
Intrinsic motivationはリーディング到達度と強い関係にあると論じている。そして、Intrinsic motivationを高めるため学習者にとって興味深い読み物を与えることを勧めている。
研究対象者は一貫校の高校生262名である。Reading motivationの質問紙は6件法の30項目から成っている。
クロンバックアルファ信頼性係数は.67であった。この研究のすぐれた点は因子分析を行うための前提(assumptions)をすべて確認して、データスクリーニングを行ったことである。因子分析の一種であるPrincipal component analysisを使い、直行回転であるvarimaxを用いた。結果Mori(2002)では4因子抽出されたが、Nishino(2005)では6因子抽出された。Mori(2002)ではIntrinsic motivationに属する項目はすべて1因子に負荷したが、Nishino(2005)では2因子に分かれてしまった。また、1項目からなる因子であるCommunicative orientationが抽出された。
Intrinsic motivationはリーディング到達度と強い関係にあると論じている。そして、Intrinsic motivationを高めるため学習者にとって興味深い読み物を与えることを勧めている。
2007年10月4日木曜日
How reliable and valid is the Japanese version of the Strategy Inventory for Language Learning
Robson, G. & Midorikawa, H. (2001). How reliable and valid is the Japanese version of the Strategy Inventory for Language Learning. JALT Journal, 23(2), 202-226.
Robson & Midorikawaは文献研究で信頼性と妥当性についてと、過去学習ストラテジーを測定していると思われるSILLを使った研究結果について述べた。SILLはOxford(1990)によって開発され、オリジナル版は6サブセクションからなる121項目の質問紙である。項目も多いので信頼性は実証されたが、妥当性については検証されていなかった。Brown, Robson, & Rosenkjar (1996)はSILLのほかに動機付け、性格などの質問紙を実施し、因子分析を行ったところ、SILLから抽出された因子の数は1つであった。
研究の手順としてはSILLを大学生153名に前期と後期の初回の授業で2回実施した。実施したSILLはオリジナル版の121項目からなるものではなく、50項目のものである。そして、数名の学生にインタビューを行った。一回目と二回目の全項目の相関係数を算出したところ、相関が高い項目はなく、Test-retest reliabilityは低くなった。しかし、クロンバックアルファはやや高かった。因子分析を行ったところ、一回目実施のデータからは15因子が、二回目実施のデータからは13因子が抽出された。因子の負荷パターンは全く一回目と二回目の結果では異なった。次にSILLは6サブセッションからなっているので6 factor solutionで解釈を試みたところ、Oxfordが項目をラベルしたものとは全く異なる、因子負荷パターンを示した。スクリープロットの結果は第1因子のEigenvalueが顕著に高く、他の因子は低く、1 factor solutionが最も妥当であるとの結果となった。この結果はBrown, Robson, & Rosenkjar(1996)の結果と同じとなった。
SILLを訳し、日本人対象者に実施した場合、やはり機能しないことがわかった。
Robson & Midorikawaは文献研究で信頼性と妥当性についてと、過去学習ストラテジーを測定していると思われるSILLを使った研究結果について述べた。SILLはOxford(1990)によって開発され、オリジナル版は6サブセクションからなる121項目の質問紙である。項目も多いので信頼性は実証されたが、妥当性については検証されていなかった。Brown, Robson, & Rosenkjar (1996)はSILLのほかに動機付け、性格などの質問紙を実施し、因子分析を行ったところ、SILLから抽出された因子の数は1つであった。
研究の手順としてはSILLを大学生153名に前期と後期の初回の授業で2回実施した。実施したSILLはオリジナル版の121項目からなるものではなく、50項目のものである。そして、数名の学生にインタビューを行った。一回目と二回目の全項目の相関係数を算出したところ、相関が高い項目はなく、Test-retest reliabilityは低くなった。しかし、クロンバックアルファはやや高かった。因子分析を行ったところ、一回目実施のデータからは15因子が、二回目実施のデータからは13因子が抽出された。因子の負荷パターンは全く一回目と二回目の結果では異なった。次にSILLは6サブセッションからなっているので6 factor solutionで解釈を試みたところ、Oxfordが項目をラベルしたものとは全く異なる、因子負荷パターンを示した。スクリープロットの結果は第1因子のEigenvalueが顕著に高く、他の因子は低く、1 factor solutionが最も妥当であるとの結果となった。この結果はBrown, Robson, & Rosenkjar(1996)の結果と同じとなった。
SILLを訳し、日本人対象者に実施した場合、やはり機能しないことがわかった。
2007年9月27日木曜日
Examining the role of attitudes and motivation outside of the formal classroom
Masgoret, A-M, Bernaus, M. & Gardner, R. (2001). Examining the role of attitudes and motivation outside of the formal classroom: A test of the mini-AMTB for children. In Z. Dornyei & R. Schmidt (Eds.), Motivation and second language aquisition (Technical Report #23, pp. 281-295). Honolulu: University of Hawaii, Second Language Teaching and Curriculum Center.
Gardner(1985)が提唱している社会教育モデル(socio-educational model)は幾たび改訂されたが、最新のモデルでは溶け込もうとする態度(integrativeness)と学習状況への態度(attitudes toward the learning situation)が動機付けに影響していて、動機付けと言語学習適性(language aptitude)が言語習熟度に影響しているとしている。このモデルの妥当性はいくつかの研究で実証されてきた。最も頻繁に使われている学習者動機付けを測定する尺度はGardner(1985)が開発したAMTBである。AMTBも既存研究では信頼性と妥当性が高いとの結果がでている。
Gardnerの研究コンテクストはカナダだが、短期集中英語学習プログラムのようなコンテキストを扱った研究は未だない。また、この研究は子供を対象にしているので、AMTBの短縮版であるmini-AMTBを使った。
研究目的は、短期集中プログラムに参加した対象者にmini-AMTBを実施しても既存研究と同様の結果が得られるか、子供にmini-AMTBを実施した場合の尺度の妥当性を検証するの2点である。
対象者は短期英語ブログラムに1か月参加した499名のスペイン人の子供である。mini-AMTBは attitudes toward the learning situation, motivation, integrativeness, language anxietyの4つのサブ尺度から成っている。他に、学習者の英語習熟度を測定する目的でself-perceptions of English achievement, objective measures of English achievementを実施した。そして、因子分析と相関分析を行った。
結果、いくつかの変数が予期していない因子に負荷し、解釈が困難であるが5つの因子が採用された。第1,2,3,4,5因子はそれぞれattitudes toward English, orientation to learn English, English proficiency, age, parental encouragementと命名された。信頼性係数はサブ尺度それぞれ.75, .63, .62, .11となり、language anxietyの信頼性が最も低くなった。objective measure of English achievementと相関関係があるのはmotivational intensityとEnglish class anxietyであったが、係数はそれぞれ.298と-.290と高いわけではない。self-evaluation of English achievementと相関関係がみられたのはattitudes toward the Enjoy English program, desire to return to the programであった。やはり、自分で英語ができると思っている子供ほど態度とプログラムを好意的に思っているとの結果であった。
因子分析の結果は既存研究の結果とは異なったが、motivationとattitudesがachievementに関係しているという結果が出たので、mini-AMTBと社会教育モデルの妥当性は支持された。
Gardner(1985)が提唱している社会教育モデル(socio-educational model)は幾たび改訂されたが、最新のモデルでは溶け込もうとする態度(integrativeness)と学習状況への態度(attitudes toward the learning situation)が動機付けに影響していて、動機付けと言語学習適性(language aptitude)が言語習熟度に影響しているとしている。このモデルの妥当性はいくつかの研究で実証されてきた。最も頻繁に使われている学習者動機付けを測定する尺度はGardner(1985)が開発したAMTBである。AMTBも既存研究では信頼性と妥当性が高いとの結果がでている。
Gardnerの研究コンテクストはカナダだが、短期集中英語学習プログラムのようなコンテキストを扱った研究は未だない。また、この研究は子供を対象にしているので、AMTBの短縮版であるmini-AMTBを使った。
研究目的は、短期集中プログラムに参加した対象者にmini-AMTBを実施しても既存研究と同様の結果が得られるか、子供にmini-AMTBを実施した場合の尺度の妥当性を検証するの2点である。
対象者は短期英語ブログラムに1か月参加した499名のスペイン人の子供である。mini-AMTBは attitudes toward the learning situation, motivation, integrativeness, language anxietyの4つのサブ尺度から成っている。他に、学習者の英語習熟度を測定する目的でself-perceptions of English achievement, objective measures of English achievementを実施した。そして、因子分析と相関分析を行った。
結果、いくつかの変数が予期していない因子に負荷し、解釈が困難であるが5つの因子が採用された。第1,2,3,4,5因子はそれぞれattitudes toward English, orientation to learn English, English proficiency, age, parental encouragementと命名された。信頼性係数はサブ尺度それぞれ.75, .63, .62, .11となり、language anxietyの信頼性が最も低くなった。objective measure of English achievementと相関関係があるのはmotivational intensityとEnglish class anxietyであったが、係数はそれぞれ.298と-.290と高いわけではない。self-evaluation of English achievementと相関関係がみられたのはattitudes toward the Enjoy English program, desire to return to the programであった。やはり、自分で英語ができると思っている子供ほど態度とプログラムを好意的に思っているとの結果であった。
因子分析の結果は既存研究の結果とは異なったが、motivationとattitudesがachievementに関係しているという結果が出たので、mini-AMTBと社会教育モデルの妥当性は支持された。
2007年8月28日火曜日
Expanding the motivation construct in language learning
Trembley, P., & Gardner, R. (1995). Expanding the motivation construct in language learning. The Modern Language Journal, 79(4). 505-518.
Trembely & Gardner (1995)はまず動機付けの研究分野を紹介し、そしておもにGardnerの研究について言及した。しかし、近年教育心理学の分野では動機づけの研究が進み、さまざまな理論(e.g., self-efficacy, goal setting theory)が提唱されているのにもかかわらず、Gardnerが開発したモデルであるSocio-educational modelに取り込まれていないとを指摘した。よって、この研究も目的はSocio-educational modelに近年提唱されている理論を付加することである。オンタリオにいる75名の高校生が調査参加者である。25スケールからなる質問紙やテストが実施され、質問紙の信頼性係数アルファ値は低いスケールで.26で高いものでは.92と、信頼性はやや高いといえる。フランス語の習熟度を測定するためエッセイを書くライティングテストとフランス語の成績が用いられた。構造方程式モデルを用いて潜在変数の関係性を因果モデルで表し、結果すべてのパス係数は有意であるという結果となった。モデルの適合度であるGFIやAGFIは低く、それぞれ.70と.63となり、著者はモデルが複雑であるので適合度が低くなったと理由を挙げた。他に、適合度が低い理由としては、サンプルが少ない、一つの潜在変数に一つしか観測変数がないなどがあげられる。このモデルはいくつかの動機づけの理論を取り入れた類をみないもので、新たな視点を動機づけ研究に取り入れた。
Trembely & Gardner (1995)はまず動機付けの研究分野を紹介し、そしておもにGardnerの研究について言及した。しかし、近年教育心理学の分野では動機づけの研究が進み、さまざまな理論(e.g., self-efficacy, goal setting theory)が提唱されているのにもかかわらず、Gardnerが開発したモデルであるSocio-educational modelに取り込まれていないとを指摘した。よって、この研究も目的はSocio-educational modelに近年提唱されている理論を付加することである。オンタリオにいる75名の高校生が調査参加者である。25スケールからなる質問紙やテストが実施され、質問紙の信頼性係数アルファ値は低いスケールで.26で高いものでは.92と、信頼性はやや高いといえる。フランス語の習熟度を測定するためエッセイを書くライティングテストとフランス語の成績が用いられた。構造方程式モデルを用いて潜在変数の関係性を因果モデルで表し、結果すべてのパス係数は有意であるという結果となった。モデルの適合度であるGFIやAGFIは低く、それぞれ.70と.63となり、著者はモデルが複雑であるので適合度が低くなったと理由を挙げた。他に、適合度が低い理由としては、サンプルが少ない、一つの潜在変数に一つしか観測変数がないなどがあげられる。このモデルはいくつかの動機づけの理論を取り入れた類をみないもので、新たな視点を動機づけ研究に取り入れた。
2007年8月27日月曜日
Assessing motivational factors in foreign language learning: Cultural variation in key constructs
Rueda, R. & Chen, C. (2005). Assessing motivational factors in foreign language learning: Cultural variation in key constructs, Educational Assessment, 10(3), 209-229.
Rueda and Chen (2005) argued that in foreign language learning cultural differences in motivation had not been taken account and criticized the existing models of motivation for saying they were developed from a western perspective only. Thus, the purpose of their study was to investigate the extent to which the motivational factors impact the learning of Asian heriage and non-Asian heritage learners of Chinese language. One hundred fifty university students comprising 116 Asian heritage and 34 non-Asian heritage learnners took two kinds of instruments. The first kind was motivation questionnaire. No scree plot, factor loadings, eigen values were reported, but seven factors were extracted, namely instrumentality, intrinsic motivation, passivity toward requirements, task value, belief about effort, seld-efficacy, and effort develoted to target language learning. The second kind was learning outcomes questionnaire. No descriptive statistics were reported and assumptions prior to conducting t-tests, correlation, and structural equation modeling were not mentioned. The results of the t-test showed that there was a significant difference in the passitivity toawrd requirements factor. The causual relationships among the seven factors were displayed, but no chi-square value and fit indexes were reported. It showed that task value was the best predictor of effort devoted factor. In conclusion, they mentioned that there was no significant difference in terms of their motivational belifes, but argued that motivational constucts were influenced by cultural factors.
Rueda and Chen (2005) argued that in foreign language learning cultural differences in motivation had not been taken account and criticized the existing models of motivation for saying they were developed from a western perspective only. Thus, the purpose of their study was to investigate the extent to which the motivational factors impact the learning of Asian heriage and non-Asian heritage learners of Chinese language. One hundred fifty university students comprising 116 Asian heritage and 34 non-Asian heritage learnners took two kinds of instruments. The first kind was motivation questionnaire. No scree plot, factor loadings, eigen values were reported, but seven factors were extracted, namely instrumentality, intrinsic motivation, passivity toward requirements, task value, belief about effort, seld-efficacy, and effort develoted to target language learning. The second kind was learning outcomes questionnaire. No descriptive statistics were reported and assumptions prior to conducting t-tests, correlation, and structural equation modeling were not mentioned. The results of the t-test showed that there was a significant difference in the passitivity toawrd requirements factor. The causual relationships among the seven factors were displayed, but no chi-square value and fit indexes were reported. It showed that task value was the best predictor of effort devoted factor. In conclusion, they mentioned that there was no significant difference in terms of their motivational belifes, but argued that motivational constucts were influenced by cultural factors.
2007年8月26日日曜日
Score reliability and placement testing
Westrick, P. (2005). Score reliability and placement testing. JALT Journal, 27(1), 71-94.
Westrick (2005) discussed three reasons for the implementation of Quick Placement Test-Pen and Paper Test (QPT-PPT) within a curriculum and reported the results of a placement test administered to 161 Japanese university students. The first reason was the status. The QPT-PPT was developed by a prestigious institution, and some believed that implementing it could somehow improve the image of the curriculum. The second reason was that it was extremely difficult to develop their in-house placement tests. The third reason was paucity of time. Usually, placement tests are administered during a busy period of the academic year, and it is difficult to find time to administer tests during an orientation period. In addition, administrators have to declare the results in a short period of time in order to announce the classes in which students were placed. Thus, the tests have to be brief and easy. As for the results, the K-R 20 internal consistency reliability coefficient was .66 with the item number of 120 when 161 students took the cloze and multiple-choice test that tested reading, grammar, and vocabulary skills. Westrick concluded that the QPT-PPT might be effective with other groups but not for his participants and urged on the development of in-house placement tests that were connected to curricular goals and objectives.
Westrick (2005) discussed three reasons for the implementation of Quick Placement Test-Pen and Paper Test (QPT-PPT) within a curriculum and reported the results of a placement test administered to 161 Japanese university students. The first reason was the status. The QPT-PPT was developed by a prestigious institution, and some believed that implementing it could somehow improve the image of the curriculum. The second reason was that it was extremely difficult to develop their in-house placement tests. The third reason was paucity of time. Usually, placement tests are administered during a busy period of the academic year, and it is difficult to find time to administer tests during an orientation period. In addition, administrators have to declare the results in a short period of time in order to announce the classes in which students were placed. Thus, the tests have to be brief and easy. As for the results, the K-R 20 internal consistency reliability coefficient was .66 with the item number of 120 when 161 students took the cloze and multiple-choice test that tested reading, grammar, and vocabulary skills. Westrick concluded that the QPT-PPT might be effective with other groups but not for his participants and urged on the development of in-house placement tests that were connected to curricular goals and objectives.
Using a commercially produced proficiency test in a one-year core EFL curriculum in Japan for placement purposes.
Culligan, B., & Gorsuch, G. (1999). Using a commercially produced proficiency test in a one-year core EFL curriculum in Japan for placement purposes. JALT Journal, 21(1), 7-25.
Culligan and Gorsuch (1999) discussed the adequacy of employing commercially produced proficiency tests for making placement decisions. Second level English proficiency Test (SLEP), composed of reading and listening tests, was administered twice to 487 Japanese university students as pretest and posttest. Based on a norm-referenced item analysis, known as item discrimination (ID), it was discovered that less than half the items did not discriminate between high and low scoring students. The result of a criterion-referenced item analysis, referred to as difference index (DI), indicated that students learned only one-third of the items in the program. The researchers concluded that SLEP should not be used for making placement decisions because the reliability was only .81 for the entire test, with the total number of items being 150 and it had a wide range of standard error of measurement. No sectional reliability coefficients were reported. They also mentioned that SLEP was inadequate because the test did not estimate their students’ speaking proficiency, which was the major goal of the program. They suggested that only items with a certain item discrimination value be used. They also recommended the use of item response theory to make more precise placement decisions (2000).
Culligan and Gorsuch (1999) discussed the adequacy of employing commercially produced proficiency tests for making placement decisions. Second level English proficiency Test (SLEP), composed of reading and listening tests, was administered twice to 487 Japanese university students as pretest and posttest. Based on a norm-referenced item analysis, known as item discrimination (ID), it was discovered that less than half the items did not discriminate between high and low scoring students. The result of a criterion-referenced item analysis, referred to as difference index (DI), indicated that students learned only one-third of the items in the program. The researchers concluded that SLEP should not be used for making placement decisions because the reliability was only .81 for the entire test, with the total number of items being 150 and it had a wide range of standard error of measurement. No sectional reliability coefficients were reported. They also mentioned that SLEP was inadequate because the test did not estimate their students’ speaking proficiency, which was the major goal of the program. They suggested that only items with a certain item discrimination value be used. They also recommended the use of item response theory to make more precise placement decisions (2000).
Translation as a language testing procedure: Does it work?
Buck, G. (1992). Translation as a language testing procedure: Does it work? Language Testing, 9(2), 123-148.
Buck(1992)はKlein-Braley(1987)の研究を引用し、訳テストがテスト方法として妥当な手法ではないことの理由を3点あげた。1つめの理由は、第2言語能力が高い学習者であってもよい訳ができるとは限らない。訳すという能力はもちろん高度な第2言語(L2)能力と第1言語(L1)能力を必要とはするが、正確な通訳や訳ができるようになるにはトレーニングが必要であり、訳すこととL2能力とは別の能力であると考えられる。2つめの理由は、訳テストは採点者を要す一種のパフォーマンステストであり、採点者の採点結果は必ずしも同一にならなく、一貫性に欠け、信頼性に問題がある。3つめの理由は、訳テストとはクローズ(cloze)テスト同様、一つの項目でいくつかの能力を測定する統合的(integrative)テストであり、いくつもの項目の集合体で一つの構成概念を測定する部分的測定(discrete-point)テストとは異なり、テストの妥当性を検証することが困難である。そして、訳テストの妥当性を検証するため、121名の日本人英語学習者に同じ内容のテキストから統合的項目であるクローズと訳の項目をそれぞれ36問、2問と部分的測定項目である多岐選択式読解の項目を23問実施した。7人の採点者はトレーニングを行わず6件法で訳を採点した。結果、訳の採点の厳しさが異なり、採点結果が有意に異なったが、採点者間の得点の相関係数は高く、よって採点者間信頼性(inter-rater reliability)が高いということで、信頼性は高いという結果となった。また、3つのテスト得点の相関係数は高く、読解力を測定しているかは不明であるが、妥当性も高いと結んだ。
Buck(1992)はKlein-Braley(1987)の研究を引用し、訳テストがテスト方法として妥当な手法ではないことの理由を3点あげた。1つめの理由は、第2言語能力が高い学習者であってもよい訳ができるとは限らない。訳すという能力はもちろん高度な第2言語(L2)能力と第1言語(L1)能力を必要とはするが、正確な通訳や訳ができるようになるにはトレーニングが必要であり、訳すこととL2能力とは別の能力であると考えられる。2つめの理由は、訳テストは採点者を要す一種のパフォーマンステストであり、採点者の採点結果は必ずしも同一にならなく、一貫性に欠け、信頼性に問題がある。3つめの理由は、訳テストとはクローズ(cloze)テスト同様、一つの項目でいくつかの能力を測定する統合的(integrative)テストであり、いくつもの項目の集合体で一つの構成概念を測定する部分的測定(discrete-point)テストとは異なり、テストの妥当性を検証することが困難である。そして、訳テストの妥当性を検証するため、121名の日本人英語学習者に同じ内容のテキストから統合的項目であるクローズと訳の項目をそれぞれ36問、2問と部分的測定項目である多岐選択式読解の項目を23問実施した。7人の採点者はトレーニングを行わず6件法で訳を採点した。結果、訳の採点の厳しさが異なり、採点結果が有意に異なったが、採点者間の得点の相関係数は高く、よって採点者間信頼性(inter-rater reliability)が高いということで、信頼性は高いという結果となった。また、3つのテスト得点の相関係数は高く、読解力を測定しているかは不明であるが、妥当性も高いと結んだ。
Relationships among IRT item discrimination and item fit indices in criterion-referenced language testing.
Hudson, T. (1991). Relationships among IRT item discrimination and item fit indices in criterion-referenced language testing. Language Testing, 8(2), 160-181.
Hudson (1991) applied IRT to analyze CRTs. The Rasch model or the one-parameter logistic model was compared with the two-parameter logistic model and used to analyze two forms of general tests of English language proficiency (GTELP). He reported the Cronbach alpha internal consistency reliability that was used for norm-referenced tests, and found all the subtests to be highly reliable. The results indicated that strong correlations were found among point-biserial, infit, outfit, and slope parameter. He recommended the two-parameter logistic model over the Rasch model because the slope parameter was easier to interpret; the infit/outfit statistics could be a substitute for the slope parameter. He concluded that highly discriminant items should be omitted in the test development. Item difficulty should also be taken into account. Selecting items with item difficulty near the cut-off point should be included to arrive at more dependable pass/fail decisions.
Hudson (1991) applied IRT to analyze CRTs. The Rasch model or the one-parameter logistic model was compared with the two-parameter logistic model and used to analyze two forms of general tests of English language proficiency (GTELP). He reported the Cronbach alpha internal consistency reliability that was used for norm-referenced tests, and found all the subtests to be highly reliable. The results indicated that strong correlations were found among point-biserial, infit, outfit, and slope parameter. He recommended the two-parameter logistic model over the Rasch model because the slope parameter was easier to interpret; the infit/outfit statistics could be a substitute for the slope parameter. He concluded that highly discriminant items should be omitted in the test development. Item difficulty should also be taken into account. Selecting items with item difficulty near the cut-off point should be included to arrive at more dependable pass/fail decisions.
Improving ESL placement tests using two perspectives.
Brown, J. D. (1989). Improving ESL placement tests using two perspectives. TESOL Quarterly, 23(1), 65-83.
Brown (1989) pointed out the difference between NRTs and CRTs and argued that placement tests were NRTs that should spread examinees out along a continuum but that had to be curriculum-specific. In other words, placement tests should include items that could discriminate between groups of high or low scoring examinees within the curriculum. He conducted both norm-referenced and criterion-referenced item statistics, such as item facility, item discrimination, and difference index for the purpose of selecting 35 out of 60 reading items that were sensitive to curriculum content and which could discriminate between examinees. He reported the internal consistency Kuder-Richardson formula 20 reliability coefficient (K-R20) and found the test to be reliable at .89 with 60 items. After the revision was made, there remained reliability at .85 with 35 items. To support the construct validity of the test, Brown reported the pretest/posttest score gain and found a statistically significant gain.
Brown (1989) pointed out the difference between NRTs and CRTs and argued that placement tests were NRTs that should spread examinees out along a continuum but that had to be curriculum-specific. In other words, placement tests should include items that could discriminate between groups of high or low scoring examinees within the curriculum. He conducted both norm-referenced and criterion-referenced item statistics, such as item facility, item discrimination, and difference index for the purpose of selecting 35 out of 60 reading items that were sensitive to curriculum content and which could discriminate between examinees. He reported the internal consistency Kuder-Richardson formula 20 reliability coefficient (K-R20) and found the test to be reliable at .89 with 60 items. After the revision was made, there remained reliability at .85 with 35 items. To support the construct validity of the test, Brown reported the pretest/posttest score gain and found a statistically significant gain.
登録:
投稿 (Atom)




