2017年4月9日 星期日

C語言 字元char與字串 差異與詳解

C語言 字元char與字串 差異與詳解

tags: C++ Concept2
初學C語言的時候遇到字串總是感到莫名其妙與不知道該怎麼用,比如說為什麼字串不能直接接上,或直接相等置換等等問題,大致列舉了一些常見的錯誤與解法。


常見的困惑

容易誤會的點,把字串當作型態,實際上字串是字元的陣列
int arr[3], arr2[3];
arr1 = arr2;
陣列的指派是不可行的,卻很容易把字串的指派,當作是可行的踩了坑
char* s="123\0";
char s2[4];

s2=s;
字串的指派是不可行的,不過反過來 s=s2 倒是可以。
還有一個很有趣的題型
char s[]="123\0";
printf("%s\n", s);
printf("%s\n", &s);
他們居然打印出一樣的結果!待會還是會提到,下面就開始提提有哪些該注意的地方,這都是指針與陣列的誤區。


指標與陣列的關係與差異

隱式轉換

陣列是陣列、指標是指標
只不過在大多數的時候陣列會自動轉換成指標,操作起來就像個指標一樣。具體差異在哪裡,並不太容易敘述清楚,下面會簡單的舉個例子說明不可互相替代。

指標宣告與陣列宣告

一般來說常數是存在唯讀記憶體內,比如說一個副程式的呼叫
“ABC\0” 返回的型態是 char* 一個指向 "ABC\0"的A 的地址
fun("ABC\0");
那個”ABC”不能夠被更動,是帶const屬性的,宣告的時候也一樣
這裡可以視為把 char* 賦值給 char* 是可執行的
char* str="ABC\0";
這樣子的方式會建立暫存,並返回指標,讓str指向那個暫存的唯讀空間
所以當你嘗試修改他時,是非法的。
str[0]='0';
如果我們使用字串的話則會不同的情況發生
char str[] = "123\0";
創建一個陣列,並將其內容初始化,這種情況下我們才可以正常的存取,從這裡可以看出來,除非你很確定我不會動到他,否則還是盡量使用
char str[];
避免自己採坑了,設定成指標之後不小心修改到發生非法存取
指標與陣列的差異也可以從sizeof上看出區別
int* num;
int arr[3];
printf("%d\n", (int)sizeof(num)); // 64bit size 8
printf("%d\n", (int)sizeof(arr)); // size 4*3=12
一個陣列可以獲取實際長度,轉為指標後則不可獲取
sizeof(arr) / sizeof(arr[0])

陣列的地址

經過以上大致敘述了陣列與指針的差異的,其中還有一個就是陣列也是可以取址的!
回頭來看看剛剛那一題,或許你已經想到是怎麼回事了
char s[]="123\0";
printf("%s\n", s);
printf("%s\n", &s);
這裡第一個 s 返回的是陣列起始的位址,型態為char*,這裡會發生一次隱式轉型,編譯器自作主張的將陣列char(*)[4]轉為指針char*型態;
第二個 &s 指的是對一個陣列 char(*)[7] 取址,而它的地址恰好與陣列的起始位置相等,型態一樣是char(*)[4]
printf 接收到兩個相等的位置,自然會打印出兩個一樣的結果。
另外要記住對一個位址取址是非法的。


為什麼不能直接相等傳遞

char str1[]="ABC\0";
char str2[]="DEF\0";
str1 = str2; //Error
就像整數陣列一樣沒辦法直接等號過去,很容易誤把字串當成是一種變數叫字串,實際上他是字元的陣列;換個方式寫你可能就有感覺了
int arr1[]={1, 2, 3};
int arr2[]={3, 2, 1};

arr1 = arr2; // Error

另外這裡也可以看出陣列與指標的不同之處
int  arr1[]={1, 2, 3};
int* p1 = NULL;
p1 = arr1; // is ok

只能利用for迴圈一個一個搬移過去
char* str1="ABC\0";
char  str2[4];

for (int i=0; i<4 ; ++i){
    str1[i]=str2[i];
}

printf("%s\n", str2);
你也可以使用內建的函式搬移
#include <stdio.h>
#include <string.h>

int main (){
  char str1[]="Sample string";
  char str2[40];
  char str3[40];
  strcpy (str2,str1);
  strcpy (str3,"copy successful");
  printf ("str1: %s\nstr2: %s\nstr3: %s\n",str1,str2,str3);
  return 0;
}


為什麼不能用+的

同上原因,陣列也沒辦法直接用加的,除此之外還要注意一個問題,長度是否足夠容下相加後
char str1[]="ABC";
char str2[]="ABC";
上述的作法長度會是3+1,可是相加後他們會變成6+1,你必須有一個足夠長的陣列,比如說將第二個長度拉長兩倍;這裡的+1是結束符。
char str1[]="ABC";
char str2[7]="ABC";

str2[3] = str1[0]
str2[5] = str1[1]
str2[4] = str1[2]
字串的相接也有函式可以使用
strcat (str2, str1);


字串殘留上一次的字元、清空與初始化字串

比如說這樣的範例,試圖讓副函式操作字串
/*****************************************************************
Name : 
Date : 2017/04/08
By   : CharlotteHonG
Final: 2017/04/08
*****************************************************************/
#include <stdlib.h>
#include <stdio.h>
#include <string.h>

void fun(char* str, char* str2){
    for(int i = 0; i < strlen(str2); ++i) {
        str[i]=str2[i];
    }
    printf("%s\n", str);
}
/*==============================================================*/
int main(int argc, char const *argv[]){
    char s[]="ABCDEF", s2[]="abc";
    fun(s, s2);
    return 0;
}
/*==============================================================*/
印出的結果是
abcDEF
通常這時候就會有人告訴你,你沒有將字串歸零!而我必須告你這只是表象,歸零可以解決這個問題,但是不是主因。
主因是不正確的操作字串
我把它定義為不正確操作字串而不是錯誤,需要理解一下這句話的意思以及差別這非常重要。

必須要知道的是自串一個很特別的地方在於,判斷他的長度或結束點實際上是以 '/0' 做判別的,每個字串的結尾都會有這個符號,可以通過簡單的方法檢測
char* str="ABC";

if(str[3] == '\0')
    printf("End\n");
補上正確的結束符號
void fun(char* str, char* str2){
    int len=strlen(str2);
    for(int i = 0; i < len; ++i) {
        str[i]=str2[i];
    } str[len]='\0';
    printf("%s\n", str);
}
是的單單只是補上 str[len]='\0'; 即可解決這個問題;
這才是解決問題的根本,歸零可能會造成太多效能的浪費。歸零我認為是好習慣,但是更重要的是正確的操作字串,所以這裡應該使用正確的操作字串而不是歸零。
由此也可以推斷有一點必須要小心,字串的長度必須是實際長度+1
char str[4]="ABC";


不容易發現的坑

宣告的缺失的結束符

有些編譯器這樣寫不會幫你補上 '\0' 以下寫法可能會導致各種問題,找不到結束字元,讀到一堆垃圾值
char str[]="ABC";
手動補上結束字元可以處理這個問題
char str[4]="ABC\0";
這個問題大概只會出現在古老的編譯器上,知道就好,遇到的時候再乖乖補上。

複製時缺失的結束符

此外 string.h 內的複製函式 strncpy() 存在一樣問題,複製的長度如果不足到底,沒有複製完會導致結束符號沒有被複製到
char s[]="ABCDEF\0";
strncpy(s, "123", 3);
printf("%s\n", s); // s is "123DEF"
輸出的結果s會是 "123DEF" 這可能不是你要的結果,這是個不容易發現的坑;然後一個看似沒問的長度計算也是一個小坑。
char str[4]="ABC\0";
printf("len is %d", (int)strlen(str)); // len is 3
仍然會缺少束字元需自行補上+1的長度
char s[]="ABCDEF\0", s2[]="abc\0";
strncpy(s, s2, strlen(s2)+1);
printf("%s\n", s); // s is "abc"

越界存取

上面的+1又延伸出一個問題,小心加錯了會導致非法存取,看一下面的例子
char s[]="ABCDEF\0", s2[3]="abc";
strncpy(s, s2, strlen(s2)+1);
printf("%s\n", s); // s is "abc"
看起來好像都一樣,實際上那個
s2[3]="abc"
不存在結束符號之外,s2他的合法操作空間只有3。
strlen(s2)+1
返還的長度為3,再加上1為4,strncpy不會幫你檢查越界存取
把s與s2反過來也是,s2會被塞超過自己的長度
char s[]="ABCDEF\0", s2[3]="abc";
strncpy(s2, s, strlen(s)+1);
編譯不一定會出錯,但是已經是非法存取了,只是運氣好沒炸。

把一個字元轉為指針輸入 string.h 的函式

string.h 的函式多數都是輸入字串指針的,這裡必須區別字串的指針與字元的指針他們是不一樣的,字串的長度的是依靠'/0' 做判別,而一個字元裡面不存在結束符號。
編譯器可能會好心的在你的常數後面補上補上結束符號,即便你忘記輸入
char* str="ABC";
實際上可能為
char* str="ABC/0";
宣告陣列時
char str[3]="ABC";
實際上可能為
char str[4]="ABC/0";
可當你是一個字元時,他就是一個字元,你不能期待他能夠取出長度
char s='1';
char* p = &s;
strlen(p);
多數的string.h函式都是利用結束符號偵測長度,並會一起把結束符號複製進去
char str[10]="ABC/0";
char* str2="CBA/0";

strcat(str, str2);
利用結束符號找到 str 結尾,利用結束符號找到 str2 有多長複製幾次
如果你輸入的是字元,將可能會發生未定義行為,因為沒有結束符號
char str[10]="ABC/0";
char s='D';
char* p=&s;

strcat(str, &s); // 可能會發生非法存取
這一點不只在這個函式會出問題,其他函式也是一樣的。這裡的一個大坑就是 字串字元的指針 都是用同一個型態表示 char* ;但是他們的規格不一樣,字串要求要有結尾符號,字元的指標並不要求。很容易造成混亂。
可以使用 typedef 幫你區分兩者,不過這不是標準作法只是一個方式
typedef char* Str
接下來如果你需要表態為字串則使用 Str 需要表示字元指針則維持原方案。這部分要自己管理好代碼,因為 Str 也是兩者通用的,只是換個名字方便你區別。
char str[] = "ABC\0";
Str str2 = str;

char a='A';
char* p = a;
// Str p2 = a; // 可以編譯但這樣就沒意義,自己要管好
舉個例子
void fun(Str p){..}
當看到 Str 就應該自己想起那個規則,噢!不可以在這裡放入字元指針,要放入帶有結尾符號的字串;並且要知道這件事情只有你自己知道,編譯器不知道並不會發出提醒。

非必要不要自己造輪子

最後想提醒的一點是 char 的 sizeof() 是 1,比如說範例中有一個函式是複製字串,那種複製方法,一次最就複製1個,而你的CPU多數是是64位元,理論上最多可以一次複製64,該交給 strcpy() 還是要交給 strcpy(),要譯器廠商一定會很好的解決這些問題。
你應該要自己練習如何實作這些已有的函式
但是非萬不得以,否則不要在真正的專案上使用自己造的同功能函式。

沒有留言:

張貼留言